薯医 NoteRx

用数据拆解
小红书的爆款密码

传统回归聚类分析 + LLM 拆解内容逻辑
基于 874 条真实笔记 + 2465 条评论,双轨验证每一条诊断建议

0
真实笔记
0
条评论
0
个品类
0
位 AI Agent
↓ 向下探索
About

不是拍脑袋,是数据说了算

薯医不是又一个"AI 帮你写文案"的玩具。它是一套 5 个 AI Agent 多轮辩论的诊断系统—— 内容分析师、视觉诊断师、增长策略师、用户模拟器、综合裁判,五个维度像专家会诊一样针锋相对,最终输出量化评分和可执行的优化方案。

每一条诊断建议背后,都有 874 条真实小红书笔记 + 2465 条评论的数据支撑。 我们用 Spearman 相关、线性回归、K-Means 聚类、LLM 深度分析建立了品类差异化的评分基线——不猜,不编,用数据说话。

双轨分析

传统统计 + LLM 深度分析,互相验证,互相补充

5 Agent 辩论

三轮辩论:独立诊断 → 互相质疑 → 综合裁判

品类差异化

美食靠标题、穿搭靠图片、旅游靠标签——一套标准不够用

Process

研究过程

从数据采集到模型验证,48 小时内完成的完整数据科学研究。

Step 1 · 数据采集

874 条笔记 + 2465 条评论

覆盖美食、穿搭、科技、旅游、生活 5 大品类。24 个 xlsx 文件自动导入,统一字段映射。

Step 2 · 传统统计

7 种方法 × 5 个品类 = 35 组分析

Spearman 相关 → 线性回归 → Kruskal-Wallis 检验 → K-Means 聚类 + PCA 可视化。

Step 3 · LLM 分析

3 个模型 × 3 种维度

mimo-v2-pro 分析内容模式,mimo-v2-omni 理解封面视觉,mimo-v2-flash 分类 2465 条评论。

Step 4 · 模型构建

回归系数 → 品类权重 → 评分引擎

将统计结果转化为 5 维度评分权重,每个品类独立参数,构建可运行的评分模型。

Step 5 · 验证

Spearman 验证 + 25 条优化提示词

lifestyle 品类 r=0.484***,生成 5 品类 × 5 Agent 的数据驱动提示词。

数据来源声明:所有数据通过公开渠道采集(社媒助手工具),仅用于学术研究目的。数据已脱敏处理,不包含任何个人隐私信息。分析方法遵循统计学研究规范。
Architecture

工作原理:四阶段诊断引擎

从数据采集到最终报告,每一步都有 AI 参与。不是简单的"GPT 套壳"——是一套完整的多智能体协同诊断系统

STAGE 1

数据训练

874 条真实笔记 + 2465 条评论
Spearman · 回归 · K-Means
5 品类差异化基线

STAGE 2

Model A 初评

回归系数 → 品类权重
5 维度即时打分 <50ms
无 LLM 调用,纯数学

STAGE 3

多 Agent 辩论

4 Agent 并行诊断
交叉质疑 · 补充论据
裁判 Agent 综合裁定

STAGE 4

AI 闭环

LLM 参与数据清洗
AI 生成优化方案
评分重算验证效果

Multi-Agent Collaborative Diagnosis Engine — 多智能体协同诊断引擎
Baseline Knowledge Graph — 品类基线知识图谱
Cross-Validation Debate Mechanism — 交叉验证辩论机制
AI-in-the-Loop Data Flywheel — AI 数据飞轮
874
训练样本
5
品类基线
4+1
Agent 辩论
3
轮辩论
<50ms
初评速度
Key Findings

我们发现了这些秘密

视频是隐藏的爆款引擎

2.25×

视频笔记互动是图文的 2.25 倍,但 84% 创作者还在只发图文

17:00 是黄金时刻

22,632

下午 5 点发布互动量 22,632,凌晨 3 点只有 4——差 5,658 倍

钩子有临界点

3 个最佳

0→3 个钩子,互动逐步提升。但 4 个钩子反而崩塌——用力过猛适得其反

穿搭 = 看图说话

R²=0.017

文字只能解释 1.7% 的互动差异,剩余 98.3% 靠图片。这就是为什么需要多模态 AI

旅游标签为王

β=0.52

旅游赛道标签是最强预测因子,但营销感标题反而降低互动

中等长度最优

100-300字

美食赛道中等长度互动 49,724,是短文 2 倍,也远超长文

品类鸿沟巨大

24.4×

科技赛道头部是均值的 24.4 倍(赢家通吃),选赛道比优化内容更重要

评论比笔记更火

39,000赞

最火评论 39,000 赞,超过 97% 的笔记。评论区是第二战场

品类之间的互动量差异(H=215.30, p<0.0001)比任何内容特征的影响都大——选对赛道,比优化内容更重要。
Category DNA

每个品类的 DNA 都不一样

品类核心驱动最强因子平均互动爆款线
美食标题驱动标题 β=0.710.10633,462112,965
穿搭视觉驱动文本几乎无效0.0177,50718,037
科技信息密度图片 β=0.410.1771,2753,325
旅游标签策略标签 β=0.520.13816,56339,426
生活标题+标签标题 β=1.000.3968,03817,097

评分权重对比

美食 — 标题质量独大(57.3%)

标题
57.3%
内容
13%
视觉
标签
互动
11%

穿搭 — 视觉权重最高(25%)

标题
39.5%
内容
12%
视觉
25%
标签
互动
17%
LLM Deep Analysis

大模型发现了什么

我们用 mimo-v2-pro 分析了每个品类的内容模式,用 mimo-v2-flash 分类了 2465 条评论。
以下是 AI 从数据中提炼的核心洞察。

美食品类

极致口感夸张 情感化场景引入 实用价值导向

爆款的核心是情绪价值:美食笔记的爆款首先需要制造强烈的感官向往和情感共鸣,‘好吃’的具象化描述比单纯的步骤罗列更重要。

穿搭品类

叙事故事型 数字清单型 情感驱动型

穿搭品类文字特征与互动量几乎无相关性(R²=0.017),核心竞争力在视觉表现力

科技品类

表情符号吸引 感叹句式 科技热点话题

科技笔记标题频繁使用表情符号和感叹号来增强视觉吸引力和 engagement。

旅游品类

地名简单标题 情感表达标题 行程分享标题

高互动内容常结合强烈情感表达(如震撼、幸福)和高质量视觉元素。

生活品类

个人觉醒/改变故事 社会议题观点输出 实用指南/教程

爆款笔记多围绕女性议题,如经济独立、性教育、职场平等,易引发高互动。

传统统计告诉我们「标题长度影响互动量」,大模型告诉我们「为什么——因为爆款标题用了情感化场景引入和口感夸张句式」。双轨互补,才能给出真正可执行的建议。
Visualizations

研究图表

Correlation
Spearman 相关性热力图
Regression
标准化回归系数
Time
发布时段热力图 — 17:00 是黄金时间
Validation
模型验证 — 评分 vs 实际互动
Cluster
K-Means 聚类 PCA — 5 种内容创作模式
Personas

评论区的六种人

我们用 AI 分类了 2,465 条真实评论。

种草型 · 25.4%

"太好看了吧!求链接" — 穿搭占比最高,情绪强度 3.8

经验型 · 36.9%

"我也用过,建议搭配..." — 科技占比最高,平均获赞 8

调侃型 · 30.3%

"我直接住你家算了" — 生活占比最高,平均获赞 122

质疑型 · 17.0%

"真的假的?有滤镜吧" — 科技品类最多

求购型 · 7.9%

"多少钱?哪里买的?" — 穿搭占比最高

路人型 · 31.1%

"不错 " — 低参与度但数量最多

穿搭评论区是「种草场」(63% 正面),科技评论区是「辩论场」(27% 负面),生活评论区是「共鸣场」(经验分享获赞是路人的 6 倍)。
Model A

评分模型验证

品类Spearman rp 值显著性爆款均分 vs 普通
生活0.4840.0005***75.3 vs 72.7
科技0.1810.005**74.4 vs 73.3
美食0.0890.23ns77.7 vs 73.3
旅游-0.0650.46ns72.9 vs 70.8
穿搭-0.0260.66ns70.3 vs 71.7
Model A 在穿搭品类的"失败"恰恰是最重要的发现——它证明了单一维度分析的局限性,也证明了多模态 AI 诊断的不可替代性。
Fun Facts

冷知识

互动量冠军

270,670

"有幸在亲戚家吃过一回,被惊艳到了!!"
只用了情感+好奇心,没有任何技巧

空标题的奇迹

55,637

一条没有标题的笔记,纯靠封面图
证明视觉的力量不可忽视

凌晨的孤独

5,658×

17:00 vs 凌晨 3 点的互动量差距
同样的内容,发布时间决定生死

科技区最爱抬杠

27.2%

科技品类负面评论占比最高
穿搭只有 8.5%——两个世界

Try it

即时体验评分

Data & Methodology

数据来源与工作量

数据采集

通过社媒助手工具从小红书公开页面采集,覆盖 5 个品类
美食(183条)· 穿搭(278条)· 科技(235条)· 旅游(130条)· 生活(48条)
评论数据 2,500 条(穿搭 177 / 科技 282 / 生活 1,744 / 未分类 254)
所有数据已脱敏,仅用于学术研究,不含个人隐私信息

工程量

后端:FastAPI + 5 Agent 辩论系统 + 评分引擎 + SSE 流式推送
前端:React 19 + MUI v9 + Framer Motion + ECharts
研究:10 个 Python 脚本 + 7 种统计方法 + 3 个 LLM 模型
产出:7 张图表 · 25 条优化提示词 · 独立评分模型 · 完整论文框架
48 小时内由 4 名 13 岁中学生完成全部开发与研究

技术架构

前端

React 19 + TypeScript + MUI v9 · Framer Motion 动画 · ECharts 雷达图 · html2canvas 导出

后端

FastAPI + SQLite · asyncio 并行 Agent · 多模态文件处理 · SSE 流式诊断

AI 模型

mimo-v2-pro(诊断)· mimo-v2-omni(视觉)· mimo-v2-flash(快速任务)· 三层模型调度

数据科学

scikit-learn + scipy · matplotlib · Spearman / 线性回归 / K-Means / PCA / Kruskal-Wallis

Open Source

开源与论文

完整代码与研究论文均已公开。

GitHub 源码 研究论文 研究数据集
立即诊断
薯医 NoteRx