薯医 NoteRx

用数据拆解
小红书的爆款密码

传统回归聚类分析 + LLM 拆解内容逻辑
基于 874 条真实笔记 + 2465 条评论，双轨验证每一条诊断建议

真实笔记

条评论

个品类

位 AI Agent

开始诊断笔记看看我们发现了什么 ↓

↓ 向下探索

About

不是拍脑袋，是数据说了算

薯医不是又一个"AI 帮你写文案"的玩具。它是一套 5 个 AI Agent 多轮辩论的诊断系统—— 内容分析师、视觉诊断师、增长策略师、用户模拟器、综合裁判，五个维度像专家会诊一样针锋相对，最终输出量化评分和可执行的优化方案。

每一条诊断建议背后，都有 874 条真实小红书笔记 + 2465 条评论的数据支撑。我们用 Spearman 相关、线性回归、K-Means 聚类、LLM 深度分析建立了品类差异化的评分基线——不猜，不编，用数据说话。

双轨分析

传统统计 + LLM 深度分析，互相验证，互相补充

5 Agent 辩论

三轮辩论：独立诊断 → 互相质疑 → 综合裁判

品类差异化

美食靠标题、穿搭靠图片、旅游靠标签——一套标准不够用

Process

研究过程

从数据采集到模型验证，48 小时内完成的完整数据科学研究。

Step 1 · 数据采集

874 条笔记 + 2465 条评论

覆盖美食、穿搭、科技、旅游、生活 5 大品类。24 个 xlsx 文件自动导入，统一字段映射。

Step 2 · 传统统计

7 种方法 × 5 个品类 = 35 组分析

Spearman 相关 → 线性回归 → Kruskal-Wallis 检验 → K-Means 聚类 + PCA 可视化。

Step 3 · LLM 分析

3 个模型 × 3 种维度

mimo-v2-pro 分析内容模式，mimo-v2-omni 理解封面视觉，mimo-v2-flash 分类 2465 条评论。

Step 4 · 模型构建

回归系数 → 品类权重 → 评分引擎

将统计结果转化为 5 维度评分权重，每个品类独立参数，构建可运行的评分模型。

Step 5 · 验证

Spearman 验证 + 25 条优化提示词

lifestyle 品类 r=0.484***，生成 5 品类 × 5 Agent 的数据驱动提示词。

数据来源声明：所有数据通过公开渠道采集（社媒助手工具），仅用于学术研究目的。数据已脱敏处理，不包含任何个人隐私信息。分析方法遵循统计学研究规范。

Architecture

工作原理：四阶段诊断引擎

从数据采集到最终报告，每一步都有 AI 参与。不是简单的"GPT 套壳"——是一套完整的多智能体协同诊断系统。

STAGE 1

数据训练

874 条真实笔记 + 2465 条评论
Spearman · 回归 · K-Means
5 品类差异化基线

STAGE 2

Model A 初评

回归系数 → 品类权重
5 维度即时打分 <50ms
无 LLM 调用，纯数学

STAGE 3

多 Agent 辩论

4 Agent 并行诊断
交叉质疑 · 补充论据
裁判 Agent 综合裁定

STAGE 4

AI 闭环

LLM 参与数据清洗
AI 生成优化方案
评分重算验证效果

Multi-Agent Collaborative Diagnosis Engine — 多智能体协同诊断引擎
Baseline Knowledge Graph — 品类基线知识图谱
Cross-Validation Debate Mechanism — 交叉验证辩论机制
AI-in-the-Loop Data Flywheel — AI 数据飞轮

874

训练样本

品类基线

4+1

Agent 辩论

轮辩论

<50ms

初评速度

Key Findings

我们发现了这些秘密

视频是隐藏的爆款引擎

2.25×

视频笔记互动是图文的 2.25 倍，但 84% 创作者还在只发图文

17:00 是黄金时刻

22,632

下午 5 点发布互动量 22,632，凌晨 3 点只有 4——差 5,658 倍

钩子有临界点

3 个最佳

0→3 个钩子，互动逐步提升。但 4 个钩子反而崩塌——用力过猛适得其反

穿搭 = 看图说话

R²=0.017

文字只能解释 1.7% 的互动差异，剩余 98.3% 靠图片。这就是为什么需要多模态 AI

旅游标签为王

β=0.52

旅游赛道标签是最强预测因子，但营销感标题反而降低互动

中等长度最优

100-300字

美食赛道中等长度互动 49,724，是短文 2 倍，也远超长文

品类鸿沟巨大

24.4×

科技赛道头部是均值的 24.4 倍（赢家通吃），选赛道比优化内容更重要

评论比笔记更火

39,000赞

最火评论 39,000 赞，超过 97% 的笔记。评论区是第二战场

品类之间的互动量差异（H=215.30, p<0.0001）比任何内容特征的影响都大——选对赛道，比优化内容更重要。

Category DNA

每个品类的 DNA 都不一样

品类	核心驱动	最强因子	R²	平均互动	爆款线
美食	标题驱动	标题 β=0.71	0.106	33,462	112,965
穿搭	视觉驱动	文本几乎无效	0.017	7,507	18,037
科技	信息密度	图片 β=0.41	0.177	1,275	3,325
旅游	标签策略	标签 β=0.52	0.138	16,563	39,426
生活	标题+标签	标题 β=1.00	0.396	8,038	17,097

评分权重对比

美食 — 标题质量独大（57.3%）

标题

57.3%

内容

13%

视觉

标签

互动

11%

穿搭 — 视觉权重最高（25%）

标题

39.5%

内容

12%

视觉

25%

标签

互动

17%

LLM Deep Analysis

大模型发现了什么

我们用 mimo-v2-pro 分析了每个品类的内容模式，用 mimo-v2-flash 分类了 2465 条评论。
以下是 AI 从数据中提炼的核心洞察。

美食品类

极致口感夸张情感化场景引入实用价值导向

爆款的核心是情绪价值：美食笔记的爆款首先需要制造强烈的感官向往和情感共鸣，‘好吃’的具象化描述比单纯的步骤罗列更重要。

穿搭品类

叙事故事型数字清单型情感驱动型

穿搭品类文字特征与互动量几乎无相关性(R²=0.017)，核心竞争力在视觉表现力

科技品类

表情符号吸引感叹句式科技热点话题

科技笔记标题频繁使用表情符号和感叹号来增强视觉吸引力和 engagement。

旅游品类

地名简单标题情感表达标题行程分享标题

高互动内容常结合强烈情感表达（如震撼、幸福）和高质量视觉元素。

生活品类

个人觉醒/改变故事社会议题观点输出实用指南/教程

爆款笔记多围绕女性议题，如经济独立、性教育、职场平等，易引发高互动。

传统统计告诉我们「标题长度影响互动量」，大模型告诉我们「为什么——因为爆款标题用了情感化场景引入和口感夸张句式」。双轨互补，才能给出真正可执行的建议。

Personas

评论区的六种人

我们用 AI 分类了 2,465 条真实评论。

种草型 · 25.4%

"太好看了吧！求链接" — 穿搭占比最高，情绪强度 3.8

经验型 · 36.9%

"我也用过，建议搭配..." — 科技占比最高，平均获赞 8

调侃型 · 30.3%

"我直接住你家算了" — 生活占比最高，平均获赞 122

质疑型 · 17.0%

"真的假的？有滤镜吧" — 科技品类最多

求购型 · 7.9%

"多少钱？哪里买的？" — 穿搭占比最高

路人型 · 31.1%

"不错 " — 低参与度但数量最多

穿搭评论区是「种草场」（63% 正面），科技评论区是「辩论场」（27% 负面），生活评论区是「共鸣场」（经验分享获赞是路人的 6 倍）。

Model A

评分模型验证

品类	Spearman r	p 值	显著性	爆款均分 vs 普通
生活	0.484	0.0005	*******	75.3 vs 72.7
科技	0.181	0.005	**	74.4 vs 73.3
美食	0.089	0.23	ns	77.7 vs 73.3
旅游	-0.065	0.46	ns	72.9 vs 70.8
穿搭	-0.026	0.66	ns	70.3 vs 71.7

Model A 在穿搭品类的"失败"恰恰是最重要的发现——它证明了单一维度分析的局限性，也证明了多模态 AI 诊断的不可替代性。

Fun Facts

冷知识

互动量冠军

270,670

"有幸在亲戚家吃过一回，被惊艳到了！！"
只用了情感+好奇心，没有任何技巧

空标题的奇迹

55,637

一条没有标题的笔记，纯靠封面图
证明视觉的力量不可忽视

凌晨的孤独

5,658×

17:00 vs 凌晨 3 点的互动量差距
同样的内容，发布时间决定生死

科技区最爱抬杠

27.2%

科技品类负面评论占比最高
穿搭只有 8.5%——两个世界

Data & Methodology

数据来源与工作量

数据采集

通过社媒助手工具从小红书公开页面采集，覆盖 5 个品类：
美食（183条）· 穿搭（278条）· 科技（235条）· 旅游（130条）· 生活（48条）
评论数据 2,500 条（穿搭 177 / 科技 282 / 生活 1,744 / 未分类 254）
所有数据已脱敏，仅用于学术研究，不含个人隐私信息

工程量

后端：FastAPI + 5 Agent 辩论系统 + 评分引擎 + SSE 流式推送
前端：React 19 + MUI v9 + Framer Motion + ECharts
研究：10 个 Python 脚本 + 7 种统计方法 + 3 个 LLM 模型
产出：7 张图表 · 25 条优化提示词 · 独立评分模型 · 完整论文框架
48 小时内由 4 名 13 岁中学生完成全部开发与研究

技术架构

前端

React 19 + TypeScript + MUI v9 · Framer Motion 动画 · ECharts 雷达图 · html2canvas 导出

后端

FastAPI + SQLite · asyncio 并行 Agent · 多模态文件处理 · SSE 流式诊断

AI 模型

mimo-v2-pro（诊断）· mimo-v2-omni（视觉）· mimo-v2-flash（快速任务）· 三层模型调度

数据科学

scikit-learn + scipy · matplotlib · Spearman / 线性回归 / K-Means / PCA / Kruskal-Wallis

用数据拆解小红书的爆款密码