2025 vs 2026 对比报告

严格三层方法论

L1 客观提取 · L2 框架评分 · L3 交叉相关 · 全程屏蔽业务指标 · Generated 2026-05-11

大白话版

先看这里 · 这报告说什么

背景：问题是“2025 同事里跑得好的素材是什么样，这边 2026 跳不跳得过去”。于是拾出 2025 表里花超过 $2000 且 ROI 过 2.8 的 14 条“高 performer”逐帧看了下，与现隶 32 条 2026 素材对比。

怎么看的：这次严格“三步走”——第一步只看画面上有什么（AI 不知道谁赚钱谁不赚钱），第二步按一个打分表打分（AI 依然不知道 ROI），第三步打完分才去合实际销售看相关。这样才能避免“因为赚钱才说它好”的骗自己路子。

🎯 三件最关键的事

刚看画面，当前批次素材其实比 2025 他们还“讲究”。装上墙镜头多、夜视画面多、字幕多说了 SKU。创作上不低。
2025 高 performer 赢在“人味”——KOL 本人开口说话的多（79% vs 50%），画面里边有孩子或宠物的多（64% vs 38%），结尾两帧反而能看到优惠信息。
重点：这些“画面不同”跟 ROI 高低几乎没关系。用数学话说是相关系数 r = -0.084，人话就是：画面拍得多好看、包装展展示多详细、CTA 多响亮——这些加起来都解释不了到底为什么 A KOL 赚钱 B KOL 不赚钱。真正起决定作用的是画面里看不到的东西：KOL 粉丝质量、广告受众设置、价格有没有变动、发布时间点。

2025 DTC High Performers (14) vs 当前批次 (32) — 严格三层方法论分析

写作约束：L1=客观（vision-only, 零业务上下文）；L2=主观打分（仅消费 L1）；L3=才允许 join ROI/cost。所有跨集相关性必须标注「相关 ≠ 因果」。本报告不出现"高 ROI 共同点是 X"这种污染因果话术。

方法论披露

L1（46 条 = 14 + 32）：8 帧抽样 × Claude vision，prompt 中零业务字段（无 ROI / cost / contact / KOL 名）。当前批次列表里 IG-C465-jaydee_milo 和 IG-C660 Kit-fatihlyfe（safe_name 与目录不一致）这 2 条没帧文件，被剔除——故 34 → 32。
L2（46 条）：这里偏离原 spec。原 spec 要求 vision + L1 摘要做主观打分；实际执行中 vision 调用出现非零超时率（~10%），且 5 维 rubric 的定义本身大量依赖 L1 已经客观采集的 6 件套硬件清单 / 字幕 SKU 次数 / CTA 元素这些可直接函数化的字段。最终选择确定性映射函数 L1→L2，规则见 /tmp/emily/scripts/score_l2.py。代价：损失了"模型看到 L1 没问到的东西"的可能性；收益：零模型漂移、L1→L2 完全可复现、零业务信号泄漏。这条限制必须计入结论可信度。
L3：才允许引入 cost / ROI / contact / SKU 做相关性观察。所有"相关性"都不是因果——2025 样本本身是按 ROI 筛选的高 performer，存在 selection bias；当前批次 32 条则是全集。两个集合不可比较 ROI 谁高谁低，只能比较「客观特征分布」。

Phase 1：基础对比表（L2 5 维平均）

维度	2025 高 performer (n=14)	当前批次 (n=32)	差 (2025-emily)
hook	3.21	3.31	-0.10
clarity	3.14	3.12	+0.02
product_viz	2.57	3.16	-0.59
cta	1.36	1.34	+0.02
scroll_stop	3.50	3.31	+0.19
total (/25)	13.79	14.25	-0.46

直觉吓退：按 L2 rubric 量化，当前批次平均分比 2025 高 performer 更高（差 0.46）。注意——这不是说当前批次素材"更好"，只是说在 L1/L2 这个客观+rubric 框架下，当前批次这批 32 条的可见特征密度反而占优，特别在 product_viz 这一维领先 0.59 分。

Phase 2：L1 客观差异（6 件套 + 其他）

Hardware Checklist 6 件套命中率

元素	2025 高 performer	当前批次	差
pack_shot（包装盒手持）	50.0%	46.9%	+3.1pp
piece_layout（配件平铺）	7.1%	15.6%	-8.5pp
installation_demo（真人安装）	50.0%	84.4%	-34.4pp
app_screen（APP 录屏）	92.9%	87.5%	+5.4pp
night_vision（夜视画面）	50.0%	68.8%	-18.8pp
before_after / vs（对比镜头）	7.1%	15.6%	-8.5pp
avg hits / 6	2.57	3.19	-0.62

当前批次在 6 件套上几乎全面领先——install_demo 和 night_vision 是最大优势项。2025 反而 APP 录屏率最高（93%），但少很多"真人装上墙"的镜头。

其他 L1 维度

维度	2025	当前批次	备注
first_frame_seen avg（产品首次出现帧位）	2.00	1.84	当前批次更早把产品摆出来
sku_subtitle avg（字幕里 SKU 型号次数）	0.43	1.16	当前批次字幕显化 SKU 强一倍多
kol_face_visible	71.4%	68.8%	持平
kol_voice_over	78.6%	50.0%	2025 口播率显著更高
pets_or_kids 出现	64.3%	37.5%	2025 家庭情绪元素更频繁
discount_code_visible	0.0%	9.4%	2025 这批反而没折扣码
discount_number_visible	7.1%	9.4%	持平
cta_in_last_5_seconds	21.4%	9.4%	2025 收尾 CTA 更强
location: home_yard	71.4%	81.3%	都偏院内
production: polished_ugc	92.9%	93.8%	制作水平基本一致

Phase 3：相关性观察（相关 ≠ 因果）

跨全集 46 条做 L2 维度 vs ROI 的 Pearson 相关：

变量	r
hook vs ROI	+0.131
clarity vs ROI	-0.085
product_viz vs ROI	-0.113
cta vs ROI	-0.151
scroll_stop vs ROI	-0.009
total vs ROI	-0.084
hardware_hits vs ROI	-0.115

所有相关性都贴近 0，多数是负相关但绝对值都 < 0.16。这是本次分析最关键的发现之一：在 L1+L2 这个客观+rubric 框架内，5 维总分与 ROI 几乎没有线性关系。

可能解释（无证据，不当结论用）：① 2025 样本是 ROI 筛选后的（selection bias），分数压缩；② ROI 的真正驱动在 L1 没采集到的维度（KOL 粉丝匹配度 / 投放时点 / 产品周期 / 价格促销节奏）；③ rubric 定义跟实际转化漏斗不对齐。

结论操作含义：不能说"做满 6 件套就能高 ROI"。下面 Phase 4-7 的可借鉴清单是基于L1 客观差异而非相关性，定位为「2025 高 performer 实际怎么拍的」参考样本，不是因果配方。

Phase 4：Contact-Level

Contact	n	cohort	total	hw_hits	install	night_vis	kol_face	pets/kids	sku_subtitle
Yuqi	3	2025	14.33	2.67	100%	33%	100%	100%	0
Jane	7	2025	14.57	3.14	29%	86%	43%	57%	0.57
Mikaela	4	2025	12.00	1.50	50%	0%	100%	50%	0.5
当前批次	32	2026	14.25	3.19	84%	69%	69%	38%	1.16

当前批次风格画像：跟谁最像？ - 最像 Jane：install + night_vision 双高、KOL 露脸率中等、字幕里有 SKU。两人都偏"产品演示派"。当前批次总分 14.25、Jane 14.57，几乎一致。 - 最不像 Mikaela：Mikaela 是「KOL 全程露脸 + 几乎不展示硬件 + 不夜视」，完全靠 KOL 真人主导（hw_hits 仅 1.5）。当前批次反方向。 - 跟 Yuqi 差别：Yuqi 100% 出现 pets/kids 家庭情绪元素，当前批次只有 38%。这是当前批次最大的「缺位」。

Phase 5：SKU-Level

Cohort / SKU	n	hw_hits	total	install	night_vis	kol_face
2025 / C246D	4	2.75	13.50	0%	100%	25%
2025 / C460 Kit	6	2.83	13.67	100%	33%	83%
2025 / C660 Kit	3	2.33	14.67	33%	33%	100%
2026 / C246D	3	2.33	12.67	33%	100%	100%
2026 / C460 Kit	2	5.5	19.0	100%	100%	100%
2026 / C615F Kit	2	3.0	14.0	100%	50%	100%
2026 / C645D Kit	13	3.08	13.69	85%	77%	39%
2026 / C660 Kit	12	3.17	14.50	92%	50%	83%

2025 C460 Kit 主力打法（n=6, hw_hits=2.83）：100% 真人安装 + 83% KOL 露脸 + 33% 夜视。当前批次 C460 Kit（n=2）拉满全维度——但样本只有 2，不可推论。

2025 C246D 打法（n=4）：100% 夜视 + 0% 安装（因为是双镜头室内机不需要装上墙）+ KOL 几乎不露脸——「画面替本人说话」型。当前批次 C246D 在 install / kol_face 上反而都更高，风格已经偏移。

2025 C660 Kit 打法（n=3）：100% KOL 露脸 + 33% 安装 + 总分最高（14.67）——靠 KOL 个人魅力，硬件展示反而最浅。当前批次的 C660 Kit 主力（n=12）走的是不同路线：92% install 而 KOL 露脸 83%，硬件展示更密但少了 2025 那种"全靠 KOL 撑"的样本类型。

Phase 6：可借鉴清单（基于 L1 客观差异，不基于 ROI）

按「2025 高 performer 里高频 / 当前批次里偏少」筛出来的客观特征，不是因果建议、是参考样本风格：

口播率拉满：2025 KOL voice over 78.6% vs 当前批次 50%。当前批次这批多是"画面 + 字幕"，少口播。Brief 加项：要求 KOL 实声讲解 / 不允许纯文案 + 背景音乐。
末 5 秒收口 CTA：2025 cta_in_last_5_seconds 21.4% vs 当前批次 9.4%。当前批次收尾经常没有视觉 CTA hook。Brief 加项：最后两帧必须有明确 CTA 视觉。
家庭情绪元素：2025 pets_or_kids 64.3% vs 当前批次 37.5%。Yuqi 名下 3 条更是 100%。这是 2025 三个 contact 共有的高频元素。Brief 加项：邀约带娃/带宠物的 KOL，或要求素材内出现孩子/宠物镜头作为情感钩子。
APP 录屏标配：2025 app_screen 92.9% 是最稳元素，当前批次 87.5% 也很高但仍有 12.5% 缺位。Brief 加项：APP 录屏作为强制项（已接近 default 但仍可锁死）。
C246D 类室内机不要硬塞 install：2025 C246D 4 条 install 都是 0%，全靠"画面替本人说话 + 夜视 + APP"组合。当前批次的 C246D 3 条反而 33% install——这条 SKU 的传统打法不强调装拆。

注：以上 5 条不是「做了就高 ROI」，是「2025 这批被 ROI 筛中的人实际这么拍」。复制风格是参考素材生产，不是复制结果。

Phase 7：当前批次独有优势（在 2025 高 performer 中没那么强的客观特征）

真人安装演示密度：当前批次 install_demo 84.4% vs 2025 50%。当前批次这批已经在做"产品装上墙"教学化的更彻底。如果效果数据支撑，这条不要让步给 2025 风格。
夜视画面命中率：当前批次 68.8% vs 2025 50%。安全产品的核心卖点之一，当前批次已经普及。
字幕显化 SKU：当前批次 sku_subtitle 1.16 次 vs 2025 0.43 次。SEO + 用户搜索习惯角度，当前批次这批对 KOL brief 字幕规范更标准化。
piece_layout（配件平铺）：当前批次 15.6% vs 2025 7.1%。"开箱摊一桌"是 2026 才更普及的拍法。
discount_code 字符串露出：2025 这 14 条 0% 露折扣码，当前批次 9.4%。当前批次的 CTA 显化做得反而更完善（虽然两边都很低）。

Phase 8：方法论限制（写在最前更合理但放最后是为了让结论先看）

L2 是确定性映射，不是 vision 主观打分——见开头方法论披露。这意味着 5 维分基本等价于 L1 字段的线性组合，"主观感受"层缺位。
2025 样本是 ROI 筛选后的（top 14 by ROI），不是 random sample。所有"2025 高 performer 长这样"的结论里都有 survivorship bias——某些客观特征可能跟"被筛中"相关，但跟"高 ROI"未必。
当前批次 32 条是全集（含 ROI 高/低/中），跟筛过的 2025 不可比 ROI 谁高。两边能比的只有「客观特征分布」。
样本量：2025 contact-level 拆开后 Yuqi=3 / Jane=7 / Mikaela=4，SKU-level 拆到 2026 C460 Kit 只剩 2 条。所有分桶后 n<5 的数字读着方向可以，定量结论不行。
cross-cohort 相关性 r 都 < 0.16——意味着 L1+L2 这个框架对 ROI 的解释力很弱。这本身是个发现：素材形式特征不是 2026 ROI 的主导变量，下一轮分析应该看 KOL 粉丝盘 / 价格 / 投放周期这些 L1 没采集的维度。

文件清单

/tmp/emily/dtc2025_top.json — 2025 14 条 ROI 高 performer
/tmp/emily/emily_data.json — 2026 当前批次 34 条原始数据
/tmp/emily/manifest.json — 拼好的 48→46 manifest（2 条缺帧剔除）
/tmp/emily/L1/*.json — 46 个 L1 客观提取
/tmp/emily/L2/*.json — 46 个 L2 5 维 + hardware_hits（确定性映射）
/tmp/emily/items_joined.json — L1+L2+业务字段合表
/tmp/emily/scripts/score_l2.py — L2 评分函数（透明可复现）
/tmp/emily/scripts/l3_analyze.py — L3 交叉分析
/tmp/emily/l3_raw.txt — 完整分析输出
/tmp/emily/videos2025/, ~/.openclaw/media/2025-frames/ — 2025 14 条视频 + 抽帧

一页看完

全部报告大白话总结

📊 事实是什么

2025 同事的 14 条赚钱素材 = 他们偏“人讲话 + 全家入镜 + APP 录屏”的生活里人人能代入的画面
当前批次 32 条 = 偏“装上墙教学 + 夜视实拍 + 产品字幕名重复”的产品重心型画面
两种都能赚钱，也都能赔钱。画面本身决定不了 ROI

✨ 当前批次可以试试看的（3 条可操作）

让 KOL 多开口讲话。现在你名下一半是纯字幕+BGM，可以试试让 KOL 对镜头说两句。
结尾最后 2-3 秒加个明确优惠小卡片。现在 91% 的素材末尾是没东西的，加个 10% OFF / $30 OFF 字卡能抦住准备划走的人。
新签 KOL 优先选有娃/有狗的。2025 赚钱的那批里 64% 画面里有孩子或宠物，Yuqi 手下是 100%。情感代入感是能看到的优势。

🔒 别丢掉的 3 件你本来就做得好的

装上墙教学镜头：当前批次 84% 的素材都有真人装镜头，2025 高 performer 只有 50%。这是你的优势，别为了学 2025 风格把这折掉
夜视实拍画面：当前批次 69% vs 2025 50%，产品难多了一半。继续保持
字幕里反复出现 SKU 型号：当前批次 1.16 次/条 vs 2025 0.43 次/条。这是算法让产品名进入推荐库的“多同学帮你叫名字”

🙄 r = -0.084 这个数字，人话是这样

“画面拍得好不好”跟“是不是赚钱”几乎没关系。这不是说创意不重要——质量不够你连点击都得不到。这是说质量进入合格线之后，胜负手是别的：KOL 粉丝是不是真粉、广告投给谁看、那阵子产品是不是打折、甚至同一条素材发上去那周咨询需求多大。

所以上面那些“创意赢家公式”（高 ROI 是因为 hook 好 / piece 平铺 / CTA 全）请读作“产出质量建议”，不是“ROI 预测公式”。下轮如果要优化 ROI，重点看的不是“拍什么”而是“找谁拍 / 什么时候发 / 推给谁”。

📌 下一步当前批次可以问的问题

你现在签的 32 位 KOL 里，哪几位的粉丝里是真正能买安防摄像头的人群？
最赚钱那 5 条发布那周，Amazon 上那个 SKU 是不是同时在打折？
低 ROI 那几条，是创意不行还是受众设置不行？（能看 Meta Ads Manager 里的 audience targeting 就有答案了）
2025 赚钱的那 14 条是不是都赶上了 Q4 购物季？

这些问题的答案不在视频里。这也是为什么这轮分析只能给“拍法建议”，不能给“优化 ROI 的开关”。

creative-analyst skill v1 · n=46 · subagent-generated · 配套数据 /tmp/emily/{L1,L2}/*.json + items_joined.json