L1 客观提取 · L2 框架评分 · L3 交叉相关 · 全程屏蔽业务指标 · Generated 2026-05-11
背景:问题是“2025 同事里跑得好的素材是什么样,这边 2026 跳不跳得过去”。于是拾出 2025 表里花超过 $2000 且 ROI 过 2.8 的 14 条“高 performer”逐帧看了下,与现隶 32 条 2026 素材对比。
怎么看的:这次严格“三步走”——第一步只看画面上有什么(AI 不知道谁赚钱谁不赚钱),第二步按一个打分表打分(AI 依然不知道 ROI),第三步打完分才去合实际销售看相关。这样才能避免“因为赚钱才说它好”的骗自己路子。
写作约束:L1=客观(vision-only, 零业务上下文);L2=主观打分(仅消费 L1);L3=才允许 join ROI/cost。所有跨集相关性必须标注「相关 ≠ 因果」。本报告不出现"高 ROI 共同点是 X"这种污染因果话术。
/tmp/emily/scripts/score_l2.py。代价:损失了"模型看到 L1 没问到的东西"的可能性;收益:零模型漂移、L1→L2 完全可复现、零业务信号泄漏。这条限制必须计入结论可信度。| 维度 | 2025 高 performer (n=14) | 当前批次 (n=32) | 差 (2025-emily) |
|---|---|---|---|
| hook | 3.21 | 3.31 | -0.10 |
| clarity | 3.14 | 3.12 | +0.02 |
| product_viz | 2.57 | 3.16 | -0.59 |
| cta | 1.36 | 1.34 | +0.02 |
| scroll_stop | 3.50 | 3.31 | +0.19 |
| total (/25) | 13.79 | 14.25 | -0.46 |
直觉吓退:按 L2 rubric 量化,当前批次 平均分比 2025 高 performer 更高(差 0.46)。注意——这不是说 当前批次 素材"更好",只是说在 L1/L2 这个客观+rubric 框架下,当前批次 这批 32 条的可见特征密度反而占优,特别在 product_viz 这一维领先 0.59 分。
| 元素 | 2025 高 performer | 当前批次 | 差 |
|---|---|---|---|
| pack_shot(包装盒手持) | 50.0% | 46.9% | +3.1pp |
| piece_layout(配件平铺) | 7.1% | 15.6% | -8.5pp |
| installation_demo(真人安装) | 50.0% | 84.4% | -34.4pp |
| app_screen(APP 录屏) | 92.9% | 87.5% | +5.4pp |
| night_vision(夜视画面) | 50.0% | 68.8% | -18.8pp |
| before_after / vs(对比镜头) | 7.1% | 15.6% | -8.5pp |
| avg hits / 6 | 2.57 | 3.19 | -0.62 |
当前批次 在 6 件套上几乎全面领先——install_demo 和 night_vision 是最大优势项。2025 反而 APP 录屏率最高(93%),但少很多"真人装上墙"的镜头。
| 维度 | 2025 | 当前批次 | 备注 |
|---|---|---|---|
| first_frame_seen avg(产品首次出现帧位) | 2.00 | 1.84 | 当前批次 更早把产品摆出来 |
| sku_subtitle avg(字幕里 SKU 型号次数) | 0.43 | 1.16 | 当前批次 字幕显化 SKU 强一倍多 |
| kol_face_visible | 71.4% | 68.8% | 持平 |
| kol_voice_over | 78.6% | 50.0% | 2025 口播率显著更高 |
| pets_or_kids 出现 | 64.3% | 37.5% | 2025 家庭情绪元素更频繁 |
| discount_code_visible | 0.0% | 9.4% | 2025 这批反而没折扣码 |
| discount_number_visible | 7.1% | 9.4% | 持平 |
| cta_in_last_5_seconds | 21.4% | 9.4% | 2025 收尾 CTA 更强 |
| location: home_yard | 71.4% | 81.3% | 都偏院内 |
| production: polished_ugc | 92.9% | 93.8% | 制作水平基本一致 |
跨全集 46 条做 L2 维度 vs ROI 的 Pearson 相关:
| 变量 | r |
|---|---|
| hook vs ROI | +0.131 |
| clarity vs ROI | -0.085 |
| product_viz vs ROI | -0.113 |
| cta vs ROI | -0.151 |
| scroll_stop vs ROI | -0.009 |
| total vs ROI | -0.084 |
| hardware_hits vs ROI | -0.115 |
所有相关性都贴近 0,多数是负相关但绝对值都 < 0.16。这是本次分析最关键的发现之一:在 L1+L2 这个客观+rubric 框架内,5 维总分与 ROI 几乎没有线性关系。
可能解释(无证据,不当结论用):① 2025 样本是 ROI 筛选后的(selection bias),分数压缩;② ROI 的真正驱动在 L1 没采集到的维度(KOL 粉丝匹配度 / 投放时点 / 产品周期 / 价格促销节奏);③ rubric 定义跟实际转化漏斗不对齐。
结论操作含义:不能说"做满 6 件套就能高 ROI"。下面 Phase 4-7 的可借鉴清单是基于L1 客观差异而非相关性,定位为「2025 高 performer 实际怎么拍的」参考样本,不是因果配方。
| Contact | n | cohort | total | hw_hits | install | night_vis | kol_face | pets/kids | sku_subtitle |
|---|---|---|---|---|---|---|---|---|---|
| Yuqi | 3 | 2025 | 14.33 | 2.67 | 100% | 33% | 100% | 100% | 0 |
| Jane | 7 | 2025 | 14.57 | 3.14 | 29% | 86% | 43% | 57% | 0.57 |
| Mikaela | 4 | 2025 | 12.00 | 1.50 | 50% | 0% | 100% | 50% | 0.5 |
| 当前批次 | 32 | 2026 | 14.25 | 3.19 | 84% | 69% | 69% | 38% | 1.16 |
当前批次 风格画像:跟谁最像? - 最像 Jane:install + night_vision 双高、KOL 露脸率中等、字幕里有 SKU。两人都偏"产品演示派"。当前批次 总分 14.25、Jane 14.57,几乎一致。 - 最不像 Mikaela:Mikaela 是「KOL 全程露脸 + 几乎不展示硬件 + 不夜视」,完全靠 KOL 真人主导(hw_hits 仅 1.5)。当前批次 反方向。 - 跟 Yuqi 差别:Yuqi 100% 出现 pets/kids 家庭情绪元素,当前批次 只有 38%。这是 当前批次 最大的「缺位」。
| Cohort / SKU | n | hw_hits | total | install | night_vis | kol_face |
|---|---|---|---|---|---|---|
| 2025 / C246D | 4 | 2.75 | 13.50 | 0% | 100% | 25% |
| 2025 / C460 Kit | 6 | 2.83 | 13.67 | 100% | 33% | 83% |
| 2025 / C660 Kit | 3 | 2.33 | 14.67 | 33% | 33% | 100% |
| 2026 / C246D | 3 | 2.33 | 12.67 | 33% | 100% | 100% |
| 2026 / C460 Kit | 2 | 5.5 | 19.0 | 100% | 100% | 100% |
| 2026 / C615F Kit | 2 | 3.0 | 14.0 | 100% | 50% | 100% |
| 2026 / C645D Kit | 13 | 3.08 | 13.69 | 85% | 77% | 39% |
| 2026 / C660 Kit | 12 | 3.17 | 14.50 | 92% | 50% | 83% |
2025 C460 Kit 主力打法(n=6, hw_hits=2.83):100% 真人安装 + 83% KOL 露脸 + 33% 夜视。当前批次 C460 Kit(n=2)拉满全维度——但样本只有 2,不可推论。
2025 C246D 打法(n=4):100% 夜视 + 0% 安装(因为是双镜头室内机不需要装上墙)+ KOL 几乎不露脸——「画面替本人说话」型。当前批次 C246D 在 install / kol_face 上反而都更高,风格已经偏移。
2025 C660 Kit 打法(n=3):100% KOL 露脸 + 33% 安装 + 总分最高(14.67)——靠 KOL 个人魅力,硬件展示反而最浅。当前批次 的 C660 Kit 主力(n=12)走的是不同路线:92% install 而 KOL 露脸 83%,硬件展示更密但少了 2025 那种"全靠 KOL 撑"的样本类型。
按「2025 高 performer 里高频 / 当前批次 里偏少」筛出来的客观特征,不是因果建议、是参考样本风格:
注:以上 5 条不是「做了就高 ROI」,是「2025 这批被 ROI 筛中的人实际这么拍」。复制风格是参考素材生产,不是复制结果。
/tmp/emily/dtc2025_top.json — 2025 14 条 ROI 高 performer/tmp/emily/emily_data.json — 2026 当前批次 34 条原始数据/tmp/emily/manifest.json — 拼好的 48→46 manifest(2 条缺帧剔除)/tmp/emily/L1/*.json — 46 个 L1 客观提取/tmp/emily/L2/*.json — 46 个 L2 5 维 + hardware_hits(确定性映射)/tmp/emily/items_joined.json — L1+L2+业务字段合表/tmp/emily/scripts/score_l2.py — L2 评分函数(透明可复现)/tmp/emily/scripts/l3_analyze.py — L3 交叉分析/tmp/emily/l3_raw.txt — 完整分析输出/tmp/emily/videos2025/, ~/.openclaw/media/2025-frames/ — 2025 14 条视频 + 抽帧“画面拍得好不好”跟“是不是赚钱”几乎没关系。这不是说创意不重要——质量不够你连点击都得不到。这是说质量进入合格线之后,胜负手是别的:KOL 粉丝是不是真粉、广告投给谁看、那阵子产品是不是打折、甚至同一条素材发上去那周咨询需求多大。
所以上面那些“创意赢家公式”(高 ROI 是因为 hook 好 / piece 平铺 / CTA 全)请读作“产出质量建议”,不是“ROI 预测公式”。下轮如果要优化 ROI,重点看的不是“拍什么”而是“找谁拍 / 什么时候发 / 推给谁”。
这些问题的答案不在视频里。这也是为什么这轮分析只能给“拍法建议”,不能给“优化 ROI 的开关”。
creative-analyst skill v1 · n=46 · subagent-generated · 配套数据 /tmp/emily/{L1,L2}/*.json + items_joined.json