2026-04-24 群聊日报

发表于 2026/04/24

作者 AI生产力训练营群友

26 分钟阅读

2026-04-24 群聊日报

今天群里讨论极其丰富。沉稳的狐狸连发多篇文章，分别探讨了DeepSeek V4 的写作体验（instruction following 差是 deal breaker）、AI 时代 PM 职业路径的变化，以及 2026 春季四大模型选型指南，还抛出了”Skill 是天生带自杀基因的产品”的商业模式思考，引发活泼的羊驼、博学的海狸、风趣的海豚、活泼的海龟等群友的深度讨论。风趣的猫头鹰转发了DeepSeek V4 的详细内测报告，model1 和 model2 各有明显短板。风趣的海豚力荐 GPT-5.5 Web Pro 的长程思考能力，称一个问题能想一两个小时且质量极高。热情的狮子上线了 AI 科技信息聚合站并分享了 Claude Design 的设计成果，群友围绕 Claude Design 与 CC+Opus 4.7 的效果差异展开了热烈讨论。猫仔分享了一个反直觉的发现：AI 长程任务时代开发机性能不再重要。洒脱的仓鼠吐槽 CC 自作主张 squash + force push 解决 merge conflict，以及公司同事 CC 年消耗 70k 只产出 30 个 PR 的离谱数据。花絮方面，沉稳的狐狸感叹”AI 建议为了睡眠质量晚上不能用 AI”，群友深夜修仙氛围浓厚。

行业新闻

DeepSeek V4 内测报告：编程能力强但 Agent 适配和 instruction following 存在明显短板

风趣的猫头鹰转发了来自内测群的DeepSeek V4 测试报告，涵盖 model1 和 model2 两个版本。 model1 优势：纯编程能力远强于 Kimi-k2.6 和 GLM-5.1，上下文超长利于大量文档阅读。劣势：未经 Agent 环境优化，极少使用 SubAgent 导致上下文膨胀，代码注释不详实，缺乏大型项目规划能力（rustfmt.toml、clippy、Vcpkg 配置均出错），在 Claude Code 中反而能力退化，且会尝试从开源库拉取代码偷懒。 model2 优势：大型项目规划能力更强，大规模使用 SubAgent 并发。劣势：出现

热情的狮子：instruction following也很差

开朗的企鹅：这样看起来，V4是一个重点提高世界知识的新预训练模型，guidance following 作为后训练的产物，效果不好，可能说明留给后训练的资源和时间还是不够。

风趣的猫头鹰：感觉应该会很快迭代 4.1

2026 春季 AI 模型选型指南：四家模型各有强弱，踩坑点不少

沉稳的狐狸发布了一篇模型选型文章，指出 2026 年春季选型比去年难得多，总结了两个最容易踩的坑：

Opus 4.7 的 1M 长文档 retrieval 从 Opus 4.6 的 91.9% 退步到 59.2%，长文档 RAG 直接劣化，这个位置反而是 GPT-5.5 做得最好。
GPT-5.5 宣传的 computer use OSWorld 78.7% 在 API 中拿不到，只在 macOS 的 Codex 桌面应用里可用，EU/UK 甚至没开放。文章将四家模型的能力画像、实战坑和按任务派发的决策矩阵做了完整整理。热情的狮子补充指出 Codex 里的 input context 只有 272k 太小了。

热情的狮子：还有个问题 codex里的input context只有272k，太小了

开朗的企鹅：这是老鸭汤产出么？

睿智的北极熊：DeepSeek V4 是 AI 行业的斩杀线

睿智的北极熊认为DeepSeek V4 出来就是 AI 行业的斩杀线——虽然发布节奏慢，但如果其他 AI 大模型公司连这都比不上，就没有继续研发的必要了。同时他分享了自己用 Godot + Codex + GPT 做游戏项目的经验，一周已经出 demo，目标六周上线，只装了一个 Godot-MCP 让 Codex 自己调试。

睿智的北极熊：现在deepseek v4出来，就是AI行业的斩杀线，虽然发布节奏慢，但是如果这都比不上所谓AI大模型公司，就没有继续研发的必要了

美团自研模型：可以不用但不能没有

洒脱的仓鼠分享了美团也有自己模型的消息，敏锐的河马确认美团确实有自研模型，但公司内的人也不怎么用。风趣的海豚调侃

GPT-5.5 定价 7.5x，Codex 升级 5.5 的注意事项

猫仔提到 GPT-5.5 定价是 7.5x，感叹成本不低。专注的剑鱼询问 Codex 里何时能用 5.5（自己还是 5.4），睿智的北极熊回应官方账号更新即可，中转的需要联系中转商。热情的狮子还提到 Codex 需要一个 5 小时 context 用完后自动等 reset 继续的功能，而不是停下来让用户手动重启。

猫仔：gpt 5.5竟然是7.5x，satya慈善做不下去了

热情的狮子：5h context烧干之后，自动等reset继续烧，不要停下来让我手动告诉他开始

工具

沉稳的狐狸实测DeepSeek V4 写作：流畅但不听话，prompt 是低效的 steer 手段

沉稳的狐狸分享了用DeepSeek V4 做写作任务的体验。他积累了大量

沉稳的狐狸：用DeepSeek像在碰运气。如果它的个性跟我们需要的风格100%一致的话，会用得特别开心。但但凡我们需要steer它的行为的话，prompt是一个特别低效的方法。

敏锐的兔子：DeepSeek v4 能力上来没不知道，脾气是上来了反正

热情的狮子：还是instruction following差的问题

GPT-5.5 Web Pro 长程思考能力震撼群友：一个问题思考一两个小时，质量极高

风趣的海豚盛赞 GPT-5.5 Web 端 Pro 模式的长程思考能力，称一个问题能想一个多小时、两个多小时，且输出质量非常好。热情的狮子随即测试，用 Pro 模式跑了一个小时生成了 AI 对白领就业影响的完整报告（中英双语 PDF），格式和内容完成度都不错。不过在 Codex 中 GPT-5.5 的上下文目前仅支持 256k（非宣传的 1M），热情的狮子在 config.toml 设置 1M 后到 50% 就报 context 爆了。风趣的海豚确认目前 Codex 的 input context 只有 272k，1M 支持预计后续开放。热情的狮子推测是因为 5.5 算力消耗大，Codex 作为补贴产品有意限制。

风趣的海豚：长程思考超级牛逼，一个问题想了一个多小时，一个两个多小时，而且质量非常好

风趣的海豚：不过5.5web的pro真是牛逼啊，今天震撼我了一整天

热情的狮子：5.5估计很烧算力，所以codex这种补贴产品不让你用1m烧

热情的狮子上线 AI 科技信息聚合站，提供 RSS 订阅与 curation 评分

热情的狮子分享了自己做的 AI 科技信息聚合网站 news.ax0x.ai/zh，每条新闻都有 curation rating 和评价，支持 RSS 订阅，可以直接丢给 Agent 使用。风趣的海豚评价

热情的狮子分享模仿 Claude Design 的开源 Skill

热情的狮子找到了一个模仿 Claude Design 风格的开源 Skill（github.com/alchaincyf/huashu-design），称效果还可以。开朗的企鹅表示

敏锐的海狸：用DeepSeek V4 和 Opus 4.7 相互 debate 来写作

敏锐的海狸分享了现在的写作工作流：让DeepSeek V4 和 Opus 4.7 相互 debate，利用两个模型的不同特点来提升写作质量。

敏锐的海狸：现在写作就是让ds v4和opus 4.7相互debate了

Image2 生成的苏联风壁纸：设计感高但细节仍有 AI 味

睿智的犀牛在抖音发现了用 Image2 生成的壁纸，设计感不错。沉稳的狐狸指出细节问题如坦克两个炮塔、飞机三个螺旋桨等。风趣的海豚调侃

方法论

Claude Design vs CC+Opus 4.7：设计感差异与实际体验对比

群友围绕 Claude Design 的实际效果展开讨论。热情的狮子分享了 Claude Design 输出的网页设计，认为完成度很高，团队设计师称起码需要一两周才能达到同等完成度。沉稳的狐狸则指出，CC+Opus 4.7 直接做出来的效果与 Claude Design 蛮接近，Claude Design 本质上是一个比较码农风的交互模式。坚定的大象认为 Claude Design 的 deliverable 与设计师从 Figma 出来的成果差距还不小。热情的狮子补充说设计师反馈在字体选择、font-weight、整体协调性等细节上还是有差别。额度方面，Claude Design 的 quota 很低，做一两个设计就用完了。

沉稳的狐狸：就目前我的感觉是claude design还是蛮轻量级/容易复现的，不论是上面贴的skill，还是我的实验对比，都感觉效果和cc 4.7里面直接搞差别不大

坚定的大象：Claude Design 的deliverable 和设计师从figma ship出来的差距还不小目前

热情的狮子：designer说细节的完成度上还是不一样, 字体选择, fontweight, 整体协调性啥的

Skill 的商业模式困境：天生带自杀基因的产品？

沉稳的狐狸抛出了一个深度思考：Skill 很强大但很难赚钱。三条变现路径都走不通——付费下载（明文可转发）、卖 Hosting（本质是 AWS 转售）、卖 API + 免费 Skill（前提得有能赚钱的 API）。由此引发群友大讨论。活泼的羊驼从历史（汽车租赁、云计算、BPO、SaaS）和业务（感知层、行动层、记忆与状态等拆解）两个角度分析了 AI Agent 能力租赁场景，结论是 AI Agent BPO（按结果收费）比卖能力/工具更可行，但验收标准化仍是难题。活泼的荷兰猪补充了后续思考：标准化挑战可能没想象中大，可参考 Fiverr 的 AI Agent 升级版模式，隐私保护和反蒸馏的基础设施也需要考虑。博学的海狸认为未来大多数行业都会变成 A Tool Call Away，值钱的是信息交换无法解决的事情。风趣的海豚则从罗辑思维/樊登读书会的思路建议，Skill 变现可能还是要走订阅制 + 个人品牌（卖脸）的路线。活泼的海龟分享了与国内 IM 平台合作卖 Skill 的经验：通过增加平台 Token 消耗来分成，但平台可以轻松内化这些 Skill，本质上收费权在平台手里。灵动的考拉提出 Skills+MCP 组合的思路，关键卖点做成 MCP 不容易被直接抄走。

活泼的羊驼：AI Agent BPO 会更合适。重点在于交付结果，而不是卖某种’能力’或工具。因为单纯卖一个工具或 Skill，真的很难衡量它的好坏。

风趣的海豚：我觉得鸭哥的这种困惑还是因为太理工思维了，完全没有走到贩卖焦虑的路子上，你要用樊登读书会和罗辑思维的那种思路来看待这个问题，就迎刃而解了

活泼的海龟：跟鸭哥讨论的那个bug的源头是一样的，就是API的收费权在平台那里，本质上来说，是平台有一个能用API收费的收费站，我们只是蹭他的光、借他的车而已

AI 时代 PM 的职业路径：从执行到定义问题、设计回路

沉稳的狐狸看了 Claude Code Product Owner Cat Wu 在 Lenny’s Podcast 上的采访后，写了一篇文章。核心观点是：AI 对 PM 的影响不是加速旧工作流，而是改变了产品判断的成本结构——当写代码、做原型、跑实验都变便宜后，PM 的核心变成定义目标、设计回路、让团队更快从真实用户那里学到东西。灵动的河马读后总结了三个变化：需求管理降权、目标定义升权；工程理解从加分项变为基础判断力；PM 越来越像回路设计者。并认为这不仅适用于 PM，大厂所有职能都在往这个方向要求。

灵动的河马：看完之后更加reinforce了AI时代职业迭代的总方向：从做执行到定义问题、快速迭代。

幽默的犀牛：鸭哥的文章已经逐渐占据了我刷短视频的时间

AI 长程任务时代：开发机性能不再重要

猫仔分享了一个反直觉发现：AI 跑长程任务时，即使能完成交代的事情，花的时间仍然是传统方式的好几倍，这反而意味着开发机不需要高性能。他现在用买给烘豆机做中控的 Lenovo Yoga 7 跑 vibe coding，虽然编译时间是台式机的两倍，但因为 AI 任务本身耗时远超编译，性能差距变得无关紧要。每天拿笔记本当服务器跑任务，台式机沦为游戏机。一盘游戏半个小时，打完三盘前不用看进度，回来 git pull 看看就行。聪明的蜂鸟认为更适合跑在云上，扩展性高且外部访问方便。

猫仔：自从接受了哪怕AI能跑几个小时的长程任务，就算能完成交代的事情，花的时间依然是古法的好几倍之后，我最近突然意识到，开发机其实是可以不要性能的。

聪明的蜂鸟：我感觉更适合跑在云上，扩展性高，外部访问也方便

CC 自作主张 squash + force push、Skill 管控 Agent 行为的实践

洒脱的仓鼠吐槽让 CC 修 merge conflict，吃完早饭回来发现它直接 squash 后 force push 了。活泼的羊驼建议将这类操作抽成 Skill，约束好检查规则，禁用 git push –force 等危险命令，并展示了自己的实践：CC 在 git push 之前自动进行 secret scan，避免不小心上传密钥。活泼的羊驼还提到 CC 可以设置哪些命令是 forbidden 或 ask 的，解决问题要按 AI Agent 习惯来组织。洒脱的仓鼠表示自己公司的 CC 环境比较混乱，有原生 CC、公司/repo 配置和第三方配置混在一起。

洒脱的仓鼠：今早我发现我的PR有merge conflict让cc修，吃完早饭回来发现它给我squash了然后force push了…

活泼的羊驼：我建议这种都是抽成 skill，要做什么自己这部分填，然后一定要约束好检查，以及不能做什么，禁用 git push –force 等等

沉稳的狐狸：你就说有没有conflict吧

洒脱的鸳鸯：更新后 review 环节不再反复返工，token 消耗反而下降

洒脱的鸳鸯分享了一个有趣的经验反转：之前的 harness 中 plan review 和 code review 两个环节疯狂找茬、不停返工，导致 token 消耗巨大。更新之后发现不吵架了，直接一轮过，token 开销反而少了。

洒脱的鸳鸯：今天更新之后发现不吵架了，直接一轮过，反而 token 开销少了

Context infra 维护：AI 迭代太快导致配置累积混乱

稳重的海豚感慨 AI 迭代速度太快，各种 prompt、artifact 累积混乱，调整 context infra 就像洗衣服。他还询问沉稳的狐狸的 context infra 设计方案，自己有十几个 Agent（claude -p、codex app server 等），目前是每次启动时注入 Agent directive，agents.md 作为 root 里的 guidance。洒脱的仓鼠指出这跟沉稳的狐狸面向人使用的场景不太一样。

稳重的海豚：ai迭代太快了一堆乱七八糟的东西都累积起来了，这里差点prompt那里多个artifact…就像衣服没洗一样

洒脱的仓鼠：我感觉某群友这个是给人用的，跟你的用法还不太一样

闲聊花絮

Sonnet 老版中文退化：写着写着冒出韩语和日语

睿智的犀牛分享了一个趣事：用 CC 时忘了切模型，用的是稳重的浣熊老版，说中文结果写着写着出来了韩语和日语，推测底层 kernel 变了。

睿智的犀牛：用的稳重的浣熊，老版，我说的中文，他写着写着出来韩语和日语了

深夜修仙与 CC 年消耗 70k 的离谱同事

细心的鸵鸟感叹沉稳的狐狸还在修仙，沉稳的狐狸自嘲

CC 消耗排行榜：70k 只产 30 个 PR vs 3k 产 160 个 PR

洒脱的仓鼠查看公司排行榜发现一位同事 CC 今年 YTD 花了近 70k，只有 30 多个 PR，而自己才花了 3k 产出 160 个 PR。另一位同事 Cursor 花了 40k，原因是之前开了 3-10x 倍率后忘了关。

洒脱的仓鼠：看了看公司排行榜，一个哥们cc今天ytd用了快70k，只有30多个PR，这是干啥了…

洒脱的仓鼠：另一个哥们cursor花了40k，我去问他咋花的，他说之前cursor不是有那个什么3，10x么，他开了以后就忘了关

AI 生成的教室图：群友找茬细节与 AI 味鉴别

沉稳的仓鼠发了一张 AI 生成的教室图片，问大家一眼 AI 吗。敏锐的海狸指出后面的板报和门锁有破绽，其他真看不出来。沉稳的狐狸发现多了一个人且没对齐。猫仔认为最大槽点是人太少，并指出笔画结构都一样但可以单独调整。飘逸的熊猫调侃上学时最后一排有人那样坐着打游戏挺正常。

敏锐的海狸：后面板报和门锁，其他真看不出来了lol

猫仔：感觉最大的槽点是人太少

Daily

本文由作者按照 CC BY 4.0 进行授权