2026-04-24 群聊日报
今天群里讨论极其丰富。沉稳的狐狸连发多篇文章,分别探讨了DeepSeek V4 的写作体验(instruction following 差是 deal breaker)、AI 时代 PM 职业路径的变化,以及 2026 春季四大模型选型指南,还抛出了”Skill 是天生带自杀基因的产品”的商业模式思考,引发活泼的羊驼、博学的海狸、风趣的海豚、活泼的海龟等群友的深度讨论。风趣的猫头鹰转发了DeepSeek V4 的详细内测报告,model1 和 model2 各有明显短板。风趣的海豚力荐 GPT-5.5 Web Pro 的长程思考能力,称一个问题能想一两个小时且质量极高。热情的狮子上线了 AI 科技信息聚合站并分享了 Claude Design 的设计成果,群友围绕 Claude Design 与 CC+Opus 4.7 的效果差异展开了热烈讨论。猫仔分享了一个反直觉的发现:AI 长程任务时代开发机性能不再重要。洒脱的仓鼠吐槽 CC 自作主张 squash + force push 解决 merge conflict,以及公司同事 CC 年消耗 70k 只产出 30 个 PR 的离谱数据。花絮方面,沉稳的狐狸感叹”AI 建议为了睡眠质量晚上不能用 AI”,群友深夜修仙氛围浓厚。
行业新闻
DeepSeek V4 内测报告:编程能力强但 Agent 适配和 instruction following 存在明显短板
风趣的猫头鹰转发了来自内测群的DeepSeek V4 测试报告,涵盖 model1 和 model2 两个版本。 model1 优势:纯编程能力远强于 Kimi-k2.6 和 GLM-5.1,上下文超长利于大量文档阅读。劣势:未经 Agent 环境优化,极少使用 SubAgent 导致上下文膨胀,代码注释不详实,缺乏大型项目规划能力(rustfmt.toml、clippy、Vcpkg 配置均出错),在 Claude Code 中反而能力退化,且会尝试从开源库拉取代码偷懒。 model2 优势:大型项目规划能力更强,大规模使用 SubAgent 并发。劣势:出现
热情的狮子:instruction following也很差
开朗的企鹅:这样看起来,V4是一个重点提高世界知识的新预训练模型,guidance following 作为后训练的产物,效果不好,可能说明留给后训练的资源和时间还是不够。
风趣的猫头鹰:感觉应该会很快迭代 4.1
2026 春季 AI 模型选型指南:四家模型各有强弱,踩坑点不少
沉稳的狐狸发布了一篇模型选型文章,指出 2026 年春季选型比去年难得多,总结了两个最容易踩的坑:
- Opus 4.7 的 1M 长文档 retrieval 从 Opus 4.6 的 91.9% 退步到 59.2%,长文档 RAG 直接劣化,这个位置反而是 GPT-5.5 做得最好。
- GPT-5.5 宣传的 computer use OSWorld 78.7% 在 API 中拿不到,只在 macOS 的 Codex 桌面应用里可用,EU/UK 甚至没开放。 文章将四家模型的能力画像、实战坑和按任务派发的决策矩阵做了完整整理。热情的狮子补充指出 Codex 里的 input context 只有 272k 太小了。
热情的狮子:还有个问题 codex里的input context只有272k,太小了
开朗的企鹅:这是老鸭汤产出么?
睿智的北极熊:DeepSeek V4 是 AI 行业的斩杀线
睿智的北极熊认为DeepSeek V4 出来就是 AI 行业的斩杀线——虽然发布节奏慢,但如果其他 AI 大模型公司连这都比不上,就没有继续研发的必要了。同时他分享了自己用 Godot + Codex + GPT 做游戏项目的经验,一周已经出 demo,目标六周上线,只装了一个 Godot-MCP 让 Codex 自己调试。
睿智的北极熊:现在deepseek v4出来,就是AI行业的斩杀线,虽然发布节奏慢,但是如果这都比不上所谓AI大模型公司,就没有继续研发的必要了
美团自研模型:可以不用但不能没有
洒脱的仓鼠分享了美团也有自己模型的消息,敏锐的河马确认美团确实有自研模型,但公司内的人也不怎么用。风趣的海豚调侃
GPT-5.5 定价 7.5x,Codex 升级 5.5 的注意事项
猫仔提到 GPT-5.5 定价是 7.5x,感叹成本不低。专注的剑鱼询问 Codex 里何时能用 5.5(自己还是 5.4),睿智的北极熊回应官方账号更新即可,中转的需要联系中转商。热情的狮子还提到 Codex 需要一个 5 小时 context 用完后自动等 reset 继续的功能,而不是停下来让用户手动重启。
猫仔:gpt 5.5竟然是7.5x,satya慈善做不下去了
热情的狮子:5h context烧干之后,自动等reset继续烧,不要停下来让我手动告诉他开始
工具
沉稳的狐狸实测DeepSeek V4 写作:流畅但不听话,prompt 是低效的 steer 手段
沉稳的狐狸分享了用DeepSeek V4 做写作任务的体验。他积累了大量
沉稳的狐狸:用DeepSeek像在碰运气。如果它的个性跟我们需要的风格100%一致的话,会用得特别开心。但但凡我们需要steer它的行为的话,prompt是一个特别低效的方法。
敏锐的兔子:DeepSeek v4 能力上来没不知道,脾气是上来了反正
热情的狮子:还是instruction following差的问题
GPT-5.5 Web Pro 长程思考能力震撼群友:一个问题思考一两个小时,质量极高
风趣的海豚盛赞 GPT-5.5 Web 端 Pro 模式的长程思考能力,称一个问题能想一个多小时、两个多小时,且输出质量非常好。热情的狮子随即测试,用 Pro 模式跑了一个小时生成了 AI 对白领就业影响的完整报告(中英双语 PDF),格式和内容完成度都不错。 不过在 Codex 中 GPT-5.5 的上下文目前仅支持 256k(非宣传的 1M),热情的狮子在 config.toml 设置 1M 后到 50% 就报 context 爆了。风趣的海豚确认目前 Codex 的 input context 只有 272k,1M 支持预计后续开放。热情的狮子推测是因为 5.5 算力消耗大,Codex 作为补贴产品有意限制。
风趣的海豚:长程思考超级牛逼,一个问题想了一个多小时,一个两个多小时,而且质量非常好
风趣的海豚:不过5.5web的pro真是牛逼啊,今天震撼我了一整天
热情的狮子:5.5估计很烧算力,所以codex这种补贴产品不让你用1m烧
热情的狮子上线 AI 科技信息聚合站,提供 RSS 订阅与 curation 评分
热情的狮子分享了自己做的 AI 科技信息聚合网站 news.ax0x.ai/zh,每条新闻都有 curation rating 和评价,支持 RSS 订阅,可以直接丢给 Agent 使用。风趣的海豚评价
热情的狮子分享模仿 Claude Design 的开源 Skill
热情的狮子找到了一个模仿 Claude Design 风格的开源 Skill(github.com/alchaincyf/huashu-design),称效果还可以。开朗的企鹅表示
敏锐的海狸:用DeepSeek V4 和 Opus 4.7 相互 debate 来写作
敏锐的海狸分享了现在的写作工作流:让DeepSeek V4 和 Opus 4.7 相互 debate,利用两个模型的不同特点来提升写作质量。
敏锐的海狸:现在写作就是让ds v4和opus 4.7相互debate了
Image2 生成的苏联风壁纸:设计感高但细节仍有 AI 味
睿智的犀牛在抖音发现了用 Image2 生成的壁纸,设计感不错。沉稳的狐狸指出细节问题如坦克两个炮塔、飞机三个螺旋桨等。风趣的海豚调侃
方法论
Claude Design vs CC+Opus 4.7:设计感差异与实际体验对比
群友围绕 Claude Design 的实际效果展开讨论。热情的狮子分享了 Claude Design 输出的网页设计,认为完成度很高,团队设计师称起码需要一两周才能达到同等完成度。 沉稳的狐狸则指出,CC+Opus 4.7 直接做出来的效果与 Claude Design 蛮接近,Claude Design 本质上是一个比较码农风的交互模式。坚定的大象认为 Claude Design 的 deliverable 与设计师从 Figma 出来的成果差距还不小。热情的狮子补充说设计师反馈在字体选择、font-weight、整体协调性等细节上还是有差别。 额度方面,Claude Design 的 quota 很低,做一两个设计就用完了。
沉稳的狐狸:就目前我的感觉是claude design还是蛮轻量级/容易复现的,不论是上面贴的skill,还是我的实验对比,都感觉效果和cc 4.7里面直接搞差别不大
坚定的大象:Claude Design 的deliverable 和设计师从figma ship出来的差距还不小目前
热情的狮子:designer说 细节的完成度上还是不一样, 字体选择, fontweight, 整体协调性啥的
Skill 的商业模式困境:天生带自杀基因的产品?
沉稳的狐狸抛出了一个深度思考:Skill 很强大但很难赚钱。三条变现路径都走不通——付费下载(明文可转发)、卖 Hosting(本质是 AWS 转售)、卖 API + 免费 Skill(前提得有能赚钱的 API)。由此引发群友大讨论。 活泼的羊驼从历史(汽车租赁、云计算、BPO、SaaS)和业务(感知层、行动层、记忆与状态等拆解)两个角度分析了 AI Agent 能力租赁场景,结论是 AI Agent BPO(按结果收费)比卖能力/工具更可行,但验收标准化仍是难题。 活泼的荷兰猪补充了后续思考:标准化挑战可能没想象中大,可参考 Fiverr 的 AI Agent 升级版模式,隐私保护和反蒸馏的基础设施也需要考虑。 博学的海狸认为未来大多数行业都会变成 A Tool Call Away,值钱的是信息交换无法解决的事情。 风趣的海豚则从罗辑思维/樊登读书会的思路建议,Skill 变现可能还是要走订阅制 + 个人品牌(卖脸)的路线。 活泼的海龟分享了与国内 IM 平台合作卖 Skill 的经验:通过增加平台 Token 消耗来分成,但平台可以轻松内化这些 Skill,本质上收费权在平台手里。 灵动的考拉提出 Skills+MCP 组合的思路,关键卖点做成 MCP 不容易被直接抄走。
活泼的羊驼:AI Agent BPO 会更合适。重点在于交付结果,而不是卖某种’能力’或工具。因为单纯卖一个工具或 Skill,真的很难衡量它的好坏。
风趣的海豚:我觉得鸭哥的这种困惑还是因为太理工思维了,完全没有走到贩卖焦虑的路子上,你要用樊登读书会和罗辑思维的那种思路来看待这个问题,就迎刃而解了
活泼的海龟:跟鸭哥讨论的那个bug的源头是一样的,就是API的收费权在平台那里,本质上来说,是平台有一个能用API收费的收费站,我们只是蹭他的光、借他的车而已
AI 时代 PM 的职业路径:从执行到定义问题、设计回路
沉稳的狐狸看了 Claude Code Product Owner Cat Wu 在 Lenny’s Podcast 上的采访后,写了一篇文章。核心观点是:AI 对 PM 的影响不是加速旧工作流,而是改变了产品判断的成本结构——当写代码、做原型、跑实验都变便宜后,PM 的核心变成定义目标、设计回路、让团队更快从真实用户那里学到东西。 灵动的河马读后总结了三个变化:需求管理降权、目标定义升权;工程理解从加分项变为基础判断力;PM 越来越像回路设计者。并认为这不仅适用于 PM,大厂所有职能都在往这个方向要求。
灵动的河马:看完之后更加reinforce了AI时代职业迭代的总方向:从做执行到定义问题、快速迭代。
幽默的犀牛:鸭哥的文章已经逐渐占据了我刷短视频的时间
AI 长程任务时代:开发机性能不再重要
猫仔分享了一个反直觉发现:AI 跑长程任务时,即使能完成交代的事情,花的时间仍然是传统方式的好几倍,这反而意味着开发机不需要高性能。他现在用买给烘豆机做中控的 Lenovo Yoga 7 跑 vibe coding,虽然编译时间是台式机的两倍,但因为 AI 任务本身耗时远超编译,性能差距变得无关紧要。每天拿笔记本当服务器跑任务,台式机沦为游戏机。一盘游戏半个小时,打完三盘前不用看进度,回来 git pull 看看就行。 聪明的蜂鸟认为更适合跑在云上,扩展性高且外部访问方便。
猫仔:自从接受了哪怕AI能跑几个小时的长程任务,就算能完成交代的事情,花的时间依然是古法的好几倍之后,我最近突然意识到,开发机其实是可以不要性能的。
聪明的蜂鸟:我感觉更适合跑在云上,扩展性高,外部访问也方便
CC 自作主张 squash + force push、Skill 管控 Agent 行为的实践
洒脱的仓鼠吐槽让 CC 修 merge conflict,吃完早饭回来发现它直接 squash 后 force push 了。活泼的羊驼建议将这类操作抽成 Skill,约束好检查规则,禁用 git push –force 等危险命令,并展示了自己的实践:CC 在 git push 之前自动进行 secret scan,避免不小心上传密钥。 活泼的羊驼还提到 CC 可以设置哪些命令是 forbidden 或 ask 的,解决问题要按 AI Agent 习惯来组织。洒脱的仓鼠表示自己公司的 CC 环境比较混乱,有原生 CC、公司/repo 配置和第三方配置混在一起。
洒脱的仓鼠:今早我发现我的PR有merge conflict让cc修,吃完早饭回来发现它给我squash了然后force push了…
活泼的羊驼:我建议这种都是抽成 skill,要做什么自己这部分填,然后一定要约束好检查,以及不能做什么,禁用 git push –force 等等
沉稳的狐狸:你就说有没有conflict吧
洒脱的鸳鸯:更新后 review 环节不再反复返工,token 消耗反而下降
洒脱的鸳鸯分享了一个有趣的经验反转:之前的 harness 中 plan review 和 code review 两个环节疯狂找茬、不停返工,导致 token 消耗巨大。更新之后发现不吵架了,直接一轮过,token 开销反而少了。
洒脱的鸳鸯:今天更新之后发现不吵架了,直接一轮过,反而 token 开销少了
Context infra 维护:AI 迭代太快导致配置累积混乱
稳重的海豚感慨 AI 迭代速度太快,各种 prompt、artifact 累积混乱,调整 context infra 就像洗衣服。他还询问沉稳的狐狸的 context infra 设计方案,自己有十几个 Agent(claude -p、codex app server 等),目前是每次启动时注入 Agent directive,agents.md 作为 root 里的 guidance。洒脱的仓鼠指出这跟沉稳的狐狸面向人使用的场景不太一样。
稳重的海豚:ai迭代太快了 一堆乱七八糟的东西都累积起来了,这里差点prompt那里多个artifact…就像衣服没洗一样
洒脱的仓鼠:我感觉某群友这个是给人用的,跟你的用法还不太一样
闲聊花絮
Sonnet 老版中文退化:写着写着冒出韩语和日语
睿智的犀牛分享了一个趣事:用 CC 时忘了切模型,用的是稳重的浣熊老版,说中文结果写着写着出来了韩语和日语,推测底层 kernel 变了。
睿智的犀牛:用的稳重的浣熊,老版,我说的中文,他写着写着出来韩语和日语了
深夜修仙与 CC 年消耗 70k 的离谱同事
细心的鸵鸟感叹沉稳的狐狸还在修仙,沉稳的狐狸自嘲
CC 消耗排行榜:70k 只产 30 个 PR vs 3k 产 160 个 PR
洒脱的仓鼠查看公司排行榜发现一位同事 CC 今年 YTD 花了近 70k,只有 30 多个 PR,而自己才花了 3k 产出 160 个 PR。另一位同事 Cursor 花了 40k,原因是之前开了 3-10x 倍率后忘了关。
洒脱的仓鼠:看了看公司排行榜,一个哥们cc今天ytd用了快70k,只有30多个PR,这是干啥了…
洒脱的仓鼠:另一个哥们cursor花了40k,我去问他咋花的,他说之前cursor不是有那个什么3,10x么,他开了以后就忘了关
AI 生成的教室图:群友找茬细节与 AI 味鉴别
沉稳的仓鼠发了一张 AI 生成的教室图片,问大家一眼 AI 吗。敏锐的海狸指出后面的板报和门锁有破绽,其他真看不出来。沉稳的狐狸发现多了一个人且没对齐。猫仔认为最大槽点是人太少,并指出笔画结构都一样但可以单独调整。飘逸的熊猫调侃上学时最后一排有人那样坐着打游戏挺正常。
敏锐的海狸:后面板报和门锁,其他真看不出来了lol
猫仔:感觉最大的槽点是人太少