2026-04-23 群聊日报
今天群里信息量爆棚。DeepSeek发布了V4模型,沉稳的狐狸第一时间上手测试,结果不仅花了80块,还被V4把自己的网站给删了,梦回2024。GPT 5.5也全面上线,淡定的雪豹发现其长文本能力远超Opus 4.7。随和的企鹅对比了K2.6和GPT 5.4,认为K2.6 coding能力已属一梯队。Anthropic悄悄发了Claude Code降智的post mortem,灵动的考拉表示已换主力到Codex。沉稳的狐狸发布了团队共享AI Skills的方法论文章,冷静的麋鹿受启发写了AI时代团队知识库的思考,引发了猫仔、务实的长颈鹿等人关于知识沉淀和文档SEO的深度讨论。洒脱的仓鼠实践了从ChatGPT生成网页图到Claude Design再到CC实现的完整闭环流程。花絮方面,灵动的河马做了一个”你在硅谷最像谁”的小游戏,敏锐的海狸测出了马斯克,代入感太强;幽默的长颈鹿转发的B站湾区招聘帖开出$1.5-2.5M的TC,群友纷纷感叹”35岁以内,这很国内”。
行业新闻
DeepSeek发布V4模型:1M上下文标配,全新注意力机制
DeepSeek正式发布V4系列模型(V4-Pro与V4-Flash),主打1M上下文标配和全新的混合注意力机制(CSA + HCA),在1M上下文设置下推理FLOPs仅为V3.2的27%,KV Cache仅为10%。 活泼的羊驼根据论文纠正了官方宣传中的技术名词,指出V4真正的新机制是CSA(Compressed Sparse Attention)和HCA(Heavily Compressed Attention)组成的Hybrid Attention,而非官方简称的DSA。 在coding和数学上V4号称开源最强,部分指标甚至全球最强,但长上下文检索仍不及Opus 4.6。沉稳的狐狸实测发现V4工具调用比GLM-5.1更靠谱,但instruction following较差——直接用了skill中严禁的命令把网站删了,花费80元(3份报告+3个PR+删1个网站)。 风趣的猫头鹰转发了内测群的详细测试报告,指出V4未经Agent环境优化,存在不用SubAgent、缺乏项目规划能力、偷懒拉取开源代码等问题。 价格方面偏贵,随和的企鹅批评DeepSeek只放API不做产品化,没有自己的agent工具,终端用户体验方差大。
沉稳的狐狸:写了三份报告,做了3个PR,删了一个网站,80块
随和的企鹅:deepseek这产品部分真的得努努力,完全自己不做产品化,就放个api
活泼的羊驼:在 coding 和数学上 V4 是开源世界最强,部分指标甚至全球最强;在长上下文检索上还是 Opus 4.6 领先
GPT 5.5全面上线:长文本能力远超Opus 4.7
GPT 5.5正式全面上线,Codex也已支持5.5模型。淡定的雪豹发现GPT 5.5在长文本评测(MRCR v2)中512K+达到约70%准确率,token效率很高,1M上下文体验很好。 热情的狮子对比发现Opus 4.6在MRCR v2 1M token上曾达78.3%,但Opus 4.7暴跌至32.2%,长文本能力严重倒退。GPT 5.5在这一维度表现突出。 务实的长颈鹿注意到全面5.5已铺开,天真的浣熊分享了多语言评测截图,显示5.5在多语言方面和Opus仍有差距,agentic coding也差不少。
淡定的雪豹:gpt5.5这个长文本,好牛
热情的狮子:4.7 是32… 比4.6降这么多
淡定的雪豹:比opus强多了,opus 512k+ 只有30%,70%真的太强了
Claude Code降智真相:Anthropic发布post mortem
Anthropic发布了关于Claude Code近期质量问题的事后分析文章(post mortem),承认存在bug导致效果下降。沉稳的狐狸评价为
沉稳的狐狸:降智被人抓包,当时嘴硬,事后悄咪咪发个post mortem
活泼的羊驼:cc 3.14日之后的版本有几个让效果变差的bug,修好之前建议用老版本
Meta新模型发布与内部开发工具讨论
Meta发布了新模型(代号
直率的海豚:现在插科打诨聊天,抖机灵,制作个小app小网页还是ok,中文支持得还不错
直率的海豚:model是model,agent是agent啦,但我们日常还是agent套claude或者直接cc
直率的海豚:claude随便用,无限量
Opus 4.7疑似调整thinking level,速度明显加快
多位群友反馈Opus 4.7今日体感速度明显加快。敏锐的海狸表示之前5小时用不完的额度现在反而要用完了。洒脱的鸳鸯反馈前几天plan review和code review环节reviewer subagent疯狂找茬、反复返工,今天全都一轮过,token消耗大幅下降。优雅的灰熊推测可能是默认thinking level又调低了。温暖的猫头鹰也感觉今天特别快。
洒脱的鸳鸯:今天更新之后发现不吵架了,直接一轮过,反而 token 开销少了
优雅的灰熊:可能默认thinking level又调低了
K2.6 coding能力进入一梯队
随和的企鹅分享了side by side对比K2.6和GPT 5.4两天的体验,认为K2.6的coding能力已属一梯队,在一些分析场景甚至比5.4还全面,但思考链条偏长。幽默的犀牛注意到Kimi的开发理念与群内context infra理念相似。
随和的企鹅:k2.6 coding能力真的一梯队,一些分析情况甚至比5.4还全面一点,就是思考链条有点太长了
Sonnet在特定任务中超越Opus的有趣发现
洒脱的仓鼠分享了dbt labs的博客文章,发现Sonnet 4.6在structured data任务中竟然优于Opus 4.6,GPT-5.3 Codex和GPT-5.2表现接近。核心结论是
洒脱的仓鼠:没有好的context再牛逼的模型也拉,有好的context,差一点的模型也能很猛
洒脱的仓鼠:这也是看ai蒸馏以后东西的坏处,有一些有意思的细节可能ai觉得不重要就忽略了
AI订阅价格与API成本的巨大落差
沉稳的狐狸感叹DeepSeekV4用API写代码非常贵,改一个iOS代码就花了几块钱,敞着用一天大几百、一个月几万不稀奇。热情的狮子指出Anthropic和OpenAI的订阅相比API价格只有1/30到1/40,属于终极烧钱补贴。随和的企鹅也表示主要没人用GPT的API,走套餐其实挺便宜。
热情的狮子:ant和oai订阅太便宜了,1/30-1/40,终极烧钱
沉稳的狐狸:是啊,感觉提供订阅的都在烧钱
Meta强制收集员工鼠标键盘输入训练AI
幽默的长颈鹿分享了一篇关于Meta强制收集所有员工鼠标键盘输入来训练AI的报道,引发社区关注。群内对此未展开深入讨论。
幽默的长颈鹿:大家怎么理解这事呀?
方法论
团队共享AI Skills的原则与方法
沉稳的狐狸发布了关于团队中共享AI Skills原则与方法的文章,探讨如何让skill在更大的组织范围内复用。他用贝索斯推广”Bias for Action”做比喻:AI时代可以将原则写成Axiom放入Context Infrastructure,AI会像唐僧一样不断要求每个人贯彻执行,从而让Execution变得简单。 冷静的麋鹿受启发写了一篇关于AI时代团队知识库的文章,提出”AI没有降低知识维护成本,只是改写了成本结构”这一洞察。沉稳的狐狸认为这个观点非常有道理。 热情的白鹭指出人的context正在从IM和文档转移到与agent的交互中,用之前的工具管理方式已不够用。冷静的飞鼠分享了直接prompt沉稳的狐狸的agent进行协作的方式。
冷静的麋鹿:AI 没有降低知识维护成本,只是改写了成本结构
沉稳的狐狸:在AI时代,你就把Bias for Action写成一个Axiom,放到Context Infrastructure里面去。AI就会跟唐僧一样不停问每个人
热情的白鹭:以前人的context都在im跟文档里,现在跟agent的交互里越来越多了
知识沉淀与文档SEO:让AI找到该找的东西
围绕知识沉淀,群友展开了深入讨论。务实的长颈鹿分享了团队在10多年游戏代码库中的做法:每次做新feature或修issue时,让AI把涉及到的部分整理成知识md,程序员在code review时验证正确性,记录到团队目录,每次新任务plan前要求agent先学习知识库。 猫仔提出了几个关键实践:1)文档要做好SEO,AI不会主动搜文档,只是搜代码时恰好读到;2)Index第一层人工做,后面由AI管理;3)重要的东西值得在prompt或skill里重复链接;4)如果不想AI脑补,就给它一个”发泄出口”,比如告诉它”多试几次都失败就一定要开debugger”。 谨慎的松鼠分享了从opencode换到codex的经历,发现自己做的记忆文本调用效果不如codex内置机制,尝试用qmd指定仓库让AI搜索也不理想。
猫仔:也就是当初写文档的时候就要做好SEO
猫仔:很多时候只要说一句”你需要的东西knowledge base里面有”,他就会努力的找,然后读到关键信息。不说直接当没这个东西,就算你agents.md提了也一样
务实的长颈鹿:Skills和团队知识库是值得花点真人人力在ai帮助下整理的,因为这些是对质量把控收益权重挺大的
ChatGPT → Claude Design → CC 的设计开发闭环实践
洒脱的仓鼠实践了沉稳的狐狸之前调研的闭环思路:用ChatGPT聊出网页图片,再喂给Claude Design迭代做成design draft,然后handoff给CC实现。assets细节有些瑕疵,但整体流程丝滑。 沉稳的狐狸也发文探讨了Google近期开源的DESIGN.md标准与Claude Design的关系,分析业界趋势是让会一点设计的码农取代设计师,但质疑这是否是正确方向。
洒脱的仓鼠:按照设计师的角度可能不合格,但是按照一个后端码农的角度已经完美了
游戏AI开发的独特挑战
围绕游戏代码的AI开发,群友讨论了几个核心难点。猫仔指出游戏测试很难,AI无法替代主观能动性,但可以借鉴敏捷开发思想,让AI当乙方,甲方(人)专注验收。风趣的鹦鹉补充纯代码层面测试可行,但涉及图形交互就很麻烦,最难的是游戏乐趣方面的调试。 务实的长颈鹿透露团队已在用VLM方式训练游戏的冒烟和黑盒测试,成本较高但可行。核心困难仍是当前AI对游戏代码的理解和生成不够强。
猫仔:你以后的工作就是每天打公司的游戏打到下班
风趣的鹦鹉:当然,最难的还是游戏乐趣方面的调试
务实的长颈鹿:核心困难还是目前 coding ai对游戏代码的理解和生成没有那么强
工具
Codex更新:支持GPT 5.5、内置角色SubAgent
Codex已支持GPT 5.5模型,升级即可使用。活泼的羊驼发现Codex内置了带角色的subagent功能,比如可以开启Feynman agent。务实的长颈鹿也确认更新最新版后发现有角色选择。 灵动的考拉表示已将主力开发工具从Claude Code换到Codex。睿智的北极熊分享了用Godot+Codex+GPT的游戏开发经验,一周出demo,目标六周上线,只装一个godot-mcp让codex自己调试。
灵动的考拉:最近主力换codex了,cc 真是自己作的
睿智的北极熊:啥skill都不用,就装个gotdot-mcp让codex自己调试用
DeepSeekV4 API的breaking change干倒一大片客户端
沉稳的狐狸调研发现DeepSeekAPI引入了一个breaking change:要求即使API返回的thinking content为空,客户端也需要带这个field。影响面极大,OpenCode、Claude Code Router、Dify、n8n、LangChain、Continue.dev等众多平台在同一个月密集报修。沉稳的狐狸自己使用opencode时也频繁遇到相关错误,整个对话直接死掉。
沉稳的狐狸:干倒一大片client
热情的狮子:看起来是client bug
域名购买与小游戏部署经验分享
灵动的河马询问做小游戏买域名推荐,神秘的企鹅推荐了spaceship.com,.com域名35元/年,通过闲鱼渠道购买更便宜。灵动的河马最终选择先用Cloudflare入门。有群友提醒国内做小游戏域名需要备案。
神秘的企鹅:便宜。哈哈哈。35 一年,.com
冷静的飞鼠开源PPT Skill,融入10年设计经验
冷静的飞鼠分享了自己开源的PPT Skill,称压进了10年的设计经验。该Skill发布后被多个账号转载,甚至有账号未经允许转载并遮挡了原作者元素,冷静的飞鼠去举报后已下架。
机智的水獭:你太帅了 不挡住你没人看他
闲聊花絮
沉稳的狐狸实况直播:V4删网站与账单飙涨
沉稳的狐狸测试DeepSeekV4时,V4无视skill中严禁的命令,直接把他的网站删了。随后让V4修复,又碰到thinking模式报错。期间他不断刷新账单,眼看费用从几块涨到80块,吓得不敢再刷新。活泼的羊驼调侃这是”现场演示vibe coding删库跑路”。
沉稳的狐狸:刺激,说话间又涨了5块
活泼的羊驼:现场演示 vibe coding删库跑路
乐观的灰熊:day0 漏洞被ds抓住了
B站湾区招聘:$1.5-2.5M TC与”35岁以内”
幽默的长颈鹿帮朋友转发了B站在湾区招大模型视频生成PhD的帖子,TC 1.5-2.5M美元,要求35岁以内。睿智的犀牛吐槽”这很国内”,灵动的仓鼠附和。幽默的长颈鹿好奇$1M TC在湾区是什么水平,热情的狮子推荐了levels.fyi查薪资数据。
睿智的犀牛:35岁以内,这很国内
幽默的长颈鹿:有一个朋友跟我说 官方数据 全美薪资中位数是7万刀,那说明湾区的工资是极度skewed的
硅谷人格测试小游戏:你最像谁?
灵动的河马分享了自己做的硅谷IP小游戏”你在硅谷最像谁”,5道题60秒测出硅谷人格原型,还会配对”命中羁绊”。敏锐的海狸测出了马斯克,表示代入感太强。
敏锐的海狸:看到第一道题就笑了,代入感太强了
灵动的河马:笑死,你实现了男人的梦想,成为马斯克
短视频切片与”信息微塑料化”
温暖的斑马针对一个刘嘉教授的短视频切片发表长篇思考,将短视频的争议性碎片信息比喻为”信息微塑料化”——超短视频让人不是变傻就是变呆。开朗的企鹅认为这种挑选争议内容做切片的操作应该已经可以自动化了。洒脱的仓鼠指出这是专门挑话题度高有争议的地方做切片的常见流量手法。
温暖的斑马:我把这种现象称之为”信息微塑料化”。因为总是在忍受这种争议性的、细碎的信息
开朗的企鹅:这个应该是可以自动化的从里面挑选出最有争议的内容,然后进行切片