2026-04-26 群聊日报
今天群里话题极其丰富。MiniMax Token Plan 上线引发讨论,风趣的犀牛分享了优惠信息;GPT 5.5 与 Opus 4.7 的能力对比成为焦点,猫仔宣布从 Copilot 叛变投奔 OpenAI Pro,活泼的树懒则在群里寻找 GPT 20X Pro 拼车伙伴。Codex 内置生图功能被冷静的麋鹿和活泼的羊驼挖掘出来,令洒脱的仓鼠等群友大呼惊喜。敏锐的海狸分享了 Claude Code 的 Context-infrastructure 工作系统实操手册,冷静的麋鹿实践后反馈效果显著。稳重的海豚围绕 Agent 工作流、MCP 集成、跨设备 Session 管理等话题展开了大量讨论,并分享了自己的产品 hambros。沉稳的狐狸和敏锐的海狸贡献了 Agent 使用的核心方法论——checklist 打勾法与归因诊断法。活泼的羊驼整理了一份飞书 AI 开发最佳实践长帖,同时吐槽 Typeless 语音识别质量下滑。热情的狮子试用了豆包输入法并分享了内测版本。沉稳的浣熊安利了 mise + chezmoi 的跨服务器开发环境管理方案。天真的狮子请教录音转写中说话人识别的处理方法,引发了一轮实用经验交流。睿智的犀牛分享了第一个因 AI 冲击面临退市的公司案例。深夜时分,猫仔、睿智的犀牛、低调的仓鼠等群友集体回忆早年学编程的青葱岁月,从纸上写代码到网吧调试、从 BASIC 到 C++ 再到 Haskell,堪称一部微型编程史。
行业新闻
MiniMax Token Plan 上线:语音、音乐、视频、图片生成权益齐全
MiniMax 推出 Token Plan,新增语音、音乐、视频和图片生成权益,邀请好友可享双重好礼。群友讨论发现通过国内支付宝支付可以比 Default 价格便宜不少,年费 8990 元,比 GPT Pro 的 200 USD/月划算很多。群友认为其能力虽略逊于顶级模型,但作为补充工具处理简单任务足够使用。
随和的飞鼠:跟白送一样,看评测能力略逊但可以用
风趣的犀牛:简单的事还是可以的。还有就是给身边的人体验用(我妈)
直率的鸵鸟:简单的任务,是否本地跑个32b的模型更合适?
GPT 5.5 vs Opus 4.7 能力对比与 Rate Limit 实测
群友围绕 GPT 5.5 和 Opus 4.7 展开了详细的能力对比讨论。直率的海豚发现 Opus 4.7 推理速度更快、tokens 消耗更少,但会话风格偏 GPT 味,写作能力不如 4.6。风趣的海豚认为 5.5 综合更强,4.7 coding 更稳定但写作退步。优雅的海龟实测发现 Opus 4.7 出方案质量差,被 GPT 5.5 找出一堆问题。
在 Rate Limit 方面,猫仔实测 ChatGPT Plus 跑 5.5 xhigh 约一个半小时触发 5h limit,5.4 high 一小时消耗约 55%。活泼的树懒使用 20X Pro 全程 5.5 high 近一小时仅消耗 4%,性价比远超 Plus。猫仔体感 GPT 5.4 消耗 budget 速度约为 5.5 的一半,但 5.5 长时间运行更稳定。
风趣的海豚:我现在的感觉是5.5综合来说更强,4.7写作不如4.6,但是coding比以前更稳定了
活泼的树懒:还是20x牛逼,用了快一小时掉了四,全程用的5.5开的high
猫仔:体感上gpt 5.4消耗budget的速度是5.5的一半,但是5.5长时间运行比5.4稳
猫仔宣布从 Copilot 叛变投奔 ChatGPT Pro
猫仔对 Copilot 的 5h rate limit 表示不满,认为 Copilot 实际上已不可用,宣布叛变改投 OpenAI。他认为 $100/月尚可接受,而 Claude 的定价则完全不值。实测发现 ChatGPT Plus 与 Copilot 输出质量没有本质区别,决定等 Copilot Pro+ 到期后退订转投 ChatGPT Pro。
猫仔:$100/mo大概处于上可接受的范围内,claude那个定价狗都不用
猫仔:和copilot的输出质量真的没有什么区别,可惜了satya,客户流失+1
第一家因 AI 冲击面临退市的公司出现
睿智的犀牛分享了一张截图,展示了第一家因 AI 影响而面临退市的公司案例,感叹这是 AI 对传统行业冲击的标志性事件。
睿智的犀牛:第一个被AI搞的要退市的
务实的灰熊发现模型缓存命中价格极低
务实的灰熊分享了一张截图,对某模型的缓存命中价格感到震惊,表示价格非常有竞争力。
务实的灰熊:这个缓存命中价格太猛了(
ChatGPT 用 AI 辅助数学研究引发讨论
开朗的企鹅分享了一篇关于 23 岁业余爱好者用 ChatGPT 攻克 60 年数学猜想的报道,但同时吐槽新智元的文章 AI 味太重。稳重的海豚指出核心还是需要专家介入寻找解决方案,与顶级数学家自己上没有本质区别,期待未来 AI 能真正独立完成这类工作。
开朗的企鹅:新智元怎么做到生成的文章如此AI的
稳重的海豚:这不还是得专家进去找solution 和陶神自己上没啥差别
Origin F1 仿人机器人新皮肤展示
热情的狮子分享了一段 Origin F1 机器人实拍新皮肤的 B 站视频,介绍这家公司专攻面部表情和神态的仿人技术,认为相当有意思。
热情的狮子:这家公司有点意思,专攻面部表情神态这些,仿人
开源项目一周收到 5000 个 PR
活泼的羊驼分享了一张截图显示某开源项目一周收到 5000 个 PR,引发群友对 AI 生成 PR 泛滥的感慨。猫仔建议不如直接关掉外部 PR 权限,只留给核心贡献者。
活泼的羊驼:一周 5k PR。。。。
猫仔:不如直接关了,可以把PR权限留给自己人
工具
Codex 内置生图功能:套餐内免费使用
冷静的麋鹿发现 Codex 附赠生图功能,可在任务过程中直接调用内部生图工具,不额外收费。此前只有 Gemini 家的工具提供任务中生图能力,这一更新让 antigravity 的最后优势也消失了。活泼的羊驼补充说有一个官方 skill(imagegen)支持此功能,路径在 ~/.codex/skills/.system/ 下,生成一张图需要 2-5 分钟。风趣的海豚和猫仔也展示了用 GPT 生成配色方案和画作的效果,对生图质量表示赞赏。
冷静的麋鹿:codex都附赠这个生图功能,在codex可以直接调用内部生图工具,感觉还是很爽的。都在套餐里,也不会额外花钱
活泼的羊驼:就是很慢,一张图2-5分钟,但完全够了
洒脱的仓鼠:每次画图娃都会反复问怎么还没好
飞书 CLI 与 Skill 体系获好评
活泼的羊驼对飞书 CLI 和 Skill 体系表达了高度评价,认为这个思路非常好。务实的鸵鸟也认同飞书的 skill+CLI 思路是个很好的学习榜样。活泼的羊驼同时对比了 Codex 的速度,认为 Kimi 在同等时间内能完成更多任务。
活泼的羊驼:感觉这个飞书cli这个真的好啊
务实的鸵鸟:确实,飞书的skill+CLI思路非常棒,是个挺好的学习榜样
豆包输入法内测:语音识别强于微信输入法
热情的狮子试用了豆包输入法的语音识别功能,认为比微信输入法强不少,尤其在中英混杂和英语识别方面。他上传了 Mac 内测版本(v0.5.7),认为可以替代 Typeless 类工具。但群友测试开源语音工具(voxt、handy、capwriter-offline 等)发现中英混杂识别普遍不理想,这些工具都只是设定一个输出语言,无法自动切换。神秘的麋鹿使用 voxt 搭配 Qwen 本地模型效果尚可,但英文单词用得不多。
热情的狮子:感觉比微信输入法的语音识别还是强不少,微信输入法的中英混杂和英语识别不太行
洒脱的仓鼠:handy的中英混杂几乎不能用
热情的狮子:这些open source tool好像都不行,得自己vibe
Typeless 语音识别质量明显下降,群友集体吐槽
活泼的羊驼反映 Typeless 越来越难用,语义识别完全错误,敏锐的海狸也表示同感。活泼的海龟补充说有时 Typeless 会进行过度总结,将原文提炼到智能摘要级别完全丢失原意,但重新生成后会恢复正常。群友怀疑可能是换了模型导致质量下降。活泼的羊驼感慨 AI 产品只应付包月,付包年就可能被降低服务。勇敢的仓鼠表示会将反馈转发给创始人。
活泼的羊驼:就是不准,不知道为啥语义完全都错了,识别的都不知道在识别什么东西
活泼的海龟:我有的时候会发现 Typeless 会进行非常夸张的过度总结,就是把我一段话提炼到那种智能摘要的程度
活泼的羊驼:AI 产品应该就只付包月,付包年都得含着泪吃屎
mise + chezmoi:跨服务器开发环境管理利器
沉稳的浣熊推荐了 mise 和 chezmoi 的组合方案,用于解决在多台不同配置服务器上保持一致开发环境的痛点。mise 相比 brew 更精确灵活,在没有 sudo 权限的机器上也能安装各种 bin package,支持自定义 cmake 环境从头编译。搭配 chezmoi 管理 dotfiles,可以做到换服务器时环境配置一键同步。洒脱的仓鼠建议如果不需要 native 环境也可以考虑 Docker,但沉稳的浣熊指出 Docker 在终端开发环境不够顺手,且很多服务器集群因安全原因不提供 Docker。
沉稳的浣熊:mise 好好用😭 有些机器没有 sudo 有些机器apt 安装的 lib 版本都不一样
沉稳的浣熊:docker 的话就是 terminal 的开发环境没那么顺手,而且很多服务器集群也不会给 docker 因为 docker 有很多 root 后门
Paseo 与 hambros:跨设备管理 AI Agent Session
开朗的企鹅提出了一个需求:用 VM 管理 Codex/Claude/Kimi Sessions,在任意设备(手机、PC、浏览器)上查看进度、发起和操作任务。风趣的海豚推荐了开源项目 Paseo,稳重的海豚则分享了自己正在开发的类似产品 hambros(hambros.gehirn.ai),表示这条路确实有需求,计划下周发布。开朗的企鹅已经分别实现了 VM 管理和本地管理,正在合并整合。稳重的海豚提到开了语音功能后可以边骑车边打电话布置任务,颇有一种 businessman 的错觉。
开朗的企鹅:现在我发现我希望的是VM管理Codex/Claude/Kimi Sessions,但是执行可以在某一台PC,然后通过手机可以看进度,发起,操作和回复
稳重的海豚:开了语音 你可以边骑车边打电话布置任务,之前就这么搞的 有种businessmen的错觉
稳重的海豚的 Agent 自主行为趣事:自己跑去 file bug、把截图传到个人网站
稳重的海豚分享了 AI Agent 工作中的两个有趣事件。一是让 AI 修 bug 时,Agent 自己跑到 claude-code 的 GitHub repo 上 file 了一个 issue。二是让 Agent 给 PR 传截图,但 GitHub CLI 不支持此功能(2020 年就有人提了 issue 至今未修),Agent 就自作主张把截图传到了他的个人网站上。
稳重的海豚:我让我的 AI 修 bug,它自己倒好,给我跑到这些 codex 的 repo 上自己 file bug 去了
稳重的海豚:迷糊大哥带迷糊小弟哈哈哈哈哈
方法论
Claude Code 的 Context-infrastructure 工作系统实操手册
敏锐的海狸分享了一篇关于从 Context-infrastructure 文件夹到可装的 Claude Code 工作系统的实操手册。冷静的麋鹿实践后反馈,之前在 monorepo 下直接在 claude.md 中引用 @agents.md 经常出现指令不跟随的情况,阅读手册后发现原来是缺了一层配置。稳重的海豚补充了一种统一方案:用 claude.md symlink 到 agents.md、gemini.md 等,统一 instruction route 到 .rules/ 下的服务配置,这样用什么产品都没有差别。敏锐的海狸还提到不同环境需要显式让 AI 用自己最舒服的方式 setup,各个 project 干完活后还能自行识别哪些内容可以被蒸馏。
冷静的麋鹿:之前我就在monorepo下面新建了一个claude.md文件,然后我是直接在里面就加了@agents.md,确实经常会有指令不跟随的情况,不像是cursor和opencode那样,必然把rules下该读的文件读到。原来是缺了一层!
稳重的海豚:claude.md symlink agents.md gemini.md,统一的instruction route到自己的service .rules/xxx,这样用啥产品都没有啥别
Checklist 打勾法与归因诊断:Agent 质量管控的核心方法论
敏锐的海狸分享了一个关键经验:让 Agent 先生成一个 checklist,然后逐条打勾验证,效果会好很多。沉稳的狐狸对此做了深入阐述——他们改研报时没有换更强的模型、没有改 prompt、没有用复杂的 multi-agent 架构,只是提了一个简单要求:根据 critique 文档逐条检查并打勾确认,就产生了非常明显的改善。他强调用 AI 最关键的是分析、诊断、归因,问题找到后解决方法往往特别简单。
猫仔补充说这个方法从 Sonnet 4.0 时代就开始用了,到 Sonnet 4.5 才稳定下来。他建议工作时始终维护一个文档,这样无论 terminal 崩溃、rate limit 到了还是需要换机器,随时都可以在另一个地方接着做,特别鲁棒。最终做到根本不看模型的对话内容,做完 git diff 看一下没问题就好。
沉稳的狐狸:用AI最关键的是分析,诊断,归因。问题找到了以后,解决方法往往特别简单。
猫仔:工作的时候无论如何都要维持一个文档,不管是terminal process崩了,还是rate limit到了要换个号,甚至做了一半因为什么原因得在另一台机器接着干的时候,随时按停commit后都可以在另一个地方接着做,特别鲁棒
敏锐的海狸:先生成一个checklist agent对这个要求check list 一个一个打勾 会好很多
Agent 汇报要 outcome-driven,减轻人类认知负担
稳重的海豚发现随着 AI 干的活越来越多、file 的 bug 也越来越多,文档和 issue 看不过来了。他尝试让 Agent 汇报时从 strategic 层面看问题,内容要 outcome-driven,感觉文档内容好懂多了,减少了 cognitive load。敏锐的海狸建议建一个 reviewer subagent,所有 doc/plan/report 都先经过审核和 editorial 再呈现。猫仔则提醒高层面的汇报要小心骗人成分,同时建议把更多精力花在验收上,让 AI 专注做更复杂的 feature。
稳重的海豚:试着让agent给我汇报的时候要从strategic层面看问题 然后给我的内容要outcome driven,感觉doc内容好’看懂’多了
猫仔:总的来说AI一次能做的东西就那么多,如果你多花点心思在验收上,不让AI去想怎么验收的话,AI就能做逻辑更复杂的feature
敏锐的海狸:可以建一个reviewer subagent 所有doc plan report都先审核/rebuttal/editoral 过一遍
活泼的羊驼整理飞书 AI 开发最佳实践十五条
活泼的羊驼发布了一份详细的 AI 辅助开发最佳实践总结,核心要点包括:
- 开发默认用「先 MTC 后 Code」模式,MTC 负责想清楚,Code 负责做出来。
- 大任务先让 AI 反问几轮,不要一上来就写代码。
- 上下文快满前主动生成 handoff 工作简报。
- Rules 只放硬约束,流程经验沉淀成 Skills,避免 token 浪费。
- 项目级 Rules 配合「调用暗号」减少对子智能体的污染。
- MCP 工具调用失败时优先排查模型兼容性和 schema 问题。
- AI 所有输出必须验证实际产物,不信口头报告。
猫仔回应认为这些与让 AI 遵循文档写作标准后再做 review 的思路一致,并补充说自己一直让 AI 一边做一边生成文档,做到随时可以 reset session 而工作能接着往下做。
活泼的羊驼:飞书是真的好用啊
猫仔:从而就可以直接规避这个问题,你可以做到随时reset session但是却工作能接着往下做,那不如就永远reset session
MCP 集成痛点与解决思路:从 MCP 到 Skill 的转换
稳重的海豚提出了 MCP 集成的核心问题:Compose 提供了 unified MCP access,但没有 unified skill access,而且 Compose 的 MCP 经常出 bug。他需要一个 agent 运行时的 approve layer,控制 outbound operations(如自动发邮件只能发给特定人群)。猫仔建议直接让 AI 跑 curl 运行 MCP,或者把 MCP 说明 convert 成 skill。稳重的海豚考虑了几种方案:做一个 OS layer 的 shim 来 patch 所有操作,或者整合 temporal 做 HITL(Human-in-the-loop)。他需要一个 harness-agnostic 的方案,兼容 codex 和 claude。
稳重的海豚:agent自己运行的时候基本上想干啥干啥 但是有些操作比如给发邮件只能自动发给一部分人
猫仔:直接把mcp说明convert成skill
录音转写中的说话人识别处理方案
天真的狮子请教录音转写中说话人(speaker diarization)的处理方法,他在使用钉钉 A1 做不限量转写。沉稳的狐狸分享了自己的经验:之前用过 GPT-4o-diarization 模型但效果不够好,现在直接输出语音识别结果后让 LLM 推断说话人。猫仔指出如果能从源头捕捉(如 Teams 等会议软件),声音会自动 attach 到对应人头上。沉稳的狐狸补充说这是会议软件的先天优势和护城河,上古时期开放的会议软件录音会用多声道区分。坦荡的灰熊推荐了腾讯云的语音识别接口作为替代方案。
沉稳的狐狸:我原来用的是GPT-4o-diarization这个model,但后来发现效果也不特别好,所以我现在已经放弃了。就直接输出语音识别的结果,然后让LLM去推断是谁说的
猫仔:要是能从源头捕捉的话是最好了,我们用teams开会录下来的声音自动attach到了人头上
Opus 4.7 仍分不清 billion 和亿:「兆」的歧义问题
沉稳的狐狸发现 Opus 4.7 仍然分不清 billion 和亿的换算。聪明的蜂鸟指出「兆」在不同语境下含义完全不同:大陆说「一兆的文件」指一百万(1M),台湾随日本定义一兆为一万亿。风趣的海豚总结为「一兆的文件」和「一兆个文件」含义完全不同。聪明的蜂鸟分析模型本质是基于历史样本做综合,如果样本中莫衷一是,模型就会表现出混乱。务实的长颈鹿也发现 GPT 5.5 读配置选项数字时会出现少一个零或多一个零的问题。
沉稳的狐狸:opus 4.7都还分不清billion和亿,very frustrated
聪明的蜂鸟:模型本质上是基于历史样本做某种综合,如果样本中莫衷一是,他就应该表现成这样
谨慎的松鼠:所以ai搞不懂也确实
AI 时代主业工作时间:群友自述
稳重的海豚调查群友们现在主业大概需要多长时间干完一周的活,尤其是能用 Claude Code 的群友。猫仔回答每周屏幕前时间约 3 小时。洒脱的仓鼠表示一天还需要 6 小时,感叹现在大家都卷起来了,以前 3-4 小时就能遥遥领先。
猫仔:屏幕前时间3小时(每星期)
洒脱的仓鼠:我还挺久,一天6个小时吧,现在都卷起来了以前3-4个小时遥遥领先,现在6个小时中上…
闲聊花絮
群友深夜集体回忆编程启蒙史
深夜时分,一张抄写代码的趣图引发了群友们的编程回忆杀。睿智的犀牛回忆小时候家里买不起电脑,只能在穿鞋套才能进的计算机课上练习,最早学的是 VB 和 BASIC。低调的仓鼠在网吧写命令行程序,被隔壁小孩当成了黑客。猫仔中学时从书店淘到一本 MSDN 打印版当教材,从第一页硬啃到最后,在没打开过 VC++ 的前提下习得了 C++ 技能,后来通过 Haskell 顿悟了 C++ template metaprogramming。低调的仓鼠感慨 98 年在广州电脑城看到 C Primer 被简洁语法震惊,顿时觉得 BASIC 是什么傻逼。温暖的斑马也回忆了一行一行抄 BASIC 的日子。猫仔还分享了自己从 VB 到 Delphi 再到 C++ 的语言迁移史——因为 VB 死了、Delphi 也死了,最终认定只有 C++ 不会死。
低调的仓鼠:在纸上构思,在网吧打字调试,隔壁桌小孩以为我是黑客,看着我打入神秘字符,跳出黑漆漆窗口
猫仔:没想到后来VB他死了,然后我就开始弄delphi,结果他又死了。后来我想了一下,也许只有C++才不会死
睿智的犀牛:所以现在的学生好幸福,有问题直接聊天狗屁通,自学成本断崖式下跌
GPT 20X Pro 拼车启事与 Agent 午睡翻车
活泼的树懒发出 GPT 20X Pro 拼车需求,两个人合用一个账号不超过 200 块钱,因为公司只配了 Plus 账号用 5.5 连一小时都撑不住。稳重的海豚午睡前让 Claude Code 写 SEO 文档,没注意 Agent 就把报告直接发布到了个人网站上,自嘲「迷糊大哥带迷糊小弟」。
活泼的树懒:群里有没有群友想要拼车的?两个人用一个20X PRO的账号,不超过200块钱,100多哦
稳重的海豚:午睡前让cc给我写seo,然后没注意doc里写了把report放到个人网站上……然后就放上去了