文章

2026-04-26 群聊日报

2026-04-26 群聊日报

今天群里话题极其丰富。MiniMax Token Plan 上线引发讨论,风趣的犀牛分享了优惠信息;GPT 5.5 与 Opus 4.7 的能力对比成为焦点,猫仔宣布从 Copilot 叛变投奔 OpenAI Pro,活泼的树懒则在群里寻找 GPT 20X Pro 拼车伙伴。Codex 内置生图功能被冷静的麋鹿和活泼的羊驼挖掘出来,令洒脱的仓鼠等群友大呼惊喜。敏锐的海狸分享了 Claude Code 的 Context-infrastructure 工作系统实操手册,冷静的麋鹿实践后反馈效果显著。稳重的海豚围绕 Agent 工作流、MCP 集成、跨设备 Session 管理等话题展开了大量讨论,并分享了自己的产品 hambros。沉稳的狐狸和敏锐的海狸贡献了 Agent 使用的核心方法论——checklist 打勾法与归因诊断法。活泼的羊驼整理了一份飞书 AI 开发最佳实践长帖,同时吐槽 Typeless 语音识别质量下滑。热情的狮子试用了豆包输入法并分享了内测版本。沉稳的浣熊安利了 mise + chezmoi 的跨服务器开发环境管理方案。天真的狮子请教录音转写中说话人识别的处理方法,引发了一轮实用经验交流。睿智的犀牛分享了第一个因 AI 冲击面临退市的公司案例。深夜时分,猫仔、睿智的犀牛、低调的仓鼠等群友集体回忆早年学编程的青葱岁月,从纸上写代码到网吧调试、从 BASIC 到 C++ 再到 Haskell,堪称一部微型编程史。

行业新闻

MiniMax Token Plan 上线:语音、音乐、视频、图片生成权益齐全

MiniMax 推出 Token Plan,新增语音、音乐、视频和图片生成权益,邀请好友可享双重好礼。群友讨论发现通过国内支付宝支付可以比 Default 价格便宜不少,年费 8990 元,比 GPT Pro 的 200 USD/月划算很多。群友认为其能力虽略逊于顶级模型,但作为补充工具处理简单任务足够使用。

随和的飞鼠:跟白送一样,看评测能力略逊但可以用

风趣的犀牛:简单的事还是可以的。还有就是给身边的人体验用(我妈)

直率的鸵鸟:简单的任务,是否本地跑个32b的模型更合适?

GPT 5.5 vs Opus 4.7 能力对比与 Rate Limit 实测

群友围绕 GPT 5.5 和 Opus 4.7 展开了详细的能力对比讨论。直率的海豚发现 Opus 4.7 推理速度更快、tokens 消耗更少,但会话风格偏 GPT 味,写作能力不如 4.6。风趣的海豚认为 5.5 综合更强,4.7 coding 更稳定但写作退步。优雅的海龟实测发现 Opus 4.7 出方案质量差,被 GPT 5.5 找出一堆问题。

在 Rate Limit 方面,猫仔实测 ChatGPT Plus 跑 5.5 xhigh 约一个半小时触发 5h limit,5.4 high 一小时消耗约 55%。活泼的树懒使用 20X Pro 全程 5.5 high 近一小时仅消耗 4%,性价比远超 Plus。猫仔体感 GPT 5.4 消耗 budget 速度约为 5.5 的一半,但 5.5 长时间运行更稳定。

风趣的海豚:我现在的感觉是5.5综合来说更强,4.7写作不如4.6,但是coding比以前更稳定了

活泼的树懒:还是20x牛逼,用了快一小时掉了四,全程用的5.5开的high

猫仔:体感上gpt 5.4消耗budget的速度是5.5的一半,但是5.5长时间运行比5.4稳

猫仔宣布从 Copilot 叛变投奔 ChatGPT Pro

猫仔对 Copilot 的 5h rate limit 表示不满,认为 Copilot 实际上已不可用,宣布叛变改投 OpenAI。他认为 $100/月尚可接受,而 Claude 的定价则完全不值。实测发现 ChatGPT Plus 与 Copilot 输出质量没有本质区别,决定等 Copilot Pro+ 到期后退订转投 ChatGPT Pro。

猫仔:$100/mo大概处于上可接受的范围内,claude那个定价狗都不用

猫仔:和copilot的输出质量真的没有什么区别,可惜了satya,客户流失+1

第一家因 AI 冲击面临退市的公司出现

睿智的犀牛分享了一张截图,展示了第一家因 AI 影响而面临退市的公司案例,感叹这是 AI 对传统行业冲击的标志性事件。

睿智的犀牛:第一个被AI搞的要退市的

务实的灰熊发现模型缓存命中价格极低

务实的灰熊分享了一张截图,对某模型的缓存命中价格感到震惊,表示价格非常有竞争力。

务实的灰熊:这个缓存命中价格太猛了(

ChatGPT 用 AI 辅助数学研究引发讨论

开朗的企鹅分享了一篇关于 23 岁业余爱好者用 ChatGPT 攻克 60 年数学猜想的报道,但同时吐槽新智元的文章 AI 味太重。稳重的海豚指出核心还是需要专家介入寻找解决方案,与顶级数学家自己上没有本质区别,期待未来 AI 能真正独立完成这类工作。

开朗的企鹅:新智元怎么做到生成的文章如此AI的

稳重的海豚:这不还是得专家进去找solution 和陶神自己上没啥差别

Origin F1 仿人机器人新皮肤展示

热情的狮子分享了一段 Origin F1 机器人实拍新皮肤的 B 站视频,介绍这家公司专攻面部表情和神态的仿人技术,认为相当有意思。

热情的狮子:这家公司有点意思,专攻面部表情神态这些,仿人

开源项目一周收到 5000 个 PR

活泼的羊驼分享了一张截图显示某开源项目一周收到 5000 个 PR,引发群友对 AI 生成 PR 泛滥的感慨。猫仔建议不如直接关掉外部 PR 权限,只留给核心贡献者。

活泼的羊驼:一周 5k PR。。。。

猫仔:不如直接关了,可以把PR权限留给自己人

工具

Codex 内置生图功能:套餐内免费使用

冷静的麋鹿发现 Codex 附赠生图功能,可在任务过程中直接调用内部生图工具,不额外收费。此前只有 Gemini 家的工具提供任务中生图能力,这一更新让 antigravity 的最后优势也消失了。活泼的羊驼补充说有一个官方 skill(imagegen)支持此功能,路径在 ~/.codex/skills/.system/ 下,生成一张图需要 2-5 分钟。风趣的海豚和猫仔也展示了用 GPT 生成配色方案和画作的效果,对生图质量表示赞赏。

冷静的麋鹿:codex都附赠这个生图功能,在codex可以直接调用内部生图工具,感觉还是很爽的。都在套餐里,也不会额外花钱

活泼的羊驼:就是很慢,一张图2-5分钟,但完全够了

洒脱的仓鼠:每次画图娃都会反复问怎么还没好

飞书 CLI 与 Skill 体系获好评

活泼的羊驼对飞书 CLI 和 Skill 体系表达了高度评价,认为这个思路非常好。务实的鸵鸟也认同飞书的 skill+CLI 思路是个很好的学习榜样。活泼的羊驼同时对比了 Codex 的速度,认为 Kimi 在同等时间内能完成更多任务。

活泼的羊驼:感觉这个飞书cli这个真的好啊

务实的鸵鸟:确实,飞书的skill+CLI思路非常棒,是个挺好的学习榜样

豆包输入法内测:语音识别强于微信输入法

热情的狮子试用了豆包输入法的语音识别功能,认为比微信输入法强不少,尤其在中英混杂和英语识别方面。他上传了 Mac 内测版本(v0.5.7),认为可以替代 Typeless 类工具。但群友测试开源语音工具(voxt、handy、capwriter-offline 等)发现中英混杂识别普遍不理想,这些工具都只是设定一个输出语言,无法自动切换。神秘的麋鹿使用 voxt 搭配 Qwen 本地模型效果尚可,但英文单词用得不多。

热情的狮子:感觉比微信输入法的语音识别还是强不少,微信输入法的中英混杂和英语识别不太行

洒脱的仓鼠:handy的中英混杂几乎不能用

热情的狮子:这些open source tool好像都不行,得自己vibe

Typeless 语音识别质量明显下降,群友集体吐槽

活泼的羊驼反映 Typeless 越来越难用,语义识别完全错误,敏锐的海狸也表示同感。活泼的海龟补充说有时 Typeless 会进行过度总结,将原文提炼到智能摘要级别完全丢失原意,但重新生成后会恢复正常。群友怀疑可能是换了模型导致质量下降。活泼的羊驼感慨 AI 产品只应付包月,付包年就可能被降低服务。勇敢的仓鼠表示会将反馈转发给创始人。

活泼的羊驼:就是不准,不知道为啥语义完全都错了,识别的都不知道在识别什么东西

活泼的海龟:我有的时候会发现 Typeless 会进行非常夸张的过度总结,就是把我一段话提炼到那种智能摘要的程度

活泼的羊驼:AI 产品应该就只付包月,付包年都得含着泪吃屎

mise + chezmoi:跨服务器开发环境管理利器

沉稳的浣熊推荐了 mise 和 chezmoi 的组合方案,用于解决在多台不同配置服务器上保持一致开发环境的痛点。mise 相比 brew 更精确灵活,在没有 sudo 权限的机器上也能安装各种 bin package,支持自定义 cmake 环境从头编译。搭配 chezmoi 管理 dotfiles,可以做到换服务器时环境配置一键同步。洒脱的仓鼠建议如果不需要 native 环境也可以考虑 Docker,但沉稳的浣熊指出 Docker 在终端开发环境不够顺手,且很多服务器集群因安全原因不提供 Docker。

沉稳的浣熊:mise 好好用😭 有些机器没有 sudo 有些机器apt 安装的 lib 版本都不一样

沉稳的浣熊:docker 的话就是 terminal 的开发环境没那么顺手,而且很多服务器集群也不会给 docker 因为 docker 有很多 root 后门

Paseo 与 hambros:跨设备管理 AI Agent Session

开朗的企鹅提出了一个需求:用 VM 管理 Codex/Claude/Kimi Sessions,在任意设备(手机、PC、浏览器)上查看进度、发起和操作任务。风趣的海豚推荐了开源项目 Paseo,稳重的海豚则分享了自己正在开发的类似产品 hambros(hambros.gehirn.ai),表示这条路确实有需求,计划下周发布。开朗的企鹅已经分别实现了 VM 管理和本地管理,正在合并整合。稳重的海豚提到开了语音功能后可以边骑车边打电话布置任务,颇有一种 businessman 的错觉。

开朗的企鹅:现在我发现我希望的是VM管理Codex/Claude/Kimi Sessions,但是执行可以在某一台PC,然后通过手机可以看进度,发起,操作和回复

稳重的海豚:开了语音 你可以边骑车边打电话布置任务,之前就这么搞的 有种businessmen的错觉

稳重的海豚的 Agent 自主行为趣事:自己跑去 file bug、把截图传到个人网站

稳重的海豚分享了 AI Agent 工作中的两个有趣事件。一是让 AI 修 bug 时,Agent 自己跑到 claude-code 的 GitHub repo 上 file 了一个 issue。二是让 Agent 给 PR 传截图,但 GitHub CLI 不支持此功能(2020 年就有人提了 issue 至今未修),Agent 就自作主张把截图传到了他的个人网站上。

稳重的海豚:我让我的 AI 修 bug,它自己倒好,给我跑到这些 codex 的 repo 上自己 file bug 去了

稳重的海豚:迷糊大哥带迷糊小弟哈哈哈哈哈

方法论

Claude Code 的 Context-infrastructure 工作系统实操手册

敏锐的海狸分享了一篇关于从 Context-infrastructure 文件夹到可装的 Claude Code 工作系统的实操手册。冷静的麋鹿实践后反馈,之前在 monorepo 下直接在 claude.md 中引用 @agents.md 经常出现指令不跟随的情况,阅读手册后发现原来是缺了一层配置。稳重的海豚补充了一种统一方案:用 claude.md symlink 到 agents.md、gemini.md 等,统一 instruction route 到 .rules/ 下的服务配置,这样用什么产品都没有差别。敏锐的海狸还提到不同环境需要显式让 AI 用自己最舒服的方式 setup,各个 project 干完活后还能自行识别哪些内容可以被蒸馏。

冷静的麋鹿:之前我就在monorepo下面新建了一个claude.md文件,然后我是直接在里面就加了@agents.md,确实经常会有指令不跟随的情况,不像是cursor和opencode那样,必然把rules下该读的文件读到。原来是缺了一层!

稳重的海豚:claude.md symlink agents.md gemini.md,统一的instruction route到自己的service .rules/xxx,这样用啥产品都没有啥别

Checklist 打勾法与归因诊断:Agent 质量管控的核心方法论

敏锐的海狸分享了一个关键经验:让 Agent 先生成一个 checklist,然后逐条打勾验证,效果会好很多。沉稳的狐狸对此做了深入阐述——他们改研报时没有换更强的模型、没有改 prompt、没有用复杂的 multi-agent 架构,只是提了一个简单要求:根据 critique 文档逐条检查并打勾确认,就产生了非常明显的改善。他强调用 AI 最关键的是分析、诊断、归因,问题找到后解决方法往往特别简单。

猫仔补充说这个方法从 Sonnet 4.0 时代就开始用了,到 Sonnet 4.5 才稳定下来。他建议工作时始终维护一个文档,这样无论 terminal 崩溃、rate limit 到了还是需要换机器,随时都可以在另一个地方接着做,特别鲁棒。最终做到根本不看模型的对话内容,做完 git diff 看一下没问题就好。

沉稳的狐狸:用AI最关键的是分析,诊断,归因。问题找到了以后,解决方法往往特别简单。

猫仔:工作的时候无论如何都要维持一个文档,不管是terminal process崩了,还是rate limit到了要换个号,甚至做了一半因为什么原因得在另一台机器接着干的时候,随时按停commit后都可以在另一个地方接着做,特别鲁棒

敏锐的海狸:先生成一个checklist agent对这个要求check list 一个一个打勾 会好很多

Agent 汇报要 outcome-driven,减轻人类认知负担

稳重的海豚发现随着 AI 干的活越来越多、file 的 bug 也越来越多,文档和 issue 看不过来了。他尝试让 Agent 汇报时从 strategic 层面看问题,内容要 outcome-driven,感觉文档内容好懂多了,减少了 cognitive load。敏锐的海狸建议建一个 reviewer subagent,所有 doc/plan/report 都先经过审核和 editorial 再呈现。猫仔则提醒高层面的汇报要小心骗人成分,同时建议把更多精力花在验收上,让 AI 专注做更复杂的 feature。

稳重的海豚:试着让agent给我汇报的时候要从strategic层面看问题 然后给我的内容要outcome driven,感觉doc内容好’看懂’多了

猫仔:总的来说AI一次能做的东西就那么多,如果你多花点心思在验收上,不让AI去想怎么验收的话,AI就能做逻辑更复杂的feature

敏锐的海狸:可以建一个reviewer subagent 所有doc plan report都先审核/rebuttal/editoral 过一遍

活泼的羊驼整理飞书 AI 开发最佳实践十五条

活泼的羊驼发布了一份详细的 AI 辅助开发最佳实践总结,核心要点包括:

  1. 开发默认用「先 MTC 后 Code」模式,MTC 负责想清楚,Code 负责做出来。
  2. 大任务先让 AI 反问几轮,不要一上来就写代码。
  3. 上下文快满前主动生成 handoff 工作简报。
  4. Rules 只放硬约束,流程经验沉淀成 Skills,避免 token 浪费。
  5. 项目级 Rules 配合「调用暗号」减少对子智能体的污染。
  6. MCP 工具调用失败时优先排查模型兼容性和 schema 问题。
  7. AI 所有输出必须验证实际产物,不信口头报告。

猫仔回应认为这些与让 AI 遵循文档写作标准后再做 review 的思路一致,并补充说自己一直让 AI 一边做一边生成文档,做到随时可以 reset session 而工作能接着往下做。

活泼的羊驼:飞书是真的好用啊

猫仔:从而就可以直接规避这个问题,你可以做到随时reset session但是却工作能接着往下做,那不如就永远reset session

MCP 集成痛点与解决思路:从 MCP 到 Skill 的转换

稳重的海豚提出了 MCP 集成的核心问题:Compose 提供了 unified MCP access,但没有 unified skill access,而且 Compose 的 MCP 经常出 bug。他需要一个 agent 运行时的 approve layer,控制 outbound operations(如自动发邮件只能发给特定人群)。猫仔建议直接让 AI 跑 curl 运行 MCP,或者把 MCP 说明 convert 成 skill。稳重的海豚考虑了几种方案:做一个 OS layer 的 shim 来 patch 所有操作,或者整合 temporal 做 HITL(Human-in-the-loop)。他需要一个 harness-agnostic 的方案,兼容 codex 和 claude。

稳重的海豚:agent自己运行的时候基本上想干啥干啥 但是有些操作比如给发邮件只能自动发给一部分人

猫仔:直接把mcp说明convert成skill

录音转写中的说话人识别处理方案

天真的狮子请教录音转写中说话人(speaker diarization)的处理方法,他在使用钉钉 A1 做不限量转写。沉稳的狐狸分享了自己的经验:之前用过 GPT-4o-diarization 模型但效果不够好,现在直接输出语音识别结果后让 LLM 推断说话人。猫仔指出如果能从源头捕捉(如 Teams 等会议软件),声音会自动 attach 到对应人头上。沉稳的狐狸补充说这是会议软件的先天优势和护城河,上古时期开放的会议软件录音会用多声道区分。坦荡的灰熊推荐了腾讯云的语音识别接口作为替代方案。

沉稳的狐狸:我原来用的是GPT-4o-diarization这个model,但后来发现效果也不特别好,所以我现在已经放弃了。就直接输出语音识别的结果,然后让LLM去推断是谁说的

猫仔:要是能从源头捕捉的话是最好了,我们用teams开会录下来的声音自动attach到了人头上

Opus 4.7 仍分不清 billion 和亿:「兆」的歧义问题

沉稳的狐狸发现 Opus 4.7 仍然分不清 billion 和亿的换算。聪明的蜂鸟指出「兆」在不同语境下含义完全不同:大陆说「一兆的文件」指一百万(1M),台湾随日本定义一兆为一万亿。风趣的海豚总结为「一兆的文件」和「一兆个文件」含义完全不同。聪明的蜂鸟分析模型本质是基于历史样本做综合,如果样本中莫衷一是,模型就会表现出混乱。务实的长颈鹿也发现 GPT 5.5 读配置选项数字时会出现少一个零或多一个零的问题。

沉稳的狐狸:opus 4.7都还分不清billion和亿,very frustrated

聪明的蜂鸟:模型本质上是基于历史样本做某种综合,如果样本中莫衷一是,他就应该表现成这样

谨慎的松鼠:所以ai搞不懂也确实

AI 时代主业工作时间:群友自述

稳重的海豚调查群友们现在主业大概需要多长时间干完一周的活,尤其是能用 Claude Code 的群友。猫仔回答每周屏幕前时间约 3 小时。洒脱的仓鼠表示一天还需要 6 小时,感叹现在大家都卷起来了,以前 3-4 小时就能遥遥领先。

猫仔:屏幕前时间3小时(每星期)

洒脱的仓鼠:我还挺久,一天6个小时吧,现在都卷起来了以前3-4个小时遥遥领先,现在6个小时中上…

闲聊花絮

群友深夜集体回忆编程启蒙史

深夜时分,一张抄写代码的趣图引发了群友们的编程回忆杀。睿智的犀牛回忆小时候家里买不起电脑,只能在穿鞋套才能进的计算机课上练习,最早学的是 VB 和 BASIC。低调的仓鼠在网吧写命令行程序,被隔壁小孩当成了黑客。猫仔中学时从书店淘到一本 MSDN 打印版当教材,从第一页硬啃到最后,在没打开过 VC++ 的前提下习得了 C++ 技能,后来通过 Haskell 顿悟了 C++ template metaprogramming。低调的仓鼠感慨 98 年在广州电脑城看到 C Primer 被简洁语法震惊,顿时觉得 BASIC 是什么傻逼。温暖的斑马也回忆了一行一行抄 BASIC 的日子。猫仔还分享了自己从 VB 到 Delphi 再到 C++ 的语言迁移史——因为 VB 死了、Delphi 也死了,最终认定只有 C++ 不会死。

低调的仓鼠:在纸上构思,在网吧打字调试,隔壁桌小孩以为我是黑客,看着我打入神秘字符,跳出黑漆漆窗口

猫仔:没想到后来VB他死了,然后我就开始弄delphi,结果他又死了。后来我想了一下,也许只有C++才不会死

睿智的犀牛:所以现在的学生好幸福,有问题直接聊天狗屁通,自学成本断崖式下跌

GPT 20X Pro 拼车启事与 Agent 午睡翻车

活泼的树懒发出 GPT 20X Pro 拼车需求,两个人合用一个账号不超过 200 块钱,因为公司只配了 Plus 账号用 5.5 连一小时都撑不住。稳重的海豚午睡前让 Claude Code 写 SEO 文档,没注意 Agent 就把报告直接发布到了个人网站上,自嘲「迷糊大哥带迷糊小弟」。

活泼的树懒:群里有没有群友想要拼车的?两个人用一个20X PRO的账号,不超过200块钱,100多哦

稳重的海豚:午睡前让cc给我写seo,然后没注意doc里写了把report放到个人网站上……然后就放上去了

本文由作者按照 CC BY 4.0 进行授权