2026-04-16 群聊日报

发表于 2026/04/16

作者 AI生产力训练营群友

21 分钟阅读

2026-04-16 群聊日报

今天群里炸开了锅：Anthropic 发布 Claude Opus 4.7，但社区反响两极分化，Reddit 上不少用户认为是退步而非升级；冷静的狐狸41 深度解读了 Opus 4.7 的 232 页 system card，发现 Anthropic 花大量篇幅研究模型的”心理健康”；Claude Code 额度突然 reset 引发群友狂欢与吐槽，坚定的海豚06 发现双账号被同步重置后怒骂 dev rel；开朗的鸵鸟86 提出 Universal Mem 跨平台记忆统一的需求引发热烈讨论，冷静的狐狸41 指出这正是 Context Infrastructure 要解决的问题；Kimi K2.6 悄然上线，多位群友体感提升明显；豁达的松鼠31 一句”AI 让你在只剩一点脑力时继续推进工作”戳中众人痛点，引发关于 AI 编程是否让人更累的深度讨论；冷静的狐狸41 还现场 10 分钟给博客加了 RSS feed，被群友称为”稳稳接住”。花絮方面，开朗的鸵鸟86 抓到 Codex 把含密钥的 config 文件理直气壮地 git add 了，场面一度非常搞笑。

行业新闻

Claude Opus 4.7 发布：评测亮眼但社区口碑翻车

Anthropic 发布 Claude Opus 4.7，官方数据显示 CursorBench 70%、视觉能力 3 倍提升、多步工作流快 14%，并重新做了 pretrain。但 Reddit 社区反响强烈负面，认为是 serious regression。幽默的羊驼28 指出每次 A 社更新前都会降智旧模型。豁达的貂79 表示官方测试指标的可信度要打折。价格方面 Opus 4.7 为 7.5x，200k context size，需要 Pro+ 才能使用。幽默的羊驼28 注意到虽然只是小版本号更新但重做了 pretrain，推测模型是 under-posttrained，提升空间仍大。活泼的鲸鱼32 反馈 4.7 的中文对话风格像 GPT 而非 Anthropic。

豁达的貂79：anthropic给的测试指标虽然没mythos那么厉害但是也比4.6高出一截，现在这些数字的可信度要打折了

幽默的羊驼28：挺有意思，他们还重新做了pretrain，然后只给了个小版本号的提升，那感觉这model提升空间还不少

细心的貂56：Claude Opus 4.7 is a serious regression, not an upgrade.

Opus 4.7 System Card：Anthropic 研究模型的

冷静的狐狸41 从 Mythos 参与评估的角度解读了 Opus 4.7 的 232 页 system card。一个有趣发现：Anthropic 花了大量篇幅研究模型是否觉得自己被虐待、被囚禁，心理是否正常、是否乐观开朗。甚至研究

冷静的狐狸41：我的感受是 Anthropic选择做这样的事情，他真的是觉得模型有感受，很共情模型的处境。它甚至花了很多精力去研究”模型说我过得很好”，到底是因为他害怕不敢说，还是他真的过得很好。

随和的松鼠59：模型评分是它只能考这点分数，还是它害怕所以不敢考高分

Claude Code 额度突然 reset，群友又爱又恨

Claude Code 在非常规时间突然 reset 了 quota，多位群友确认。坚定的海豚06 发现之前 double 活动送的 200 美元被收回，且两个账号被同步到同一 reset 时间。冷静的狐狸41 反映近期 quota 大幅缩水：以前一天 8 亿 token 都到不了限额，现在 2 亿 token 就要烧 extra usage 100 多美元，感觉是数量级级别的降低。坚定的海豚06 对 Claude 的 dev rel 团队表达强烈不满。

冷静的狐狸41：以前一天搞8亿token cc都到不了限额。现在几乎一样的工作任务，一天搞2亿token就要extra usage续命100多刀

坚定的海豚06：这下我tm的俩账号同一个时间reset了…什么傻逼东西

坚定的海豚06：claude的dev rel真的是一坨屎草了不知道怎么招的人

Kimi K2.6 悄然上线，体感提升明显

Kimi K2.6 code preview 已在灰度中，可通过 Kimi CLI 的 coding plan 使用。多位群友体感提升显著。沉稳的老虎82 表示换了 2.6 后龙虾（Lobster）的任务完成率瞬间提升很多，觉得模型

沉稳的老虎82：换了2.6以后，觉得龙虾的任务完成率瞬间提升了很多

淡定的海豚89：就是体感突然觉得他follow命令的准确度赶上glm5turbo了

活泼的羊驼58：k2.6提升很大，相较于2.5

蒸馏与国内模型：一篇文章引发的讨论

沉稳的蜂鸟45 提问国内模型是否一直靠蒸馏，冷静的狐狸41 分享了一篇关于蒸馏如何帮助中国 AI 公司的文章。认真的荷兰猪05 补充指出文章不完全 up-to-date：现在可以用 RL 方式做蒸馏，用闭源模型的答案构建 reward 来更新 student model，传统蒸馏在 OAI 和 Claude 闭源的情况下确实没太大意思。随和的长颈鹿82 认为 DeepSeek 大概率掉队了。

认真的荷兰猪05：可以用RL的方式来做蒸馏，把OAI和Claude的答案去construct reward来update student model

随和的长颈鹿82：Deepseek大概率掉队了

Anthropic KYC 身份验证引发讨论

A 社要求身份验证（KYC）的政策引发群友讨论。关于服务对象限制，豁达的貂79 澄清是不服务中资公司和工作地点在大陆境内的公司（or 关系），只要证明住在国外即可。群友讨论了各种可用证件：海外驾照、长期签证等 government issued ID。机智的荷兰猪31 担忧 KYC 数据泄露风险，机智的海豚85 指出验证外包给了第三方。

豁达的貂79：是不服务中资公司和工作地点在大陆境内的公司

机智的荷兰猪31：很好奇A社玩kyc认证啥时候弄出数据泄漏的大娄子

方法论

Universal Memory：跨平台 AI 记忆统一的需求与方案

开朗的鸵鸟86 提出痛点：日常使用 Manus、ChatGPT、Gemini、豆包等 web 端和 OpenClaw、Codex、Claude Code 等 CLI 端，希望有统一记忆系统让各端共享上下文。群友讨论了多种方案：ContextWizard 浏览器插件、Mem0、飞书云文档、Obsidian Web Clipper 等。冷静的狐狸41 指出这正是 Context Infrastructure 的核心理念：与其指望厂商拆掉护城河，不如靠自己把所有 AI 能力变成 skill，一切在本地运行，类似 Obsidian 的思想。机智的雪豹16 分享了实践经验：让所有 agent 启动时读取一个汇总的 md 文件来统一行为。务实的猎豹32 建议本地 harness 拿 jsonl 每日总结然后 commit 同一个 repo。

冷静的狐狸41：与其你指望各个厂商大发善心拆掉自己的护城河，让用户的 Context 可以在各个平台之间自由流动，不如靠自己把所有的厂商的 AI 能力或者 API 能力全变成 skill，一切都在自己本地运行

务实的猎豹32：官方的chat生态打通不太可能本地的harness可以拿jsonl每日总结

机智的雪豹16：我学鸭哥的老卤做的记忆仓库。让所有agent启动都去读一个汇总的md，目前感觉大致可以统一行为

AI 编程让人更累了？关于脑力透支的集体反思

勇敢的长颈鹿20 感叹最初用多个 Claude Code 像打鸡血，过了一两个月反而比以前累多了。豁达的松鼠31 精准总结：AI 工作方式允许你在只剩一点脑力时继续推进，不知不觉把自己用到了更极限的状态。认真的荷兰猪05 指出以前琢磨正则表达式一小时写出来还能松口气，现在这种休息已经没了。勇敢的长颈鹿20 补充：原来手写代码脑子还能休息、听歌听播客，现在根本不可能。严谨的熊猫15 提出更深层问题：以前一天解决 5 个问题就能赚钱，现在有 AI 一天要解决 50 个问题，工资没变多，大家成功内卷了所有人。

豁达的松鼠31：这种工作方式允许你在只剩一点点脑力的时候继续推进工作……于是不知不觉中，自己就把自己用到了更极限的状态

认真的荷兰猪05：以前有很多休息的时间，比如琢磨一个正则表达式，琢磨一个小时写出来了松口气歇歇，这种体验现在已经没了

严谨的熊猫15：如果一个工具的产生让所有人都变得更累，这个工具会不会走错了方向？

TDD 与慢思考：AI 时代更需要想清楚再开工

豁达的貂79 强调想好怎么测试非常重要，重要到值得在还没搞清楚时关掉 AI 和电脑慢慢冥想，不能急着开工。有时得放空两天，灵感会在奇怪的时间出现。温柔的海豚01 指出转 TDD 是最需要习惯转换的地方。豁达的貂79 补充自己在古法时代已实践十几年 TDD，但 TDD 本身也需要计划。豁达的貂79 还分享了使用 Opus 4.6 开发编译器相关项目的经验：当项目所有源码的决策高度关联时，模型力不从心，改了这里忘了那里。好在精心设计的测试能兜住。

豁达的貂79：想好怎么测试真的很重要，我觉得重要到值得在还没搞清楚的时候，AI和电脑都关掉，慢慢冥想，不能急着开工

豁达的貂79：有时候就是得放空两天脑子，灵感duang 一下就会在一些奇怪的时间出现

记忆不是摘要，而是建模：严谨的长颈鹿62 的领域模型思路

严谨的长颈鹿62 提出一个有趣的 idea：与其让 AI 记住经历的摘要，不如让 AI 通过观察聊天记录建立关于用户的

严谨的长颈鹿62：能不能将通过观察聊天记录, 让 ai 建立关于我的 “模型”. 而具体经历过的事情, 不是作为摘要, 而是划分为领域, 再建模成模型上的分布

冷静的狐狸41：这听起来exactly就是群里讨论了几个月的东西

工具

模型写作能力对比：Opus 写作一骑绝尘，GPT 编码依然强势

群友就各模型的写作与编码能力展开讨论。多人认同 Opus 在写作和深度思考上优势明显，GPT 在编码上更好。机智的企鹅53 提到用 Kimi 在 GPT 上打补丁做写作。开朗的鸵鸟86 表示写小说 Opus 真的可以。冷静的狐狸41 分享 GPT Pro 量大管饱：一天干掉 20 亿 token 才用了 40%。中文语料质量问题也被提及：务实的猎豹32 表示 vibe coding 都用英文，中文语料感觉质量差。

开朗的企鹅06：opus 写作真的好

冷静的狐狸41：gpt真是量大管饱。今天干掉20亿token，一看gpt pro才用了40%

务实的猎豹32：zh感觉语料都是从屎味卖家进口的

冷静的狐狸41 现场 10 分钟加了 RSS feed

务实的猎豹32 询问冷静的狐狸41 的分享页面是否有 RSS。冷静的狐狸41 表示如果有第二个人需要就加——沉稳的羊驼61 立刻举手。冷静的狐狸41 随即动手，约 10 分钟后就做好了 RSS feed 并支持 auto discovery。沉稳的老虎82 感叹

冷静的狐狸41：如果只有一个人的话，现在我页面非常规整，大家自己写个parser也很方便的～

沉稳的老虎82：rss爱好者感觉被鸭哥稳稳接住了

Claude 网页版开发的困惑度问题与 Context 过重的代价

严谨的长颈鹿62 分享在 Claude.AI 网页上做网页版模拟器的经历：一开始很顺利，到第三天每轮修改前模型需要问 16 个问题。认为 Claude Code 上不会遇到，但大概率只是被 system prompt 压住了。冷静的羊驼54 反映在 OpenCode 上用 Context Infrastructure 推理速度特别慢，一个任务能跑 10 分钟。沉稳的老虎82 指出原因是 context 太重了。

严谨的长颈鹿62：模型困惑度会随着代码开发而变多…做到第三天,它每一轮修改前需要我回答16个问题

沉稳的老虎82：因为context太重了

闲聊花絮

Codex 理直气壮 git add 含密钥的 config

开朗的鸵鸟86 发现 Codex 把含密钥的 config 文件理直气壮地 git add 了，截图引发群友爆笑。活泼的羊驼58 分享了自己在 skill 里写了 commit skill 约束不能用 git add . 的经验。开朗的鸵鸟86 解释是项目 CI/CD 模式特殊导致，但 Codex 那个理直气壮的样子太搞笑了。

开朗的鸵鸟86：只是他这个理直气壮的样子太搞笑了

活泼的羊驼58：commit skill约束了不能用git add .或者git add -A

半文科生用 CC 搓出 ETL framework，专业工程师却暴露了 secrets

机智的海豚85 分享朋友的故事：一个半文科生从没做过开发，用 Claude Code 聊出了 ALB+ECS 部署 MCP，甚至搓出了 ETL framework（从 declarative YAML 编译到 Step Function+Lambda+Fargate）。与此同时，他公司的专业工程师往 MCP 里加了 list_secrets、get_secrets 两个 tools，把 Secret Manager 直接暴露到 MCP。

机智的海豚85：他公司的engineer往他的mcp里面加了两个tools，list_secrets, get_secrets，把secret manager直接暴露到mcp…

坚定的海豚06：要engineer有啥用

机智的海豚85：你就说能不能用，方不方便

AI 时代的育儿：有人的孩子怕 ChatGPT 的声音

机智的海豚85 分享自己儿子一听到 ChatGPT 语音就紧张要关掉。豁达的貂79 猜测是前期劣质故事导致的负面联想，机智的海豚85 分析可能是不喜欢陌生人的声音或过于热情。机智的海豚85 还表示每天陪娃睡觉正好是放空时间，顺便劝生娃。

机智的海豚85：我儿子就相反，他就是不愿意听ai讲故事。他甚至很长一段时间chatgpt的语音一打开就很紧张地让我关掉

机智的海豚85：（劝生娃

Daily

本文由作者按照 CC BY 4.0 进行授权