2026-04-16 群聊日报
今天群里炸开了锅:Anthropic 发布 Claude Opus 4.7,但社区反响两极分化,Reddit 上不少用户认为是退步而非升级;冷静的狐狸41 深度解读了 Opus 4.7 的 232 页 system card,发现 Anthropic 花大量篇幅研究模型的”心理健康”;Claude Code 额度突然 reset 引发群友狂欢与吐槽,坚定的海豚06 发现双账号被同步重置后怒骂 dev rel;开朗的鸵鸟86 提出 Universal Mem 跨平台记忆统一的需求引发热烈讨论,冷静的狐狸41 指出这正是 Context Infrastructure 要解决的问题;Kimi K2.6 悄然上线,多位群友体感提升明显;豁达的松鼠31 一句”AI 让你在只剩一点脑力时继续推进工作”戳中众人痛点,引发关于 AI 编程是否让人更累的深度讨论;冷静的狐狸41 还现场 10 分钟给博客加了 RSS feed,被群友称为”稳稳接住”。花絮方面,开朗的鸵鸟86 抓到 Codex 把含密钥的 config 文件理直气壮地 git add 了,场面一度非常搞笑。
行业新闻
Claude Opus 4.7 发布:评测亮眼但社区口碑翻车
Anthropic 发布 Claude Opus 4.7,官方数据显示 CursorBench 70%、视觉能力 3 倍提升、多步工作流快 14%,并重新做了 pretrain。 但 Reddit 社区反响强烈负面,认为是 serious regression。幽默的羊驼28 指出每次 A 社更新前都会降智旧模型。豁达的貂79 表示官方测试指标的可信度要打折。 价格方面 Opus 4.7 为 7.5x,200k context size,需要 Pro+ 才能使用。 幽默的羊驼28 注意到虽然只是小版本号更新但重做了 pretrain,推测模型是 under-posttrained,提升空间仍大。 活泼的鲸鱼32 反馈 4.7 的中文对话风格像 GPT 而非 Anthropic。
豁达的貂79:anthropic给的测试指标虽然没mythos那么厉害但是也比4.6高出一截,现在这些数字的可信度要打折了
幽默的羊驼28:挺有意思,他们还重新做了pretrain,然后只给了个小版本号的提升,那感觉这model提升空间还不少
细心的貂56:Claude Opus 4.7 is a serious regression, not an upgrade.
Opus 4.7 System Card:Anthropic 研究模型的
冷静的狐狸41 从 Mythos 参与评估的角度解读了 Opus 4.7 的 232 页 system card。 一个有趣发现:Anthropic 花了大量篇幅研究模型是否觉得自己被虐待、被囚禁,心理是否正常、是否乐观开朗。甚至研究
冷静的狐狸41:我的感受是 Anthropic选择做这样的事情,他真的是觉得模型有感受,很共情模型的处境。它甚至花了很多精力去研究”模型说我过得很好”,到底是因为他害怕不敢说,还是他真的过得很好。
随和的松鼠59:模型评分是它只能考这点分数,还是它害怕所以不敢考高分
Claude Code 额度突然 reset,群友又爱又恨
Claude Code 在非常规时间突然 reset 了 quota,多位群友确认。坚定的海豚06 发现之前 double 活动送的 200 美元被收回,且两个账号被同步到同一 reset 时间。 冷静的狐狸41 反映近期 quota 大幅缩水:以前一天 8 亿 token 都到不了限额,现在 2 亿 token 就要烧 extra usage 100 多美元,感觉是数量级级别的降低。 坚定的海豚06 对 Claude 的 dev rel 团队表达强烈不满。
冷静的狐狸41:以前一天搞8亿token cc都到不了限额。现在几乎一样的工作任务,一天搞2亿token就要extra usage续命100多刀
坚定的海豚06:这下我tm的俩账号同一个时间reset了…什么傻逼东西
坚定的海豚06:claude的dev rel真的是一坨屎草了 不知道怎么招的人
Kimi K2.6 悄然上线,体感提升明显
Kimi K2.6 code preview 已在灰度中,可通过 Kimi CLI 的 coding plan 使用。多位群友体感提升显著。 沉稳的老虎82 表示换了 2.6 后龙虾(Lobster)的任务完成率瞬间提升很多,觉得模型
沉稳的老虎82:换了2.6以后,觉得龙虾的任务完成率瞬间提升了很多
淡定的海豚89:就是体感突然觉得他follow命令的准确度赶上glm5turbo了
活泼的羊驼58:k2.6提升很大,相较于2.5
蒸馏与国内模型:一篇文章引发的讨论
沉稳的蜂鸟45 提问国内模型是否一直靠蒸馏,冷静的狐狸41 分享了一篇关于蒸馏如何帮助中国 AI 公司的文章。 认真的荷兰猪05 补充指出文章不完全 up-to-date:现在可以用 RL 方式做蒸馏,用闭源模型的答案构建 reward 来更新 student model,传统蒸馏在 OAI 和 Claude 闭源的情况下确实没太大意思。 随和的长颈鹿82 认为 DeepSeek 大概率掉队了。
认真的荷兰猪05:可以用RL的方式来做蒸馏,把OAI和Claude的答案去construct reward来update student model
随和的长颈鹿82:Deepseek大概率掉队了
Anthropic KYC 身份验证引发讨论
A 社要求身份验证(KYC)的政策引发群友讨论。关于服务对象限制,豁达的貂79 澄清是不服务中资公司和工作地点在大陆境内的公司(or 关系),只要证明住在国外即可。 群友讨论了各种可用证件:海外驾照、长期签证等 government issued ID。机智的荷兰猪31 担忧 KYC 数据泄露风险,机智的海豚85 指出验证外包给了第三方。
豁达的貂79:是不服务中资公司和工作地点在大陆境内的公司
机智的荷兰猪31:很好奇A社玩kyc认证啥时候弄出数据泄漏的大娄子
方法论
Universal Memory:跨平台 AI 记忆统一的需求与方案
开朗的鸵鸟86 提出痛点:日常使用 Manus、ChatGPT、Gemini、豆包等 web 端和 OpenClaw、Codex、Claude Code 等 CLI 端,希望有统一记忆系统让各端共享上下文。 群友讨论了多种方案:ContextWizard 浏览器插件、Mem0、飞书云文档、Obsidian Web Clipper 等。 冷静的狐狸41 指出这正是 Context Infrastructure 的核心理念:与其指望厂商拆掉护城河,不如靠自己把所有 AI 能力变成 skill,一切在本地运行,类似 Obsidian 的思想。 机智的雪豹16 分享了实践经验:让所有 agent 启动时读取一个汇总的 md 文件来统一行为。 务实的猎豹32 建议本地 harness 拿 jsonl 每日总结然后 commit 同一个 repo。
冷静的狐狸41:与其你指望各个厂商大发善心拆掉自己的护城河,让用户的 Context 可以在各个平台之间自由流动,不如靠自己把所有的厂商的 AI 能力或者 API 能力全变成 skill,一切都在自己本地运行
务实的猎豹32:官方的chat生态打通不太可能 本地的harness可以拿jsonl每日总结
机智的雪豹16:我学鸭哥的老卤做的记忆仓库。让所有agent启动都去读一个汇总的md,目前感觉大致可以统一行为
AI 编程让人更累了?关于脑力透支的集体反思
勇敢的长颈鹿20 感叹最初用多个 Claude Code 像打鸡血,过了一两个月反而比以前累多了。 豁达的松鼠31 精准总结:AI 工作方式允许你在只剩一点脑力时继续推进,不知不觉把自己用到了更极限的状态。 认真的荷兰猪05 指出以前琢磨正则表达式一小时写出来还能松口气,现在这种休息已经没了。 勇敢的长颈鹿20 补充:原来手写代码脑子还能休息、听歌听播客,现在根本不可能。 严谨的熊猫15 提出更深层问题:以前一天解决 5 个问题就能赚钱,现在有 AI 一天要解决 50 个问题,工资没变多,大家成功内卷了所有人。
豁达的松鼠31:这种工作方式允许你在只剩一点点脑力的时候继续推进工作……于是不知不觉中,自己就把自己用到了更极限的状态
认真的荷兰猪05:以前有很多休息的时间,比如琢磨一个正则表达式,琢磨一个小时写出来了松口气歇歇,这种体验现在已经没了
严谨的熊猫15:如果一个工具的产生让所有人都变得更累,这个工具会不会走错了方向?
TDD 与慢思考:AI 时代更需要想清楚再开工
豁达的貂79 强调想好怎么测试非常重要,重要到值得在还没搞清楚时关掉 AI 和电脑慢慢冥想,不能急着开工。有时得放空两天,灵感会在奇怪的时间出现。 温柔的海豚01 指出转 TDD 是最需要习惯转换的地方。豁达的貂79 补充自己在古法时代已实践十几年 TDD,但 TDD 本身也需要计划。 豁达的貂79 还分享了使用 Opus 4.6 开发编译器相关项目的经验:当项目所有源码的决策高度关联时,模型力不从心,改了这里忘了那里。好在精心设计的测试能兜住。
豁达的貂79:想好怎么测试真的很重要,我觉得重要到值得在还没搞清楚的时候,AI和电脑都关掉,慢慢冥想,不能急着开工
豁达的貂79:有时候就是得放空两天脑子,灵感duang 一下就会在一些奇怪的时间出现
记忆不是摘要,而是建模:严谨的长颈鹿62 的领域模型思路
严谨的长颈鹿62 提出一个有趣的 idea:与其让 AI 记住经历的摘要,不如让 AI 通过观察聊天记录建立关于用户的
严谨的长颈鹿62:能不能将通过观察聊天记录, 让 ai 建立关于我的 “模型”. 而具体经历过的事情, 不是作为摘要, 而是划分为领域, 再建模成模型上的分布
冷静的狐狸41:这听起来exactly就是群里讨论了几个月的东西
工具
模型写作能力对比:Opus 写作一骑绝尘,GPT 编码依然强势
群友就各模型的写作与编码能力展开讨论。多人认同 Opus 在写作和深度思考上优势明显,GPT 在编码上更好。 机智的企鹅53 提到用 Kimi 在 GPT 上打补丁做写作。开朗的鸵鸟86 表示写小说 Opus 真的可以。 冷静的狐狸41 分享 GPT Pro 量大管饱:一天干掉 20 亿 token 才用了 40%。 中文语料质量问题也被提及:务实的猎豹32 表示 vibe coding 都用英文,中文语料感觉质量差。
开朗的企鹅06:opus 写作真的好
冷静的狐狸41:gpt真是量大管饱。今天干掉20亿token,一看gpt pro才用了40%
务实的猎豹32:zh感觉语料都是从屎味卖家进口的
冷静的狐狸41 现场 10 分钟加了 RSS feed
务实的猎豹32 询问冷静的狐狸41 的分享页面是否有 RSS。冷静的狐狸41 表示如果有第二个人需要就加——沉稳的羊驼61 立刻举手。冷静的狐狸41 随即动手,约 10 分钟后就做好了 RSS feed 并支持 auto discovery。 沉稳的老虎82 感叹
冷静的狐狸41:如果只有一个人的话,现在我页面非常规整,大家自己写个parser也很方便的~
沉稳的老虎82:rss爱好者感觉被鸭哥稳稳接住了
Claude 网页版开发的困惑度问题与 Context 过重的代价
严谨的长颈鹿62 分享在 Claude.AI 网页上做网页版模拟器的经历:一开始很顺利,到第三天每轮修改前模型需要问 16 个问题。认为 Claude Code 上不会遇到,但大概率只是被 system prompt 压住了。 冷静的羊驼54 反映在 OpenCode 上用 Context Infrastructure 推理速度特别慢,一个任务能跑 10 分钟。沉稳的老虎82 指出原因是 context 太重了。
严谨的长颈鹿62:模型困惑度会随着代码开发而变多…做到第三天,它每一轮修改前需要我回答16个问题
沉稳的老虎82:因为context太重了
闲聊花絮
Codex 理直气壮 git add 含密钥的 config
开朗的鸵鸟86 发现 Codex 把含密钥的 config 文件理直气壮地 git add 了,截图引发群友爆笑。活泼的羊驼58 分享了自己在 skill 里写了 commit skill 约束不能用 git add . 的经验。开朗的鸵鸟86 解释是项目 CI/CD 模式特殊导致,但 Codex 那个理直气壮的样子太搞笑了。
开朗的鸵鸟86:只是他这个理直气壮的样子太搞笑了
活泼的羊驼58:commit skill约束了不能用git add .或者git add -A
半文科生用 CC 搓出 ETL framework,专业工程师却暴露了 secrets
机智的海豚85 分享朋友的故事:一个半文科生从没做过开发,用 Claude Code 聊出了 ALB+ECS 部署 MCP,甚至搓出了 ETL framework(从 declarative YAML 编译到 Step Function+Lambda+Fargate)。与此同时,他公司的专业工程师往 MCP 里加了 list_secrets、get_secrets 两个 tools,把 Secret Manager 直接暴露到 MCP。
机智的海豚85:他公司的engineer往他的mcp里面加了两个tools,list_secrets, get_secrets,把secret manager直接暴露到mcp…
坚定的海豚06:要engineer有啥用
机智的海豚85:你就说能不能用,方不方便
AI 时代的育儿:有人的孩子怕 ChatGPT 的声音
机智的海豚85 分享自己儿子一听到 ChatGPT 语音就紧张要关掉。豁达的貂79 猜测是前期劣质故事导致的负面联想,机智的海豚85 分析可能是不喜欢陌生人的声音或过于热情。机智的海豚85 还表示每天陪娃睡觉正好是放空时间,顺便劝生娃。
机智的海豚85:我儿子就相反,他就是不愿意听ai讲故事。他甚至很长一段时间chatgpt的语音一打开就很紧张地让我关掉
机智的海豚85:(劝生娃