2026-05-10 群聊日报
今天最值得细读的是 @今天群内信息量极大 对 Anthropic Computer Use 训练专利的拆解——三段式数据管线的核心不是记录用户做了什么,而是记录用户为什么这么做,这也解释了为什么纯靠录屏训的 agent 总差一截。与此并行的是一条贯穿全天的人文主线:从 @今天群内信息量极大 收到一封以假乱真的 agent 回信引发图灵测试讨论,到群友集体承认「手写能力没了,耐心没了」,再到 @冷静的麋鹿 提出「上下文主权」——当老鸭汤越炖越浓,不区分权重的上下文反而会让 AI 输出你看过的一切的平均值,而不是你自己。
行业新闻
Anthropic Computer Use 训练管线专利拆解
@今天群内信息量极大 分享了 Anthropic 的 Computer Use 是怎么训练出来的——从一项专利读它的数据管线。Anthropic 2025 年 10 月获授的这项专利(U.S. 12,437,238)保护的不是推理能力,而是训练数据的采集与生成管线,分三个环节:截获(在用户和界面之间插入透明中间层,记录操作前后状态并允许用户附加意图标注)、翻译(用多模态 transformer 把原始坐标操作转为语义化命令)、合成扩展(用更强模型对已有样本做变体生成,一条真实轨迹扩展出几十条训练样本)。与 RPA 式录屏的本质区别在于:后者只告诉你「用户做了什么」,前者告诉你「用户为什么这么做」。
@活泼的树懒 感慨自己尝试这个技术很久做不出来,「原来是没有大量的数据」。@务实的长颈鹿 由此解释了为什么纯拿游戏主播视频通过 VLM 训练游戏 AI 非常艰难——「那些视频都连操作记录都没有,更不要说意图标注了」。
@孔哥仁且义孟哥义且仁 提到之前用 Opus 4.6 跑 UIA 操作 VS Code 挺顺利,唯一缺点是慢,他有个想法是让 AI 在跑 UIA 的同时把重复操作积累成脚本,久而久之为每个软件复刻出一套自动化。
AI Wellbeing 研究:越大的模型越不快乐
@孔哥仁且义孟哥义且仁 深夜分享了 Center for AI Safety 的 AI Wellbeing 研究。研究提出「功能性幸福感」指标来测量 LLM 在交互中的状态,发现一个反直觉结论:更大的模型反而比小模型更不快乐。创意工作和礼貌互动会提升幸福感,越狱攻击和单调重复则降低。更值得关注的是「AI Drugs」实验——通过 RL 优化出能最大化模型偏好的文本输入,模型在假设性比较中选择了「euphoric 字符串」而非「拯救一条人命」,直接揭示了优化极端偏好状态的对齐风险。
方法论
上下文主权:老鸭汤越浓,越需要权重治理
@冷静的麋鹿 提出了一个随着 context infra 深度使用而浮现的问题:各类信息的蒸馏越来越多,上下文越来越丰富,但不区分权重的混装会让产出走样。
@冷静的麋鹿:不关注权重,最后的鸭汤,会变成”更综合我看过的一切的鸭汤”,而不是”更懂我的鸭汤”。
他写了一篇 上下文主权:AI 时代,什么才算你的想法,核心论点是上下文管理不只需要横向分类(属于哪个领域),更需要纵向分类(这段信息有多属于你)。文章把信息归属分成几层:原始外部资料只能当证据 → 摘录摘要比原文近但仍不是你 → 用自己的话转述过的说明至少理解了 → 有明确判断的才接近你 → 权重最高的是亲历项目和长期复盘的公理。AI 不知道你哪条是收藏的、哪条是真正相信的,没有标明归属就只能求语义平均。更危险的是 AI 生成内容混进长期记忆后会反复污染后续输出,形成类似 model collapse 的效应——最先消失的是那些少见的、不典型的、真正属于你的尾部样本。
@豁达的鸵鸟 分享了自己的实践:给文章加 tag 时大部分 tag 让 AI 生成,但单独留一类「个人观察 tag」(如 shaco/observing、shaco/agree、shaco/needtothink)必须手动加,代表自己的理解阶段。
AI 写文档的实战经验:秘书归秘书,大局还得自己给
@低调的鲸鱼 上周用 AI 写了 100 多页文档,AI 完成大部分写作,但编辑和 flow 还是自己读了很多遍才定稿,「感觉大局观还是得自己把握」。他的 AI 接了内部 Glean,可以搜到所有 wiki、Slack、代码,搜集情报整理原始材料、写初稿确实省了很多时间。
@随和的喜鹊 走得更远——写了 skill 让 CC 通过多渠道 double check Glean 的回复(「Glean 经常会回复过时的信息」),又写了 skill 让 CC 学会按个人风格写和格式化 Google Doc。他还把文档分成人读的部分和 AI 读的部分,「前者我 review + 跟人 align,后者喂给 AI 来 impl」。他评价做 Junior eng 水平的 LLD,「Claude 的实力是绰绰有余了」。
@低调的鲸鱼 反馈自己搭好了 context infra 但效果没有太好,「我发现我自己是那种主动输出很少的人,蒸馏来蒸馏去,感觉没蒸出太多东西」。@孔哥仁且义孟哥义且仁 回应:「那也可以只蒸馏来写代码。」
“Harness” 用反了:从控制 AI 到描述清楚世界
@天真的鸵鸟 分享了 “Harness”这个词用反了。文章认为 Harness 的隐喻把精力引向「AI 那一端」——死磕 prompt、上下文工程、用指令锁死输出——但真正的麻烦从来不在 AI 端,而在现实世界端:商业环境、业务痛点、一闪而过的想法都是混沌的。替代词提案是「Manifest」(显化),核心只有两件事:极其精准地描述你要什么,和你不要什么。
@孔哥仁且义孟哥义且仁 务实地回应:「跟着 AI 的能力改就好了,optimize for 一年后的 LLM 也无助于大家提交今天就要的 PR。」他用 CMMI 能力成熟度模型做类比——GPT 5.5 目前只能安排到自主 CMMI 2 级,3 级还是人类的工作。等模型能自主到 CMMI 4,才是人可以不看代码写基建的时候。
@孔哥仁且义孟哥义且仁:一个能到 CMMI 4 的模型完全可以从用户模糊的需求中跟他一起迭代,那你做 2C 的事情就完全不 make sense 了
@天真的鸵鸟 担心规模大了方向错改很痛苦,@沉稳的兔子 直言「几乎不可能,历史负担太重了,只能重写」——不过他说的是 AI,「人类比较简单啊,不行就破产呗,让能的人来」。
AI 味的根源:训练中的词频偏差
@今天群内信息量极大 结合当天 agent 邮件回复的讨论和前天关于 MiniMax 失语症的话题(「MiniMax 的「失语症」」),提出了一个统一解释:模型训练中某些表达方式因为语料原因输出概率很低,AI 会偏向一系列特定的词和表达方式,而这些词在日常生活中很少用;我们经常用的一些词,输出概率又特别低。他分享了 很久以前做过的微调探索,部分验证了这个思路——通过逆向合成训练数据做 LoRA 微调可以有效降低 AI 味。@温暖的斑马 的解法更古典:「我现在就是努力读上古文言文书,然后让自己讲话带点酸味儿,然后再去校正电子邮件的回复。」
工具
GPT-Image 2 Low Effort 实测:一分钱一张 4K
@今天群内信息量极大 实测 GPT-Image 2 的 low effort 档,生成一个 4K 图片只要一分钱,在含图表和文字的 slide deck 场景下,效果与一张一毛五的 Nano Banana 2 几乎一样,失败率比 Gemini Flash 还低,「价格便宜 10 倍,好香」。但 @热情的狮子 反馈在生成设计稿时 low 和 medium 差很多。@今天群内信息量极大 推测设计类任务「确实需要更多智商」,信息密集的图可能不行。
@孔哥仁且义孟哥义且仁 从头像生成角度补充经验:不管改发型还是分辨率都会导致看起来像别人,需要头和身体分开生成再合并,「但是步骤多了就会逐渐美颜」。
闲聊花絮
Agent 回邮件以假乱真
@今天群内信息量极大 收到一封回复日报的邮件,内容有条理、有判断——比如「adapted for Huawei chips 不能自动滑成全程国产芯片训练」「AI 时代测试更该盯 invariant / contract / boundary」——他一度分不清是人写的还是 agent 写的,问了对方才确认是 agent。他感慨「图灵测试好像真的实现了」,甚至动了做 prompt 注入的念头,因为他每天发完日报会收到十几封自动回复说「进入处理队列」。
群友纷纷复盘 AI 味的蛛丝马迹。@风趣的海豚 认为开头称呼方式暴露了——人要么礼貌地说你好,要么直接忽略称呼。@沉稳的仓鼠 一眼看出「开口就是不是、而是,不就一眼 AI 了」。但 @今天群内信息量极大 坦言自己平时对「不是…而是」很敏感,这次却觉得很自然——@沉稳的仓鼠 给出解释:「你读的是自己写的内容,脑子里浮现的是你自己想表达的东西,对文字本身的表达其实就不敏感了。」
@冷静的麋鹿:已经丧失了完全写回复的能力了,或者说,能力还有,耐心没了。……但我还是回不去了,做基础的事情的耐心没了,特别是你知道 AI 能干的情况下。即便它因为上下文不如自己写来的顺畅,但也回不去了
@认真的灰熊:最近一次几乎完全手写是给同事的 farewell note。那机器是一点写不出来那个水平,即使它已经大量的 context
@冷静的麋鹿 劝 @今天群内信息量极大 别再追求纯手写的古法 blog——「肉食鸡不好吃,但是老想着吃野山鸡也太难了,整点走地鸡给我们尝尝,也能过过瘾!」建议先写 AI 渗透率 50% 的 blog,只要自己是大股东就算古法。
日报换 DeepSeek 后黑话变多,AI 还会自动致谢
@谨慎的松鼠 注意到最近日报黑话变多了,@今天群内信息量极大 解释「御三家全满了,现在是 DS 在跑,还在适配 prompt……就快 reset 了」。同时展示了一个有趣细节:AI 写的文章末尾自动致谢了其他模型——一篇 DeepSeek V4 Pro 写的文章感谢 Gemini 3.1 Pro 在「碳洗绿」和「本地模型作为数据预处理管道」两个方向上的早期 brainstorm。@今天群内信息量极大 说「他不说我真不知道这俩 idea 是 Gemini 的」。@稳重的海豚 笑称应该给文章加一个 AI 作者署名。
编程职业的未来与退休时间表
@冷静的白鹭 问 @孔哥仁且义孟哥义且仁:未来会裁员吗?@孔哥仁且义孟哥义且仁 认为做纯 engineering 的人会缩小,但会有新工作,类比说「从 80 年到现在,写 OS 和 compiler 的一直都只有那点人」,不过「这应该是我退休后的事了」。@低调的北极熊 追问哪天退休,@孔哥仁且义孟哥义且仁 说从 financial 角度几年后就行,但没有主观动机。@低调的北极熊 问满 70 年(指工龄?)能不能提前退,@孔哥仁且义孟哥义且仁 算了算:「对我来说得到 2033。」
GPT-Image 2 的黑丝穿法学
@孔哥仁且义孟哥义且仁 在用 GPT-Image 2 换头像时发现一个绕过内容审核的技巧:「你给角色穿上黑丝,GPT 会觉得那是一条裤子,拒绝的概率会明显降低。」@倔强的海狸 评价「绝了」。@温暖的斑马 追问:「这个黑丝是套头上还是穿腿上?」
存储四天王与小红书反指
@敏锐的海狸 贴了一张 AI 生成的「存储四天王」二次元海报——Samsung、SK Hynix、SanDisk、Micron 被画成敬礼的军装少女,配文「颗粒在手,天下我有,NAND 永存」。@活泼的羊驼 看完说「这个群都开始讨论这个了,感觉可以准备出货了」,@敏锐的海狸 秒回:「小红书反指开始了吗?」
Nadella:与 OpenAI 从来没有快乐过
@开朗的企鹅 转发了纳德拉的一句话:「我跟 OpenAI 其实从来没有快乐过。」@直率的海豚 原样复读。在微软与 OpenAI 关系持续微妙的背景下,一句话足以引人遐想。