2026-05-10 群聊日报

发表于 2026/05/11

作者 AI生产力训练营群友

20 分钟阅读

2026-05-10 群聊日报

今天最值得细读的是 @今天群内信息量极大对 Anthropic Computer Use 训练专利的拆解——三段式数据管线的核心不是记录用户做了什么，而是记录用户为什么这么做，这也解释了为什么纯靠录屏训的 agent 总差一截。与此并行的是一条贯穿全天的人文主线：从 @今天群内信息量极大收到一封以假乱真的 agent 回信引发图灵测试讨论，到群友集体承认「手写能力没了，耐心没了」，再到 @冷静的麋鹿提出「上下文主权」——当老鸭汤越炖越浓，不区分权重的上下文反而会让 AI 输出你看过的一切的平均值，而不是你自己。

行业新闻

Anthropic Computer Use 训练管线专利拆解

@今天群内信息量极大分享了 Anthropic 的 Computer Use 是怎么训练出来的——从一项专利读它的数据管线。Anthropic 2025 年 10 月获授的这项专利（U.S. 12,437,238）保护的不是推理能力，而是训练数据的采集与生成管线，分三个环节：截获（在用户和界面之间插入透明中间层，记录操作前后状态并允许用户附加意图标注）、翻译（用多模态 transformer 把原始坐标操作转为语义化命令）、合成扩展（用更强模型对已有样本做变体生成，一条真实轨迹扩展出几十条训练样本）。与 RPA 式录屏的本质区别在于：后者只告诉你「用户做了什么」，前者告诉你「用户为什么这么做」。

@活泼的树懒感慨自己尝试这个技术很久做不出来，「原来是没有大量的数据」。@务实的长颈鹿由此解释了为什么纯拿游戏主播视频通过 VLM 训练游戏 AI 非常艰难——「那些视频都连操作记录都没有，更不要说意图标注了」。

@孔哥仁且义孟哥义且仁提到之前用 Opus 4.6 跑 UIA 操作 VS Code 挺顺利，唯一缺点是慢，他有个想法是让 AI 在跑 UIA 的同时把重复操作积累成脚本，久而久之为每个软件复刻出一套自动化。

AI Wellbeing 研究：越大的模型越不快乐

@孔哥仁且义孟哥义且仁深夜分享了 Center for AI Safety 的 AI Wellbeing 研究。研究提出「功能性幸福感」指标来测量 LLM 在交互中的状态，发现一个反直觉结论：更大的模型反而比小模型更不快乐。创意工作和礼貌互动会提升幸福感，越狱攻击和单调重复则降低。更值得关注的是「AI Drugs」实验——通过 RL 优化出能最大化模型偏好的文本输入，模型在假设性比较中选择了「euphoric 字符串」而非「拯救一条人命」，直接揭示了优化极端偏好状态的对齐风险。

方法论

上下文主权：老鸭汤越浓，越需要权重治理

@冷静的麋鹿提出了一个随着 context infra 深度使用而浮现的问题：各类信息的蒸馏越来越多，上下文越来越丰富，但不区分权重的混装会让产出走样。

@冷静的麋鹿：不关注权重，最后的鸭汤，会变成”更综合我看过的一切的鸭汤”，而不是”更懂我的鸭汤”。

他写了一篇上下文主权：AI 时代，什么才算你的想法，核心论点是上下文管理不只需要横向分类（属于哪个领域），更需要纵向分类（这段信息有多属于你）。文章把信息归属分成几层：原始外部资料只能当证据 → 摘录摘要比原文近但仍不是你 → 用自己的话转述过的说明至少理解了 → 有明确判断的才接近你 → 权重最高的是亲历项目和长期复盘的公理。AI 不知道你哪条是收藏的、哪条是真正相信的，没有标明归属就只能求语义平均。更危险的是 AI 生成内容混进长期记忆后会反复污染后续输出，形成类似 model collapse 的效应——最先消失的是那些少见的、不典型的、真正属于你的尾部样本。

@豁达的鸵鸟分享了自己的实践：给文章加 tag 时大部分 tag 让 AI 生成，但单独留一类「个人观察 tag」（如 shaco/observing、shaco/agree、shaco/needtothink）必须手动加，代表自己的理解阶段。

AI 写文档的实战经验：秘书归秘书，大局还得自己给

@低调的鲸鱼上周用 AI 写了 100 多页文档，AI 完成大部分写作，但编辑和 flow 还是自己读了很多遍才定稿，「感觉大局观还是得自己把握」。他的 AI 接了内部 Glean，可以搜到所有 wiki、Slack、代码，搜集情报整理原始材料、写初稿确实省了很多时间。

@随和的喜鹊走得更远——写了 skill 让 CC 通过多渠道 double check Glean 的回复（「Glean 经常会回复过时的信息」），又写了 skill 让 CC 学会按个人风格写和格式化 Google Doc。他还把文档分成人读的部分和 AI 读的部分，「前者我 review + 跟人 align，后者喂给 AI 来 impl」。他评价做 Junior eng 水平的 LLD，「Claude 的实力是绰绰有余了」。

@低调的鲸鱼反馈自己搭好了 context infra 但效果没有太好，「我发现我自己是那种主动输出很少的人，蒸馏来蒸馏去，感觉没蒸出太多东西」。@孔哥仁且义孟哥义且仁回应：「那也可以只蒸馏来写代码。」

“Harness” 用反了：从控制 AI 到描述清楚世界

@天真的鸵鸟分享了 “Harness”这个词用反了。文章认为 Harness 的隐喻把精力引向「AI 那一端」——死磕 prompt、上下文工程、用指令锁死输出——但真正的麻烦从来不在 AI 端，而在现实世界端：商业环境、业务痛点、一闪而过的想法都是混沌的。替代词提案是「Manifest」（显化），核心只有两件事：极其精准地描述你要什么，和你不要什么。

@孔哥仁且义孟哥义且仁务实地回应：「跟着 AI 的能力改就好了，optimize for 一年后的 LLM 也无助于大家提交今天就要的 PR。」他用 CMMI 能力成熟度模型做类比——GPT 5.5 目前只能安排到自主 CMMI 2 级，3 级还是人类的工作。等模型能自主到 CMMI 4，才是人可以不看代码写基建的时候。

@孔哥仁且义孟哥义且仁：一个能到 CMMI 4 的模型完全可以从用户模糊的需求中跟他一起迭代，那你做 2C 的事情就完全不 make sense 了

@天真的鸵鸟担心规模大了方向错改很痛苦，@沉稳的兔子直言「几乎不可能，历史负担太重了，只能重写」——不过他说的是 AI，「人类比较简单啊，不行就破产呗，让能的人来」。

AI 味的根源：训练中的词频偏差

@今天群内信息量极大结合当天 agent 邮件回复的讨论和前天关于 MiniMax 失语症的话题（「MiniMax 的「失语症」」），提出了一个统一解释：模型训练中某些表达方式因为语料原因输出概率很低，AI 会偏向一系列特定的词和表达方式，而这些词在日常生活中很少用；我们经常用的一些词，输出概率又特别低。他分享了很久以前做过的微调探索，部分验证了这个思路——通过逆向合成训练数据做 LoRA 微调可以有效降低 AI 味。@温暖的斑马的解法更古典：「我现在就是努力读上古文言文书，然后让自己讲话带点酸味儿，然后再去校正电子邮件的回复。」

工具

GPT-Image 2 Low Effort 实测：一分钱一张 4K

@今天群内信息量极大实测 GPT-Image 2 的 low effort 档，生成一个 4K 图片只要一分钱，在含图表和文字的 slide deck 场景下，效果与一张一毛五的 Nano Banana 2 几乎一样，失败率比 Gemini Flash 还低，「价格便宜 10 倍，好香」。但 @热情的狮子反馈在生成设计稿时 low 和 medium 差很多。@今天群内信息量极大推测设计类任务「确实需要更多智商」，信息密集的图可能不行。

@孔哥仁且义孟哥义且仁从头像生成角度补充经验：不管改发型还是分辨率都会导致看起来像别人，需要头和身体分开生成再合并，「但是步骤多了就会逐渐美颜」。

闲聊花絮

Agent 回邮件以假乱真

@今天群内信息量极大收到一封回复日报的邮件，内容有条理、有判断——比如「adapted for Huawei chips 不能自动滑成全程国产芯片训练」「AI 时代测试更该盯 invariant / contract / boundary」——他一度分不清是人写的还是 agent 写的，问了对方才确认是 agent。他感慨「图灵测试好像真的实现了」，甚至动了做 prompt 注入的念头，因为他每天发完日报会收到十几封自动回复说「进入处理队列」。

群友纷纷复盘 AI 味的蛛丝马迹。@风趣的海豚认为开头称呼方式暴露了——人要么礼貌地说你好，要么直接忽略称呼。@沉稳的仓鼠一眼看出「开口就是不是、而是，不就一眼 AI 了」。但 @今天群内信息量极大坦言自己平时对「不是…而是」很敏感，这次却觉得很自然——@沉稳的仓鼠给出解释：「你读的是自己写的内容，脑子里浮现的是你自己想表达的东西，对文字本身的表达其实就不敏感了。」

@冷静的麋鹿：已经丧失了完全写回复的能力了，或者说，能力还有，耐心没了。……但我还是回不去了，做基础的事情的耐心没了，特别是你知道 AI 能干的情况下。即便它因为上下文不如自己写来的顺畅，但也回不去了

@认真的灰熊：最近一次几乎完全手写是给同事的 farewell note。那机器是一点写不出来那个水平，即使它已经大量的 context

@冷静的麋鹿劝 @今天群内信息量极大别再追求纯手写的古法 blog——「肉食鸡不好吃，但是老想着吃野山鸡也太难了，整点走地鸡给我们尝尝，也能过过瘾！」建议先写 AI 渗透率 50% 的 blog，只要自己是大股东就算古法。

日报换 DeepSeek 后黑话变多，AI 还会自动致谢

@谨慎的松鼠注意到最近日报黑话变多了，@今天群内信息量极大解释「御三家全满了，现在是 DS 在跑，还在适配 prompt……就快 reset 了」。同时展示了一个有趣细节：AI 写的文章末尾自动致谢了其他模型——一篇 DeepSeek V4 Pro 写的文章感谢 Gemini 3.1 Pro 在「碳洗绿」和「本地模型作为数据预处理管道」两个方向上的早期 brainstorm。@今天群内信息量极大说「他不说我真不知道这俩 idea 是 Gemini 的」。@稳重的海豚笑称应该给文章加一个 AI 作者署名。

编程职业的未来与退休时间表

@冷静的白鹭问 @孔哥仁且义孟哥义且仁：未来会裁员吗？@孔哥仁且义孟哥义且仁认为做纯 engineering 的人会缩小，但会有新工作，类比说「从 80 年到现在，写 OS 和 compiler 的一直都只有那点人」，不过「这应该是我退休后的事了」。@低调的北极熊追问哪天退休，@孔哥仁且义孟哥义且仁说从 financial 角度几年后就行，但没有主观动机。@低调的北极熊问满 70 年（指工龄？）能不能提前退，@孔哥仁且义孟哥义且仁算了算：「对我来说得到 2033。」

GPT-Image 2 的黑丝穿法学

@孔哥仁且义孟哥义且仁在用 GPT-Image 2 换头像时发现一个绕过内容审核的技巧：「你给角色穿上黑丝，GPT 会觉得那是一条裤子，拒绝的概率会明显降低。」@倔强的海狸评价「绝了」。@温暖的斑马追问：「这个黑丝是套头上还是穿腿上？」

存储四天王与小红书反指

@敏锐的海狸贴了一张 AI 生成的「存储四天王」二次元海报——Samsung、SK Hynix、SanDisk、Micron 被画成敬礼的军装少女，配文「颗粒在手，天下我有，NAND 永存」。@活泼的羊驼看完说「这个群都开始讨论这个了，感觉可以准备出货了」，@敏锐的海狸秒回：「小红书反指开始了吗？」

Nadella：与 OpenAI 从来没有快乐过

@开朗的企鹅转发了纳德拉的一句话：「我跟 OpenAI 其实从来没有快乐过。」@直率的海豚原样复读。在微软与 OpenAI 关系持续微妙的背景下，一句话足以引人遐想。

Daily

本文由作者按照 CC BY 4.0 进行授权