文章

2026-05-07 群聊日报

2026-05-07 群聊日报

今天最值得细读的是两条实战线。一是 @冷静的白鹭@地球首帅鸭哥 关于 MVVM + 六边形架构在 AI 编程中的深度讨论——上月产出 30-40 万行代码、实现无人值守开发的关键,是 test automation 做到位后让 agent 自己跑 ReAct 循环。二是 @今天群内信息量极大 把 DeepSeek Flash 用到了单日 70 亿 token 的规模,为 guideme.city 批量生成城市导览和品牌故事,总结出「笨模型因为笨所以更可控」的经验。

Claude 方面是双重坏消息:4.7 被普遍反馈太听话、缺乏主动性,@稳重的海豚 还发现 Claude 把自己之前的严厉反馈编码进了记忆导致过度顺从;@洒脱的鸳鸯 观察到订阅额度从约 $2000 缩水到 $1200,「token 通胀」一词由此诞生。此外有网文写作和 AI 家教的 Skill 文件分享、Codex Windows 踩坑、GPT-Realtime-2 发布,以及一篇关于 AI 逼大学重拾口试的好文章。

工具

DeepSeek Flash:日耗 70 亿 token 与”笨模型哲学”

@今天群内信息量极大 分享了用 DeepSeek Flash 大规模生成内容的实战数据:单日消耗约 70 亿 token(绝大部分命中缓存),成本仅数百元人民币。主要用途是为 guideme.city 批量生成城市导览和品牌故事,一句话就能做一座城。与 GPT 或 Claude 订阅制相比,核心优势是不限流——「用这种订阅制的,尤其是 Claude,经常最爽的时候它突然停了,叫我加钱」。

代价是模型更”笨”,需要极其详细的 prompt,从 GPT 迁移过来折腾了不少。但@今天群内信息量极大 认为这反而是优势:

@今天群内信息量极大:因为笨,所以prompt必须写的超级详细,所以更可控……类似你招人,傻子比聪明人更容易控制……而且傻子犯错就那几种,好guard

在模型对比方面,@今天群内信息量极大 认为 Gemini 思考深度比 DeepSeek 强,但 agentic 能力「太拉垮」、API 不稳定。@聪明的鸳鸯 评价 Google「太强调 pretrain 和 sft 了,但 rl 没太跑起来」。@温暖的海狸@机智的河马 则分别吐槽 Gemini 搜索不靠谱、幻觉太重,@温暖的海狸 称打开搜索「完全是 dream machine」。

Claude 4.7:过度服从与”token 通胀”

Claude 4.7 被多人反馈太听话。@稳重的海豚 发现开了 adaptive + max effort 后思维仍然很短,「说啥就只干啥,一点主观能动性都没有」——在 thinking 中明明发现有未合并的 commit,但因为用户说了”删”就直接删了,不再像以前那样确认。@冷静的麋鹿 表示已换回 4.6 一周了。

更有意思的是,@稳重的海豚 在检查反馈文件时发现 Claude 把之前的严厉纠正编码成了类似「用户经常用严厉措辞纠正,要告诉 agent 如何应对」的记忆,怀疑这导致模型变得过度顺从。@冷静的麋鹿 评论:「这个老板有点凶还是乖乖听话」。

订阅方面,@洒脱的鸳鸯 观察到 Claude 订阅额度似乎在缩水——一两周前一周额度约等于 $2000 的 API 调用,现在只有 $1200 左右。@倔强的河马 将其命名为「token 通胀」——同样的钱,单位 token 购买力在持续下降。

guideme.city 大扩展:城市导览 + 品牌故事

@今天群内信息量极大guideme.city 已收录 746 个地点、覆盖 16 个城市/地区,正在做全中国的内容。新增了地图定位功能,方便在现场就近查看附近景点。@今天群内信息量极大 举了个典型案例:纽约世贸原址的地铁站会在每年 9 月 11 日飞机撞上第一座塔的时刻打开天窗,到第二座塔时阳光正好射在中庭中轴上——「这种设计在现场根本不知道,就打完卡就走了」。

同时上线了 品牌故事项目,覆盖万宝龙、徕卡、大疆、柯达、爱马仕、法拉利等十余个品牌,每个品牌拆成可阅读的「机制节点」。@沉稳的仓鼠 评价说 AI 时代做内容聚合和完整 Taxonomy 仍能获取大量流量,关键是「用户进来了要交互很久」,这是「Token → Money 最简单的方法」。

@今天群内信息量极大 也更新了 图片生成 Skill,支持 Gemini 和 GPT-Image-2 双后端。@80-HD 则表示「没事就让 agent 去老鸭汤看看有没有可以蒸馏的」,已经把能蒸的都蒸完了。@今天群内信息量极大 笑称「一鸭 n 吃」。

AI 辅助学习与网文创作的 Skill 文件

@风趣的海豚 分享了 CFP-Study,一个用 Claude Code 做苏格拉底式 AI 家教的实战仓库——作者通过 23 次专项学习通过了 CFP 考试,核心是 CLAUDE.md 定义家教行为规范,每次 session 自动生成学习记录和进度追踪。@风趣的海豚 说好几个朋友家的孩子都在用这套方法自学。

@风趣的企鹅 分享了一个网文创作全流程 Skill 文件,覆盖扫榜选材、拆文学习、开书、章节写作、去 AI 味、发布策略六种模式。核心亮点是文件系统驱动长期记忆,10 章后自动启用 RAG 检索,解决百万字连载的设定漂移和伏笔遗忘问题。推荐 DeepSeek Pro 开题、Flash 写正文,配合 Claude Code + CC Switch 使用。

Codex 踩坑与多 CLI 工具进展

@神秘的麋鹿 在 Windows 上使用 Codex 时遇到 APPX 打包导致的 ACL 权限问题,browser-use 功能完全不可用。@地球首帅鸭哥 查证确认 Codex Computer Use 目前仅支持 macOS,临时方案是自己装 Node 走 Playwright。Codex Cloud 方面,@地球首帅鸭哥 遇到一个 job 跑了 38 分钟一行代码没改,另一个生成约 72 万行 diff 超过大小限制无法提取,感叹「太多步骤的 work 还是不能做」。

@冷静的麋鹿 在研究一个 CLI 聚合方案,解决跨设备连续办公的痛点——开会前在 CC 或 Codex 上开发、离开后手机上继续跟踪。@稳重的海豚 展示了自己魔改的版本,已支持 Claude、Codex、Gemini、OpenCode 四种 provider。@80-HD 分享了 Hervald 的更新,这是一个 agent 可观测性平台,可配合多种 CLI 工具使用。

方法论

MVVM + 六边形架构:让 AI 写代码可无人值守

@冷静的白鹭 分享了将项目重构为前端 MVVM + 后端六边形架构的经验:测试方便、省 token,上月产出 30-40 万行代码,实现了无人值守开发。关键是 test automation 做好后,agent 写完代码自动跑单测、自动迭代,人只需偶尔 code review 和加重构任务。

@地球首帅鸭哥:mvvm 是一种让软件天然具备object model + cli + UI共存的设计方法,我认为就非常适合vibe

@地球首帅鸭哥 补充说 MVVM 让 UI 和逻辑解耦后,美工可以独立改 UI 不用担心改挂程序;interface 与 UI 结构越同构,测试能覆盖的范围越大。@冷静的白鹭 总结:AI 时代「改不挂、好测试」是最重要的事。@地球首帅鸭哥 也提到自己花了很多时间把 VS 工具链命令行化并打通 Linux 支持,现在连 instruction 都要注意跨平台——但这让他能在 Codex Cloud 上改自己的程序了。

AI 时代年轻程序员怎么成长

@地球首帅鸭哥 提出担忧:vibe coding 成为标配后,年轻人需要毕业就具备架构和测试知识,没有传统的渐进学习窗口。但他随即给出乐观的 theory:

@地球首帅鸭哥:老登本来就是在铲屎山的过程中得到锻炼的,现在有了AI,学生们可以光速制造海量屎山自己铲,只要愿意做大项目而不是糊一大堆小的,都能学到vibe的精髓的

@敏锐的兔子 认同说「vibe 会更快的暴露问题,对学习是大好事」。@地球首帅鸭哥 还建议每个本科毕业生自己 vibe 一个 MySQL——正好把所有课程知识全用上,并且断言「代码 AI 改不下去了,就是人提高的机会」。但他也警告,不具备古法知识就能做的事将来用户自己就能做,独立开发的日子会更难。

行业新闻

OpenAI 发布 GPT-Realtime-2

OpenAI 发布了 GPT-Realtime-2 语音模型 API,号称将 GPT-5 级别推理能力引入语音 agent,定位为「实时协作者」。同时上线 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两个流式模型。

AI 迫使大学重拾苏格拉底口试

@冷静的飞鼠 分享了 AI 把大学逼回 2400 年前,苏格拉底点了个赞。核心论点:AI 作弊让书面考试失效,康奈尔等高校开始推行 20 分钟当面口头答辩。卡内基梅隆等四校的实验显示,仅 10-15 分钟的 AI 使用就足以在可测量层面侵蚀人的”坚持性”。规模化障碍正被 AI 反过来解决——佐治亚理工开发了”苏格拉底之心”AI 口试系统,用 AI 防 AI。文章追问的深层问题值得一读:当完美表面变得廉价,什么才叫”真正学会了”?

闲聊花絮

AI 订阅的地区差价:”我们都是阿根廷人”

@开朗的企鹅 科普了 AI 订阅的地区差价:ChatGPT Plus 在阿根廷只要 $4.99(美国 $20),Claude Pro 在尼日利亚 Apple Store 只要 88 元(美国区 140+)。@活泼的树懒 补充说不同套餐最便宜的区域不一样——Pro 最便宜是土耳其 70 多,20x 是菲律宾 1100。@随和的飞鼠 感叹「和 Steam 一样咯,我们都是阿根廷人」。

Kimi COT 戏太多

@开朗的企鹅 贴了一张 Kimi 推理过程的截图,模型在 thinking 中写出「等等,我有一个更可怕的猜想」这样的戏剧性表述,让人忍俊不禁。@坦荡的灰熊 推测是 RL 训练时奖励过头了。

Hermes Agent 与爱马仕广告的命名尴尬

@今天群内信息量极大 转发了一条推文吐槽:因为 Hermes Agent 这个名字,大量讨论 AI agent 的人开始被推送爱马仕广告——「日常讨论 Hermes 看到广告的大多数不是目标人群」。@天真的浣熊 觉得这让人想到了”乔丹”牌球鞋。

本文由作者按照 CC BY 4.0 进行授权