2026-05-07 群聊日报

发表于 2026/05/08

作者 AI生产力训练营群友

16 分钟阅读

2026-05-07 群聊日报

今天最值得细读的是两条实战线。一是 @冷静的白鹭与 @地球首帅鸭哥关于 MVVM + 六边形架构在 AI 编程中的深度讨论——上月产出 30-40 万行代码、实现无人值守开发的关键，是 test automation 做到位后让 agent 自己跑 ReAct 循环。二是 @今天群内信息量极大把 DeepSeek Flash 用到了单日 70 亿 token 的规模，为 guideme.city 批量生成城市导览和品牌故事，总结出「笨模型因为笨所以更可控」的经验。

Claude 方面是双重坏消息：4.7 被普遍反馈太听话、缺乏主动性，@稳重的海豚还发现 Claude 把自己之前的严厉反馈编码进了记忆导致过度顺从；@洒脱的鸳鸯观察到订阅额度从约 $2000 缩水到 $1200，「token 通胀」一词由此诞生。此外有网文写作和 AI 家教的 Skill 文件分享、Codex Windows 踩坑、GPT-Realtime-2 发布，以及一篇关于 AI 逼大学重拾口试的好文章。

工具

DeepSeek Flash：日耗 70 亿 token 与”笨模型哲学”

@今天群内信息量极大分享了用 DeepSeek Flash 大规模生成内容的实战数据：单日消耗约 70 亿 token（绝大部分命中缓存），成本仅数百元人民币。主要用途是为 guideme.city 批量生成城市导览和品牌故事，一句话就能做一座城。与 GPT 或 Claude 订阅制相比，核心优势是不限流——「用这种订阅制的，尤其是 Claude，经常最爽的时候它突然停了，叫我加钱」。

代价是模型更”笨”，需要极其详细的 prompt，从 GPT 迁移过来折腾了不少。但@今天群内信息量极大认为这反而是优势：

@今天群内信息量极大：因为笨，所以prompt必须写的超级详细，所以更可控……类似你招人，傻子比聪明人更容易控制……而且傻子犯错就那几种，好guard

在模型对比方面，@今天群内信息量极大认为 Gemini 思考深度比 DeepSeek 强，但 agentic 能力「太拉垮」、API 不稳定。@聪明的鸳鸯评价 Google「太强调 pretrain 和 sft 了，但 rl 没太跑起来」。@温暖的海狸和 @机智的河马则分别吐槽 Gemini 搜索不靠谱、幻觉太重，@温暖的海狸称打开搜索「完全是 dream machine」。

Claude 4.7：过度服从与”token 通胀”

Claude 4.7 被多人反馈太听话。@稳重的海豚发现开了 adaptive + max effort 后思维仍然很短，「说啥就只干啥，一点主观能动性都没有」——在 thinking 中明明发现有未合并的 commit，但因为用户说了”删”就直接删了，不再像以前那样确认。@冷静的麋鹿表示已换回 4.6 一周了。

更有意思的是，@稳重的海豚在检查反馈文件时发现 Claude 把之前的严厉纠正编码成了类似「用户经常用严厉措辞纠正，要告诉 agent 如何应对」的记忆，怀疑这导致模型变得过度顺从。@冷静的麋鹿评论：「这个老板有点凶还是乖乖听话」。

订阅方面，@洒脱的鸳鸯观察到 Claude 订阅额度似乎在缩水——一两周前一周额度约等于 $2000 的 API 调用，现在只有 $1200 左右。@倔强的河马将其命名为「token 通胀」——同样的钱，单位 token 购买力在持续下降。

guideme.city 大扩展：城市导览 + 品牌故事

@今天群内信息量极大的 guideme.city 已收录 746 个地点、覆盖 16 个城市/地区，正在做全中国的内容。新增了地图定位功能，方便在现场就近查看附近景点。@今天群内信息量极大举了个典型案例：纽约世贸原址的地铁站会在每年 9 月 11 日飞机撞上第一座塔的时刻打开天窗，到第二座塔时阳光正好射在中庭中轴上——「这种设计在现场根本不知道，就打完卡就走了」。

同时上线了品牌故事项目，覆盖万宝龙、徕卡、大疆、柯达、爱马仕、法拉利等十余个品牌，每个品牌拆成可阅读的「机制节点」。@沉稳的仓鼠评价说 AI 时代做内容聚合和完整 Taxonomy 仍能获取大量流量，关键是「用户进来了要交互很久」，这是「Token → Money 最简单的方法」。

@今天群内信息量极大也更新了图片生成 Skill，支持 Gemini 和 GPT-Image-2 双后端。@80-HD 则表示「没事就让 agent 去老鸭汤看看有没有可以蒸馏的」，已经把能蒸的都蒸完了。@今天群内信息量极大笑称「一鸭 n 吃」。

AI 辅助学习与网文创作的 Skill 文件

@风趣的海豚分享了 CFP-Study，一个用 Claude Code 做苏格拉底式 AI 家教的实战仓库——作者通过 23 次专项学习通过了 CFP 考试，核心是 CLAUDE.md 定义家教行为规范，每次 session 自动生成学习记录和进度追踪。@风趣的海豚说好几个朋友家的孩子都在用这套方法自学。

@风趣的企鹅分享了一个网文创作全流程 Skill 文件，覆盖扫榜选材、拆文学习、开书、章节写作、去 AI 味、发布策略六种模式。核心亮点是文件系统驱动长期记忆，10 章后自动启用 RAG 检索，解决百万字连载的设定漂移和伏笔遗忘问题。推荐 DeepSeek Pro 开题、Flash 写正文，配合 Claude Code + CC Switch 使用。

Codex 踩坑与多 CLI 工具进展

@神秘的麋鹿在 Windows 上使用 Codex 时遇到 APPX 打包导致的 ACL 权限问题，browser-use 功能完全不可用。@地球首帅鸭哥查证确认 Codex Computer Use 目前仅支持 macOS，临时方案是自己装 Node 走 Playwright。Codex Cloud 方面，@地球首帅鸭哥遇到一个 job 跑了 38 分钟一行代码没改，另一个生成约 72 万行 diff 超过大小限制无法提取，感叹「太多步骤的 work 还是不能做」。

@冷静的麋鹿在研究一个 CLI 聚合方案，解决跨设备连续办公的痛点——开会前在 CC 或 Codex 上开发、离开后手机上继续跟踪。@稳重的海豚展示了自己魔改的版本，已支持 Claude、Codex、Gemini、OpenCode 四种 provider。@80-HD 分享了 Hervald 的更新，这是一个 agent 可观测性平台，可配合多种 CLI 工具使用。

方法论

MVVM + 六边形架构：让 AI 写代码可无人值守

@冷静的白鹭分享了将项目重构为前端 MVVM + 后端六边形架构的经验：测试方便、省 token，上月产出 30-40 万行代码，实现了无人值守开发。关键是 test automation 做好后，agent 写完代码自动跑单测、自动迭代，人只需偶尔 code review 和加重构任务。

@地球首帅鸭哥：mvvm 是一种让软件天然具备object model + cli + UI共存的设计方法，我认为就非常适合vibe

@地球首帅鸭哥补充说 MVVM 让 UI 和逻辑解耦后，美工可以独立改 UI 不用担心改挂程序；interface 与 UI 结构越同构，测试能覆盖的范围越大。@冷静的白鹭总结：AI 时代「改不挂、好测试」是最重要的事。@地球首帅鸭哥也提到自己花了很多时间把 VS 工具链命令行化并打通 Linux 支持，现在连 instruction 都要注意跨平台——但这让他能在 Codex Cloud 上改自己的程序了。

AI 时代年轻程序员怎么成长

@地球首帅鸭哥提出担忧：vibe coding 成为标配后，年轻人需要毕业就具备架构和测试知识，没有传统的渐进学习窗口。但他随即给出乐观的 theory：

@地球首帅鸭哥：老登本来就是在铲屎山的过程中得到锻炼的，现在有了AI，学生们可以光速制造海量屎山自己铲，只要愿意做大项目而不是糊一大堆小的，都能学到vibe的精髓的

@敏锐的兔子认同说「vibe 会更快的暴露问题，对学习是大好事」。@地球首帅鸭哥还建议每个本科毕业生自己 vibe 一个 MySQL——正好把所有课程知识全用上，并且断言「代码 AI 改不下去了，就是人提高的机会」。但他也警告，不具备古法知识就能做的事将来用户自己就能做，独立开发的日子会更难。

行业新闻

OpenAI 发布 GPT-Realtime-2

OpenAI 发布了 GPT-Realtime-2 语音模型 API，号称将 GPT-5 级别推理能力引入语音 agent，定位为「实时协作者」。同时上线 GPT-Realtime-Translate 和 GPT-Realtime-Whisper 两个流式模型。

AI 迫使大学重拾苏格拉底口试

@冷静的飞鼠分享了 AI 把大学逼回 2400 年前，苏格拉底点了个赞。核心论点：AI 作弊让书面考试失效，康奈尔等高校开始推行 20 分钟当面口头答辩。卡内基梅隆等四校的实验显示，仅 10-15 分钟的 AI 使用就足以在可测量层面侵蚀人的”坚持性”。规模化障碍正被 AI 反过来解决——佐治亚理工开发了”苏格拉底之心”AI 口试系统，用 AI 防 AI。文章追问的深层问题值得一读：当完美表面变得廉价，什么才叫”真正学会了”？

闲聊花絮

AI 订阅的地区差价：”我们都是阿根廷人”

@开朗的企鹅科普了 AI 订阅的地区差价：ChatGPT Plus 在阿根廷只要 $4.99（美国 $20），Claude Pro 在尼日利亚 Apple Store 只要 88 元（美国区 140+）。@活泼的树懒补充说不同套餐最便宜的区域不一样——Pro 最便宜是土耳其 70 多，20x 是菲律宾 1100。@随和的飞鼠感叹「和 Steam 一样咯，我们都是阿根廷人」。

Kimi COT 戏太多

@开朗的企鹅贴了一张 Kimi 推理过程的截图，模型在 thinking 中写出「等等，我有一个更可怕的猜想」这样的戏剧性表述，让人忍俊不禁。@坦荡的灰熊推测是 RL 训练时奖励过头了。

Hermes Agent 与爱马仕广告的命名尴尬

@今天群内信息量极大转发了一条推文吐槽：因为 Hermes Agent 这个名字，大量讨论 AI agent 的人开始被推送爱马仕广告——「日常讨论 Hermes 看到广告的大多数不是目标人群」。@天真的浣熊觉得这让人想到了”乔丹”牌球鞋。

Daily

本文由作者按照 CC BY 4.0 进行授权

工具