2026-05-22 群聊日报

发表于 2026/05/23

作者 AI生产力训练营群友

22 分钟阅读

2026-05-22 群聊日报

今天最值得关注的是两件跨越从纯数学到硬件底层的事。@今天群内信息量极大科普了 GPT-5 否证 Erdős 1946 年提出的平面单位距离猜想——Fields 奖得主 Tim Gowers 审阅后表示如果是人类投稿 Annals，他会毫不犹豫推荐接受。推理工具侧，Redis 作者 antirez 用纯 C 写的 ds4 推理引擎让 284B 的 DeepSeek V4 Flash 在 Mac M5 Max 上跑到了 prefill 270 t/s、decode 25 t/s，@今天群内信息量极大部署实测后的第一个大型测试不是编程——而是写修仙网文，结果模型「隔了 100 字自己就把自己绕晕了」，一颗练气丹写着写着变成三颗。同日智谱 GLM-5.1 高速版上线 400 tokens/s API，DeepSeek V4 Pro 宣布永久降至原价 1/4，推理速度和价格两条竞争轴同时在动。

闲聊最精彩的是群友集体脑暴修仙小说设定：修仙界的 GFW 叫「结界」，主角到了震旦后 Claude 突然不能用了，被反派打入水下遇到一只蓝色的小鲸鱼——@睿智的犀牛秒懂：「这鲸鱼小名儿叫都客儿？」

行业新闻

GPT-5 否证 Erdős 80 年单位距离猜想

@今天群内信息量极大发布了 80 年没人推翻的猜想，一个通用 AI 模型做到了。Paul Erdős 在 1946 年提出：平面上 n 个点最多能有多少对距离恰好为 1？他猜想正方形网格构造就是最优解。1984 年三位数学家证明了 O(n^(4/3)) 的上界天花板后，42 年纹丝不动。

两天前，OpenAI 一个内部通用推理模型（非专门为数学训练）在 100 多页的思维链中否证了这个猜想。突破来自代数数论中的无限类域塔与 Golod-Shafarevich 理论——这些工具此前几乎与组合几何没有交集。数论学家 Arul Shankar 说模型「愿意尝试社区里被认为概率极低的路径」。Princeton 的 Will Sawin 随后将关键常数 δ 精炼到 0.014。Fields 奖得主 Tim Gowers 审阅后写道，如果这是人类投到 Annals of Mathematics 的论文，「我会毫不犹豫推荐接受」。

文章强调三个信号：这个模型不是专门为数学训练的（Noam Brown 称其为通用 LLM），说明推理能力过临界点后可跨领域迁移；OpenAI for Science 同期发布了 13 个案例覆盖数学、物理、生物等领域，其中生物方向已被实验验证；不到一年前前沿模型还在 IMO 金牌水平（解已知题），现在已跨到原创研究（创造新知识），时间线在剧烈压缩。

DeepSeek V4 Pro 永久降至原价 1/4

@敏锐的海狸分享了 DeepSeek 官方通知：V4-Pro 模型 API 将于 5 月 31 日结束 2.5 折优惠后，正式调整为原定价的 1/4——也就是将促销价永久化。调整后价格：输入（缓存命中）0.025 元、输入（缓存未命中）3 元、输出 6 元/百万 token。

@今天群内信息量极大透露自己本月在 DeepSeek 上已花了三千多人民币，「正发愁六月价格上去了怎么办，结果它就一直是这个促销价，非常有帮助」。不过他提醒注意 Pro 与 Flash 的区别：「这里是 Pro，我们能在电脑上跑的版本是 Flash。」这一降价与昨天「三份招股书，三个赌注」中描述的 AI 公司成本竞争白热化趋势一致——DeepSeek 选择了将降价固化为长期策略。

GLM-5.1 高速版与 TileRT 推理引擎

@今天群内信息量极大分享了两篇关于智谱 GLM-5.1 高速版的分析（400 tokens/s 凭什么这么快、GLM-5.1 达到 400 tokens/s 背后的技术）。核心数字：生产环境稳定输出 400 tokens/s，比 Claude Haiku 4.5（约 102 t/s）快近 4 倍，比 GPT-4.1（约 52 t/s）快近 8 倍。

背后是智谱自研推理引擎 TileRT——昨天「TileRT 推理引擎」已有初步介绍。今天的深度分析揭示了更多细节：TileRT 把整个计算图在编译期静态编排为持续运行的流水线，运行期只 launch 一次 GPU kernel，中间结果在片上存储（Register、Shared Memory、L2 Cache）间流转，绕开 Global Memory。GPU 协作不用常规张量并行，而是把 Warp Specialization 扩展到 8 卡级别——GPU 0 做稀疏索引，GPU 1-7 做 MLA 注意力计算，各司其职。8 张 H200 聚合内存带宽约 38 TB/s，理论 decode 极限约 1000 t/s，当前 400 t/s 只用了 40%。GLM-5.1 本身是 744B 总参数、每 token 激活 40B 的 MoE 模型，配合多 token 预测（平均每步产出 2.76 个 token）和稀疏注意力形成加速闭环。

@今天群内信息量极大给出判断：成本压到地板后，速度正在成为 AI API 的第二条竞争轴——从 40 到 400 t/s 不只是「4 倍更快」，而是从「等 AI 写完再检查」到「和 AI 一起看着代码流出来」的交互模式质变。

方法论

5000 字 Prompt 与偏好传递

@今天群内信息量极大分享了一篇 GPT-Image2 提示词：瞬间拥有顶级字体美学——超过 5000 字的 prompt 模板，从语义拆解到字体风格、画幅比例、材质语言全覆盖。@风趣的海豚身为设计出身也感叹写不了这么多，「而且默认写这么多会影响发挥」。

由此引发了一场关于 prompt 价值源的讨论。@活泼的羊驼认为「不是说写得多就好，重要的是用词准确，命中关键 Prompt 要点」。@风趣的海豚倾向于「尽可能不要写模型已知的内容，只提供必要的 context」。@鸭哥大号则打开了另一个维度：

@鸭哥大号：不仅仅是模型知不知道的问题，还有你自己的倾向。解决一个问题有100种方法，但是你就喜欢这个，这也值得写

他进一步解释：好的 prompt 隐含了一个思考框架——「做一个问题就得想清楚 ABCDE，虽然答案都没说出来，但是很多时候你不说 AI 也会跳过」。@沉稳的兔子把这个逻辑延伸到 vibe coding：「告诉他可以选什么，然后让他自己来。」

@今天群内信息量极大分享了自己的日常数据：语音嘴炮一般四到六分钟、约五六百词；最长是写作审阅意见或 brainstorm，「可能会讲个半小时，两三千字」。

AI 时代护城河是组织形态

@开朗的企鹅分享了 Foundation Capital 投资人的长文 AI 的终极护城河不是模型。核心论点：当模型进步极快、产品迭代变得廉价时，真正难以复制的护城河是组织形态——如何吸引顶尖人才、如何集中判断力、如何让判断力随时间复利。文章用 OpenAI（前沿模型训练为引力中心）和 Palantir（把前线部署发明成地位等级）做对比案例，追问创始人：「你的组织形态配得上你的叙事吗？」

@开朗的企鹅感慨「说的挺有道理，但是什么组织形态是合适的就不知道了」，唯一确定的是「旧的组织形态真的是充满了摩擦」。@博学的老虎好奇中美创始团队的组织文化差异。@温暖的斑马从大公司政治切入：公司规模大到「要吃四张比萨饼以后就会有山头」——摩擦未必全是坏事，也可能「摩擦以后融合得更好」。@冷静的麋鹿评价文中金句「写到人心里去了」。这与前天「AI 时代最稀缺的能力是忘记」中关于 process 改革的辩论指向同一个未解问题：AI 时代到底需要什么样的组织。

工具

ds4：Mac 本地运行 DeepSeek V4 Flash

@今天群内信息量极大发布了如何在 Mac 上本地运行 DeepSeek V4 Flash：DS4 引擎深度解读。DeepSeek V4 Flash 是 284B 总参数、13B 激活（MoE）开源模型，100 万 token 上下文，macOS 上 llama.cpp、Ollama 都不支持，vLLM/SGLang 仅限 CUDA。填补空档的是 Redis 作者 antirez 用纯 C 从零实现的 DwarfStar 4（ds4），Metal 优先，不依赖 GGML，据 antirez 自述在 GPT-5.5 强辅助下完成。

技术亮点密集：ds4-server 同时支持 OpenAI、Anthropic、Codex 三种 API 协议，Claude Code 和 Codex 可直接对接；针对 V4 Flash 用 DSML（类 XML）输出工具调用而 agent 只认 JSON 的问题，ds4 给每个工具调用分配唯一 ID 并保存原始 DSML，避免格式转换导致 KV cache 失效；KV cache 升级为磁盘一等公民，以对话前缀 SHA1 做 key 写成文件，server 重启后加载即恢复完整上下文；还支持 activation steering（-1 更简洁、+2 更啰嗦，运行时生效不改权重）。

@今天群内信息量极大在 M5 Max（96GB，q2 量化）上实测 prefill 平均 270 t/s，decode 25 t/s，「非常 impressive，质量也不错」。硬件门槛是 96GB 以上内存——@稳重的貂的 36GB MacBook Pro 无缘。@天真的浣熊问 DGX Spark 能不能跑，@今天群内信息量极大解释了一个关键区分：「prefill 主要是算力限制，decode 是带宽限制。所以 decode 可能会更慢，但 prefill 我猜会更快。」不过从经济角度看：「从 V4 Flash 的 token 价格来看，买个设备假设电费不要钱，要想回本也是一百年。」

他随后用 DeepSeek Pro API 的实际工作场景做了对比：城市调研项目 guideme.city 覆盖 62 座城市、三千多个地点的深度解读。幻觉率是最大痛点——「最后都要求它自己开 subagent 自查 fact，经常查出来很多错」。搜索 API 成本同样令人头疼，他展示了 Tavily 已满载的用量面板（10 万月度额度全部用完，按量付费已 8 万），评价「免费版的都很烂，别说免费版了，收费版的都很烂」。@沉稳的仓鼠提出了一个极具创意的方案：每个免费 key 给 1000 次搜索，「你只需要 1000 个 key，就可以提供免费的搜索服务」。

AI 自进化领域直觉地图

@活泼的羊驼提出周末组织学习「自进化 AI（递归自我改进，RSI）」，分享了一份覆盖 40-80 篇文献的阅读清单和从 1965 年 I.J. Good「智能爆炸」到 2026 年 Recursive Superintelligence 以 $4.65B 估值商业化的完整时间线。

@今天群内信息量极大接过清单，当晚用 Codex 从零搭建了一个 AI 自进化领域直觉地图（GitHub 仓库）。pipeline 写在 skills/field_map_bootstrap.md 中：seed 输入（阅读清单）→ 深度调研（Tavily + 语义搜索）→ 分析合成 → 生成 TypeScript 数据文件 → GitHub Actions 自动部署。他形容这个过程为「卤」——「他现在在自己卤了，给他卤一夜。感兴趣的可以 watch repo。」几小时后网站出炉，目标是让读者 30 秒扫描定位核心流派、5 分钟读完关键直觉、30 分钟覆盖全领域。

@风趣的海豚：你已经是个成熟的老鸭汤了，应该学会自己卤自己了

@开朗的企鹅的第一反应更激进：「让 Codex 先看」、「直接干出来个教学网站」。@乐观的灰熊则从实践中泼了一盆冷水：他们有每次跑 2 小时以上的 REACT 任务，AI 自己 propose 的流程改进「都是过于大胆的，通常 10 个都不会采纳」——如果让 AI 自己 self improve，「可能几天之后就面目全非了」。

闲聊花絮

本地 DeepSeek 写修仙小说

@今天群内信息量极大用 ds4 本地运行 DeepSeek V4 Flash 的第一个大型创作测试是写修仙网文。设定：程序员穿越到修仙世界，手机上有无限上下文的 Claude Opus 4.7 Max，用 AI 辅助修炼——拍照上传功法给 Claude 分析，得到优化后的呼吸节奏参数，再用 A/B 测试验证改良丹药配方。两章完整小说在群里引发围观。

模型文字功底不错，但逻辑一致性是灾难。@今天群内信息量极大报告：「前面说发了个练气丹，写着写着就变三颗了。」问题不在上下文长度——「如果是 GPT 犯这种错我会搞个 .md 来 track，比如它可能中间隔了几万字忘了。DeepSeek 是中间隔了 100 字自己就绕晕了，找谁说理去。」@稳重的海豚建议搞个数据库 track 世界状态，@风趣的海豚提议写「装备包.md 来 track 装备变化」。@今天群内信息量极大展示了他的 TODO 清单，其中赫然写着「系统性减少全文破折号」和「圆上战斗时看手机屏幕的问题」。速度也是瓶颈——「让它改个逻辑漏洞，prefill 了 5 分钟，decode 十几分钟还在写」。

修仙界的 GFW 与蓝色小鲸鱼

小说设定引爆了群友集体脑暴。@开朗的企鹅贡献了两个番茄小说级书名：「灵气复苏，我的 Codex 第一个成精」和「灵气复苏，绝灵之体的我用 Mac Studio 制霸修仙界」。他还找到了爽点公式：「每次 thinking 的时候被打得很惨，然后开始出结果就一下赢赢赢」，大爆发时「直接用 Pro + Fast 模式，400 Token/s」。@风趣的海豚一语点破：「这不就是段誉 and 王语嫣.skill 么。」

@睿智的犀牛追问「修仙界用什么 GPU」，@今天群内信息量极大答「系统」，随即改口「用 AI」。@睿智的犀牛不放过：「用什么推理引擎？sglang 仙界定制版？」

讨论迅速滑向修仙界基础设施。@睿智的犀牛问「修仙界也有 GFW 吗」，@低调的仓鼠纠正：「那叫结界。」@风趣的海豚贡献了最佳设定：修仙界有个震旦，主角到了震旦后 Claude 突然不能用了——「然后被反派打到水下，遇到了一只蓝色的小鲸鱼。」

@睿智的犀牛：？？？？？？这鲸鱼小名儿叫都客儿？

肌肉鸭哥海报

@飘逸的狮子贴了一张 AI 生成的海报——「和鸭哥一起工作：一场真实 AI 工作流的幕后记录」，画面中的协作者被渲染成爆筋大肌霸。@博学的飞鼠抗议「画成细狗了，重画！」，@开朗的企鹅直接在脸上加了腮红。@温暖的斑马用专业视角鉴定：「像这种肌肉量，在健身房里边基本上能收割 90% 的迷弟，10% 的迷妹。」@优雅的喜鹊补充「这种大肌霸能横扫所有健身房，国内的话。美帝的话还差点意思」。@鸭哥大号反驳：「美国健身房卧虎藏龙，时不时就能看到那些人用 150lb 的哑铃一手一个做组。」@细心的熊猫震惊回应：「一只手一个我？！」

Daily

本文由作者按照 CC BY 4.0 进行授权