文章

2026-05-22 群聊日报

2026-05-22 群聊日报

今天最值得关注的是两件跨越从纯数学到硬件底层的事。@今天群内信息量极大 科普了 GPT-5 否证 Erdős 1946 年提出的平面单位距离猜想——Fields 奖得主 Tim Gowers 审阅后表示如果是人类投稿 Annals,他会毫不犹豫推荐接受。推理工具侧,Redis 作者 antirez 用纯 C 写的 ds4 推理引擎让 284B 的 DeepSeek V4 Flash 在 Mac M5 Max 上跑到了 prefill 270 t/s、decode 25 t/s,@今天群内信息量极大 部署实测后的第一个大型测试不是编程——而是写修仙网文,结果模型「隔了 100 字自己就把自己绕晕了」,一颗练气丹写着写着变成三颗。同日智谱 GLM-5.1 高速版上线 400 tokens/s API,DeepSeek V4 Pro 宣布永久降至原价 1/4,推理速度和价格两条竞争轴同时在动。

闲聊最精彩的是群友集体脑暴修仙小说设定:修仙界的 GFW 叫「结界」,主角到了震旦后 Claude 突然不能用了,被反派打入水下遇到一只蓝色的小鲸鱼——@睿智的犀牛 秒懂:「这鲸鱼小名儿叫都客儿?」

行业新闻

GPT-5 否证 Erdős 80 年单位距离猜想

@今天群内信息量极大 发布了 80 年没人推翻的猜想,一个通用 AI 模型做到了。Paul Erdős 在 1946 年提出:平面上 n 个点最多能有多少对距离恰好为 1?他猜想正方形网格构造就是最优解。1984 年三位数学家证明了 O(n^(4/3)) 的上界天花板后,42 年纹丝不动。

两天前,OpenAI 一个内部通用推理模型(非专门为数学训练)在 100 多页的思维链中否证了这个猜想。突破来自代数数论中的无限类域塔与 Golod-Shafarevich 理论——这些工具此前几乎与组合几何没有交集。数论学家 Arul Shankar 说模型「愿意尝试社区里被认为概率极低的路径」。Princeton 的 Will Sawin 随后将关键常数 δ 精炼到 0.014。Fields 奖得主 Tim Gowers 审阅后写道,如果这是人类投到 Annals of Mathematics 的论文,「我会毫不犹豫推荐接受」。

文章强调三个信号:这个模型不是专门为数学训练的(Noam Brown 称其为通用 LLM),说明推理能力过临界点后可跨领域迁移;OpenAI for Science 同期发布了 13 个案例覆盖数学、物理、生物等领域,其中生物方向已被实验验证;不到一年前前沿模型还在 IMO 金牌水平(解已知题),现在已跨到原创研究(创造新知识),时间线在剧烈压缩。

DeepSeek V4 Pro 永久降至原价 1/4

@敏锐的海狸 分享了 DeepSeek 官方通知:V4-Pro 模型 API 将于 5 月 31 日结束 2.5 折优惠后,正式调整为原定价的 1/4——也就是将促销价永久化。调整后价格:输入(缓存命中)0.025 元、输入(缓存未命中)3 元、输出 6 元/百万 token。

@今天群内信息量极大 透露自己本月在 DeepSeek 上已花了三千多人民币,「正发愁六月价格上去了怎么办,结果它就一直是这个促销价,非常有帮助」。不过他提醒注意 Pro 与 Flash 的区别:「这里是 Pro,我们能在电脑上跑的版本是 Flash。」这一降价与昨天 「三份招股书,三个赌注」 中描述的 AI 公司成本竞争白热化趋势一致——DeepSeek 选择了将降价固化为长期策略。

GLM-5.1 高速版与 TileRT 推理引擎

@今天群内信息量极大 分享了两篇关于智谱 GLM-5.1 高速版的分析(400 tokens/s 凭什么这么快GLM-5.1 达到 400 tokens/s 背后的技术)。核心数字:生产环境稳定输出 400 tokens/s,比 Claude Haiku 4.5(约 102 t/s)快近 4 倍,比 GPT-4.1(约 52 t/s)快近 8 倍。

背后是智谱自研推理引擎 TileRT——昨天 「TileRT 推理引擎」 已有初步介绍。今天的深度分析揭示了更多细节:TileRT 把整个计算图在编译期静态编排为持续运行的流水线,运行期只 launch 一次 GPU kernel,中间结果在片上存储(Register、Shared Memory、L2 Cache)间流转,绕开 Global Memory。GPU 协作不用常规张量并行,而是把 Warp Specialization 扩展到 8 卡级别——GPU 0 做稀疏索引,GPU 1-7 做 MLA 注意力计算,各司其职。8 张 H200 聚合内存带宽约 38 TB/s,理论 decode 极限约 1000 t/s,当前 400 t/s 只用了 40%。GLM-5.1 本身是 744B 总参数、每 token 激活 40B 的 MoE 模型,配合多 token 预测(平均每步产出 2.76 个 token)和稀疏注意力形成加速闭环。

@今天群内信息量极大 给出判断:成本压到地板后,速度正在成为 AI API 的第二条竞争轴——从 40 到 400 t/s 不只是「4 倍更快」,而是从「等 AI 写完再检查」到「和 AI 一起看着代码流出来」的交互模式质变。

方法论

5000 字 Prompt 与偏好传递

@今天群内信息量极大 分享了一篇 GPT-Image2 提示词:瞬间拥有顶级字体美学——超过 5000 字的 prompt 模板,从语义拆解到字体风格、画幅比例、材质语言全覆盖。@风趣的海豚 身为设计出身也感叹写不了这么多,「而且默认写这么多会影响发挥」。

由此引发了一场关于 prompt 价值源的讨论。@活泼的羊驼 认为「不是说写得多就好,重要的是用词准确,命中关键 Prompt 要点」。@风趣的海豚 倾向于「尽可能不要写模型已知的内容,只提供必要的 context」。@鸭哥大号 则打开了另一个维度:

@鸭哥大号:不仅仅是模型知不知道的问题,还有你自己的倾向。解决一个问题有100种方法,但是你就喜欢这个,这也值得写

他进一步解释:好的 prompt 隐含了一个思考框架——「做一个问题就得想清楚 ABCDE,虽然答案都没说出来,但是很多时候你不说 AI 也会跳过」。@沉稳的兔子 把这个逻辑延伸到 vibe coding:「告诉他可以选什么,然后让他自己来。」

@今天群内信息量极大 分享了自己的日常数据:语音嘴炮一般四到六分钟、约五六百词;最长是写作审阅意见或 brainstorm,「可能会讲个半小时,两三千字」。

AI 时代护城河是组织形态

@开朗的企鹅 分享了 Foundation Capital 投资人的长文 AI 的终极护城河不是模型。核心论点:当模型进步极快、产品迭代变得廉价时,真正难以复制的护城河是组织形态——如何吸引顶尖人才、如何集中判断力、如何让判断力随时间复利。文章用 OpenAI(前沿模型训练为引力中心)和 Palantir(把前线部署发明成地位等级)做对比案例,追问创始人:「你的组织形态配得上你的叙事吗?」

@开朗的企鹅 感慨「说的挺有道理,但是什么组织形态是合适的就不知道了」,唯一确定的是「旧的组织形态真的是充满了摩擦」。@博学的老虎 好奇中美创始团队的组织文化差异。@温暖的斑马 从大公司政治切入:公司规模大到「要吃四张比萨饼以后就会有山头」——摩擦未必全是坏事,也可能「摩擦以后融合得更好」。@冷静的麋鹿 评价文中金句「写到人心里去了」。这与前天 「AI 时代最稀缺的能力是忘记」 中关于 process 改革的辩论指向同一个未解问题:AI 时代到底需要什么样的组织。

工具

ds4:Mac 本地运行 DeepSeek V4 Flash

@今天群内信息量极大 发布了 如何在 Mac 上本地运行 DeepSeek V4 Flash:DS4 引擎深度解读。DeepSeek V4 Flash 是 284B 总参数、13B 激活(MoE)开源模型,100 万 token 上下文,macOS 上 llama.cpp、Ollama 都不支持,vLLM/SGLang 仅限 CUDA。填补空档的是 Redis 作者 antirez 用纯 C 从零实现的 DwarfStar 4(ds4),Metal 优先,不依赖 GGML,据 antirez 自述在 GPT-5.5 强辅助下完成。

技术亮点密集:ds4-server 同时支持 OpenAI、Anthropic、Codex 三种 API 协议,Claude Code 和 Codex 可直接对接;针对 V4 Flash 用 DSML(类 XML)输出工具调用而 agent 只认 JSON 的问题,ds4 给每个工具调用分配唯一 ID 并保存原始 DSML,避免格式转换导致 KV cache 失效;KV cache 升级为磁盘一等公民,以对话前缀 SHA1 做 key 写成文件,server 重启后加载即恢复完整上下文;还支持 activation steering(-1 更简洁、+2 更啰嗦,运行时生效不改权重)。

@今天群内信息量极大 在 M5 Max(96GB,q2 量化)上实测 prefill 平均 270 t/s,decode 25 t/s,「非常 impressive,质量也不错」。硬件门槛是 96GB 以上内存——@稳重的貂 的 36GB MacBook Pro 无缘。@天真的浣熊 问 DGX Spark 能不能跑,@今天群内信息量极大 解释了一个关键区分:「prefill 主要是算力限制,decode 是带宽限制。所以 decode 可能会更慢,但 prefill 我猜会更快。」不过从经济角度看:「从 V4 Flash 的 token 价格来看,买个设备假设电费不要钱,要想回本也是一百年。」

他随后用 DeepSeek Pro API 的实际工作场景做了对比:城市调研项目 guideme.city 覆盖 62 座城市、三千多个地点的深度解读。幻觉率是最大痛点——「最后都要求它自己开 subagent 自查 fact,经常查出来很多错」。搜索 API 成本同样令人头疼,他展示了 Tavily 已满载的用量面板(10 万月度额度全部用完,按量付费已 8 万),评价「免费版的都很烂,别说免费版了,收费版的都很烂」。@沉稳的仓鼠 提出了一个极具创意的方案:每个免费 key 给 1000 次搜索,「你只需要 1000 个 key,就可以提供免费的搜索服务」。

AI 自进化领域直觉地图

@活泼的羊驼 提出周末组织学习「自进化 AI(递归自我改进,RSI)」,分享了一份覆盖 40-80 篇文献的阅读清单和从 1965 年 I.J. Good「智能爆炸」到 2026 年 Recursive Superintelligence 以 $4.65B 估值商业化的完整时间线。

@今天群内信息量极大 接过清单,当晚用 Codex 从零搭建了一个 AI 自进化领域直觉地图GitHub 仓库)。pipeline 写在 skills/field_map_bootstrap.md 中:seed 输入(阅读清单)→ 深度调研(Tavily + 语义搜索)→ 分析合成 → 生成 TypeScript 数据文件 → GitHub Actions 自动部署。他形容这个过程为「卤」——「他现在在自己卤了,给他卤一夜。感兴趣的可以 watch repo。」几小时后网站出炉,目标是让读者 30 秒扫描定位核心流派、5 分钟读完关键直觉、30 分钟覆盖全领域。

@风趣的海豚:你已经是个成熟的老鸭汤了,应该学会自己卤自己了

@开朗的企鹅 的第一反应更激进:「让 Codex 先看」、「直接干出来个教学网站」。@乐观的灰熊 则从实践中泼了一盆冷水:他们有每次跑 2 小时以上的 REACT 任务,AI 自己 propose 的流程改进「都是过于大胆的,通常 10 个都不会采纳」——如果让 AI 自己 self improve,「可能几天之后就面目全非了」。

闲聊花絮

本地 DeepSeek 写修仙小说

@今天群内信息量极大 用 ds4 本地运行 DeepSeek V4 Flash 的第一个大型创作测试是写修仙网文。设定:程序员穿越到修仙世界,手机上有无限上下文的 Claude Opus 4.7 Max,用 AI 辅助修炼——拍照上传功法给 Claude 分析,得到优化后的呼吸节奏参数,再用 A/B 测试验证改良丹药配方。两章完整小说在群里引发围观。

模型文字功底不错,但逻辑一致性是灾难。@今天群内信息量极大 报告:「前面说发了个练气丹,写着写着就变三颗了。」问题不在上下文长度——「如果是 GPT 犯这种错我会搞个 .md 来 track,比如它可能中间隔了几万字忘了。DeepSeek 是中间隔了 100 字自己就绕晕了,找谁说理去。」@稳重的海豚 建议搞个数据库 track 世界状态,@风趣的海豚 提议写「装备包.md 来 track 装备变化」。@今天群内信息量极大 展示了他的 TODO 清单,其中赫然写着「系统性减少全文破折号」和「圆上战斗时看手机屏幕的问题」。速度也是瓶颈——「让它改个逻辑漏洞,prefill 了 5 分钟,decode 十几分钟还在写」。

修仙界的 GFW 与蓝色小鲸鱼

小说设定引爆了群友集体脑暴。@开朗的企鹅 贡献了两个番茄小说级书名:「灵气复苏,我的 Codex 第一个成精」和「灵气复苏,绝灵之体的我用 Mac Studio 制霸修仙界」。他还找到了爽点公式:「每次 thinking 的时候被打得很惨,然后开始出结果就一下赢赢赢」,大爆发时「直接用 Pro + Fast 模式,400 Token/s」。@风趣的海豚 一语点破:「这不就是段誉 and 王语嫣.skill 么。」

@睿智的犀牛 追问「修仙界用什么 GPU」,@今天群内信息量极大 答「系统」,随即改口「用 AI」。@睿智的犀牛 不放过:「用什么推理引擎?sglang 仙界定制版?」

讨论迅速滑向修仙界基础设施。@睿智的犀牛 问「修仙界也有 GFW 吗」,@低调的仓鼠 纠正:「那叫结界。」@风趣的海豚 贡献了最佳设定:修仙界有个震旦,主角到了震旦后 Claude 突然不能用了——「然后被反派打到水下,遇到了一只蓝色的小鲸鱼。」

@睿智的犀牛:??????这鲸鱼小名儿叫都客儿?

肌肉鸭哥海报

@飘逸的狮子 贴了一张 AI 生成的海报——「和鸭哥一起工作:一场真实 AI 工作流的幕后记录」,画面中的协作者被渲染成爆筋大肌霸。@博学的飞鼠 抗议「画成细狗了,重画!」,@开朗的企鹅 直接在脸上加了腮红。@温暖的斑马 用专业视角鉴定:「像这种肌肉量,在健身房里边基本上能收割 90% 的迷弟,10% 的迷妹。」@优雅的喜鹊 补充「这种大肌霸能横扫所有健身房,国内的话。美帝的话还差点意思」。@鸭哥大号 反驳:「美国健身房卧虎藏龙,时不时就能看到那些人用 150lb 的哑铃一手一个做组。」@细心的熊猫 震惊回应:「一只手一个我?!」

本文由作者按照 CC BY 4.0 进行授权