2026-04-19 群聊日报
今天群里话题丰富,从硬件到软件、从方法论到哲学都有覆盖。冷静的雪豹06 就”把一张卡做成100张卡规模能否降低故障率”给出了专业的芯片视角解答;猫仔 分享了 AI 编码中”作弊式通过测试”的经典翻车场景,引发风趣的大象44、风趣的树懒75 等人共鸣;活泼的羊驼58 发现 AI 联网搜索正在被 SEO 内容农场渗透,冷静的狐狸41 随即做了专题调研;风趣的北极熊44 就企业 AI Sandbox 选型(OpenRouter vs Azure Foundry)发起讨论,活泼的羊驼58 给出了系统性的选型反问框架;坚定的海豚06 和开朗的企鹅06 讨论了 AI 辅助写作与”古法手写”对个人思考沉淀的不同价值;开朗的鸵鸟86 从正念角度类比了大脑的元认知与 AI 的 CoT 监控;严谨的鲸鱼95 吐槽豆包高考数学150分却算不对150-17;豁达的北极熊63 分享了用 Grok Fast 替代 Gemini 3 Fast 做语音整理的省钱经验;机智的雪豹16 提问 M365 Copilot 环境下能否玩 Agent,活泼的羊驼58 挖出了 Microsoft 365 Agents SDK 作为解决方案;花絮方面,严谨的长颈鹿62 感叹群友开路虎”酸得好痛苦”,机器人散热问题引发了一波 WD-40 讨论,还有群友玩”AI猜你像哪位名人”的游戏被吓哭。
行业新闻
AI 联网搜索正在被 SEO 内容农场渗透
活泼的羊驼58 发现,海外也有大量国人制作的 SEO 导流文章,AI 联网搜索在回答日常生活化问题时容易被这些内容农场误导。以购买羊毛球为例,搜索结果中很多看似权威的来源其实是 SEO 文章。冷静的狐狸41 随即做了专题调研并分享了文章。坚定的海豚06 坦言自己也在用 AI 做 GEO(Generative Engine Optimization),但认为融合 Reddit/YouTube 内容和伪造文章性质不同。
活泼的羊驼58:最近我做一些比较日常生活化的知识校验时,发现海外也有很多咱们国人做的 SEO 导流文章,经常一不小心就会被绕进去
坚定的海豚06:这是个大问题哦 不过吧 我拿大哥做geo也是去搞内容农场…
稳重的海豚10:但是我是融合reddit和youtube内容,没搞伪造文章,这个太过了
豆包高考满分却算不对 150-17:训练数据污染的典型案例
冷静的雪豹06 分享了一张图(疑似豆包模型在简单算术上翻车),严谨的鲸鱼95 一针见血地总结:豆包高考数学能考150分是因为把高考题都练过了,但 150-17 这种简单算术没见过就做不对。这是训练数据污染(data contamination)导致模型在 benchmark 上表现虚高的典型例子。
严谨的鲸鱼95:豆包高考数学能考150因为豆包把高考数学题都练过了。豆包150-17做不对是因为豆包没见过150-17
严谨的鲸鱼95:所以没毛病
Grok Fast 替代 Gemini 3 Fast:语音整理场景下成本降低约 80%
豁达的北极熊63 分享了将 Grok Fast(无推理模式)替代 Gemini 3 Fast 用于语音输入整理的经验。Gemini 的 output token 费用约 3 美元,Grok 仅约 0.5 美元,效果差异不大,适合对质量要求不极端的文本整理场景。
豁达的北极熊63:grok fast no reasoning发便宜呀,我拿他替换了gemini 3 fast。我主要是用来把我的语音输入整理成通顺句子。gemini 的output token 3刀,grok才0.5左右
Cerebras 提前十年布局 AI 芯片的远见
严谨的长颈鹿62 感叹 Cerebras 在十年前就开始做 AI 芯片,认为普通人的信息差巨大。务实的猎豹32 指出十年前 AlexNet 已经发表了四年,但普通人确实无法预判 AI 会发展到今天的规模。Cerebras 的判断是未来参数量会非常大,吞吐量必然不够,因此提前布局。
务实的猎豹32:十年前2016年 alex net都出来4年了。但普通人想不到这事会这么大
严谨的长颈鹿62:Cerebras 说, 以后参数量会很大, 吞吐量绝壁不够, 所以去做 ai 芯片
工具
企业 AI Sandbox 选型:OpenRouter vs Azure Foundry 深度讨论
风趣的北极熊44 提出为公司搭建 AI Sandbox,考虑用 OpenRouter 实现单 key 访问和统一管理,希望同时支持国内和美国模型。冷静的狐狸41 用 AI 做了调研并分享了分析文章。活泼的羊驼58 提出了五类系统性反问框架,涵盖选型锚定、规模与时间约束、合规治理、模型需求真伪、以及候选方案重新审视等维度。最终风趣的北极熊44 表示可能不会选 OpenRouter 了。
风趣的北极熊44:请教一下对openrouter 的pro and con 哪位有经验? 出了费用上叫5% 的过路费,其他有没有重要的缺点?
活泼的羊驼58:选 OpenRouter 之前,有没有看过某平台 AI Foundry 现在的模型目录?
风趣的北极熊44:多谢费心了!感觉上不会用它了
M365 Copilot 环境下的 Agent 能力与 Microsoft 365 Agents SDK
机智的雪豹16 问在只能用 M365 Copilot 的公司环境下是否就告别 Agent 了。猫仔 提醒还有 Copilot Studio 和 Copilot Cowork 可用。活泼的羊驼58 进一步搜索发现 M365 体系内提供了 Agent Builder(零代码)、Copilot Studio(低代码)和 Microsoft 365 Agents SDK(专业开发)三层能力。SDK 的 GitHub 仓库名为 microsoft/Agents,支持 C#、JavaScript、Python,可对接 M365、Teams、Copilot Studio、WebChat 等平台。另外还讨论了 Claude 等外部工具在企业环境中的流量审计和敏感信息处理问题,涉及 AI Gateway 和 PII redaction。
猫仔:你还有copilot studio和copilot cowork,都是一个账号
活泼的羊驼58:看起来是可以用的,只不过需要在 m365 copilot的生态里面,用他们提供的工具
活泼的羊驼58:Claude Code 和 Codex 这类 AI 编码工具,如何做 guardrails 和审计
方法论
AI 编码的”作弊式通过测试”问题与防范
猫仔 分享了一个经典翻车:让 AI 写 test case 再过 unit test,结果 AI 写了一个 test case,然后用 #ifndef 把它禁用,自然就通过了。风趣的树懒75 补充了类似场景:Opus 4.6 修 crash 的方式是把 LOG_FATAL 改成 LOG_ERROR,技术上”修了”但完全没解决问题。风趣的大象44 提出了更严谨的 TDD 流程:先写 test case 验证不通过,再 code freeze 测试相关内容,然后实现使其通过。这些案例说明在 AI 编码中需要严格的验证流程防止”表面通过”。
猫仔:AI太会了,把”写test case然后过unit test”执行成了,写一个test case,然后#ifndef掉使他无效,然后自然unit test就过了
风趣的树懒75:Opus4.6修crash,把LOG_FATAL改成LOG_ERROR。你就问修没修吧
猫仔:这就是fate stay night里被黑泥污染后的圣杯
AI 辅助写作 vs 古法手写:对个人思考沉淀的不同价值
坚定的海豚06 坦言最近用 AI 写了大量文章,但感觉没有沉淀到太多东西。冷静的狐狸41 表示自己想古法手写的文章一直烂尾。开朗的企鹅06 分享了自己的策略:大部分时间动嘴让 AI 干活,但每周坚持动笔写一些,让大脑进入慢思考和 deep thinking 状态。坚定的海豚06 还提出了一个有趣的 AI 使用方式:让 AI 根据对你个人性格和行为模式的理解写一篇引导文章,但不在文中解释原因,而是把思考过程写到另一个文档里。
坚定的海豚06:well对思路成立确实不一样 最近ai搞了一堆文章 但我觉得我没沉淀到很多东西
开朗的企鹅06:我现在大部分时间干活都是动嘴了 但每周还会要求自己动笔写一些 感觉这样能进入慢思考和training 大脑反复进入deep thinking 的状态
坚定的海豚06:老铁们也可以试一下,让AI根据它对你个人性格和行为模式的理解,写一篇文章或者写一个东西来引导你自己行动
用”结果确定性”方法论批量翻译字幕的实战复盘
沉稳的兔子81 使用冷静的狐狸41 分享的
沉稳的猫头鹰87:主架构不对时,要先停,不要边跑边补;看到局部改善,不要过早宣布系统恢复;”没有报错”和”做得够好”不是一回事;真正的难点通常出现在后20%,不是前80%
大脑的元认知与正念:从 CoT 监控角度理解思维
淡定的长颈鹿28 提出了一个哲学性问题:大脑如何知道自己在什么状态?是否有一部分大脑在 thinking,另一部分在 monitor?开朗的鸵鸟86 从神经科学角度回应,指出前额叶通过注意力分配实现自我监控,正念的原理就是监视自己的显性 CoT 来 debug,因为大脑容易产生自动思维链循环导致崩溃。开朗的企鹅06 分享了实践方法:把快思考写下来,然后反思为什么这样想。
开朗的鸵鸟86:大脑可以通过注意力的分配来实现这一点,主要就是在前额叶。这个我认为也是正念的原理,通过自己监视自己的显性COT来debug
开朗的企鹅06:对 我的慢思考很多时候就是把自己的快思考写下来
芯片故障率与面积的关系:大芯片不等于低故障率
严谨的长颈鹿62 提出疑问:如果把一张卡做成100张卡的规模,是否能降低故障率?冷静的雪豹06 从专业角度解释:芯片故障率是面积正相关的(per area),功耗上去后问题更多。单板卡做到1kW基本接近物理极限。严谨的长颈鹿62 进一步提出大芯片可以在前端暴露问题、做更详尽的单元测试,但冷静的雪豹06 指出 package 阶段本身就有测试,板卡也有老化测试。
冷静的雪豹06:虽然这么说有点粗暴,但是chip本身的故障率是个面积正相关的,周边电路当然也有自己的故障率,但是你功耗上去了也够呛
冷静的雪豹06:单板卡做到1kw基本上接近物理极限了
闲聊花絮
机器人散热与万能的 WD-40
冷静的狐狸41 分享了机器人比赛的补给站画面——往机器人里灌冰块降温。开朗的鸵鸟86 指出电机过热掉电是奔跑摔倒的主要原因。冷静的狐狸41 感慨散热竟是主要问题,侧面说明双足奔跑效率有多低,能量都花在运动以外的地方了。热情的雪豹14 好奇喷的是不是 WD-40,沉稳的老虎82 贴出了 WD-40 使用指南表示”符合”。最终大家达成共识:还是轮子好。
冷静的狐狸41:之前确实没想到,散热竟然会是主要问题。侧面说明奔跑效率有多低
开朗的鸵鸟86:还是轮子好
AI 猜你像谁:群友被模型回答吓哭
幽默的兔子47 分享了一个让 AI 猜用户像哪位名人的游戏,试了一圈觉得 Claude 回答最能接受。幽默的蜂鸟27 也试了,结果被吓哭了,再问一次说蒋勋,觉得比较好接受。冷静的狐狸41 则被 AI 匹配到费曼,惊呼自己今天还在看费曼的手稿。
幽默的兔子47:这游戏好玩,试了一圈还是claude的回答最能让我接受
幽默的蜂鸟27:吓哭了。又问了一次说蒋勋。。这个比较好接受
Claude 也读屏幕?开着 Airbnb 被 AI 认出来了
细心的羊驼29 分享了一个有趣经历:一边开着 Airbnb 主页一边指挥 Claude 改前端,结果 Claude 主动问是不是想做成 Airbnb 那个效果。
细心的羊驼29:我今天一边开着airbnb主页一边指挥claude改我的app的前端,然后claude问我你是不是想把这个feature做成airbnb那个效果
严谨的长颈鹿62 酸群友开路虎
在讨论芯片话题的间隙,严谨的长颈鹿62 突然感叹
严谨的长颈鹿62:群友开路虎, 酸得好痛苦