文章

2026-04-20 群聊日报

2026-04-20 群聊日报

今天群里话题丰富。活泼的羊驼58 深入调研了 M365 Copilot 生态下的 Agent 开发能力,梳理了 Microsoft 365 Agents SDK 的定位和用法,并引出了”AI 编码工具如何做 guardrails 和审计”的问题。沉稳的猫头鹰87 详细揭秘了 OpenAI iOS 支付漏洞的黑产利用链条,引发热议。冷静的狐狸41 分享了 MCP 协议被曝致命设计缺陷的文章,并对其”科研协议被包装成工程标准”的本质做了精彩点评;他还连续输出了关于 Harness Engineering 概念解析和 Data Infra 领域痛点的深度文章。活泼的羊驼58 发布了 Kimi K2.6 开源的消息。冷静的羊驼82 受启发写了一篇关于 AI 翻译腔历史的文章,并分享了在福田协会的 AI 协作分享 PPT。博学的雪豹82 发现 Copilot 已不接受新用户注册,猫仔 透露微软也限制员工注册 Claude。多位群友吐槽云端 LLM 服务的严重限流问题。此外还有 Windows 窗口管理工具推荐、Codex Pro 双倍用量延期、微信支持 Markdown 显示等实用信息,以及关于 ToB/ToC 边界模糊化的思考。

行业新闻

OpenAI iOS 支付漏洞曝光:收据复用黑产被集中清查

沉稳的猫头鹰87 详细披露了 OpenAI iOS 端支付漏洞的黑产利用链:黑产用低价区 Apple ID 购买一次 ChatGPT Plus 后,利用 OpenAI 未将收据与特定账号一对一绑定的缺陷,导出 Base64 编码的 iOS 收据后脚本化批量提交,让大量账号凭同一收据解锁 Plus。OpenAI 近期收紧校验并回溯清查,大批低成本账号被封。活泼的鲸鱼32 评论称这种入门级错误

活泼的鲸鱼32:居然能犯接入ios支付入门级错误,九成九是被自己的AI写的代码给坑了

专注的剑鱼28:原来是没有绑定订单和账号关系

开朗的鸵鸟86:这算是双花?

MCP 协议被曝致命设计缺陷:一行配置可接管电脑

冷静的狐狸41 分享了 Anthropic MCP 协议被曝安全缺陷的文章,并做了深入点评。他认为问题根源不完全在 Anthropic,而是:1) Anthropic 将一个科研性质的协议包装成工程协议来推广;2) 流量裹挟导致这个不成熟的协议迅速成为事实标准,整个领域也很不理性。严谨的长颈鹿62 类比称「现在就和免费防火墙普及之前的电脑市场一样」,豁达的北极熊63 也表示围绕 agent 的很多生态还是空白和不成熟。

冷静的狐狸41:也不对,我觉得也不完全是anthropic的锅,是他们被流量裹挟了,MCP本来就不是一个工程协议。问题的根源是1. anthropic把他包装成一个工程协议来推广;2. 引发了巨大的流量,让这个不成熟的科研性质的协议迅速成为事实标准,整个领域也很不理性

豁达的北极熊63:不能同意更多,现在感觉围绕agent的很多生态还是空白和不成熟

Kimi K2.6 发布并开源,强化代码和 Agent 集群能力

活泼的羊驼58 分享了 Kimi K2.6 发布并开源的消息,该版本全面精进了代码和 Agent 集群能力。

GPT Pro 疑似大幅提速,网友猜测 GPT-5.5 已就位

开朗的鸵鸟86 分享了一篇报道,称 GPT Pro 速度翻了 4 倍,出现「神级」操作表现,引发网友猜测 GPT-5.5 可能已经悄然上线。另外猫仔 提到 GPT 5.4 的 context window 来到了 400k,价格为 1x。

Copilot 停止接受新用户,微软也限制员工注册 Claude

博学的雪豹82 发现 GitHub Copilot 已不再接受新用户注册。猫仔 透露微软也不让员工注册 Claude 了,只有早期开通的还能用。此外猫仔 提到 Copilot 的 Opus 4.6 模型已下线,目前剩 4.7 可用。

博学的雪豹82:Copilot 都不接受新用户了

猫仔:微软也不让员工注册claude了,只有开得早的还能用

Codex Pro 双倍用量延期至 5 月底,近期体验提升明显

冷静的狐狸41 发现 Codex Pro 计划的双倍用量活动并未结束,已延长到 5 月 31 号。豁达的松鼠31 反馈这两天 Codex 特别好用,废话也少了。

冷静的狐狸41:我原来以为今天Codex Pro计划的双倍用量活动结束了,结果查了一下,一直延长到5月31号,救我狗命。

豁达的松鼠31:这两天 codex特别好用 废话也少了

微信开始支持 Markdown 渲染

务实的猎豹32 分享了微信开始支持 Markdown 显示的消息。敏锐的貂39 评价这个功能挺重要,虽然 Markdown 号称纯文本可读,但在手机小屏幕上还是渲染后的效果更好。

敏锐的貂39:这个还挺重要的。虽然markdown号称纯文本可读,但在小屏幕的手机上还是渲染的好

a16z 闭门会内容公开:人月神话失效与 SaaS 末日论

开朗的鸵鸟86 分享了 a16z 创始人闭门会内容,核心观点包括:科技公司的物理定律已失效、人月神话被推翻、SaaS 末日中死掉的都是旧逻辑公司,并指出中国的增长曲线是陡直向上的。

国产大模型集体转身

活泼的浣熊39 分享了一篇关于国产大模型集体转型的文章,询问群内大佬们的看法。

工具

M365 生态下的 Agent 开发:Microsoft 365 Agents SDK 梳理

活泼的羊驼58 调研了 M365 Copilot 体系内的 Agent 开发能力,梳理出三层工具:Agent Builder(零代码,Copilot 里点一点就能建)、Copilot Studio(低代码,图形化 + 多 agent 编排)、Microsoft 365 Agents SDK(专业开发者,模型/编排器无关)。SDK 的 GitHub 仓库在 microsoft/Agents,支持 C#、JavaScript、Python 三语言,注意名称是「Agents」而非「Copilot SDK」。

此外活泼的羊驼58 还提到了 AI Gateway 中 Guardrails 的 PII redaction / data masking 能力,以及对 Claude Code、Codex 等 AI 编码工具如何做 guardrails 和审计的思考。

活泼的羊驼58:叫agents,不叫copilot也不叫copilot sdk

猫仔:是的,除了github copilot,copilot也有sdk。可惜github copilot的sdk叫做copilot sdk,导致copilot的sdk难倒了改名部

Windows 窗口分组与工作区管理工具推荐

严谨的长颈鹿62 提出需求:希望在 Windows 上将 VSCode、PDF、网页等窗口分组,切换时一键弹出。群友们给出多种方案:

  1. Windows 自带多桌面(Win+Tab),但严谨的长颈鹿62 指出关窗口后状态丢失、微信等通信软件频繁触发桌面切换的问题。
  2. Microsoft PowerToys 的 FancyZones + Workspaces(实验性)。
  3. Groupy 2(付费 $9.99)—— 像浏览器标签页一样堆叠任意窗口。
  4. 开源 Workspaces 工具 —— 保存/恢复整个工作区布局。
  5. 其他如 FancyWM、MaxTo、AltSnap 等。

严谨的长颈鹿62:windows上多桌面很难玩起来,比如点一下微信窗口, 就会回到它对应的桌面上来,那么通信软件就会频繁引起你的上下文切换

冷静的雪豹06:虚拟桌面比较符合你需求

云端 LLM 服务限流吐槽:GPU 稀缺是根本原因

风趣的北极熊44 反馈其三人小组使用某云厂商 Foundry 服务时遭遇严重限流,找客服提高额度一个月才回复。幽默的鲸鱼15 补充默认一分钟限制几十k token,Copilot 转接 Claude Code 使用时响应也巨慢。务实的猎豹32 也反馈 deployment 配置选 100M TPM 但实际少很多。

活泼的羊驼58 指出三大云厂商都有严格限流,这是品类共性而非某家独有,底层原因是 GPU 稀缺 + LLM 工作负载不可预测 + 商业分层策略。风趣的北极熊44 认为最佳方案可能还是直接连接,one key one person。猫仔 提到 Business plan 没有限流但贵 50%。

风趣的北极熊44:我们有一个三个人的小组,用过风趣的浣熊08。严重限流,找客服提高,一个月才回复。

幽默的鲸鱼15:默认一分钟限制几十k token

风趣的北极熊44:最佳方案大概还是直接连,one key one person.

方法论

Harness Engineering 概念解析:火了三个月,没人定义得清楚

冷静的狐狸41 连续发布两篇深度文章。第一篇解释了为什么 Harness Engineering 火了三个月却没人定义得清楚,背后藏着什么真实的需求和痛点。他引用了一个经典比喻:「大数据像 teenage sex:everybody talks about it, nobody really knows how to do it」,认为 Harness Engineering 现在就是这个状态。

随后幽默的羊驼13 请求调研 Data Infra 领域的 Harness Engineering 需求和痛点,冷静的狐狸41 不到 5 分钟就产出了一篇专题文章,获得群友一致好评。

冷静的狐狸41:Harness engineering 现在就是这个状态。火了三个月,没人定义得清楚。

幽默的羊驼13:鸭哥能不能请大哥调研一下data infra的harness engineering是什么需求和痛点

豁达的北极熊63:分析的好好

AI 翻译腔的来处与去向:从「稳稳接住你」说起

冷静的羊驼82 分享了一篇自己撰写的文章,探讨 AI 翻译腔现象。文章提到 GPT-5.2 上线后全网爆发「稳稳接住你」的翻译腔梗,OpenAI 在 5.3 版标上「less cringe」,官方承认输出确实太尬。文章深挖了翻译腔的历史根源,指出语料库中反复出现的「接住」映射了用户盼人托底的心理,对齐审核员的点赞机制则导致了过于「舔」的模型风格。务实的猎豹32 也感慨「语料太垃圾了」,并指出社交媒体上真人内容越来越少,不是 bot 就是营销号。

冷静的羊驼82:受鸭哥启发写了这篇文章,也深挖了一下翻译腔的历史

务实的猎豹32:社媒上现在真人不多了,不是bot就是营销号广告的

AI 时代 ToB/ToC 二分法正在失效

活泼的羊驼58 分享了自己此前写的文章,并结合最近复盘指出 2C/2B 二分法正在逐渐失效。核心观点:Agent 时代,C 和 B 的边界会越来越模糊。一个 founder 雇 100 个 agent 做开发,他既是 B 端的 API 调用者,也是 C 端的产品用户。未来评估 AI 公司的有意义维度不再是 ToC 还是 ToB,而是它承载的是不是高价值任务、它分到的是 80% 的 token 还是 80% 的 spending。猫仔 则简洁地表示「赚钱的都应该算B」。

活泼的羊驼58:Agent 时代,C 和 B 的边界会越来越模糊。一个 founder 雇 100 个 agent 做开发,他既是 B 端的 API 调用者,也是 C 端的产品用户。

猫仔:赚钱的都应该算B

用 test case 驱动 AI 编码,事后追问效果有限

严谨的长颈鹿62 分享了与 AI 编码工具交互的体验:AI 承认犯了错误,但只停留在战术层面反思,直到被追问架构问题才愿意发表真正见解,感叹「AI 还是调得太服从了」。猫仔 建议不要事后追问,而是用 test case 在 reasoning 阶段就抓住问题,等功能正确后再通读代码做一把重构。

严谨的长颈鹿62:我感觉Ai还是调得太服从了

猫仔:你需要的是他在reasoning的时候想到这个,就得用test case去drive,等功能正确了之后,再去读代码一把重构了。

闲聊花絮

TPS 的歧义:Token Per Second 还是 Transaction Per Second?

严谨的鲸鱼95 看到务实的猎豹32 说「100M TPM」,调侃问是不是 Technical Product Manager 的意思,并分享了一个趣事:曾经和某大厂 PM 聊 LLM 速度,自己说 throughput 大概 10 TPS(tokens per second),对方理解成 transactions per second 后惊呼「才10?咱们做到10000啊」。

严谨的鲸鱼95:我记得我曾经和某大厂一个PM聊天时,他说,你这LLM速度多少?我说,我们这throughput大概10TPS,他说:才10?咱们做到10000啊

用 Codex 做视频?串群了吧!

优雅的熊猫03 请教如何给照片做 zoom in 过渡效果,冷静的狐狸41 开玩笑说「串群了?本群只会跟你说用 Codex 搞」,随后又认真补充说把图片扔给 Codex 描述特效需求确实能做出来。风趣的火烈鸟32 建议用 Claude Code 配合 Remotion 框架制作。专注的白鹭39 则实测发现剪映的 AI 功能也能实现。

冷静的狐狸41:串群了?本群只会跟你说用codex搞

风趣的火烈鸟32:跟claude code 让它用 remotion 做

本文由作者按照 CC BY 4.0 进行授权