文章

2026-04-22 群聊日报

2026-04-22 群聊日报

今天群里话题极为丰富。GPT-Image-2 正式上线 API,天真的浣熊、热情的狮子等群友第一时间实测,对其精细编辑和指令跟随能力赞不绝口。沉稳的狐狸发布了多篇深度文章,包括 AI 编程工具提示词攻击分析、GPT-Image-2 对金融安全的冲击、以及一个开源的微信公众号监控抓取工具。Anthropic 的 Mythos 模型被未授权用户访问,沉稳的狐狸用”鸭汤”快速调研出了深度分析。Codex 使用经验引发热烈讨论,冷静的麋鹿分享了上下文管理的实用技巧。洒脱的鸳鸯分享了 Codex 用量计算的奇妙 bug。智谱涨价取消老套餐引发关注。豁达的北极熊就 DS 团队 AI adoption 策略发起讨论,沉稳的狐狸和洒脱的仓鼠从职场政治角度给出了精辟建议。乐观的鸵鸟分享了用 CC 多层记忆系统改造日常工作流的实践。灵动的河马用 Codex 做出了”硅谷帝国乙游” MVP。随和的企鹅对比了 K2.6 和 GPT 5.4 的编码能力。花絮方面,洒脱的鸳鸯形容自己的 AI 工作日常像”老干部——一杯茶一张报”,各大厂福利和饮料话题引发了一波欢乐的吐槽大战。

行业新闻

GPT-Image-2 正式上线 API,编辑能力惊艳群友

OpenAI 正式开放 GPT-Image-2 的 API 接口,热情的狮子第一时间分享了定价和文档链接。天真的浣熊大量实测后表示 Image2 的精细修改能力极强,指令跟随(follow)能力远超竞品,”玩起来很上头”。 热情的狮子实测 API 发现目前速度极慢(推测流量爆炸),low 质量基本不可用,med 还行,high 很不错,推测 ChatGPT 网页版用的是 high 质量。 沉稳的狐狸的 context-infrastructure 项目也已支持 GPT-Image-2。 优雅的灰熊发布了对 GPT-Image-2 的技术拆解文章。

天真的浣熊:Image2 玩起来很上头,不像小香蕉,改几次就放弃了

开朗的企鹅:这个编辑following程度很强啊!!!

热情的狮子:low 的质量太低基本不能用,med 还行,high挺不错的,我感觉chat serve的是high

Anthropic Mythos 模型被未授权用户访问

Bloomberg 报道 Anthropic 的 Mythos 模型被一小群用户通过多种手段组合突破访问管控。洒脱的仓鼠首先分享了新闻链接,沉稳的狐狸随即用深度调研 skill 产出了一篇完整分析文章,从开源vs闭源安全性、分发面脆弱点等角度展开讨论。 天真的浣熊补充称 Mythos 不对公众开放的一个重要因素是基础设施撑不住。 沉稳的狐狸指出,这种泄露对攻击者更有利,因为他们一直在攻击,而合法用户只能老实等待,这不成比例地放大了负面影响。

沉稳的狐狸:close ai从gpt-2开始就在玩我怕你们把持不住所以先不open的把戏了

天真的浣熊:之前还看到有人说Mythos现在不开放给公众有一个很重要的因素是Infra撑不住

智谱取消老套餐,大幅涨价

聪明的蜂鸟爆料智谱老套餐将被砍掉,统一改为有周限额的新套餐。敏锐的松鼠指出价格从月付30涨到72。聪明的蜂鸟详细解释:2月之前的老套餐同档位使用量多50%且无周限额,3月份智谱承诺允许老用户续费老套餐,但仅过一个月就改变主意,大部分人还没来得及续上。谨慎的松鼠表示国外版也翻倍了,推测是亏损太多。

聪明的蜂鸟:亏肯定是亏。不过2月说老用户可以按照老套餐续费,现在改这个规则,基本大部分人人都没有续上

谨慎的松鼠:国外版也翻倍了,是不是亏太多了

Meta 强制监控员工鼠标键盘输入训练 AI

开朗的企鹅和聪明的雪豹分别分享了 Meta 强制收集员工鼠标和键盘输入用于训练 AI 的报道,引发群内讨论。幽默的长颈鹿也转发了相关链接询问大家的看法。

开朗的企鹅:为了训练AI,Meta强制监控了员工的鼠标和键盘

SK 海力士单季度营收首破 50 万亿韩元,利润率堪比英伟达

活泼的羊驼分享了 SK 海力士 2026 Q1 财报:营收 52.58 万亿韩元(环比+60%,同比+198%),营业利润率达 72% 创历史新高,净利润率 77%。AI 基础设施投资扩张推动 HBM、高容量服务器 DRAM 等高附加值产品需求强劲。活泼的羊驼感叹其利润率堪比英伟达。

活泼的羊驼:我发现这个利润率堪比英伟达

K2.6 编码能力实测:与 GPT 5.4 并驾齐驱

随和的企鹅分享了 side-by-side 对比 K2.6 和 GPT 5.4 两天的使用体验,认为 K2.6 编码能力处于第一梯队,某些分析场景甚至比 GPT 5.4 更全面,但思考链条偏长。

随和的企鹅:k2.6 coding能力真的一梯队,一些分析情况甚至比5.4还全面一点,就是思考链条有点太长了

Meta Llama 4 Maverick 发布,聊天可用但功能仍在开发中

睿智的犀牛询问 Meta 新模型(代号”牛油果”)的情况。直率的海豚确认已经发布,可通过 Meta AI App 和 meta.ai 网站使用。目前聊天功能 OK,中文支持不错,但 coding 和多模态是 next step。热情的狮子表示这个模型目前讨论度不高。

直率的海豚:聊天ok,其他还在绝赞开发中,coding和多模态是next step

热情的狮子:好像没什么讨论度

工具

Codex 上下文管理实战:压缩、新开任务与 session 续接

灵动的河马首次使用 Codex 遇到上下文满溢和 413 错误,引发群友热议。风趣的海豚解释圆圈是上下文空间指示器,满了会自动压缩。睿智的北极熊指出交互过长有概率触发 413(请求体太大),GitHub 上已有多个 issue 未修复。 冷静的麋鹿建议使用 Opus 1M 时到 70% 就人工压缩新开任务,并给出了详细的压缩提示词模板(只输出任务目标、已完成内容、改过的文件、当前阻塞、建议下一步 5 项)。还分享了一个技巧:新开窗口让 AI 读取之前的 session 文件再接着干。 风趣的海豚提醒读完 session 后 context 可能瞬间又满,冷静的麋鹿建议用 subagent 总结 session 内容来避免这个问题。 洒脱的仓鼠分享自己用 Opus 1M 后 95% 以上的任务都在 60% 以内跑完,基本写好 plan 后 one shot 就完成。

冷静的麋鹿:跟他说:只输出以下 5 项,控制在 15 行内:1. 任务目标 2. 已完成内容 3. 改过的文件 4. 当前阻塞 5. 建议下一步。不要解释,不要重复背景。然后拿着这个新开一个。

洒脱的仓鼠:我自从用了opus1m绝大部分活(95%+)现在都跑超不过60%,很少手动干预了

风趣的海豚:最后这个办法有的时候极度不靠谱,我遇到过读完session以后瞬间context又满了的

Codex 用量计算的奇妙 bug:额度数字对不上

洒脱的鸳鸯发现 Codex 的用量计算存在混乱:本地开两个 Codex 跑任务,每个显示的 5h usage 和官网数字全都对不上。官网显示额度已清零,但本地两个 Codex 分别显示还有 36% 和 41%,都跑得很欢快。后来发现可能是因为用 skill 驱动的长任务在结束前可以一直执行。

洒脱的鸳鸯:我这两天 claude/codex 混着用,我理解为啥大家觉得 codex 经用了,一方面他经常自动给你 reset weekly limit,另一方面,我本地开两个 codex 跑任务,每一个自己显示的 5h usage 和 官网的一共三个数字全都对不上

洒脱的鸳鸯:O社该说是草台呢还是大方呢…

YouTube 视频内容提取工具链分享

认真的长颈鹿询问快速总结 YouTube 视频的方法。专注的剑鱼推荐了 Monica,敏锐的海狸建议直接让 CC 或 Cursor 写代码解决。幽默的犀牛分享了一套完整的 YouTube 内容提取工具链文档,包含 youtube-transcript-api、Playwright 爬虫、whisper.cpp 三级回退方案,支持单视频和批量频道提取,并附有详细的命令行用法和踩坑记录。

敏锐的海狸:这种现在都可以直接问cc或者cursor,别人直接给你写好code

幽默的犀牛:酌情蒸馏

微信公众号监控抓取:从需求到开源工具一气呵成

活泼的羊驼提出如何长期抓取 20 个公众号最新文章的需求。沉稳的狐狸让 AI 调研后发现:最务实的入口不是模拟 UI 操作,而是利用 PC 微信本地同步的消息数据库,公众号新文章推送会先落到本地消息流,可以从中检测新文章链接再抓正文。洒脱的鸳鸯确认自己以前试过这个方案可行。 沉稳的狐狸随后在约一两小时 wall clock time(约 20 分钟 dev time)内产出了一篇完整的技术对比文章和开源工具,涵盖 5 种技术途径的优劣分析。灵动的北极熊补充了 chatlog alpha 可适配微信 4.x 版本的信息。

沉稳的狐狸:自动化层面真正有价值的入口:不是点 UI,而是 PC 微信本地同步下来的消息数据库。公众号新文章推送会先落到本地消息流里,你可以从这里检测到新文章链接,再去抓正文。

洒脱的鸳鸯:现在想想其实不应该这么快放弃,虽然我不看,但是可以让 AI 帮我看呀

沉稳的狐狸:差不多一两小时wall clock time,可能有20分钟dev time(手机带娃间隙嘴炮)

GPT-Image-2 生成手写笔记效果惊人

沉稳的狐狸和风趣的海豚分享了 GPT-Image-2 生成手写课本笔记风格图片的效果,纹理级别的细节令人震撼。睿智的犀牛好奇这种纹理级别的细节生成是如何实现的。风趣的海豚建议改一下提示词让字迹更潦草以增加真实感。温暖的熊猫猜测可能是拍照问作业的数据被用于训练。

睿智的犀牛:ChatGPT这个纹理级别的细节生成是泽呢么做到的……

风趣的海豚:这个感觉需要改一下提示词,字迹潦草一点

温暖的熊猫:我猜拍照问作业的小孩多了,数据拿去训练了

用 GPT-Image-2 + 视频生成做影游 MVP

睿智的北极熊分享了用 GPT-Image-2 生成静态图再丢给视频模型做 3D 游戏演示的文章。热情的狮子和机智的河马指出这离真正的 3D 游戏还有距离,更准确地说是可以快速出实机演示 demo。开朗的企鹅将其定位为”3D 视觉互动小说”,热情的狮子认为本质就是影游/互动短剧。 灵动的河马发布了自己用 Codex 制作的”硅谷帝国乙游” MVP,淡定的鲸鱼也分享了自己用 GPT-Image-2 和 Kling 做的影游 MVP。灵动的河马受启发,计划在游戏开头和结尾加入视频来增强代入感。

热情的狮子:能做实机demo不等于游戏…这标题党

灵动的河马:你启发了我,我觉得在游戏开头 Intro 和最后触发结尾的时候,用视频的形式会更加有代入感

开朗的企鹅:3D视觉互动小说啊,没必要一步到3D游戏

方法论

AI 编程工具配置文件成为攻击入口:提示词注入分析

沉稳的狐狸发布文章总结了最新的 AI 编程工具提示词攻击技法,从冯诺伊曼架构的角度分析了为什么这类攻击难以彻底根除。核心观点是 AI 编程工具的配置文件现在已经成为了攻击入口。

沉稳的狐狸:对最新的几个提示词攻击技法做了一些学习和总结,从冯诺伊曼架构的角度思考了一下为什么很难彻底根除。

MCP 协议的痛点:协议说明比代码还长

坦荡的灰熊吐槽自己写了一个 MCP 工具,代码 1623 行,而协议说明的压缩版就有 1774 行,不如直接喂源码。洒脱的仓鼠补充了另一个常见问题:已有完整 API server 后又套一层 MCP,需同时维护两个 service;更有甚者再套一层 CLI 给 skill 用,形成 skill→cli→mcp→api 的奇怪架构。开朗的海豚表示自己干过这事,现在已经离职了,”后面谁接手谁倒霉”。

坦荡的灰熊:我写了一个 mcp 工具, 代码1623行, 而协议说明, 还是压缩版, 1774 行,那还不如直接喂源码了

洒脱的仓鼠:还有个很常见的场景是已经有了一个完整的api server了,然后在上面又套一层mcp,这下要同时维护两个service了

开朗的海豚:干过的表示现在已经离职了,后面谁接手谁倒霉

DS 团队 AI Adoption 策略:职场政治视角的建议

豁达的北极熊作为团队中 AI adoption 的非正式 TL,纠结于应该先鼓励大家上手写 skill 再改进,还是一开始就建立 best practice。沉稳的狐狸从三个维度分析:最大化 adoption、最大化产出、最大化个人功劳归属。在确认豁达的北极熊是 IC/TL 而非 manager 后,建议不必刻意推 adoption(没有 organizational leverage 会吃力不讨好),而是自己把工具用好,找两三个同频的人做出 champion case 即可。 洒脱的仓鼠补充:跟不同频的人交流非常费劲,做好榜样就行,愿意的人会主动来接触,不愿意的人会天天说 AI 幻觉来 block 你。

沉稳的狐狸:原因是推adoption是很累的一件事。如果没有organizational leverage,基本上是吃力不讨好。只要自己把工具用好就已经成功了一半,再找足够几个聊得来的两三个人,就可以有很好的champion效果了。

洒脱的仓鼠:跟不同频的人交流是非常费劲的,可能会花了很多时间很大功夫两边的人都不喜欢你。你做好榜样就行了,愿意的人会主动来接触你然后一起搞,不愿意的人会天天说ai幻觉来block你

豁达的北极熊:adoption拿来写十倍的垃圾不如不要adopt

用 CC 多层记忆系统改造日常工作流

乐观的鸵鸟分享了将沉稳的仓鼠之前开源的 CFP 学习 repo 改造为日常工作工具的经验:把教材换成面试材料,同时将工作中的 Knowledge Graph 一起喂给教学 agent,实现一边系统化补全知识、一边完善工作 Knowledge Graph、一边将日常工作变成 Agentic Workflow。 沉稳的仓鼠评论说,这个 repo 本质上是一个多层记忆系统,只是去年大家还没有意识到可以用 CC 来做多层记忆系统,算是早于共识一点点。

乐观的鸵鸟:最近每天上班就变成了,一边系统化补全自己的知识,一边补完工作的Knowledge Graph, 一边实践把日常工作都变成Agentic Workflow。感觉挺神奇的。

沉稳的仓鼠:如果拿今天的眼光看的话 这个是一个多层记忆系统 只是去年的时候大家还没有太实践到原来可以用 cc 来做多层记忆系统 算是早于共识一点点吧

Claude Code Subagent Prompt 设计解读

沉稳的狐狸分享了 Claude Code 的 subagent prompt 内容,指出其设计思路:阻塞 output 是针对 main agent 的,会让 subagent 不要输出过多内容以避免爆 main agent 的 context window。这为理解 agent-team 架构中的 context 管理提供了参考。

沉稳的狐狸:从这个prompt能看出来是怎么设计的,比如它的阻塞output就是针对main agent的,会让他不要读避免爆context window等等

GPT-Image-2 对金融安全的冲击

沉稳的狐狸针对 GPT-Image-2 这样的图像生成模型对金融领域可能产生的安全和合规影响做了调研,发布了一篇分析文章。乐观的灰熊调侃说这也挺好,总有工作量产生,否则人脸识别质量好到不用维护对就业也不好。

沉稳的狐狸:针对GPT-Image-2这样的图像生成模型对金融领域可能产生的安全/合规影响做了一些调研。

给 AI 做工具的难题:缺乏人类的视觉直觉

坦荡的灰熊分享了给 AI 做工具的挑战:比如 TCP 通信时,人类看到报文疯狂刷屏就知道有问题,但 AI 没有这种视野,也没办法触发中断。这揭示了当前 AI agent 在工具使用中缺乏类似人类直觉判断的局限性。

坦荡的灰熊:比如 TCP通信的时候, 人类如果看到突然返回报文疯狂刷屏,就会知道有问题. 但 ai 没这个视野,也没办法触发一个中断

闲聊花絮

老干部的 AI 日常:一杯茶一张报

洒脱的鸳鸯形容自己现在的工作日常像老干部:到办公室打开 AI 让它自动从 backlog 里挑任务开始做,然后泡杯茶打开日报开始看,一杯茶一张报一天就过去了。猫仔感叹自己已经 8 年没有 backlog 了,每个任务做完当场拍脑袋决定下一个。洒脱的仓鼠说 backlog 里的桃子都被人摘完了,剩下的都是 AI 做不了的烂活。

洒脱的鸳鸯:感觉我现在生活很像老干部了——每天到办公室,打开 AI 让他自动从 backlog 里挑任务开始做,然后我泡杯茶,打开日报开始看,一杯茶一张报,一天就过去了

猫仔:我应该有8年都是过着每个任务做完当场拍脑袋决定下一个是什么的日子了

洒脱的仓鼠:backlog里面的桃子都被人摘完了,都是些ai做不了的烂活

大厂福利吐槽大战:饭堂、饮料与梦想公司

睿智的犀牛、猫仔、直率的海豚等群友围绕各大科技公司的福利展开了一场欢乐的吐槽。话题从 Meta 的免费饭和印度菜、Google 的哈根达斯、微软”狗都不吃”的饭堂,一路聊到各自的”梦想公司”。猫仔高中时的梦想公司 Borland 在他毕业前就黄了。直率的海豚深情感叹自己与微软的缘分。洒脱的仓鼠建议不如来东岸的 fundamental shop。

猫仔:微软饭堂狗都不吃

直率的海豚:2012年,我得遇微软,如遇仙人,此后常想,WLB,或许是凡人妄想

猫仔:高中的时候一直想去Borland开发Delphi的,谁知道我还没毕业,他,黄了!

AI 时代的电话恐惧症

洒脱的仓鼠分享了 AI 语音诈骗时代的电话接听策略:没有 checkmark 标志的陌生电话都不敢接,接了也要等对方先说话。有一次正经电话打来,两人一起沉默了 10 秒。沉稳的狐狸更绝,直接设置所有电话进 voicemail。随和的老虎表示已经”非必要不接来电”。

洒脱的仓鼠:有一次有个正经电话打给我,然后我俩一起沉默了10秒钟,最后他开口了

沉稳的狐狸:社恐直接用的这个,进我的voicemail跟我的语音对线去吧!

本文由作者按照 CC BY 4.0 进行授权