Codex 新玩法：从写代码到数字同事-🎉数字奇遇🎉

我最近整理了一下 Codex 这一段时间的变化。

重点不是说它已经全面替代 Claude Code，而是两者的分工开始变清楚：

Claude Code 更像高质量工程搭档；
Codex 更像能帮你操作电脑、跑流程、接长期任务的 AI 同事。

一：Codex 的定位变了

过去很多人对 Codex 的印象是：

能写代码，能跑命令，能改项目。

但如果只是“会写代码”，那它就必须和 Claude Code、Cursor Agent、各种 CLI Agent 比代码质量、上下文能力和复杂重构。

这轮更新后，我理解 Codex 的重点不只是写代码，而是开始往真实工作流里走。

你给它一个目标，它能不能自己看屏幕、调工具、跨应用、持续推进，并在关键节点等你确认。

这就是从 Coding Agent 到 Digital Code Worker 的变化。

二：Computer Use 打开了跨 App 工作流

这次最关键的变化之一，是 Codex 可以看屏幕、点 UI、操作桌面 App。

这意味着它不再只能待在终端或项目目录里。

以前让 CLI Agent 做这种事会很别扭：

打开 Figma 看设计稿；
提取颜色规范；
写进 Tailwind config；
再回到本地页面检查效果。

这不是纯代码任务，而是跨 App 工作流。

我的理解是，Computer Use 的价值就在这里：

它让 Codex 从“代码助手”变成“电脑操作助手”。

但反过来也要注意权限边界。

CLI Agent 通常只碰某个项目目录；
Computer Use 一旦授权，触达范围可能是整台电脑。

先让它做低风险任务，比如改 demo、整理样式、生成文档、跑测试；
涉及钱包、生产数据库、密钥、线上部署、大规模删除文件的任务，暂时一定要保留人工确认。

能力越强，越要配权限管理。

三：评论式交互降低了普通人的表达成本

另一个很有意思的点，是浏览器里的评论式交互。

你可以在网页上直接选中某个元素，然后像 Google Docs 评论一样告诉 Agent：

“这个按钮状态太弱，改成更明显的 primary action。”

这件事看起来小，但我觉得很重要。

因为它把 AI 指令从“命令行语言”变成了“指哪改哪”。

很多普通用户不是不会提需求，而是不知道怎么把需求翻译成：

文件路径、组件名、CSS 类、API、MCP 配置、命令行参数。

评论式交互真正降低的是表达成本。

未来 AI 工具的竞争，可能不只是模型谁更强，而是谁更懂人类怎么指挥工作。

四：Automations 让 Agent 开始接长期任务

Automations 是我觉得最值得关注的方向之一。

普通 Agent 是你叫它一次，它做一次。

Automations 更像是：

你给它一个长期目标，它按计划自动回来继续做。

例如可以让它每天检查某个开源项目的新 issue，只筛选 performance、memory、latency 相关内容，然后输出：

背景是什么；
涉及哪些文件；
可能的修复方向；
是否值得跟进；
有没有类似 PR。

这类任务过去需要人每天手动打开网页、筛信息、做判断。

Agent 如果能定时醒来接着做，价值会很大。

但我建议长期任务不要写得太泛。

“每天帮我看一下这个项目。”

“每天检查这个 GitHub repo 的新 issue，只筛选性能相关内容，输出 5 条以内摘要，每条包含 issue 链接、影响范围、可能涉及文件、建议优先级。不要自动提交代码。”

长期任务的关键不是自动，而是边界清楚。

五：Pads 小宠物不是玩具，而是状态可视化

Pads 看起来像一个很可爱的虚拟宠物功能。

但我的理解是，它解决的是 Agent 工作流里的一个真实问题：

Agent 在跑任务时，用户经常不知道：

它是不是卡住了；
是不是在等我输入；
是不是已经完成；
是不是还在执行；
有没有出错。

以前你要切终端、看日志、盯进度。

如果屏幕上有一个小宠物，用不同状态告诉你“正在跑 / 等你确认 / 已完成”，它其实是在做 AI 工作流的状态可视化。

可爱只是外壳，核心是降低焦虑。

AI Agent 不一定要一直严肃。

只要它能让用户更容易理解系统状态，拟人化、宠物化、轻量化 UI 反而可能更有效。

六：手机端入口让 Codex 更像“随时可介入的工作流”

Codex 进入 ChatGPT 手机 App 后，我理解它的重点不是让你在手机上写代码。

你可以远程查看进度、补充判断、批准操作、看 diff、看测试结果。

这和 Automations 结合起来会很有想象力。

早上出门前交代一个任务；
路上用手机补充两句判断；
晚上回来检查结果。

这不是移动端写代码，而是移动端管理 Agent。

当然，这里也要注意边界。

如果它依赖本地 Mac Host，那电脑在线和 Codex 正在运行仍然是前提。

所以它更适合远程确认、轻量修改方向、查看结果，而不是幻想成手机一句话，所有复杂工程都自动完成。

七：Codex 和 Claude Code 的分工越来越清楚

我现在更愿意把两者理解成不同路线。

Claude Code 更像高质量工程工具：

适合复杂重构、核心模块改动、大型代码库理解、严肃 code review、关键 PR。

Codex 更像可操作的数字同事：

适合日常小改动、页面 UI 调整、跨 App 工作、自动化巡检、文档生成、测试运行、远程查看进度。

Codex for workflow，Claude Code for correctness。

这不是谁完全取代谁的问题，而是场景不同。

Benchmark 也不能直接等同于产品体验。

模型分数、SWE Bench、Terminal Bench 有参考价值，但真实使用里还要看 UI、权限、上下文、插件生态、任务恢复、成本感知和人类确认机制。

Agent 工具的竞争，不只是模型榜单竞争。

八：我的结论：Codex 正在把竞争维度拉大

这轮 Codex 更新给我的最大启发是：

AI 编程工具可能会分成两条路线。

一条路线是把自己做成更强的工程内核：

更懂代码、更会重构、更会 review、更稳定。

另一条路线是把自己做成更像同事的工作入口：

能看屏幕、能操作软件、能持续跟进、能在手机上介入。

前者像更强的开发工具。
后者像更主动的数字员工。

所以我不会说 Codex 已经赢了。

Codex 正在把竞争维度从“谁更会写代码”，拉到“谁更能完成真实工作流”。

以后我们评价一个 Agent，可能不会只问：

“它代码写得好不好？”

“我能不能放心把一个任务交给它？”

我的理解是，短期最实用的组合可能是：

Codex 跑日常流程和跨 App 任务；
Claude Code 处理关键提交和复杂重构；
人类负责目标设定、边界控制和最终判断。

Agent 不是替代判断力，而是放大执行力。

谁能把执行过程做得更透明、更可控、更低门槛，谁就更接近真正的数字同事。

文章版权归作者所有，未经允许请勿转载。

THE END

Codex 新玩法：从写代码到数字同事

一：Codex 的定位变了

二：Computer Use 打开了跨 App 工作流

三：评论式交互降低了普通人的表达成本

四 ：Automations 让 Agent 开始接长期任务

五：Pads 小宠物不是玩具，而是状态可视化

六： 手机端入口让 Codex 更像“随时可介入的工作流”

七：Codex 和 Claude Code 的分工越来越清楚

八： 我的结论：Codex 正在把竞争维度拉大

请登录后发表评论

四：Automations 让 Agent 开始接长期任务

六：手机端入口让 Codex 更像“随时可介入的工作流”

八：我的结论：Codex 正在把竞争维度拉大