我最近整理了一下 Codex 这一段时间的变化。
重点不是说它已经全面替代 Claude Code,而是两者的分工开始变清楚:
Claude Code 更像高质量工程搭档;
Codex 更像能帮你操作电脑、跑流程、接长期任务的 AI 同事。
![图片[1]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/f403d3562920260525090352.webp)
一:Codex 的定位变了
过去很多人对 Codex 的印象是:
能写代码,能跑命令,能改项目。
但如果只是“会写代码”,那它就必须和 Claude Code、Cursor Agent、各种 CLI Agent 比代码质量、上下文能力和复杂重构。
这轮更新后,我理解 Codex 的重点不只是写代码,而是开始往真实工作流里走。
你给它一个目标,它能不能自己看屏幕、调工具、跨应用、持续推进,并在关键节点等你确认。
这就是从 Coding Agent 到 Digital Code Worker 的变化。
![图片[2]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/04c3dc410220260525090400.webp)
二:Computer Use 打开了跨 App 工作流
这次最关键的变化之一,是 Codex 可以看屏幕、点 UI、操作桌面 App。
这意味着它不再只能待在终端或项目目录里。
以前让 CLI Agent 做这种事会很别扭:
打开 Figma 看设计稿;
提取颜色规范;
写进 Tailwind config;
再回到本地页面检查效果。
这不是纯代码任务,而是跨 App 工作流。
我的理解是,Computer Use 的价值就在这里:
它让 Codex 从“代码助手”变成“电脑操作助手”。
但反过来也要注意权限边界。
CLI Agent 通常只碰某个项目目录;
Computer Use 一旦授权,触达范围可能是整台电脑。
先让它做低风险任务,比如改 demo、整理样式、生成文档、跑测试;
涉及钱包、生产数据库、密钥、线上部署、大规模删除文件的任务,暂时一定要保留人工确认。
能力越强,越要配权限管理。
![图片[3]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/30af37c17120260525090408.webp)
三:评论式交互降低了普通人的表达成本
另一个很有意思的点,是浏览器里的评论式交互。
你可以在网页上直接选中某个元素,然后像 Google Docs 评论一样告诉 Agent:
“这个按钮状态太弱,改成更明显的 primary action。”
这件事看起来小,但我觉得很重要。
因为它把 AI 指令从“命令行语言”变成了“指哪改哪”。
很多普通用户不是不会提需求,而是不知道怎么把需求翻译成:
文件路径、组件名、CSS 类、API、MCP 配置、命令行参数。
评论式交互真正降低的是表达成本。
未来 AI 工具的竞争,可能不只是模型谁更强,而是谁更懂人类怎么指挥工作。
![图片[4]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/dd86e8811d20260525090415.webp)
四 :Automations 让 Agent 开始接长期任务
Automations 是我觉得最值得关注的方向之一。
普通 Agent 是你叫它一次,它做一次。
Automations 更像是:
你给它一个长期目标,它按计划自动回来继续做。
例如可以让它每天检查某个开源项目的新 issue,只筛选 performance、memory、latency 相关内容,然后输出:
背景是什么;
涉及哪些文件;
可能的修复方向;
是否值得跟进;
有没有类似 PR。
这类任务过去需要人每天手动打开网页、筛信息、做判断。
Agent 如果能定时醒来接着做,价值会很大。
但我建议长期任务不要写得太泛。
“每天帮我看一下这个项目。”
“每天检查这个 GitHub repo 的新 issue,只筛选性能相关内容,输出 5 条以内摘要,每条包含 issue 链接、影响范围、可能涉及文件、建议优先级。不要自动提交代码。”
长期任务的关键不是自动,而是边界清楚。
![图片[5]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/a61679ac9420260525090423.webp)
五:Pads 小宠物不是玩具,而是状态可视化
Pads 看起来像一个很可爱的虚拟宠物功能。
但我的理解是,它解决的是 Agent 工作流里的一个真实问题:
Agent 在跑任务时,用户经常不知道:
它是不是卡住了;
是不是在等我输入;
是不是已经完成;
是不是还在执行;
有没有出错。
以前你要切终端、看日志、盯进度。
如果屏幕上有一个小宠物,用不同状态告诉你“正在跑 / 等你确认 / 已完成”,它其实是在做 AI 工作流的状态可视化。
可爱只是外壳,核心是降低焦虑。
AI Agent 不一定要一直严肃。
只要它能让用户更容易理解系统状态,拟人化、宠物化、轻量化 UI 反而可能更有效。
![图片[6]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/e2018aec1520260525090432.webp)
六: 手机端入口让 Codex 更像“随时可介入的工作流”
Codex 进入 ChatGPT 手机 App 后,我理解它的重点不是让你在手机上写代码。
你可以远程查看进度、补充判断、批准操作、看 diff、看测试结果。
这和 Automations 结合起来会很有想象力。
早上出门前交代一个任务;
路上用手机补充两句判断;
晚上回来检查结果。
这不是移动端写代码,而是移动端管理 Agent。
当然,这里也要注意边界。
如果它依赖本地 Mac Host,那电脑在线和 Codex 正在运行仍然是前提。
所以它更适合远程确认、轻量修改方向、查看结果,而不是幻想成手机一句话,所有复杂工程都自动完成。
![图片[7]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/d0cbf4366b20260525090440.webp)
七:Codex 和 Claude Code 的分工越来越清楚
我现在更愿意把两者理解成不同路线。
Claude Code 更像高质量工程工具:
适合复杂重构、核心模块改动、大型代码库理解、严肃 code review、关键 PR。
Codex 更像可操作的数字同事:
适合日常小改动、页面 UI 调整、跨 App 工作、自动化巡检、文档生成、测试运行、远程查看进度。
Codex for workflow,Claude Code for correctness。
这不是谁完全取代谁的问题,而是场景不同。
Benchmark 也不能直接等同于产品体验。
模型分数、SWE Bench、Terminal Bench 有参考价值,但真实使用里还要看 UI、权限、上下文、插件生态、任务恢复、成本感知和人类确认机制。
Agent 工具的竞争,不只是模型榜单竞争。
![图片[8]-Codex 新玩法:从写代码到数字同事-🎉数字奇遇🎉](https://www.freeyong.com/wp-content/uploads/2026/05/f647558b2720260525090449.webp)
八: 我的结论:Codex 正在把竞争维度拉大
这轮 Codex 更新给我的最大启发是:
AI 编程工具可能会分成两条路线。
一条路线是把自己做成更强的工程内核:
更懂代码、更会重构、更会 review、更稳定。
另一条路线是把自己做成更像同事的工作入口:
能看屏幕、能操作软件、能持续跟进、能在手机上介入。
前者像更强的开发工具。
后者像更主动的数字员工。
所以我不会说 Codex 已经赢了。
Codex 正在把竞争维度从“谁更会写代码”,拉到“谁更能完成真实工作流”。
以后我们评价一个 Agent,可能不会只问:
“它代码写得好不好?”
“我能不能放心把一个任务交给它?”
我的理解是,短期最实用的组合可能是:
Codex 跑日常流程和跨 App 任务;
Claude Code 处理关键提交和复杂重构;
人类负责目标设定、边界控制和最终判断。
Agent 不是替代判断力,而是放大执行力。
谁能把执行过程做得更透明、更可控、更低门槛,谁就更接近真正的数字同事。









暂无评论内容