金年会-官方体育与电竞娱乐平台实时赛事直播与竞猜OpenAI开发者平台负责人：我们活在硅谷泡泡里！很多AI部署确实负回报！曝Open内部吃自己的狗粮模型会把脚手架吃掉！SaaS黄金时代降至

363050.com

栏目：体育投注发布时间：2026-02-20

　　金年会,金年会官网,金年会登录,金年会注册,金年会app下载,在线体育投注,电竞投注平台,真人游戏平台,金年会数字站春节前夕，OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。　　API作为OpenAI的第一个产品，也是几乎所有AI创业公司都在集成的产品，可以说给了Sherwin一个极其独特且宏观的视角。　　Sh

　　金年会,金年会官网,金年会登录,金年会注册,金年会app下载,在线体育投注,电竞投注平台,真人游戏平台,金年会数字站春节前夕，OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。

　　API作为OpenAI的第一个产品，也是几乎所有AI创业公司都在集成的产品，可以说给了Sherwin一个极其独特且宏观的视角。

　　Sherwin提到一个被市场严重低估的现象——“一人独角兽”，Sam最早提出的概念。当AI把个人生产力放大十倍、百倍，理论上，一个人真的可以构建一家十亿美元公司。

　　也许会有一个十亿美元公司，但可能会有上百个一亿美元公司，成千上万个一千万美元公司。

　　Sherwin认为，未来业界会进入B2B SaaS和软件创业的黄金时代。围绕这些“一人公司”，可能会出现上百家小公司构建高度定制的软件，以专门专门服务这些高杠杆个体。

　　即：AI并不是消灭软件，而是把软件需求打碎成无数更细、更垂直的场景。过去，一个中型企业可能只买几套通用SaaS；未来，一个高杠杆个体，可能会购买十几种高度定制的AI工作流工具。

　　如果世界变成大量微型公司为一两个人服务的形态，创业生态和VC生态都会改变。

　　而那种能带来100倍、1000倍回报的风险投资项目可能反而减少，因为更多公司会停留在1000万到5000万美元规模。

　　此外，Sherwin还给出了一个捅破泡沫的言论：大多数AI部署都是负回报的！

　　世界上大多数人，包括美国大多数人其实并不懂得如何真正部署和“压榨”AI的价值。

　　“硅谷是泡泡，X是泡泡，软件工程也是泡泡。他们本身不是软件工程师，也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。”

　　他透露到，OpenAI内部有一个团队正在做实验，尝试维护一个100%由Codex编写的代码库。不同之处在于，当Agent运行不顺时，维护团队并不会“撸起袖子自己敲代码”，而是始终让AI自己编写。

　　而最重要的一个发现就是：当Agent没有按你期望工作，通常是“上下文问题”。要么你描述不够充分，要么它缺乏必要信息。

　　解决方法往往不是自己重写，而是补充文档、添加代码注释、改进代码结构，或者在仓库中增加MD文件等资源，把你脑海里的“部落知识”显式化，让模型能读到。

　　Sherwin另一个有意思的判断是：模型会把“脚手架”、“Agent框架”当早餐吃掉。

　　“这个领域和模型本身变化太快了，它们往往会自我颠覆，模型会把你搭的脚手架当早餐吃掉。

　　但随着模型变强，更好的方法反而是去掉大量逻辑，直接信任模型，只给它搜索工具——甚至只是普通文件系统。

　　“向量数据库仍然有价值，但围绕它构建的整个生态和复杂脚手架，重要性已经下降。随着模型进步，你可能需要重构抽象层和工具框架。”

　　所以，Sherwin给出的建议是：一定不要过度听取客户意见，而是要面向未来1～2年的模型趋势而构建。

　　此外，播客中还有不少趣料，比如他认为软件工程会朝着“外科医生”发展，再比如业务流程自动化被硅谷低估了，等等。

　　主持人：我想从一个可以视为AI进展“晴雨表”的问题开始，尤其是在工程领域。现在你——如果你还写代码的话——以及你团队的代码，有多少比例是由AI编写的？

　　Sherwin Wu：我现在偶尔还写代码。对像我这样的管理者来说，使用这些AI工具其实比手写代码容易得多。我和OpenAI的几位工程经理，目前所有代码基本都由Codex编写。

　　更广泛来看，内部有一种明显的能量场，大家都能感受到这些工具进步有多大，Codex对我们来说已经变得多么好用。很难精确衡量代码比例，因为几乎可以说接近100%的代码最初都是由AI生成的。我们真正追踪的是使用情况：目前绝大多数工程师每天都在用Codex——95%的工程师在用；100%的PR每天都由Codex审核。也就是说，任何进入生产环境的代码都会经过Codex“过目”，它会提出改进建议。对我们来说最令人兴奋的，其实是这种能量感。

　　另一个观察是：用Codex更多的工程师，提交的PR数量高出70%，而且这个差距还在扩大。他们越来越熟练，效率越来越高。

　　主持人：所以确认一下，你是说那95%的工程师，他们的代码都是AI写的，然后由他们审核？

　　Sherwin Wu：还是需要适应的。也有工程师对Codex的信任度稍低。但我几乎每天都会听到有人惊叹它能完成什么，他们对模型自主能力的信任在不断提高。Kevin Whale（小编注：OpenAI首席产品官）常说：“这是模型此生最差的时刻。”这同样适用于软件工程。模型只会越来越好，人们的信任也会不断增强。

　　主持人：Kevin也在节目里说过这句话。还有Peter——OpenClaw的开发者——他说自己用Codex时，几乎相信它可以直接提交到主分支。

　　Sherwin Wu：他是个很好的用户，也给我们很多反馈。OpenClaw确实是个很棒的产品。今天早上我还看到Moltbook的分享，看到AI Agent彼此对话，感觉非常超现实，就像电影《Her》在现实中发生。

　　主持人：回到这个对工程师而言疯狂的时代。我们从“自己写每一行代码”变成“AI写所有代码”。我不知道还有哪个职业变化这么剧烈。工程师的角色在未来几年会变成什么样？

　　Sherwin Wu：看到这一切真的很酷，也正是这种变化带来了兴奋。未来一到两年，工程师的工作会发生重大改变。现在大家还在摸索阶段，这是一段罕见的窗口期，也许在未来12到24个月，我们可以自己定义新的标准。

　　有一个常见说法是：个人贡献型工程师正在变成技术负责人，几乎像管理者一样。他们在管理成群的Agent。我团队里的工程师经常同时拉着10到20个线程并行推进——当然不是同时跑任务，而是在不断检查、引导、给Codex反馈。他们的工作已经从“写代码”转变为“管理代码生成过程”。

　　《SICP》在麻省理工学院（MIT）当年非常流行，它曾长期作为入门编程课的教材，也因此拥有一种“宗教式”的追随者文化。它用的是一种名为Scheme的Lisp方言来教学，会把你带入函数式编程的世界，非常开脑洞。但对我来说，这本书最难忘的是它在开篇对“编程”这门学科的定义——它把编程类比为“巫术”。书里说，软件工程师就像巫师，编程语言就像咒语，你念出这些咒语，它们就会替你完成事情。挑战在于：你要念出什么样的咒语，程序才会按你的意愿运行。这本书写于1980年，但这个隐喻居然一路延续至今。

　　我觉得它正在真实发生在我们进入“vibe coding”新时代的过程中。编程语言一直都是某种“咒语”，只是随着时间推移，表达方式越来越高级，让计算机按你的意图行动变得越来越容易。而这一波AI，可能就是这条演进路径的下一阶段。现在它真的成了“咒语”——你可以直接告诉Codex、Cursor你想要什么，然后它们去帮你完成。

　　我特别喜欢“巫师”这个比喻，因为我们现在的状态其实越来越像《幻想曲》里的“魔法师学徒”。米老鼠戴上魔法帽，试图施法，结果失控——扫帚开始疯狂打水，房间被淹。他给扫帚下达任务后自己睡着了，事情就失控了。我觉得这比喻非常贴切。一方面，这些“咒语”威力巨大，杠杆极高；但另一方面，你必须知道自己在做什么。不能完全放手不管，否则模型就可能“跑偏”。

　　当我看到工程师同时管理20个Codex线程时，那确实需要技巧、资历和深思熟虑。你不能彻底离开，也不能完全忽视。但一位真正熟练的高级工程师，现在可以通过这些工具完成远超以往的事情。这也正是乐趣所在——真的感觉自己成了巫师，施展魔法，让软件为你完成各种任务。

　　主持人：我刚才听你讲的时候脑子里就是“魔法师学徒”的画面。之前也有嘉宾说过，现在像是拥有一个可以许愿的精灵，但你必须非常精确地表达愿望，否则后果难料——甚至像“猴爪”故事那样，愿望实现了，却伴随副作用。

　　Sherwin Wu：对，这个比喻很好。SICP也被称为“巫师之书”，因为这个隐喻贯穿全书。我们现在真的走到了那个阶段，这本身就很酷。

　　OpenAI内部实验：100%由Codex编写代码的团队，维护基本就是补充上下文

　　主持人：有两个方向我想继续追问。一个是，我越来越多地听到人们提到，当Agent不按预期工作时，会产生一种压力。你同时启动一堆Codex Agent，还得盯着它们——这个不工作了，那个浪费时间了。你在团队里也感受到这种压力吗？

　　Sherwin Wu：有，而且经常发生。我认为这里正是目前最有意思的部分。模型和工具都还不完美，我们仍在摸索如何与它们最佳协作。

　　内部有一个特别有意思的团队正在做实验：他们维护一个100%由Codex编写的代码库。通常你会让AI写代码，但最终会自己重写很多部分、做检查修改。但这个团队是“彻底Codex化”，完全不留退路。他们遇到的正是你说的问题：想实现某个功能，但Agent始终做不到。通常这时你会“撸起袖子”自己写代码，或用Tab补全、Cursor等工具。但这个团队没有这个逃生舱口。

　　于是问题变成：如何让Agent真正完成任务？我们可能会发布一篇博客总结经验。一个重要发现是：当Agent没有按你期望工作，通常是“上下文问题”。要么你描述不够充分，要么它缺乏必要信息。解决方法往往不是自己重写，而是补充文档、添加代码注释、改进代码结构，或者在仓库中增加MD文件等资源，把你脑海里的“部落知识”显式化，让模型能读到。

　　取消“人工逃生通道”之后，他们开始真正理解，如果要全面拥抱Agent，我们需要解决哪些结构性问题。

　　主持人：你提到，使用AI的工程师提交PR的数量大幅增加。这意味着代码审查会成为瓶颈。你们有什么办法避免工程师整天只是在Review PR吗？

　　Sherwin Wu：首先，Codex现在审核我们100%的PR。一个有趣现象是：我们最早交给模型的，往往是我们最讨厌、最枯燥的工作。代码审查就是其中之一。

　　对我来说，代码审查曾经是最痛苦的工作之一。我毕业后的第一份工作在Quora，负责Newsfeed代码。因为那是核心模块，所有人都会改动。每天早上打开电脑，看到20到30个待审PR，拖着拖着就变成50个。那种感觉非常糟糕。

　　Sherwin Wu：所以在代码审查方面，是的，我们确实创建了大量PR，但Codex会审核全部PR。这让代码审查从原本10到15分钟的任务，有时缩短到两三分钟，因为很多修改建议已经提前生成好了。很多情况下，尤其是小型PR，甚至不再需要人工审核——我们在这方面已经相当信任Codex。代码审查的本质是“第二双眼睛”，确保你没犯低级错误。现在，Codex已经是一双非常聪明的“第二双眼睛”，所以我们在这方面投入得很深。

　　此外，CI流程以及代码提交后的部署流程，也已经大量通过Codex实现自动化。很多工程师最烦的事情是：写完漂亮的代码之后，怎么把它部署上线？要跑测试、修lint错误、做代码审查……这一整套流程。很多环节都可以通过Codex自动化处理。我们内部已经构建了一些工具来自动修复lint错误——如果出现lint问题，Codex可以直接生成补丁，然后重新触发CI流程。我们的目标是把工程师在这些环节的工作量压缩到最低。结果就是，他们现在可以合并和发布更多PR。

　　主持人：Codex写代码，又用Codex审核代码。我很好奇，你们是否考虑用其他模型来审核自己模型的工作？还是说现在已经足够好了？

　　Sherwin Wu：确实存在某种“循环”的问题——回到“魔法师学徒”的比喻，你不希望扫帚失控。所以我们在选择哪些PR可以完全交由Codex审核时是非常谨慎的。大多数人仍然会查看自己的PR，并不是完全放手，而是从“100%注意力”降低到大概“30%注意力”，这已经足够提高效率。

　　至于多模型策略，我们内部测试很多模型，也有不少模型变体可供选择。外部模型用得较少，我们认为“吃自己的狗粮”很重要，通过使用自家模型来获得反馈。当然，在内部不同模型版本之间切换，获得不同视角，是常见做法，而且效果不错。

　　主持人：为了给大家一个清晰的现状刻度：可以说OpenAI现在生产环境中的代码100%由Codex编写吗？

　　Sherwin Wu：我不会说今天线%由AI写成，因为归因很难精确。但几乎所有工程师现在都高度依赖Codex。如果要粗略估计，我会说现在绝大多数代码很可能最初是由AI生成的。

　　主持人：我们谈了很多IC工程师的变化，但关于工程经理的讨论较少。AI兴起之后，你作为经理的生活发生了什么变化？未来经理的角色会是什么？

　　Sherwin Wu：相比工程师，经理的变化没那么剧烈。还没有专门的“经理版Codex”。不过，我确实用Codex来辅助一些管理相关的工作。

　　目前变化还不算巨大，但趋势已经出现。如果把趋势推演下去，就能看到方向。一个越来越明显的现象是：Codex极大放大了顶尖绩效者的生产力。我觉得这可能是AI在整个社会层面的共性——那些真正“倾身投入”、有主动性、愿意掌握工具的人，会大幅自我增强。

　　我已经看到这种分化：顶尖绩效者的产出明显拉开差距。因此，团队内部的生产力分布变得更宽。我的管理哲学一直是，把大部分时间花在顶尖绩效者身上——确保他们没有阻碍、保持开心、感觉被支持、被倾听。在AI时代，这一点更重要，因为顶尖人才会用这些工具“飞起来”。

　　比如那个维护100% Codex代码库的团队，让他们自由探索、深挖最佳实践，已经带来很大回报。我认为未来经理会花更多时间在这类高杠杆群体上。

　　另一个趋势是：AI工具让经理本身也变得更高杠杆。比如把ChatGPT接入组织知识库，连接GitHub、Notion、Google Docs，在做绩效评估时，可以快速生成一份过去12个月工作成果的深度报告。

　　我推测，未来经理可以管理更大的团队。就像工程师管理20到30个Codex线程一样，管理者也会因为工具的加持而变得更高杠杆。当前软件工程的最佳管理跨度大概是6到8人，但未来可能会远远超过这个数字。

　　这种趋势已经在支持、运营等非工程领域出现：随着更多事务交给Agent，人可以处理更多事务，也能管理更多人。我认为在人力管理领域也会发生类似变化。我们已经看到一些工程经理管理人数显著增加，而且做得相当不错，因为他们能更高效地获取团队信息、理解组织背景。

　　主持人：你提到一直把时间投入在顶尖绩效者身上。Mark Andreessen之前在节目里说过，AI让好的人更好，让伟大的人变得卓越。

　　Sherwin Wu：对。一个很好的例子是，内部有一群工程师非常沉浸在Codex实践中，研究如何与模型最佳互动。这是极高杠杆的事情。作为经理，我会鼓励他们继续探索，并把最佳实践在组织内传播——通过知识分享会议、文档沉淀等方式。这会抬高整个组织的水平。我认为这正是“顶尖绩效者变得卓越”的体现。

　　主持人：很多人都有一种直觉：AI很大，它正在改变世界。但你觉得有哪些变化是大家还没有真正“定价进去”的？有哪些潜在影响是我们还没有意识到的？

　　Sherwin Wu：我最喜欢的一个说法，是这波AI浪潮中诞生的“一个人打造十亿美元公司”的概念。我记得可能是Sam最早提出来的。这个想法很迷人——当个人杠杆被极度放大，理论上确实可能出现一家“一个人、十亿美元”的公司。但我觉得大家还没有真正把它的二阶、三阶效应算进去。

　　“一个人十亿美元公司”意味着，一个人的主动性和杠杆被工具放大到极致，他可以极其高效地完成公司所需的一切，从而打造出价值十亿美元的业务。但它还有其他含义。第一，如果一个人能做到这一点，那说明创业本身会变得更容易。我认为这会带来一次巨大的创业潮，尤其是中小企业（SMB）式的爆发——任何人都能为任何细分场景构建软件。

　　我们已经在AI创业领域看到垂直化趋势：为特定行业打造AI工具往往效果很好，因为你能深度理解那个场景。如果把这个趋势推演下去，完全可能出现100倍数量的垂直创业公司。

　　我甚至觉得，为了支撑一个“一个人十亿美元公司”，可能会有上百家小公司构建高度定制的软件，专门服务这些高杠杆个体。因此，我们或许会进入B2B SaaS和软件创业的黄金时代。随着软件开发和运营公司的成本不断下降，你会看到越来越多公司出现。

　　我的想法是：也许会有一个十亿美元公司，但可能会有上百个一亿美元公司，成千上万个一千万美元公司。对个人来说，一家一千万美元的公司已经足够实现财务自由。这种爆发式增长，我觉得大家还没有真正“定价”。

　　再往三阶效应看——当然越往远推不确定性越高——如果世界变成大量微型公司为一两个人服务的形态，创业生态和VC生态都会改变。也许只剩下少数大型平台型公司支撑这些微型企业。而那种能带来100倍、1000倍回报的风险投资项目可能反而减少，因为更多公司会停留在1000万到5000万美元规模。这对VC来说未必理想，但对高主动性的个人来说非常好，他们可以借助AI为自己打造业务。

　　主持人：关于“十亿美元公司”，我其实有点悲观。光是支持成本就很难规模化。即便有AI帮忙，除非你客户很少且客单价极高，否则支持问题本身就难以靠一个人处理。

　　Sherwin Wu：我同意这一点，但我的看法略有不同。也许你自己的播客就可能成为十亿美元公司。关键在于，你不必亲自派AI去处理所有支持工单。可能会出现十几家专门为播客和Newsletter构建支持软件的小公司——它们本身就是“一个人公司”。它们能非常轻松地构建出高度定制的产品，而你作为“一个人公司”去购买这些服务。

　　随着软件构建成本急剧下降，你可能会外包越来越多事务，从而缩小自己公司的规模。最终，仍然可能是一个人驱动一个高杠杆的公司，达到十亿美元规模。当然，不确定性仍然存在。

　　主持人：我也在想，像Peter（OpenClaw创始人）现在被各种需求、邮件、PR淹没——而他甚至还没变现。

　　Sherwin Wu：这可能就像我们刚发布ChatGPT那几个月的疯狂状态。他一个人承受这种规模，一定非常疯狂。

　　主持人：也许四阶效应是：分发变得更重要，因为太多东西在争夺注意力。有受众、有平台的人价值更高。

　　主持人：回到管理话题。除了多花时间在顶尖绩效者身上，你还有哪些核心管理心得？

　　Sherwin Wu：很多经验未必特定于OpenAI API业务。我自己的管理理念这些年有所演进，但总体变化不算太大。

　　其中一个核心原则就是刚才提到的：把大量时间投入在顶尖绩效者身上。具体来说，可能超过50%的时间花在前10%的绩效者身上，真正赋能他们。

　　我常用一个比喻——来自《The Mythical Man-Month》——把软件工程师比作外科医生。这个比喻对我的管理理念影响很大。

　　其实挺有意思的。我是从那本《The Mythical Man-Month》里看到这个比喻的。那本书写于上世纪70年代，当时他们其实像是在预测未来。他们说，软件工程可能会演变成一种类似“外科手术室”的模式——工程师就像外科医生。手术室里真正“动刀”的只有一个人，其他人——护士、住院医师、研究员——都在为他提供支持。外科医生说“给我手术刀”，就有人递上；说“需要某个设备”，马上就到位。所有人围绕一个核心执行者展开支持。那本书当年就预言，软件工程可能会朝这个方向发展。

　　当然，现实并没有完全变成那样——软件开发仍然是高度协作的，不是一个人完成所有工作。但我一直很喜欢这个类比，也在自己的管理理念中努力去“模拟”这种模式。软件工程不是手术，但我希望团队成员能有“外科医生”的感觉：他们是核心执行者，而我作为管理者，要确保他们拥有一切所需资源，感觉背后有一支军队在支持他们——哪怕实际上只有我一个人在做这些支持工作。举个例子，“提前看到转角”并为团队扫清障碍，在组织层面上极其重要。尤其在今天的AI时代更是如此。如果大家只是不断提交PR，真正卡住进度的往往不是技术，而是组织流程和协作问题。作为管理者，如果能提前预判阻塞点，在“医生”开口之前就准备好“手术刀”，那就是最佳状态。这是我理解的工程管理方式。这个类比虽然不完全贴切，但一直伴随我整个职业生涯。

　　主持人：我很喜欢这个说法。我在想，AI是不是也能帮助管理者“提前看到转角”？比如预测某个工程师将会因为某个决策被卡住，我们是不是可以提前处理？

　　主持人：我想把话题转回你们的API和平台。你和很多公司合作，帮助他们部署AI。你提到很多公司在AI部署上其实是负ROI，这和外界的感受一致。到底出了什么问题？

　　Sherwin Wu：先澄清一下，我没有直接看到量化数据——这类ROI很难精确测算。但从观察来看，我不会惊讶如果很多AI部署确实是负回报的。甚至在科技圈之外，很多人有一种情绪：AI是被“强行推到他们头上”的。这种抵触感，本身可能就和负ROI有关。

　　我看到几个现象。第一，我们所在的硅谷，其实活在一个泡泡里。X是泡泡，硅谷是泡泡，软件工程是泡泡。世界上大多数人——包括美国的大多数人——都不是软件工程师，也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。在我们这里，大家讨论的是最佳实践、codecs、agents、MCPs等高级用法；X上那些发帖的人几乎都是重度AI用户。但当我和一些公司一线员工交流时，他们只是用AI做非常基础的事情，对技术原理几乎没有理解，也没有真正“压榨”它的能力。

　　这就引出一个问题：理想的AI部署模式是什么？在我看来，成功案例往往具备两个条件——自上而下的支持，以及自下而上的采用。高层要明确战略，比如“我们要成为AI-first公司”，愿意投入资源和预算；但更关键的是基层员工真正愿意学习、尝试、分享最佳实践。只有当一线员工主动拥抱技术，并在具体工作场景中摸索“最后一公里”的应用细节，AI才真正开始创造价值。

　　在OpenAI内部也是如此。我们一直想成为AI驱动的公司，但真正加速发生，是当员工开始把这些工具直接应用到日常工作中。因为每个岗位——工程、财务、运营、销售——都有独特的工作细节，这些都需要自下而上地打磨。我的感觉是，很多公司缺少这种自下而上的采用和热情，因此AI部署很难真正产生正向ROI。

　　有些公司就是非常明确地下达命令，自上而下推进，而且完全脱离一线实际工作的样子。结果就是，你会得到一支庞大的员工队伍，他们其实并不理解这项技术，只是知道“我应该用这个”，甚至绩效考核里也写着要用，但不知道该怎么用。看看周围，也没人真正用起来，没有榜样可以学习。

　　Sherwin Wu：我的建议是，公司如果真的想推动AI，不如在内部设立一个全职“突击队”——一个AI tiger team，专门探索技术的能力边界，把它落地到具体工作流，做知识分享，制造兴奋感。如果没有这样的团队，其实非常难真正用起来。

　　主持人：这个tiger team应该是什么构成？工程师主导？还是跨职能？

　　主持人：所以反模式就是：CEO和高管宣布“我们要AI-first”，每个人的绩效都要和AI使用挂钩，但没有自下而上的传播者，最后效果不好？

　　Sherwin Wu：对，完全正确。更好的做法是找到那些最兴奋、最主动的人，与其让他们分散在组织里，不如把他们聚在一起，形成一个AI evangelist团队，去探索用法，再向全公司扩散。换个角度说，这也和我的管理理念一致——找到AI采用上的“高绩效者”，赋能他们。让他们组织黑客松、做内部分享、传播最佳实践，在组织内部种下兴奋的种子。

　　目标是移动的：Agent框架、脚手架的作用在减弱今天流行的是Skills、上下文管理

　　主持人：有个你提到过的观点挺有争议：在AI领域，过度听客户意见可能会把你带偏。

　　Sherwin Wu：我不觉得这有多“热”。当然要和客户沟通，这是有价值的。但问题在于，AI这个领域——尤其过去三年——变化太快了，模型本身不断自我颠覆，尤其是在工具和“脚手架”（scaffolding）层面。

　　我这周读到一篇文章，是FinTool创始人Nicholas写的，他总结自己在金融服务里做AI agent的经验。有一句话我特别喜欢：“模型会把你的脚手架当早餐吃掉。”

　　回到2022年ChatGPT刚发布的时候，模型还很“原始”，于是大家围绕它构建了大量产品级脚手架，尤其在开发者生态里，用各种框架、agent框架、向量数据库、embedding系统去“引导”模型输出想要的结果。但随着模型能力迅速提升，它们真的开始“吃掉”这些脚手架。

　　今天流行的是skills文件、基于文件的上下文管理。但我也能想象一个未来，模型可以自己管理这些，不再需要这种文件式结构。你已经看到这种演化：agent框架的作用在减弱；2023年我们以为向量数据库会成为组织上下文输入的核心方式，需要把所有语料embedding，再精细优化向量搜索。

　　但随着模型变强，更好的方法反而是去掉大量逻辑，直接信任模型，只给它搜索工具——甚至只是普通文件系统。向量数据库仍然有价值，但围绕它构建的整个生态和复杂脚手架，重要性已经下降。

　　所以回到“要不要听客户”这个问题：如果你只听客户，他们可能会说“我要更好的向量数据库”“我要更强的agent框架”。但那可能只是当前的局部最优。随着模型进步，你可能需要重构抽象层和工具框架。这个领域令人兴奋，也令人抓狂——因为目标是移动的。今天的工具组合，未来很可能会大幅演化。与客户沟通时，你必须平衡他们当前的需求和你对未来1-2年模型趋势的判断。

　　主持人：这让我想到《苦涩教训》（The Bitter Lesson）——在AI里，越少人为复杂逻辑、越少手工规则，越能规模化，让算力和模型自己解决问题。

　　Sherwin Wu：是的，几乎可以说有一个“AI构建版的苦涩教训”。我们曾经围绕模型搭了很多架构，但模型进步后把它们都吞掉了。坦率讲，我们OpenAI API团队也走过一些弯路。但模型不断进步，我们每天都在重新学习这条“苦涩教训”。

　　主持人：那对今天基于API或agent构建产品的人来说，最核心的建议是什么？

　　Sherwin Wu：我的核心建议一直是：为模型将要去的方向构建，而不是为模型今天的状态构建。

　　Sherwin Wu：这显然是一个不断移动的目标。我看到那些真正做得好的创业公司，往往是围绕一种“理想能力”在做产品——这种能力今天可能只实现了80%。产品现在是“差一点点就到位”，但随着模型变强，突然某一天就“啪”地一下完全跑通。也许最初在o3上还不行，但到了5.1、5.2版本就彻底解锁。他们在设计产品时，是把模型能力持续提升这个趋势考虑进去的。如果你默认模型是静态的，你做出来的体验一定不如这种“面向未来”的产品。是的，你可能需要稍微等一等，但模型进步太快了，通常也等不了太久。

　　Sherwin Wu：最明显的方向是——模型可以连贯执行多长时间的任务。现在有一个衡量软件工程任务时长的基准测试，统计模型在50%、80%成功率下可以持续完成多长时间的任务。目前前沿模型在50%成功率下已经可以完成多小时的任务，在80%成功率下接近一小时。更震撼的是，你把历代模型都画在那张图上，能清晰看到趋势。现在大多数产品还在围绕“分钟级任务”优化。哪怕是像Code工具，更多也是交互式、10分钟左右的工作流。确实有人把它推到多小时，但那是例外。

　　按照趋势推演，未来12到18个月，模型可能可以非常连贯地完成多小时任务，甚至一天6小时级别的任务——你把任务派发出去，它自己干一阵子。围绕这种能力构建的产品会完全不同。你肯定要加入反馈机制，不会让它完全失控地跑一整天，但可实现的任务空间会大幅扩展。

　　主持人：总结一下，就是Agent会运行更久、更稳定；音频会变得更核心、更原生。

　　Sherwin Wu：这又回到“我们活在硅谷泡泡里”这个问题。我们习惯的软件工程、产品管理，其实和支撑整个经济运行的工作形态差异巨大。如果你和一家非科技公司聊天，会发现大量工作都是“业务流程”。

　　主持人：你的意思是，相比工程领域，AI在这些重复型岗位上的生产力影响可能更大？

　　Sherwin Wu：至少是同样巨大，甚至在业务流程侧的变化会更显著。我常被问：20年后的公司会是什么样？软件工程只是其中一部分，更大的变化可能发生在业务流程层面。这块规模非常庞大，只是我们在X或Twitter上很少讨论。

　　主持人：换个话题。所有基于API创业的人都会问：如何避免被OpenAI自己下场做同样的产品？

　　Sherwin Wu：我的一般回答是，这个市场真的太大了，大到创业公司其实不必过度纠结OpenAI或者其他大模型实验室会往哪里走。我见过很多创业公司，有做得不成功的，也有做得非常好的。那些失败的公司，从来不是因为OpenAI、某个大实验室或者Google下场“碾压”了他们，而是因为他们做的产品根本没有真正打动客户。反过来看那些起飞的公司——哪怕是在极度竞争的领域，比如编程工具，像Cursor现在已经非常大了——原因只有一个：他们做了用户真正热爱的产品。

　　所以我的建议是，不要过度焦虑。只要你做出真正有人喜欢的东西，你一定会在这个生态里找到自己的空间。我真的无法夸张地形容现在机会有多大。用AI构建产品的机会窗口，是前所未有的。一个有趣的例子是：这个市场大到连VC的“可接受投资范围”都被改写了。风投现在会毫不犹豫投资彼此竞争的公司，因为机会空间实在太大了。从创业者角度看，这反而是最令人振奋的——哪怕你只做出一个让一部分人“非常非常喜欢”的产品，也可能成长为一家极其有价值的公司。所以不要过度思考OpenAI会不会做同样的事。

　　Sherwin Wu：另外，从OpenAI的角度，我们一直把自己视为一个“生态平台型公司”。API是我们的第一个产品。我们非常重视生态建设，也不希望去挤压它。Sam和Greg从一开始就反复强调这一点。如果你观察我们的决策，会发现这一点贯穿始终。我们发布的每一个模型，都会进入API。哪怕是为Codex场景优化的模型，也最终会开放给API用户。我们不会把能力“锁在自己产品里”。我们保持平台中立，不屏蔽竞争者，允许开发者访问我们的模型。最近测试的“用ChatGPT登录”等功能，本质上也是在强化生态。

　　我们的思路是“水涨船高”。也许我们像一艘航母，但如果潮水上涨，所有船都会受益，我们自己也会受益。API的增长已经证明了这一点。所以，与其把OpenAI看成一个会把别人挤走的存在，不如专注于打造真正有价值的产品。我们会继续致力于一个开放生态。

　　Sherwin Wu：那是ChatGPT团队主导的，我们密切合作。他们开发了Apps SDK。这也是平台战略的延伸。ChatGPT现在每周有大约8亿活跃用户——这是一个极其庞大的资产。与其独占这流量，不如让其他公司也能围绕这个用户群体构建产品，最终这也会扩大整个生态规模。

　　Sherwin Wu：这大概相当于全球10%的人口，而且还在增长。规模确实令人震撼。

　　主持人：你们一直强调“让AI惠及全人类”。比如免费版ChatGPT，任何人都可以使用，而且能力并不比最强模型差太远。

　　Sherwin Wu：是的。免费模型这几年进步非常大。2022年的免费模型和今天相比完全不是一个量级。今天免费用户用到的是2GB 5级别的能力。我们一直在“抬高地板”，让全球更多人受益。再换个角度说，你花20美元一个月，就能用到和亿万富翁几乎相同的AI能力；花200美元，可以用Pro版本。某种程度上，这是前所未有的技术民主化。

　　主持人：最后一个问题。对于想基于API构建产品的人来说，你们的平台到底能做什么？

　　Sherwin Wu：简单来说，我们的API允许开发者构建智能体、多模态应用、语音应用，以及各种结合企业数据的AI系统。你可以调用最前沿的模型，接入工具、文件系统、搜索、函数调用等能力，构建可以自主执行任务的系统。你可以围绕文本、代码、图像、音频构建应用，也可以把模型嵌入到自己的产品流程里。我们的目标是提供尽可能通用、强大、可扩展的基础能力，让开发者在其之上创造属于自己的产品和体验。

　　从根本上说，我们的 API 提供了一系列开发者端点，这些端点本质上让你可以调用我们的模型进行采样。目前最受欢迎的是 Responses API。它是一个为构建长时间运行的智能体而优化的接口，也就是那种可以持续工作一段时间的 agent。在一个非常底层的层面上，你基本上只是向模型输入文本，模型会运行一段时间，你可以轮询查看它在做什么，最终在某个时刻获得模型返回的结果。这是我们提供的最底层原语，实际上也是很多人最常用的方式。它非常“无预设立场”，几乎不做限制，你基本可以随心所欲构建任何东西，因为它足够底层。

　　在此之上，我们也开始构建越来越多的抽象层，帮助大家更容易搭建这些系统。再往上一层是 Agents SDK，它现在也变得极其流行。通过它，你可以基于 Responses API 或其他接口，构建更传统意义上的“智能体”——比如一个在无限循环中运行的 AI，它可以把子任务委派给子 agent，构建出一整套框架和脚手架。未来会演变成什么样还不好说，但它确实让构建这类系统变得更容易，比如添加护栏、把子任务分发给其他 agent，甚至编排一个“智能体群”。Agents SDK 就是为此设计的。

　　再往上，我们还开始构建一些工具，帮助解决部署智能体的“元层面”问题。比如我们有一个叫 Agent Kit 的产品，还有 Widgets——本质上是一组 UI 组件，可以让你非常轻松地在 API 或 Agents SDK 之上构建一个美观的界面。因为从 UI 角度看，很多智能体的形态其实很相似。除此之外，我们还有一系列评测工具，比如 Eval API。如果你想测试模型、智能体或工作流是否正常运行，可以通过我们的评测产品进行量化验证。

　　所以在我看来，这是一个分层结构——不同层级都在帮助你基于我们的模型构建想要的东西，抽象程度逐级提升、预设也逐渐增强。你可以直接使用整套技术栈，很快搭建一个 agent；也可以一路往下，回到底层的 Responses API，自由构建任何你想要的系统，因为它足够原始、足够底层。

　　Sherwin Wu：如果还有什么想留给大家的话，我会说，未来两到三年将会是科技行业和创业世界最有趣的时期之一，而且可能是很久以来最有趣的一段时间。我鼓励大家不要把它当成理所当然。我是 2014 年进入职场的，最初几年很棒，但后来有五六年科技行业并不算特别兴奋。过去三年则是我职业生涯中最疯狂、最令人振奋的阶段，我认为接下来的两三年还会延续这种势头。所以不要错过。总有一天这波浪潮会趋于平缓，变得更加渐进式发展。但在此之前，我们将探索很多酷炫的东西，发明全新的事物，改变世界，也改变我们的工作方式。这是我最想说的。

　　Sherwin Wu：参与进来。正如你说的，主动投入。构建工具是其中一部分，但即便不是软件工程师，也完全可以参与。很多工作都会因此改变。使用这些工具，理解它们的能力边界——知道它们能做什么、不能做什么，然后观察它们随着模型进步能开始做到什么。核心就是熟悉这项技术，而不是躺平让它从你身边溜走。

　　Sherwin Wu：坦白说，我自己可能是个反面例子，因为我长期泡在 X 和公司 Slack 上，信息吸收量很大。但我观察到的一点是：大量内容其实是噪音。你不需要 110% 地吸收所有动态。专注一两个工具，从小处入手，已经远远足够。行业节奏本来就快，再叠加社交平台，会形成一种让人窒息的新闻洪流。其实你没必要掌握所有信息才能真正参与。哪怕只是安装 Codex 客户端玩一玩，或者安装 ChatGPT，把它连接到 Notion、Slack、GitHub 等内部数据源，看看它能做什么、不能做什么，都已经是在参与。

　　Sherwin Wu：我推荐一本小说和两本非虚构。小说是《There Is No Antimemetics Division》，作者是 QNTM。我是在 X 上看到有人分享的。这是一部带有科幻色彩的作品，我两天就读完了。文笔极佳，非常有创意，讲的是一个政府机构对抗“会让人遗忘自身存在之物”的故事。设定新鲜、构思聪明，而且无意中还挺幽默——虽然基调接近科幻恐怖，但读着读着会让人发笑。

　　非虚构方面，我最近一年读了不少关于中美关系的书。有两本让我印象深刻。第一本是丹·王的《Breakneck》，他用“律师型社会”和“工程师型社会”来对比美国与中国，分析各自的优劣。我读完后也在想，美国确实像是一个由律师主导的社会。

　　第二本是帕特里克·麦吉写的关于 Apple 与中国关系的书，非常有意思。我是个不折不扣的苹果迷，如果你现在看到我的桌面，会发现几乎全是苹果产品。那本书让我对苹果与中国之间的复杂互动有了更深入的理解。

　　第二点是，这本书包含了大量关于 Apple 公司的内部信息，我觉得非常吸引人。读起来节奏很快，也非常应景，是一本很“及时”的书。

　　Sherwin Wu：对对对，我记得也就两百来页，我真的两天就读完了，实在太精彩。

　　Sherwin Wu：最近我重新搭建了家里的 Wi-Fi 和家庭网络系统，彻底换成了 Ubiquiti 的路由器和安防摄像头。之前从没接触过这个品牌，我以前的配置都很简单。这次深入使用后，真的觉得它做得非常好。如果要打个比方，它就像家庭网络领域的苹果。

　　硬件设计很漂亮，但真正厉害的是软件——他们的移动端管理应用做得非常出色，可以统一管理家庭网络。如果你家里布好了以太网线路，用它效果会非常好。我尤其推荐他们的安防摄像头系统，接入 Ubiquiti 生态后，可以通过手机、Apple TV、iPad 实时查看监控画面，体验非常流畅。价格不算便宜，但也没贵到离谱，整体体验真的很棒。

　　Sherwin Wu：我经常对自己说的一句话是——永远不要自怜。无论是在工作还是生活中，总会发生各种事情。提醒自己不要沉溺于自怜，而是意识到自己始终拥有行动能力，能够把自己拉起来，这对我很重要。我也经常对别人这么说。

上一篇：福地怀化欢乐年｜同心筑暖马跃新程这场残疾人专场金年会-官方体育与电竞娱乐平台实时赛事直播与竞猜年会温情落幕

下一篇：没有了

联系我们

金年会

电话：363050.com
传真：363050.com
邮箱：363050.com
QQ：363050.com
地址：金年会永久网址【363050.com】

姓名

邮箱

电话

内容

提交

友情链接:

TOP