金年会,金年会官网,金年会登录,金年会注册,金年会app下载,在线体育投注,电竞投注平台,真人游戏平台,金年会数字站春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。
API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,可以说给了Sherwin一个极其独特且宏观的视角。
Sherwin提到一个被市场严重低估的现象——“一人独角兽”,Sam最早提出的概念。当AI把个人生产力放大十倍、百倍,理论上,一个人真的可以构建一家十亿美元公司。
也许会有一个十亿美元公司,但可能会有上百个一亿美元公司,成千上万个一千万美元公司。
也许会有一个十亿美元公司,但可能会有上百个一亿美元公司,成千上万个一千万美元公司。
Sherwin认为,未来业界会进入B2B SaaS和软件创业的黄金时代。围绕这些“一人公司”,可能会出现上百家小公司构建高度定制的软件,以专门专门服务这些高杠杆个体。
即:AI并不是消灭软件,而是把软件需求打碎成无数更细、更垂直的场景。过去,一个中型企业可能只买几套通用SaaS;未来,一个高杠杆个体,可能会购买十几种高度定制的AI工作流工具。
如果世界变成大量微型公司为一两个人服务的形态,创业生态和VC生态都会改变。
而那种能带来100倍、1000倍回报的风险投资项目可能反而减少,因为更多公司会停留在1000万到5000万美元规模。
而那种能带来100倍、1000倍回报的风险投资项目可能反而减少,因为更多公司会停留在1000万到5000万美元规模。
此外,Sherwin还给出了一个捅破泡沫的言论:大多数AI部署都是负回报的!
世界上大多数人,包括美国大多数人其实并不懂得如何真正部署和“压榨”AI的价值。
“硅谷是泡泡,X是泡泡,软件工程也是泡泡。他们本身不是软件工程师,也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。”
他透露到,OpenAI内部有一个团队正在做实验,尝试维护一个100%由Codex编写的代码库。不同之处在于,当Agent运行不顺时,维护团队并不会“撸起袖子自己敲代码”,而是始终让AI自己编写。
而最重要的一个发现就是:当Agent没有按你期望工作,通常是“上下文问题”。要么你描述不够充分,要么它缺乏必要信息。
解决方法往往不是自己重写,而是补充文档、添加代码注释、改进代码结构,或者在仓库中增加MD文件等资源,把你脑海里的“部落知识”显式化,让模型能读到。
Sherwin另一个有意思的判断是:模型会把“脚手架”、“Agent框架”当早餐吃掉。
“这个领域和模型本身变化太快了,它们往往会自我颠覆,模型会把你搭的脚手架当早餐吃掉。
但随着模型变强,更好的方法反而是去掉大量逻辑,直接信任模型,只给它搜索工具——甚至只是普通文件系统。
“向量数据库仍然有价值,但围绕它构建的整个生态和复杂脚手架,重要性已经下降。随着模型进步,你可能需要重构抽象层和工具框架。”
所以,Sherwin给出的建议是:一定不要过度听取客户意见,而是要面向未来1~2年的模型趋势而构建。
此外,播客中还有不少趣料,比如他认为软件工程会朝着“外科医生”发展,再比如业务流程自动化被硅谷低估了,等等。
主持人:我想从一个可以视为AI进展“晴雨表”的问题开始,尤其是在工程领域。现在你——如果你还写代码的话——以及你团队的代码,有多少比例是由AI编写的?
Sherwin Wu:我现在偶尔还写代码。对像我这样的管理者来说,使用这些AI工具其实比手写代码容易得多。我和OpenAI的几位工程经理,目前所有代码基本都由Codex编写。
更广泛来看,内部有一种明显的能量场,大家都能感受到这些工具进步有多大,Codex对我们来说已经变得多么好用。很难精确衡量代码比例,因为几乎可以说接近100%的代码最初都是由AI生成的。我们真正追踪的是使用情况:目前绝大多数工程师每天都在用Codex——95%的工程师在用;100%的PR每天都由Codex审核。也就是说,任何进入生产环境的代码都会经过Codex“过目”,它会提出改进建议。对我们来说最令人兴奋的,其实是这种能量感。
另一个观察是:用Codex更多的工程师,提交的PR数量高出70%,而且这个差距还在扩大。他们越来越熟练,效率越来越高。
主持人:所以确认一下,你是说那95%的工程师,他们的代码都是AI写的,然后由他们审核?
Sherwin Wu:还是需要适应的。也有工程师对Codex的信任度稍低。但我几乎每天都会听到有人惊叹它能完成什么,他们对模型自主能力的信任在不断提高。Kevin Whale(小编注:OpenAI首席产品官)常说:“这是模型此生最差的时刻。”这同样适用于软件工程。模型只会越来越好,人们的信任也会不断增强。
主持人:Kevin也在节目里说过这句话。还有Peter——OpenClaw的开发者——他说自己用Codex时,几乎相信它可以直接提交到主分支。
Sherwin Wu:他是个很好的用户,也给我们很多反馈。OpenClaw确实是个很棒的产品。今天早上我还看到Moltbook的分享,看到AI Agent彼此对话,感觉非常超现实,就像电影《Her》在现实中发生。
主持人:回到这个对工程师而言疯狂的时代。我们从“自己写每一行代码”变成“AI写所有代码”。我不知道还有哪个职业变化这么剧烈。工程师的角色在未来几年会变成什么样?
Sherwin Wu:看到这一切真的很酷,也正是这种变化带来了兴奋。未来一到两年,工程师的工作会发生重大改变。现在大家还在摸索阶段,这是一段罕见的窗口期,也许在未来12到24个月,我们可以自己定义新的标准。
有一个常见说法是:个人贡献型工程师正在变成技术负责人,几乎像管理者一样。他们在管理成群的Agent。我团队里的工程师经常同时拉着10到20个线程并行推进——当然不是同时跑任务,而是在不断检查、引导、给Codex反馈。他们的工作已经从“写代码”转变为“管理代码生成过程”。
《SICP》在麻省理工学院(MIT)当年非常流行,它曾长期作为入门编程课的教材,也因此拥有一种“宗教式”的追随者文化。它用的是一种名为Scheme的Lisp方言来教学,会把你带入函数式编程的世界,非常开脑洞。但对我来说,这本书最难忘的是它在开篇对“编程”这门学科的定义——它把编程类比为“巫术”。书里说,软件工程师就像巫师,编程语言就像咒语,你念出这些咒语,它们就会替你完成事情。挑战在于:你要念出什么样的咒语,程序才会按你的意愿运行。这本书写于1980年,但这个隐喻居然一路延续至今。
我觉得它正在真实发生在我们进入“vibe coding”新时代的过程中。编程语言一直都是某种“咒语”,只是随着时间推移,表达方式越来越高级,让计算机按你的意图行动变得越来越容易。而这一波AI,可能就是这条演进路径的下一阶段。现在它真的成了“咒语”——你可以直接告诉Codex、Cursor你想要什么,然后它们去帮你完成。
我特别喜欢“巫师”这个比喻,因为我们现在的状态其实越来越像《幻想曲》里的“魔法师学徒”。米老鼠戴上魔法帽,试图施法,结果失控——扫帚开始疯狂打水,房间被淹。他给扫帚下达任务后自己睡着了,事情就失控了。我觉得这比喻非常贴切。一方面,这些“咒语”威力巨大,杠杆极高;但另一方面,你必须知道自己在做什么。不能完全放手不管,否则模型就可能“跑偏”。
当我看到工程师同时管理20个Codex线程时,那确实需要技巧、资历和深思熟虑。你不能彻底离开,也不能完全忽视。但一位真正熟练的高级工程师,现在可以通过这些工具完成远超以往的事情。这也正是乐趣所在——真的感觉自己成了巫师,施展魔法,让软件为你完成各种任务。
主持人:我刚才听你讲的时候脑子里就是“魔法师学徒”的画面。之前也有嘉宾说过,现在像是拥有一个可以许愿的精灵,但你必须非常精确地表达愿望,否则后果难料——甚至像“猴爪”故事那样,愿望实现了,却伴随副作用。
Sherwin Wu:对,这个比喻很好。SICP也被称为“巫师之书”,因为这个隐喻贯穿全书。我们现在真的走到了那个阶段,这本身就很酷。
OpenAI内部实验:100%由Codex编写代码的团队,维护基本就是补充上下文
主持人:有两个方向我想继续追问。一个是,我越来越多地听到人们提到,当Agent不按预期工作时,会产生一种压力。你同时启动一堆Codex Agent,还得盯着它们——这个不工作了,那个浪费时间了。你在团队里也感受到这种压力吗?
Sherwin Wu:有,而且经常发生。我认为这里正是目前最有意思的部分。模型和工具都还不完美,我们仍在摸索如何与它们最佳协作。
内部有一个特别有意思的团队正在做实验:他们维护一个100%由Codex编写的代码库。通常你会让AI写代码,但最终会自己重写很多部分、做检查修改。但这个团队是“彻底Codex化”,完全不留退路。他们遇到的正是你说的问题:想实现某个功能,但Agent始终做不到。通常这时你会“撸起袖子”自己写代码,或用Tab补全、Cursor等工具。但这个团队没有这个逃生舱口。
于是问题变成:如何让Agent真正完成任务?我们可能会发布一篇博客总结经验。一个重要发现是:当Agent没有按你期望工作,通常是“上下文问题”。要么你描述不够充分,要么它缺乏必要信息。解决方法往往不是自己重写,而是补充文档、添加代码注释、改进代码结构,或者在仓库中增加MD文件等资源,把你脑海里的“部落知识”显式化,让模型能读到。
取消“人工逃生通道”之后,他们开始真正理解,如果要全面拥抱Agent,我们需要解决哪些结构性问题。
主持人:你提到,使用AI的工程师提交PR的数量大幅增加。这意味着代码审查会成为瓶颈。你们有什么办法避免工程师整天只是在Review PR吗?
Sherwin Wu:首先,Codex现在审核我们100%的PR。一个有趣现象是:我们最早交给模型的,往往是我们最讨厌、最枯燥的工作。代码审查就是其中之一。
对我来说,代码审查曾经是最痛苦的工作之一。我毕业后的第一份工作在Quora,负责Newsfeed代码。因为那是核心模块,所有人都会改动。每天早上打开电脑,看到20到30个待审PR,拖着拖着就变成50个。那种感觉非常糟糕。
Sherwin Wu:所以在代码审查方面,是的,我们确实创建了大量PR,但Codex会审核全部PR。这让代码审查从原本10到15分钟的任务,有时缩短到两三分钟,因为很多修改建议已经提前生成好了。很多情况下,尤其是小型PR,甚至不再需要人工审核——我们在这方面已经相当信任Codex。代码审查的本质是“第二双眼睛”,确保你没犯低级错误。现在,Codex已经是一双非常聪明的“第二双眼睛”,所以我们在这方面投入得很深。
此外,CI流程以及代码提交后的部署流程,也已经大量通过Codex实现自动化。很多工程师最烦的事情是:写完漂亮的代码之后,怎么把它部署上线?要跑测试、修lint错误、做代码审查……这一整套流程。很多环节都可以通过Codex自动化处理。我们内部已经构建了一些工具来自动修复lint错误——如果出现lint问题,Codex可以直接生成补丁,然后重新触发CI流程。我们的目标是把工程师在这些环节的工作量压缩到最低。结果就是,他们现在可以合并和发布更多PR。
主持人:Codex写代码,又用Codex审核代码。我很好奇,你们是否考虑用其他模型来审核自己模型的工作?还是说现在已经足够好了?
Sherwin Wu:确实存在某种“循环”的问题——回到“魔法师学徒”的比喻,你不希望扫帚失控。所以我们在选择哪些PR可以完全交由Codex审核时是非常谨慎的。大多数人仍然会查看自己的PR,并不是完全放手,而是从“100%注意力”降低到大概“30%注意力”,这已经足够提高效率。
至于多模型策略,我们内部测试很多模型,也有不少模型变体可供选择。外部模型用得较少,我们认为“吃自己的狗粮”很重要,通过使用自家模型来获得反馈。当然,在内部不同模型版本之间切换,获得不同视角,是常见做法,而且效果不错。
主持人:为了给大家一个清晰的现状刻度:可以说OpenAI现在生产环境中的代码100%由Codex编写吗?
Sherwin Wu:我不会说今天线%由AI写成,因为归因很难精确。但几乎所有工程师现在都高度依赖Codex。如果要粗略估计,我会说现在绝大多数代码很可能最初是由AI生成的。
主持人:我们谈了很多IC工程师的变化,但关于工程经理的讨论较少。AI兴起之后,你作为经理的生活发生了什么变化?未来经理的角色会是什么?
Sherwin Wu:相比工程师,经理的变化没那么剧烈。还没有专门的“经理版Codex”。不过,我确实用Codex来辅助一些管理相关的工作。
目前变化还不算巨大,但趋势已经出现。如果把趋势推演下去,就能看到方向。一个越来越明显的现象是:Codex极大放大了顶尖绩效者的生产力。我觉得这可能是AI在整个社会层面的共性——那些真正“倾身投入”、有主动性、愿意掌握工具的人,会大幅自我增强。
我已经看到这种分化:顶尖绩效者的产出明显拉开差距。因此,团队内部的生产力分布变得更宽。我的管理哲学一直是,把大部分时间花在顶尖绩效者身上——确保他们没有阻碍、保持开心、感觉被支持、被倾听。在AI时代,这一点更重要,因为顶尖人才会用这些工具“飞起来”。
比如那个维护100% Codex代码库的团队,让他们自由探索、深挖最佳实践,已经带来很大回报。我认为未来经理会花更多时间在这类高杠杆群体上。
另一个趋势是:AI工具让经理本身也变得更高杠杆。比如把ChatGPT接入组织知识库,连接GitHub、Notion、Google Docs,在做绩效评估时,可以快速生成一份过去12个月工作成果的深度报告。
我推测,未来经理可以管理更大的团队。就像工程师管理20到30个Codex线程一样,管理者也会因为工具的加持而变得更高杠杆。当前软件工程的最佳管理跨度大概是6到8人,但未来可能会远远超过这个数字。
这种趋势已经在支持、运营等非工程领域出现:随着更多事务交给Agent,人可以处理更多事务,也能管理更多人。我认为在人力管理领域也会发生类似变化。我们已经看到一些工程经理管理人数显著增加,而且做得相当不错,因为他们能更高效地获取团队信息、理解组织背景。
主持人:你提到一直把时间投入在顶尖绩效者身上。Mark Andreessen之前在节目里说过,AI让好的人更好,让伟大的人变得卓越。
Sherwin Wu:对。一个很好的例子是,内部有一群工程师非常沉浸在Codex实践中,研究如何与模型最佳互动。这是极高杠杆的事情。作为经理,我会鼓励他们继续探索,并把最佳实践在组织内传播——通过知识分享会议、文档沉淀等方式。这会抬高整个组织的水平。我认为这正是“顶尖绩效者变得卓越”的体现。
主持人:很多人都有一种直觉:AI很大,它正在改变世界。但你觉得有哪些变化是大家还没有真正“定价进去”的?有哪些潜在影响是我们还没有意识到的?
Sherwin Wu:我最喜欢的一个说法,是这波AI浪潮中诞生的“一个人打造十亿美元公司”的概念。我记得可能是Sam最早提出来的。这个想法很迷人——当个人杠杆被极度放大,理论上确实可能出现一家“一个人、十亿美元”的公司。但我觉得大家还没有真正把它的二阶、三阶效应算进去。
“一个人十亿美元公司”意味着,一个人的主动性和杠杆被工具放大到极致,他可以极其高效地完成公司所需的一切,从而打造出价值十亿美元的业务。但它还有其他含义。第一,如果一个人能做到这一点,那说明创业本身会变得更容易。我认为这会带来一次巨大的创业潮,尤其是中小企业(SMB)式的爆发——任何人都能为任何细分场景构建软件。
我们已经在AI创业领域看到垂直化趋势:为特定行业打造AI工具往往效果很好,因为你能深度理解那个场景。如果把这个趋势推演下去,完全可能出现100倍数量的垂直创业公司。
我甚至觉得,为了支撑一个“一个人十亿美元公司”,可能会有上百家小公司构建高度定制的软件,专门服务这些高杠杆个体。因此,我们或许会进入B2B SaaS和软件创业的黄金时代。随着软件开发和运营公司的成本不断下降,你会看到越来越多公司出现。
我的想法是:也许会有一个十亿美元公司,但可能会有上百个一亿美元公司,成千上万个一千万美元公司。对个人来说,一家一千万美元的公司已经足够实现财务自由。这种爆发式增长,我觉得大家还没有真正“定价”。
再往三阶效应看——当然越往远推不确定性越高——如果世界变成大量微型公司为一两个人服务的形态,创业生态和VC生态都会改变。也许只剩下少数大型平台型公司支撑这些微型企业。而那种能带来100倍、1000倍回报的风险投资项目可能反而减少,因为更多公司会停留在1000万到5000万美元规模。这对VC来说未必理想,但对高主动性的个人来说非常好,他们可以借助AI为自己打造业务。
主持人:关于“十亿美元公司”,我其实有点悲观。光是支持成本就很难规模化。即便有AI帮忙,除非你客户很少且客单价极高,否则支持问题本身就难以靠一个人处理。
Sherwin Wu:我同意这一点,但我的看法略有不同。也许你自己的播客就可能成为十亿美元公司。关键在于,你不必亲自派AI去处理所有支持工单。可能会出现十几家专门为播客和Newsletter构建支持软件的小公司——它们本身就是“一个人公司”。它们能非常轻松地构建出高度定制的产品,而你作为“一个人公司”去购买这些服务。
随着软件构建成本急剧下降,你可能会外包越来越多事务,从而缩小自己公司的规模。最终,仍然可能是一个人驱动一个高杠杆的公司,达到十亿美元规模。当然,不确定性仍然存在。
主持人:我也在想,像Peter(OpenClaw创始人)现在被各种需求、邮件、PR淹没——而他甚至还没变现。
Sherwin Wu:这可能就像我们刚发布ChatGPT那几个月的疯狂状态。他一个人承受这种规模,一定非常疯狂。
主持人:也许四阶效应是:分发变得更重要,因为太多东西在争夺注意力。有受众、有平台的人价值更高。
主持人:回到管理话题。除了多花时间在顶尖绩效者身上,你还有哪些核心管理心得?
Sherwin Wu:很多经验未必特定于OpenAI API业务。我自己的管理理念这些年有所演进,但总体变化不算太大。
其中一个核心原则就是刚才提到的:把大量时间投入在顶尖绩效者身上。具体来说,可能超过50%的时间花在前10%的绩效者身上,真正赋能他们。
我常用一个比喻——来自《The Mythical Man-Month》——把软件工程师比作外科医生。这个比喻对我的管理理念影响很大。
其实挺有意思的。我是从那本《The Mythical Man-Month》里看到这个比喻的。那本书写于上世纪70年代,当时他们其实像是在预测未来。他们说,软件工程可能会演变成一种类似“外科手术室”的模式——工程师就像外科医生。手术室里真正“动刀”的只有一个人,其他人——护士、住院医师、研究员——都在为他提供支持。外科医生说“给我手术刀”,就有人递上;说“需要某个设备”,马上就到位。所有人围绕一个核心执行者展开支持。那本书当年就预言,软件工程可能会朝这个方向发展。
当然,现实并没有完全变成那样——软件开发仍然是高度协作的,不是一个人完成所有工作。但我一直很喜欢这个类比,也在自己的管理理念中努力去“模拟”这种模式。软件工程不是手术,但我希望团队成员能有“外科医生”的感觉:他们是核心执行者,而我作为管理者,要确保他们拥有一切所需资源,感觉背后有一支军队在支持他们——哪怕实际上只有我一个人在做这些支持工作。 举个例子,“提前看到转角”并为团队扫清障碍,在组织层面上极其重要。尤其在今天的AI时代更是如此。如果大家只是不断提交PR,真正卡住进度的往往不是技术,而是组织流程和协作问题。作为管理者,如果能提前预判阻塞点,在“医生”开口之前就准备好“手术刀”,那就是最佳状态。这是我理解的工程管理方式。这个类比虽然不完全贴切,但一直伴随我整个职业生涯。
主持人:我很喜欢这个说法。我在想,AI是不是也能帮助管理者“提前看到转角”?比如预测某个工程师将会因为某个决策被卡住,我们是不是可以提前处理?
主持人:我想把话题转回你们的API和平台。你和很多公司合作,帮助他们部署AI。你提到很多公司在AI部署上其实是负ROI,这和外界的感受一致。到底出了什么问题?
Sherwin Wu:先澄清一下,我没有直接看到量化数据——这类ROI很难精确测算。但从观察来看,我不会惊讶如果很多AI部署确实是负回报的。甚至在科技圈之外,很多人有一种情绪:AI是被“强行推到他们头上”的。这种抵触感,本身可能就和负ROI有关。
我看到几个现象。第一,我们所在的硅谷,其实活在一个泡泡里。X是泡泡,硅谷是泡泡,软件工程是泡泡。世界上大多数人——包括美国的大多数人——都不是软件工程师,也不密切关注每一次模型发布。他们对如何使用这项技术并不熟悉。在我们这里,大家讨论的是最佳实践、codecs、agents、MCPs等高级用法;X上那些发帖的人几乎都是重度AI用户。但当我和一些公司一线员工交流时,他们只是用AI做非常基础的事情,对技术原理几乎没有理解,也没有真正“压榨”它的能力。
这就引出一个问题:理想的AI部署模式是什么?在我看来,成功案例往往具备两个条件——自上而下的支持,以及自下而上的采用。 高层要明确战略,比如“我们要成为AI-first公司”,愿意投入资源和预算;但更关键的是基层员工真正愿意学习、尝试、分享最佳实践。只有当一线员工主动拥抱技术,并在具体工作场景中摸索“最后一公里”的应用细节,AI才真正开始创造价值。
在OpenAI内部也是如此。我们一直想成为AI驱动的公司,但真正加速发生,是当员工开始把这些工具直接应用到日常工作中。因为每个岗位——工程、财务、运营、销售——都有独特的工作细节,这些都需要自下而上地打磨。 我的感觉是,很多公司缺少这种自下而上的采用和热情,因此AI部署很难真正产生正向ROI。
有些公司就是非常明确地下达命令,自上而下推进,而且完全脱离一线实际工作的样子。结果就是,你会得到一支庞大的员工队伍,他们其实并不理解这项技术,只是知道“我应该用这个”,甚至绩效考核里也写着要用,但不知道该怎么用。看看周围,也没人真正用起来,没有榜样可以学习。
Sherwin Wu:我的建议是,公司如果真的想推动AI,不如在内部设立一个全职“突击队”——一个AI tiger team,专门探索技术的能力边界,把它落地到具体工作流,做知识分享,制造兴奋感。如果没有这样的团队,其实非常难真正用起来。
主持人:这个tiger team应该是什么构成?工程师主导?还是跨职能?
主持人:所以反模式就是:CEO和高管宣布“我们要AI-first”,每个人的绩效都要和AI使用挂钩,但没有自下而上的传播者,最后效果不好?
Sherwin Wu:对,完全正确。更好的做法是找到那些最兴奋、最主动的人,与其让他们分散在组织里,不如把他们聚在一起,形成一个AI evangelist团队,去探索用法,再向全公司扩散。换个角度说,这也和我的管理理念一致——找到AI采用上的“高绩效者”,赋能他们。让他们组织黑客松、做内部分享、传播最佳实践,在组织内部种下兴奋的种子。
目标是移动的:Agent框架、脚手架的作用在减弱今天流行的是Skills、上下文管理
主持人:有个你提到过的观点挺有争议:在AI领域,过度听客户意见可能会把你带偏。
Sherwin Wu:我不觉得这有多“热”。当然要和客户沟通,这是有价值的。但问题在于,AI这个领域——尤其过去三年——变化太快了,模型本身不断自我颠覆,尤其是在工具和“脚手架”(scaffolding)层面。
我这周读到一篇文章,是FinTool创始人Nicholas写的,他总结自己在金融服务里做AI agent的经验。有一句话我特别喜欢:“模型会把你的脚手架当早餐吃掉。”
回到2022年ChatGPT刚发布的时候,模型还很“原始”,于是大家围绕它构建了大量产品级脚手架,尤其在开发者生态里,用各种框架、agent框架、向量数据库、embedding系统去“引导”模型输出想要的结果。 但随着模型能力迅速提升,它们真的开始“吃掉”这些脚手架。
今天流行的是skills文件、基于文件的上下文管理。但我也能想象一个未来,模型可以自己管理这些,不再需要这种文件式结构。 你已经看到这种演化:agent框架的作用在减弱;2023年我们以为向量数据库会成为组织上下文输入的核心方式,需要把所有语料embedding,再精细优化向量搜索。
但随着模型变强,更好的方法反而是去掉大量逻辑,直接信任模型,只给它搜索工具——甚至只是普通文件系统。向量数据库仍然有价值,但围绕它构建的整个生态和复杂脚手架,重要性已经下降。
所以回到“要不要听客户”这个问题:如果你只听客户,他们可能会说“我要更好的向量数据库”“我要更强的agent框架”。但那可能只是当前的局部最优。随着模型进步,你可能需要重构抽象层和工具框架。 这个领域令人兴奋,也令人抓狂——因为目标是移动的。今天的工具组合,未来很可能会大幅演化。与客户沟通时,你必须平衡他们当前的需求和你对未来1-2年模型趋势的判断。
主持人:这让我想到《苦涩教训》(The Bitter Lesson)——在AI里,越少人为复杂逻辑、越少手工规则,越能规模化,让算力和模型自己解决问题。
Sherwin Wu:是的,几乎可以说有一个“AI构建版的苦涩教训”。我们曾经围绕模型搭了很多架构,但模型进步后把它们都吞掉了。坦率讲,我们OpenAI API团队也走过一些弯路。但模型不断进步,我们每天都在重新学习这条“苦涩教训”。
主持人:那对今天基于API或agent构建产品的人来说,最核心的建议是什么?
Sherwin Wu:我的核心建议一直是:为模型将要去的方向构建,而不是为模型今天的状态构建。
Sherwin Wu:这显然是一个不断移动的目标。我看到那些真正做得好的创业公司,往往是围绕一种“理想能力”在做产品——这种能力今天可能只实现了80%。产品现在是“差一点点就到位”,但随着模型变强,突然某一天就“啪”地一下完全跑通。也许最初在o3上还不行,但到了5.1、5.2版本就彻底解锁。他们在设计产品时,是把模型能力持续提升这个趋势考虑进去的。如果你默认模型是静态的,你做出来的体验一定不如这种“面向未来”的产品。是的,你可能需要稍微等一等,但模型进步太快了,通常也等不了太久。
Sherwin Wu:最明显的方向是——模型可以连贯执行多长时间的任务。现在有一个衡量软件工程任务时长的基准测试,统计模型在50%、80%成功率下可以持续完成多长时间的任务。目前前沿模型在50%成功率下已经可以完成多小时的任务,在80%成功率下接近一小时。更震撼的是,你把历代模型都画在那张图上,能清晰看到趋势。 现在大多数产品还在围绕“分钟级任务”优化。哪怕是像Code工具,更多也是交互式、10分钟左右的工作流。确实有人把它推到多小时,但那是例外。
按照趋势推演,未来12到18个月,模型可能可以非常连贯地完成多小时任务,甚至一天6小时级别的任务——你把任务派发出去,它自己干一阵子。 围绕这种能力构建的产品会完全不同。你肯定要加入反馈机制,不会让它完全失控地跑一整天,但可实现的任务空间会大幅扩展。
主持人:总结一下,就是Agent会运行更久、更稳定;音频会变得更核心、更原生。
Sherwin Wu:这又回到“我们活在硅谷泡泡里”这个问题。我们习惯的软件工程、产品管理,其实和支撑整个经济运行的工作形态差异巨大。 如果你和一家非科技公司聊天,会发现大量工作都是“业务流程”。
主持人:你的意思是,相比工程领域,AI在这些重复型岗位上的生产力影响可能更大?
Sherwin Wu:至少是同样巨大,甚至在业务流程侧的变化会更显著。我常被问:20年后的公司会是什么样?软件工程只是其中一部分,更大的变化可能发生在业务流程层面。这块规模非常庞大,只是我们在X或Twitter上很少讨论。
主持人:换个话题。所有基于API创业的人都会问:如何避免被OpenAI自己下场做同样的产品?
Sherwin Wu:我的一般回答是,这个市场真的太大了,大到创业公司其实不必过度纠结OpenAI或者其他大模型实验室会往哪里走。我见过很多创业公司,有做得不成功的,也有做得非常好的。那些失败的公司,从来不是因为OpenAI、某个大实验室或者Google下场“碾压”了他们,而是因为他们做的产品根本没有真正打动客户。反过来看那些起飞的公司——哪怕是在极度竞争的领域,比如编程工具,像Cursor现在已经非常大了——原因只有一个:他们做了用户真正热爱的产品。
所以我的建议是,不要过度焦虑。只要你做出真正有人喜欢的东西,你一定会在这个生态里找到自己的空间。我真的无法夸张地形容现在机会有多大。用AI构建产品的机会窗口,是前所未有的。一个有趣的例子是:这个市场大到连VC的“可接受投资范围”都被改写了。风投现在会毫不犹豫投资彼此竞争的公司,因为机会空间实在太大了。从创业者角度看,这反而是最令人振奋的——哪怕你只做出一个让一部分人“非常非常喜欢”的产品,也可能成长为一家极其有价值的公司。所以不要过度思考OpenAI会不会做同样的事。
Sherwin Wu:另外,从OpenAI的角度,我们一直把自己视为一个“生态平台型公司”。API是我们的第一个产品。我们非常重视生态建设,也不希望去挤压它。Sam和Greg从一开始就反复强调这一点。如果你观察我们的决策,会发现这一点贯穿始终。我们发布的每一个模型,都会进入API。哪怕是为Codex场景优化的模型,也最终会开放给API用户。我们不会把能力“锁在自己产品里”。我们保持平台中立,不屏蔽竞争者,允许开发者访问我们的模型。最近测试的“用ChatGPT登录”等功能,本质上也是在强化生态。
我们的思路是“水涨船高”。也许我们像一艘航母,但如果潮水上涨,所有船都会受益,我们自己也会受益。API的增长已经证明了这一点。所以,与其把OpenAI看成一个会把别人挤走的存在,不如专注于打造真正有价值的产品。我们会继续致力于一个开放生态。
Sherwin Wu:那是ChatGPT团队主导的,我们密切合作。他们开发了Apps SDK。这也是平台战略的延伸。ChatGPT现在每周有大约8亿活跃用户——这是一个极其庞大的资产。与其独占这流量,不如让其他公司也能围绕这个用户群体构建产品,最终这也会扩大整个生态规模。
Sherwin Wu:这大概相当于全球10%的人口,而且还在增长。规模确实令人震撼。
主持人:你们一直强调“让AI惠及全人类”。比如免费版ChatGPT,任何人都可以使用,而且能力并不比最强模型差太远。
Sherwin Wu:是的。免费模型这几年进步非常大。2022年的免费模型和今天相比完全不是一个量级。今天免费用户用到的是2GB 5级别的能力。我们一直在“抬高地板”,让全球更多人受益。再换个角度说,你花20美元一个月,就能用到和亿万富翁几乎相同的AI能力;花200美元,可以用Pro版本。某种程度上,这是前所未有的技术民主化。
主持人:最后一个问题。对于想基于API构建产品的人来说,你们的平台到底能做什么?
Sherwin Wu:简单来说,我们的API允许开发者构建智能体、多模态应用、语音应用,以及各种结合企业数据的AI系统。你可以调用最前沿的模型,接入工具、文件系统、搜索、函数调用等能力,构建可以自主执行任务的系统。你可以围绕文本、代码、图像、音频构建应用,也可以把模型嵌入到自己的产品流程里。我们的目标是提供尽可能通用、强大、可扩展的基础能力,让开发者在其之上创造属于自己的产品和体验。
从根本上说,我们的 API 提供了一系列开发者端点,这些端点本质上让你可以调用我们的模型进行采样。目前最受欢迎的是 Responses API。它是一个为构建长时间运行的智能体而优化的接口,也就是那种可以持续工作一段时间的 agent。在一个非常底层的层面上,你基本上只是向模型输入文本,模型会运行一段时间,你可以轮询查看它在做什么,最终在某个时刻获得模型返回的结果。这是我们提供的最底层原语,实际上也是很多人最常用的方式。它非常“无预设立场”,几乎不做限制,你基本可以随心所欲构建任何东西,因为它足够底层。
在此之上,我们也开始构建越来越多的抽象层,帮助大家更容易搭建这些系统。再往上一层是 Agents SDK,它现在也变得极其流行。通过它,你可以基于 Responses API 或其他接口,构建更传统意义上的“智能体”——比如一个在无限循环中运行的 AI,它可以把子任务委派给子 agent,构建出一整套框架和脚手架。未来会演变成什么样还不好说,但它确实让构建这类系统变得更容易,比如添加护栏、把子任务分发给其他 agent,甚至编排一个“智能体群”。Agents SDK 就是为此设计的。
再往上,我们还开始构建一些工具,帮助解决部署智能体的“元层面”问题。比如我们有一个叫 Agent Kit 的产品,还有 Widgets——本质上是一组 UI 组件,可以让你非常轻松地在 API 或 Agents SDK 之上构建一个美观的界面。因为从 UI 角度看,很多智能体的形态其实很相似。除此之外,我们还有一系列评测工具,比如 Eval API。如果你想测试模型、智能体或工作流是否正常运行,可以通过我们的评测产品进行量化验证。
所以在我看来,这是一个分层结构——不同层级都在帮助你基于我们的模型构建想要的东西,抽象程度逐级提升、预设也逐渐增强。你可以直接使用整套技术栈,很快搭建一个 agent;也可以一路往下,回到底层的 Responses API,自由构建任何你想要的系统,因为它足够原始、足够底层。
Sherwin Wu:如果还有什么想留给大家的话,我会说,未来两到三年将会是科技行业和创业世界最有趣的时期之一,而且可能是很久以来最有趣的一段时间。我鼓励大家不要把它当成理所当然。我是 2014 年进入职场的,最初几年很棒,但后来有五六年科技行业并不算特别兴奋。过去三年则是我职业生涯中最疯狂、最令人振奋的阶段,我认为接下来的两三年还会延续这种势头。所以不要错过。总有一天这波浪潮会趋于平缓,变得更加渐进式发展。但在此之前,我们将探索很多酷炫的东西,发明全新的事物,改变世界,也改变我们的工作方式。这是我最想说的。
Sherwin Wu:参与进来。正如你说的,主动投入。构建工具是其中一部分,但即便不是软件工程师,也完全可以参与。很多工作都会因此改变。使用这些工具,理解它们的能力边界——知道它们能做什么、不能做什么,然后观察它们随着模型进步能开始做到什么。核心就是熟悉这项技术,而不是躺平让它从你身边溜走。
Sherwin Wu:坦白说,我自己可能是个反面例子,因为我长期泡在 X 和公司 Slack 上,信息吸收量很大。但我观察到的一点是:大量内容其实是噪音。你不需要 110% 地吸收所有动态。专注一两个工具,从小处入手,已经远远足够。行业节奏本来就快,再叠加社交平台,会形成一种让人窒息的新闻洪流。其实你没必要掌握所有信息才能真正参与。哪怕只是安装 Codex 客户端玩一玩,或者安装 ChatGPT,把它连接到 Notion、Slack、GitHub 等内部数据源,看看它能做什么、不能做什么,都已经是在参与。
Sherwin Wu:我推荐一本小说和两本非虚构。小说是《There Is No Antimemetics Division》,作者是 QNTM。我是在 X 上看到有人分享的。这是一部带有科幻色彩的作品,我两天就读完了。文笔极佳,非常有创意,讲的是一个政府机构对抗“会让人遗忘自身存在之物”的故事。设定新鲜、构思聪明,而且无意中还挺幽默——虽然基调接近科幻恐怖,但读着读着会让人发笑。
非虚构方面,我最近一年读了不少关于中美关系的书。有两本让我印象深刻。第一本是丹·王的《Breakneck》,他用“律师型社会”和“工程师型社会”来对比美国与中国,分析各自的优劣。我读完后也在想,美国确实像是一个由律师主导的社会。
第二本是帕特里克·麦吉写的关于 Apple 与中国关系的书,非常有意思。我是个不折不扣的苹果迷,如果你现在看到我的桌面,会发现几乎全是苹果产品。那本书让我对苹果与中国之间的复杂互动有了更深入的理解。
第二点是,这本书包含了大量关于 Apple 公司的内部信息,我觉得非常吸引人。读起来节奏很快,也非常应景,是一本很“及时”的书。
Sherwin Wu:对对对,我记得也就两百来页,我真的两天就读完了,实在太精彩。
Sherwin Wu:最近我重新搭建了家里的 Wi-Fi 和家庭网络系统,彻底换成了 Ubiquiti 的路由器和安防摄像头。之前从没接触过这个品牌,我以前的配置都很简单。这次深入使用后,真的觉得它做得非常好。如果要打个比方,它就像家庭网络领域的苹果。
硬件设计很漂亮,但真正厉害的是软件——他们的移动端管理应用做得非常出色,可以统一管理家庭网络。如果你家里布好了以太网线路,用它效果会非常好。我尤其推荐他们的安防摄像头系统,接入 Ubiquiti 生态后,可以通过手机、Apple TV、iPad 实时查看监控画面,体验非常流畅。价格不算便宜,但也没贵到离谱,整体体验真的很棒。
Sherwin Wu:我经常对自己说的一句话是——永远不要自怜。无论是在工作还是生活中,总会发生各种事情。提醒自己不要沉溺于自怜,而是意识到自己始终拥有行动能力,能够把自己拉起来,这对我很重要。我也经常对别人这么说。