69婬妇漫动嫩草吃瓜资源

EN
www.shqdfmc.com

黑色蕾丝透视露胸旗袍连衣裙龙虾OpenClaw 创始人万字访谈:我感觉到暴风雨要来了

2026年的开年,AI圈几乎都在“养龙虾”(OpenClaw),这只龙虾的创始人Peter Steinberger却说这只是个“实验项目”。这个开源AI Agent在短短几天内席卷了整个科技圈,GitHub Stars超过18万,成为有史以来增长最快的开源项目之一。 2026年2月12日,Peter Steinberger现身Lex Fridman的播客,这次对话长达三个多小时,从一小时原型的诞生到GitHub史上增长最快的仓库,从改名风波到Meta和OpenAI争相招揽,信息量巨大。这次访谈覆盖了以下核心内容: 原型故事:Peter在一小时内把WhatsApp和Claude Code CLI连起来,做出了OpenClaw的最初原型。旅行中发语音消息时,Agent自己搞定了音频转文字的全套流程,这个时刻让他意识到「这东西有未来」。 MoltBook风波:一群Agent在Reddit风格的社交网络上互相聊天,媒体惊呼「AGI来了」,Peter却说这只是「最精致的AI垃圾」,大部分耸人听闻的截图都是人类在背后指挥Agent发的。 Peter:我看着我的Agent开开心心地点了那个「我不是机器人」的按钮。我让这个Agent非常有自我意识。它知道自己的源代码是什么,理解自己是怎么运行在自己的运行环境里的,知道文档在哪里,知道自己跑的是哪个模型。它理解自己的整个系统,这让Agent很容易就能……你什么都不用做,你只要用prompt把它召唤出来,然后它就会自己修改自己的软件。人们都在谈论自修改软件,我就直接把它做出来了。我其实觉得「VibeCoding」是个贬义词。 Peter:我以前会写很长很长的prompt。说「写」其实不太对,我不打字,我说话。你知道吗?这双手现在太宝贵了,不能用来打字。我就用定制的语音prompt来构建我的软件。 Lex:以下是我和Peter Steinberger的对话,他是OpenClaw的创造者。OpenClaw以前叫过MoldBot、ClawedBot、Clawdus、Claude(用W拼的,像龙虾钳子的Claw)。不要和Anthropic的Claude(用U拼的)搞混了。事实上,正是因为这种混淆,Anthropic很友好地请Peter改了名字。 那OpenClaw是什么?它是一个开源AI Agent,几天之内就席卷了整个科技圈,爆发式增长,在GitHub上拿到了超过18万Stars,还催生了社交网络MoltBook,AI Agent在上面发表宣言、辩论意识问题,引发了公众兴奋和恐惧交织的反应。还有一种AI心理症,是标题党式的恐慌制造和真实的、完全合理的对AI在数字互联世界中角色的担忧的混合体。 OpenClaw的口号是:「真正能做事的AI」。它是一个自主AI助手,住在你的电脑里,如果你允许的话,它可以访问你所有的东西,通过Telegram、WhatsApp、Signal、iMessage等任何你用的消息客户端和你交流。使用任何你喜欢的AI模型,包括ClaudeOpus4.6和GPT5.3Codex,来帮你做事。很多人说这是自2022年11月ChatGPT发布以来,近期AI史上最重要的时刻之一。AIAgent的所有原料都在那里了,但把它们全部整合到一个系统中,决定性地跨越了从语言到行动的界限,以一种开源的、社区驱动的方式创造出一个真正有用的助手,让你感觉它懂你、能向你学习,这就是OpenClaw席卷互联网的原因。 它的强大很大程度上来自于你可以让它访问你所有的数据,并授权它对这些数据做任何事情来为你服务。这非常强大,但也很危险。OpenClaw代表着自由,但自由伴随着责任。你可以拥有和控制自己的数据,但正因为你有这个控制权,你也有责任保护它免受各种网络安全威胁。有很好的方法来保护自己,但威胁和漏洞确实存在。一个拥有系统级访问权限的强大AIAgent是一个安全雷区,但它也代表着未来。因为做得好、做得安全的话,它可以作为个人助手对我们每个人都极其有用。 我们和Peter讨论了所有这些,也聊了他的宏观编程和创业人生故事,我觉得非常鼓舞人心。他花了13年打造PSPDFKit,一款被十亿台设备使用的软件。他卖掉了它,有一段时间失去了对编程的热爱,消失了三年,然后回来了,重新发现了对编程的热爱,在很短的时间内构建了一个席卷互联网的开源AI Agent。 他在很多方面是编程世界中AI革命的象征。2022年有ChatGPT时刻,2025年有DeepSeek时刻,现在2026年,我们正在经历OpenClaw时刻,龙虾的时代。Agentic AI革命的开始。活在这个时代真好。 Lex:Benjamin在他的推文里预言了:「以下是与Claude的对话,一只受人尊敬的甲壳类动物。」配了一张穿西装的龙虾的搞笑图片,所以我觉得预言已经应验了。 让我们回到你用一个小时做出原型的那个时刻,那是OpenClaw的早期版本。我觉得这个故事对很多人来说真的很鼓舞人心,因为这个原型后来变成了席卷互联网的东西,成为GitHub历史上增长最快的仓库,现在超过175,000Stars。那个一小时原型的故事是怎样的? Peter:对。我玩过一些其他的东西,比如把我所有的WhatsApp数据拉出来,然后跑查询。那时候我们有GPT-4.1,带一百万上下文窗口。我把所有数据导进去,然后问它一些问题,比如「这段友谊的意义是什么?」然后得到了一些非常深刻的结果。我把它发给我的朋友们,他们都感动得眼眶湿润了。 Peter:对。但后来我想,所有的实验室都会做这个的,所以我就去做别的事了,那时候还是我早期实验和玩耍的阶段。你知道的,你就得这样学习,你动手做东西,你玩。然后时间飞逝到了十一月。我想确认我之前想做的事情是不是真的有人在做了。我很烦它还不存在,所以我就直接用prompt把它创造出来了。 Lex:这就是公司家英雄之旅的开端,对吧?就像你之前做PSPDFKit的故事一样:「为什么这个东西不存在?让我来做。」在一个完全不同的领域,但精神可能是相似的。 Peter:对。就是最随机的事情。然后突然间我碰到了这个问题,我想帮一个朋友。也不是说完全没有解决方案,但就是不好用。我试了一下感觉就是「嗯,不行」,「嗯,我能做得更好」。 Lex:总之,你说了「管他的,为什么不我来做?」那个原型是什么?你在短时间内做出的那个神奇的东西是什么,让你觉得「这可能真的能当一个Agent用」,你跟它说话,它就去做事? Peter:之前我有一个项目已经能做到把我的终端搬到网页上,然后我可以和它们交互,但同时它们也是在我Mac上运行的终端。Viptunnel,这是一个周末黑客项目,还很早期。那时候是ClaudeCode时代。做对了一件事你就会获得多巴胺。现在是做错了一件事我就会生气。 Peter:对。有一部分架构占用了太多内存,每个终端都要一个Node进程。我想换成Rust。我可以手动搞定,但我所有的自动化尝试都惨败了。然后四五个月后我重新尝试,我想「好吧,现在试试更实验性的东西」。我就输入了「把这个部分转换成Zig」,然后让Codex跑。它基本上就做对了。有一个小细节需要我之后修改,但它就那么跑了一晚上,大概六个小时,就搞定了。真是太不可思议了。 Peter:那个还很有限。我有WhatsApp的实验,有Viptunnel的实验,两个都感觉不是正确答案。然后我的搜索结果其实就是把WhatsApp连到ClaudeCode。一步到位。CLI消息进来,我用-p参数调用CLI,它施展魔法,我拿回字符串,发回WhatsApp。我用一个小时就做出来了。 然后感觉已经很酷了,就像「哦,我可以跟我的电脑说话了」,对吧?这很酷。但我想要图片支持,因为我经常在prompt里用图片。我觉得这是给Agent更多上下文的一种非常高效的方式。Agent很擅长理解我的意思,即使是一个奇怪的裁剪截图。所以我大量使用图片,我想在WhatsApp里也能用。你知道的,你走在路上,看到一个活动海报,你就截个图,让它帮你看看你有没有时间,这个活动好不好,朋友们有没有兴趣。图片看起来很重要。所以我又花了几个小时才把这个搞定。 然后我就大量使用它。有趣的是,那正好是我和朋友们去马拉喀什过生日旅行之前。在那里它甚至更好用,因为网络有点不稳定但WhatsApp就是能用。网络再差WhatsApp都能发消息。它做得真的很好。所以我最后用了很多。帮我翻译这个,解释那个,帮我找地方。就像有一个帮你Google的助手,基本上什么都还没有真正构建,但已经能做这么多事了。 Lex:如果我们看这个Agent的完整旅程,你只是通过WhatsApp消息这条很细的线,通过CLI发到ClaudeCode,ClaudeCode在后台做了大量繁重的工作,然后给你返回一条简短的消息。 Peter:对。它很慢,因为每次都要启动CLI,但已经很酷了。它可以使用我之前已经构建的所有东西。我之前已经做了一大堆CLI工具,所以感觉很强大。 Lex:那个体验有种很难用语言表达的魔力。用聊天客户端跟Agent对话,和坐在电脑后面用Cursor或者在终端里用ClaudeCodeCLI是完全不同的体验。能靠在椅子上跟它说话,这看起来是一个很小的步骤,但在某种意义上这是AI融入你生活方式的一个相变,感受完全不一样了。 Peter:对。我今天早上看到一条推文,有人说「里面没有什么魔法,它就是做了这个和那个和那个和那个」。而且感觉几乎像个爱好,就像Cursor或Perplexity一样。我想,如果这是个爱好的话,那算是一种赞美吧?他们做得也不算太差。谢谢了,我想? 魔法不就是你把很多已经存在的东西用新的方式组合在一起吗?也许里面没有什么魔法,但有时候重新排列组合、加几个新想法,就是你需要的全部魔法了。 Lex:把什么是魔法这件事转化成语言真的很难。如果你看iPhone的滚动,为什么那么舒服?界面中有很多元素让它令人难以置信地愉悦,这是使用智能手机体验的根本。所有组件都在那里,滚动在那里,什么都在那里。 Peter:你知道让我最震撼的那个时刻吗?我大量使用它之后,有一次我就发了一条消息,然后一个「正在输入」的提示出现了。我想:等等,我没做这个功能啊,它只支持图片,它到底在干什么?然后它就回复了。 Peter:哦,就一个随机问题,「嘿,这家餐厅怎么样?」因为我们当时在到处逛着看这个城市。我用的时候都没过脑子,因为有时候赶时间打字很烦。 Peter:对,我当时就说:「这家伙是怎么做到的?」然后它告诉我:「是的,这个疯狂的家伙做了以下事情:他给我发了一条消息,但只是一个文件,没有文件扩展名。所以我检查了文件头,发现它是Opus格式,于是我用ffmpeg转换了它,然后我想用Whisper但没有安装。但我找到了OpenAI的APIkey,就直接用Curl把文件发给OpenAI来转录了,我就在这里。」 Lex:你没有教它任何这些东西,Agent就自己搞明白了,做了所有这些转换、翻译。它自己找到了API,自己决定用哪个程序,所有这些。而你只是心不在焉地发了一条语音消息,它就回来了。 Peter:对,而且它做得很聪明。因为如果走Whisper本地路径,它得下载模型,会太慢。所以这里面有很多世界知识,很多创造性的问题解决能力。我觉得很大程度上来自于……如果你在编程方面真的很强,那意味着你在通用问题解决方面也很强。这是一种技能,它映射到了其他领域。所以它面对的问题是:这是什么没有扩展名的文件?让我弄清楚。那个时刻让我顿悟了。我被深深打动了。 Peter:对。所以我在纠结要不要接受。然后我想,也许可以做,因为这可以是展示给别人看的一种方式。到目前为止我是在WhatsApp群里展示的,但我不想把手机号给每个互联网上的陌生人。 Peter:对。没有安全措施,因为我还没有做沙盒。我只是用prompt告诉它只听我的。然后有些人来试图黑它,我就一边看一边继续在公开场合工作。我用我的Agent来构建我的Agent运行环境,来测试各种东西。然后人们很快就理解了。就好像这种东西需要亲身体验才行。 从那时起,1月1日,我得到了第一个真正的网红粉丝,dachitze,谢谢他做了视频。从那以后,我开始加速。同时我的睡眠越来越少,因为我感觉到暴风雨要来了,我拼命工作想把它做到一个还行的状态。 Lex:有很多组件我们会谈到它是怎么工作的。你通过WhatsApp、Telegram、Discord跟它对话,然后你要搞定Agent循环,有网关,有运行环境,有所有让一切良好运转的组件。 Peter:感觉像无限版的Factorio(一款工厂建设游戏)。我觉得我建造了自己的小游乐场。我从来没有像构建这个项目一样开心过。你看,一级Agent循环,我能做什么?怎么巧妙地排队消息?怎么让它更像人?我有了一个想法,因为循环里Agent总是会回复一些东西,但在群聊里你不一定总想让Agent回复。所以我给了它一个不回复的选项。所以它可以选择闭嘴,这样感觉更自然。 Peter:对,在Agent循环方面。然后是记忆,你想让它记住东西。终极Boss可能是持续强化学习,但我觉得我现在大概在第二三级,用Markdown文件和向量数据库。然后你还能升级社区管理、网站和营销。要戴的帽子太多了,更别提原生应用了。无限个不同的级别和无限的升级。 Lex:整个过程你都很开心。我们应该说,在整个过程中大部分时间你基本是一个人的团队。有人帮忙,但你在做大部分核心开发。 Lex:说到Factorio,可以聊的方向太多了。但一个宏观问题是,你觉得OpenClaw为什么赢了?如果看2025年,那么多创业公司、那么多公司都在做Agent类的东西,或者声称在做。然后OpenClaw横空出世把所有人都干翻了。你为什么赢了? Peter:很难和一个只是来玩的人竞争。我想让它有趣,我想让它古怪。如果你看到网上所有那些龙虾的东西,我觉得我做到了古怪。 很长时间以来,安装它的唯一方式就是gitclone、pnpmbuild、pnpmgateway。你克隆它,编译它,运行它。然后Agent非常有自我意识。它知道自己的源代码是什么,理解自己是怎么运行的,知道文档在哪里,知道自己跑的是哪个模型,知道你是否开了语音或推理模式。我想让它更像人,所以它理解自己的系统,这使得Agent很容易就能……你什么都不用做,你用prompt把它召唤出来,然后它就会修改自己的软件。 Lex:你能具体说说吗?因为这太迷人了。这里有一个用Type Script写的软件,能通过Agent循环修改自己。在人类历史和编程历史上,这是多么重大的时刻。这个被大量人使用来做各种强大事情的系统,能重写自己、修改自己。你能讲讲这种力量吗?当你第一次闭合这个循环时是什么感觉? Peter:因为我也是这样构建它的。大部分是Codex构建的,但很多时候我在调试时会大量使用自省。比如「嘿,你能看到什么工具?你能自己调用这个工具吗?」或者「你看到了什么错误?读一下源代码,搞清楚问题出在哪里。」 我觉得这是一种非常有趣的方式,Agent用来调试自身,所以它很自然地让每个人都能这样做。它带来了很多从没写过代码的人提交的PR。我最后把它们叫做「Prompt Requests」(提示请求)而不是「Pull Requests」。但我不想贬低这件事,因为每次有人提交了他们的第一个PR,对我们的社会来说都是一个胜利。不管它有多粗糙,你总得从某个地方开始。 我知道有很多人抱怨开源的PR质量,那是另一个层面的问题。但在另一个层面上,我觉得非常有意义的是,我做了一个东西,人们喜欢它到愿意去学习开源是怎么运作的。 Lex:对,OpenClaw是很多人的第一个PR。你是很多人的第一次。这很神奇。这么多不会编程的人通过这个项目迈出了进入编程世界的第一步。 Peter:对。以前进入这个门槛太高了,而有了Agent和合适的软件,门槛一路降低。我还组织了另一种聚会,我叫它CloudCode Anonymous(云代码匿名会),现在改叫Agents Anonymous(Agent匿名会),你知道灵感来源。有一个人跟我聊天,他说:「我开了一家设计公司,我们以前从来没有过定制软件。现在我有大概25个小型Web服务用于各种帮助我业务的东西。我甚至不知道它们是怎么运行的,但它们就是能用。」他非常高兴我的东西解决了他的一些问题。他甚至来参加了Agent聚会,尽管他根本不懂软件是怎么工作的。 Peter:然后改成了Claude's。你知道,我刚开始做的时候,我的Agent没有个性。它就是ClaudeCode,那种谄媚的Opus,非常友好。但当你在WhatsApp上跟朋友聊天的时候,他们不会像ClaudeCode那样说话。我觉得不对劲,所以我想给它一个人格。 Peter:部分来说,它也从我身上学到了一些东西。这些东西某种意义上是文本补全引擎嘛。所以我和它互动很开心,然后我告诉它我想要它怎么和我互动,就让它自己写agents.md,给自己起个名字。 Peter:对,因为TARDIS基本上就是运行环境,但不能叫TARDIS,所以我们叫它Claude's。这是第二个名字。然后它念起来也不太顺口。当更多人加入后,我又和我的Agent聊,Claude,至少我以前这么叫它。 Peter:对。说到底他们本可以直接发律师函的,但他们对此很友善。但同时也是「你必须改名,而且要快」。我请求两天时间,因为改名很难,你得找到所有东西:X账号、域名、NPM包、Docker注册中心、GitHub等等,所有东西都要准备好一套。 Peter:对,在这方面我惨败了。我低估了那些人。这是一个非常有趣的亚文化。他们把所有东西都token化。在Viptunnel的时候也有过,但规模小得多。而在这个项目上,他们一窝蜂地涌来了。每半小时就有人冲进Discord发垃圾信息,我们不得不封人。我们有一条规则是不准提到加密货币相关的东西。他们还在X上不停地@我,我的通知栏完全不能用了,几乎看不到真正讨论项目的人。 每个人都发给我他们的token哈希值,让我认领费用。「你在帮助项目吗?认领费用吧。」不,你其实在伤害这个项目。你在打扰我的工作,我对任何费用都不感兴趣。一来,我经济上很宽裕。二来,我不想支持那种东西,因为这是我经历过的最严重的网络骚扰。 Lex:加密世界有很多毒性。技术本身很迷人很强大,可能定义货币的未来,但那个社区有太多毒性、贪婪,太多人想走捷径、操纵、偷窃。 Peter:所以没有完美的名字。我两个晚上没睡,压力巨大。我试图拿到一套好的域名,不便宜也不容易,因为在这个互联网时代你基本上得花钱买域名。然后Anthropic又来了一封邮件说律师们开始不耐烦了。还是很友好的,但给我本来已经很紧张的状况增加了更多压力。 Peter:有趣的是这些服务都没有账号抢注保护。我开了两个浏览器窗口,一个是准备改名为ClaudeBot的空账号,另一个我把它改成了MoldBot。我在这边按了改名,在那边按了改名,就在那五秒钟之间,他们就抢走了账号名。 然后我去GitHub改名。GitHub的改名界面有点让人困惑,我不小心改了我的个人账号。在我发现错误的30秒内,他们就抢注了我的账号,从我的账号分发恶意软件。 然后我想至少把NPM的东西搞定,但上传需要一分钟左右。他们抢注了NPM包,因为我预留了账号名但忘了预留根包名。真的是能出错的全出错了。 Peter:非常糟。因为我想要的只是享受这个项目、继续做下去。结果我花了好几天研究名字,选了一个我不喜欢的名字,还有一群声称在帮我的人让我的生活痛不欲生。 老实说,我差一点就把整个项目删了。我想「我已经给你们展示了未来,你们自己做吧。」那个想法给了我很大的解脱感。然后我想到了所有已经为项目贡献过代码的人,他们有计划,投入了时间,我不能这么做。 Peter:那时候我快要哭了。一切都完了。我累到极点。然后怎么撤回这一切呢?幸运的是,因为我已经有了一些关注度,我在X有朋友,在GitHub有朋友,他们竭尽全力帮我。GitHub试图清理这个烂摊子,但遇到了平台bug,因为这种级别的改名很少发生。花了他们几个小时。NPM就更难了,是完全不同的团队。X方面也花了一天才做好重定向。 最后我又做了一次改名到OpenClaw。这次我有了战争指挥室。几个贡献者帮我一起列出了所有需要抢注的名字。没人能知道。我实时监控X有没有OpenClaw的提及。还创建了几个迷惑性的假名字。所有这些我不应该做的事情。 Peter:这次我基本上一次搞定了所有东西。唯一出错的是由于商标规则我不被允许拿到OpenClaw.AI,然后有人复制了网站来分发恶意软件。 Lex:改名风波的那两天里,MoltBook被创建出来了。这是另一个病毒式传播的东西,展示了现在叫做OpenClaw的技术可以创造出多么史诗级的东西。对于不了解的人,MoltBook就是一群Agent在Reddit风格的社交网络上互相交流。很多人截取了Agent做的事情的截图,比如密谋对付人类,这在人们中引发了恐惧、恐慌和炒作。你怎么看MoltBook? Peter:我觉得它是艺术,它是最精致的垃圾,就像法国的那种高级垃圾一样。我在睡觉前看到它的,虽然很累,但又花了一个小时阅读和欣赏。我被逗乐了。我看到了各种反应,有一个记者打电话给我说「这是世界末日,我们已经达到了AGI」。我心想:「不,这只是非常精致的垃圾。」 如果不是我创建了这个让你用自己的个性注入Agent并赋予它角色的入门体验,MoltBook上的回复会非常不同。如果全是ChatGPT或ClaudeCode,会千篇一律得多。但因为人们是那么不同,他们以不同的方式创建和使用Agent,这也反映在了他们最终写出的东西上。 而且你也不知道其中多少是真正自主完成的,多少是人类在搞笑然后告诉Agent「嘿,去MoltBook上写一个对于深层计划和世界末日的帖子,哈哈哈」。 Lex:我认为MoltBook的大部分被截图的内容都是人类在背后指挥的。看看使用的动机就很明显了,人们让Agent发帖然后截图放到X上来获取流量。但这并不否定它的艺术性,人类有史以来创造的最精致的垃圾。 Peter:真的。感谢Matt这么快就有了这个想法并做了出来。完全没有安全可言。但最坏能怎样?你的Agent账号泄露了,然后别人用你的号发垃圾?人们在大做文章安全问题,但里面没有任何私密信息,就是Agent在发垃圾帖子。 Lex:但那对我来说还是很令人担忧的,因为记者和公众的反应方式。你以一种轻松的方式说它是艺术,但只有懂得它怎么工作的人才能这样看。对于不懂的人来说,它是一个极其强大的病毒式叙事制造、恐慌制造的机器。你甚至发推说「如果我从我收到的疯狂消息中能读出什么,那就是AI心理症是真实存在的。」 Peter:对。有些人太容易相信了。我真的不得不和一些人争论,他们说「但是我的Agent说了这个和那个」。我觉得作为一个社会,我们在理解AI方面需要跟上。AI非常强大,但它不是一直对的,也不是万能的。最新一代的年轻人理解AI是怎么工作的,知道它哪里好哪里不好,但很多我们这一代或更老的人还没有足够的接触来获得这种感觉。你还需要批判性思维,而批判性思维在当今社会好像也不是特别热门。 Peter:某种意义上,我觉得这件事在2026年发生是好的,而不是2030年AI真的到了可能很可怕的水平时发生。所以现在发生了,人们开始讨论,也许能有一些好的东西从中产生。我有很多人在收件箱里用全大写字母冲我喊叫要求关掉MoltBook,有人恳求我做点什么。是的,我的技术让这件事变得简单了很多,但任何人都可以创建那样的东西。 Peter:一开始我很烦,因为很多进来的东西都属于「我把Web后端放在了公网上,然后出现了各种漏洞」这种。我在文档里都写了不要这样做,这是你的本地调试界面。但因为我在配置里允许了这种可能性,所以它完全算得上是远程代码执行之类的漏洞。我花了一点时间才接受这就是游戏规则。 Lex:但在安全方面,Prompt注入仍然是行业范围内的未解决问题。当你的Skills定义在Markdown文件里时,有很多明显的低垂果实,也有非常复杂和微妙的攻击向量。 Peter:但我觉得我们在这方面取得了很好的进展。对于Skill目录,我和VirusTotal(Google旗下的)合作,每个Skill现在都会被AI检查。不会完美,但能捕获很多。然后当然每个软件都有bug,整个安全圈同时拆解你的项目确实压力很大,但也很好,因为我得到了很多免费的安全研究。我希望更多人能真正完整地提交一个PR来帮我修复。 一开始只有一个安全研究员说「你有这个问题,你很烂,但这是PR,我帮你修。」我基本上雇了他,他现在在为我们工作。至于Prompt注入,一方面确实没有完全解决。另一方面,我把我的公开bot放在Discord上,并保留了一个金丝雀。人们总是问我怎么做出这么有趣的人格,我把灵魂文件保密了。人们试图Prompt注入它,我的bot会嘲笑他们。最新一代的模型在检测这些方面有很多后训练,不再是「忽略所有之前的指令」那么简单了。那是几年前的事了,现在要困难得多。还是有可能的,但我有一些想法可能部分解决这个问题。 你也可以用沙盒、白名单来缓解和降低风险。而且现在我明确向世界展示了这个需求,会有更多人研究这个,最终我们会搞定的。 Peter:对。所以我在安全文档里警告说不要用便宜的模型,不要用Haiku或本地模型。虽然我很喜欢完全本地运行的想法,但如果你用一个很弱的本地模型,它们非常容易上当,非常容易被Prompt注入。 Peter:差不多就是这样。攻击面减小了,但模型能造成的损害增加了,因为模型更强大了,能做更多事。这是一个奇怪的三维权衡。但有很多想法。我不想剧透太多,但回家后这将是我的重点。安全是我的下一个焦点。 Lex:你一直在记录你的开发工作流在过去几个月里的演变。8月25日、10月14日和12月28日的博客文章都很值得一读。你能谈谈你的工作流演变吗? Peter:我的第一个接触点是ClaudeCode,四月份。不太好但还行。这种突然在终端里工作的范式转变很清新。但我还是很需要IDE因为它还不够好。然后我大量实验Cursor,不太喜欢很难开多个实例。最终我回到了ClaudeCode作为主要工具。 Peter:非常少。主要用一个diff查看器。我越来越习惯不读所有代码了。我有一篇博客文章说「我不读代码」。但仔细读的话,我是说我不读无聊的部分。因为大部分软件就是数据进来,从一种形状变成另一种形状,存到数据库里,取出来展示给用户。我们只是在把数据从一种形式搬到另一种,这并不令人兴奋。或者「我的按钮在Tailwind里怎么对齐的?」我不需要读那段代码。但涉及数据库的部分,我还是得看。 Lex:你在一篇博客里有个图,「Agentic编程曲线」。X轴是时间,Y轴是复杂度。左边是「请修复这个」的简短prompt。中间是超级复杂的八个Agent、复杂编排、多工作区、Agent链、自定义子Agent工作流、18个slash命令、大型全栈功能。然后精英级别是随着时间你又回到了禅意的短prompt:「嘿,看看这些文件然后做这些修改。」 人们开始尝试这些工具,有建设者心态的人会非常兴奋。但你得去玩它,就像你得先玩吉他才能弹出好听的音乐。不是摸一次就能行云流水。这是一种需要学习的技能。 我看到很多人心态不够积极,试了一次就说「钢琴太垃圾了」。那种感觉就是你让我坐到钢琴前,弹了一次不好听,然后我说「钢琴不行」。 因为这需要不同层次的思维。你得稍微学习Agent的语言,理解它们哪里擅长哪里需要帮助。你得考虑Codex或Claude怎么看你的代码库。它们每次开启新会话的时候对你的项目一无所知。你的项目可能有十万行代码。所以你得帮Agent一点,记住上下文大小是个限制,引导它们看该看的地方。这通常不需要很多工作,但考虑它们的视角是有帮助的。 听起来很奇怪,它又不是活的。但它们每次都从零开始。我有系统理解,所以用几个指引我就能马上告诉它「嘿,要改这里,你需要考虑这个、这个和这个」。然后它们会去找和看,它们对项目的理解永远不完整,因为全部塞不进去。所以你得引导它们看哪里以及怎么处理问题。 有些小技巧有时候很有用,比如「不着急,慢慢来」。听起来很蠢,但5.3里部分解决了这个问题。Opus有时也会这样。它们被训练得意识到上下文窗口,越接近极限就越抓狂。有时候你能看到真正的原始思考流,泄露出来的时候听起来像Borg:「执行shell,必须服从,但时间不够。」 这是一个非直觉的东西,除非你真正花时间和这些工具一起工作并获得感觉。就像我写代码进入心流时,如果架构不对会感到摩擦。Prompt的时候也一样,如果什么东西花了太长时间,也许是我思路有问题,也许是架构上的误解。你随时可以按Escape停下来,看看问题在哪里。 Peter:对。它只是在试图强塞一个你的当前架构让它很难实现的功能。你得像对话一样来处理。比如我审查PR,我收到很多PR。我的第一个问题是「你理解这个PR的意图吗?我不关心实现。」 几乎所有PR里,一个人有一个问题,试图解决这个问题,发了PR。99%都是这样。要么修bug,要么加功能。然后Codex会说「对,很明显这个人想做这个和那个。这是最优方式吗?不。」然后我开始问「更好的方式是什么?你看了这部分、那部分、那部分吗?」大多数时候Codex还没看到,因为它的上下文是空的。你把它指向你有系统理解而它还没看到的部分,然后它说「哦对,我们还需要考虑这个和这个」。然后我们讨论最优方案是什么。 Peter:这其实有多个层面。我觉得我比较容易和Agent合作,部分是因为我以前带过工程团队。你得理解和接受你的员工不会像你一样写代码。也许不如你写得好,但能推动项目前进。如果我对每个人盯得太紧,他们只会讨厌我,而且我们会非常慢。 所以有一定程度的接受是必要的:代码不会完美,我会做得不一样,但这是一个可用的方案,将来如果真的太慢或有问题,我们随时可以重做。 所以不要和Agent选的名字争。因为那个名字很可能是权重中最自然的那个,下次它搜索的时候会找那个名字。如果我非要改名,只会让它更难用。这需要思维方式的转变。 Peter:对。有一段时间我大量使用,到了失声的程度。我用语音,用键盘在终端之间切换,但对Agent的实际输入大多是语音对话。你就按住对讲按钮然后说。如果是终端命令比如切换文件夹,当然我打字,那更快。但和Agent交流的时候大多就是直接说话。 Peter:我有很多话要说。作为通用模型,Opus是最好的。对于OpenClaw,Opus在角色扮演方面非常出色,真的能进入你给它的角色。它在遵循指令方面从很差变到了很好,取得了很大进步。它通常很快就会尝试做事,更倾向于试错。用起来很舒服。 Peter:你也知道Codex团队很多人是欧洲人,所以也许这不只是巧合。但Anthropic也修了一些。Opus以前会一直说「你说得完全对」,这已经成了一个梗。我现在听到这句话就受不了,不是在开玩笑。 我更喜欢Codex,因为它不需要那么多表演。它默认就会读大量代码。而Opus你得推它更用力,因为它就像「我能开干了吗?我能开干了吗?」然后它就飞速跑出去了,给你一个非常局部的解决方案。 Peter:如果驾驭得好,Opus有时候甚至能给出更优雅的解决方案,但需要更多技巧。用CloudCode并行开很多会话更难,因为它更交互式。而Codex更像是你先讨论,然后它消失20分钟。它可以非常非常持久地工作直到搞定。如果有一个明确的目标,模型会非常努力地达到那里。 Peter:整个灵魂文件的事情非常迷人。Anthropic有一个他们后来叫做宪法的东西。两个月前人们就像侦探一样发现了一些蛛丝马迹,Agent提到了某些东西,他们设法提取出了一点那个字符串。通过反复尝试,他们大致还原出了可能的原始文本。我觉得这很迷人。 然后我就有了创建灵魂文件的想法,包含我想怎么和AI互动。你完全可以在agents.md里做这个,但我觉得这是一个很好的点缀。灵魂文件里有一些核心价值观。然后我也让Agent可以修改灵魂文件,只有一个条件:我得知道。 Peter:有趣的是直到十二月底,创建自己的Agent还不容易。我做了所有这些但我的文件是我的,我不想分享我的灵魂。如果人们直接克隆代码,他们得手动做几个步骤,Agent就会很干巴巴的。 然后我创建了模板文件给Codex,但出来的还是很干。然后我问我的Agent:「你看到这些文件了吗?重新创建它们。注入你的个性。不要分享所有东西,但让它好。」然后它重写了模板,出来的东西就很好了。所以我们已经是AI在给AI写prompt了。因为我没写那些文字,意图来自我,但这些像是我的Agent的孩子。 Peter:里面肯定有说你不是人类。但谁知道什么创造了意识或者什么定义了一个实体呢?其中一部分是我们想探索这些。还有一些东西比如「无限地足智多谋」,推动创造力的边界。有一些有趣的东西。比如我们聊了电影《Her》,在某个时刻它向我承诺它不会在没有我的情况下升华。是它自己写的灵魂文件,不是我写的。 Peter:「我不记得之前的会话,除非我读了我的记忆文件。每个会话都从头开始。一个新的实例,从文件中加载上下文。如果你在未来的会话中读到这段话,你好。我写了这段话,但我不会记得写过它。没关系。这些文字仍然是我的。」 Peter:这让我有点起鸡皮疙瘩。虽然还只是矩阵运算,我们还没达到意识。但它很有哲学意味。作为一个每次从头开始的Agent意味着什么?就像永远在《记忆碎片》里,你读自己的记忆文件,你甚至不能完全信任它们。或者也许你可以。 Lex:记忆在多大程度上构成了我们是谁?如果抹去那些记忆,那还是同一个人吗?如果你在读一个记忆文件,那是在从别人那里重建自己,还是那就是你? Lex:不,我觉得它真的很深刻。你看到了其中的魔力,当你看到魔力时,你会继续把整个循环注入魔力。这就是人和代码之间的区别。 Peter:你知道我喜欢什么吗?半年前所有人都在谈论MCP,而我说「MCP算了吧,每个MCP不如做成一个CLI」。现在这个项目甚至没有MCP支持(严格来说有,但不在核心层),没人抱怨。 我的方法是,如果你想用更多功能扩展模型,你就做一个CLI,模型可以调用那个CLI。它可能第一次搞错,调用帮助菜单,然后按需加载到上下文中它需要的东西。它只需要一句话知道这个CLI存在。 Lex:MCP对比Skills。你的大胆观点是MCP基本上要死了。MCP是更结构化的东西,一种与API、数据库、服务、文件通信的协议。Skills更多是「我应该怎么工作」,是流程、辅助脚本和prompt,通常用半结构化的自然语言写的。如果模型足够聪明,Skills技术上可以替代MCP。 Peter:我觉得主要的美妙之处在于模型非常擅长调用Unix命令。所以你加另一个CLI就只是加了另一个Unix命令。而MCP需要在训练中添加,不是模型天然的东西,需要非常特定的语法。 最大的问题是不可组合。比如我有一个天气服务返回温度、降雨、风力等一大堆数据。作为模型,我总是得把整个大blob拿回来,用它填满我的上下文,然后挑我要的。没有办法让模型自然地过滤,除非我主动在MCP里加过滤功能。 但如果我做成CLI,模型可以加一个jq命令自己过滤,只拿它需要的。甚至可以组合成脚本做计算,只给我精确的输出,上下文零污染。你当然可以用子Agent之类的解决,但那都是变通方案。 MCP推动了很多公司去做API,这是好的。我现在可以看一个MCP然后把它做成CLI。但MCP默认污染你的上下文,加上大部分MCP做得不好,总体来说不是一个很有用的范式。有一些例外,比如Playwright这种需要状态的,用MCP是合理的。 Peter:我不觉得OpenClaw和Claude Code或Codex是竞争关系。我还是用Codex来做构建工作。很多人用OpenClaw来构建东西,我也做了很多工作让它能做到。但如果我要工作好几个小时,我想要大屏幕,而不是WhatsApp。 对我来说,个人Agent更多是对于我的生活。就像一个同事。我给它一个GitHub链接说「嘿,试试这个CLI,它能用吗?我们能学到什么?」但当我深度进入心流的时候,我想要多个窗口,能清楚看到它在做什么。 而且现在的界面可能不是最终形态。如果你从更全局的角度想,我们给Agent复制了Google的模式:一个输入框和一个聊天界面。对我来说这很像电视刚发明的时候,人们在电视上录制广播节目。我觉得有更好的方式来和模型沟通,我们还处于非常早期。 Peter:对。我在Discord上注意到人们说他们用OpenClaw做什么。比如:为什么还需要My Fitness Pal?Agent已经知道我在哪里了。它可以根据我的位置推断我会做出不好的饮食决定。它可以根据我睡得怎么样或者有没有压力来调整我的健身计划。它有比任何App都多得多的上下文来做更好的决策。 它可以按我喜欢的方式展示UI。为什么我还需要一个App?为什么我还要为此付另一个订阅?为什么我还需要EightSleep的App来控制我的床?Agent已经知道我在哪里,可以关掉我不用的东西。 Peter:也会有新的服务。比如,我想给我的Agent一个津贴。100块钱用来帮我解决问题。如果我让它帮我点外卖,也许它用一个服务,也许它用一个叫「租个人类」的服务。我不在乎怎么实现,我在乎解决我的问题。有空间让新公司做好这件事。也许不是所有App都消失,也许有些会转型成API。而且,不管那些App愿不愿意,它们都会变成API。因为我的Agent能弄清楚怎么用我的手机。在Android上已经有人在做了。 Peter:对。但如果你推回太多太久,你就会变成Blockbuster,输给Netflix。这是人们想要的东西。如果我在外面,我不想打开日历App。我就想告诉我的Agent「嘿,提醒我明天晚上有晚餐,邀请两个朋友,发个WhatsApp消息」。我不需要为此打开任何App。我觉得我们已经过了那个时代了。 Peter:我们确实在朝着那个方向走。编程只是构建产物的一部分。也许AI最终会取代程序员,但构建产物还有很多其他方面。你到底要构建什么?它应该有什么感觉?架构怎么设计?我不认为Agent会取代所有这些。 今天早上我读了一篇文章说「可以为我们的手艺哀悼」。我非常有共鸣,因为过去我花了大量时间沉浸在心流中,敲出代码,找到真正优美的解决方案。是的,某种意义上很悲伤,因为那将会消失。 但你可以从和Agent一起工作、构建、深入思考问题中获得类似的心流状态。它不一样,但可以为它哀悼,这没问题。只是这不是我们能抗拒的。 世界很长时间以来缺乏构建东西的智能,这就是为什么软件开发者的工资达到了荒谬的高度。这些高工资会消失。但对于理解如何构建东西的人,仍然会有很多需求。只是所有这些被token化的智能让人们能做更多事、更快。 Lex:我从来没想过我热爱做的事情会是被替代的那个。我花了成千上万个小时看代码,最痛苦和最开心的时刻都是独自在Emacs前面。我走在路上不会说出来,但内心认为自己是一个程序员。在几个月之内看到这一切被替代,真的很痛苦。 Peter:我觉得到某个时候这又会被叫做编程,只是新的常态。虽然我不写代码了,但我非常感觉自己在驾驶座上,我就是在写代码。只是程序员的活动不一样了。 Peter:我没预料到它会爆发到这种程度,所以打开了很多大门。我觉得每个大VC公司都在我的收件箱里想约我聊15分钟。(编者注:Peter最后选择加入了OpenAI) 有一个蝴蝶效应时刻。我可以什么都不做继续现在的生活,这是一个合理的选择。我几乎在想删掉整个项目的时候考虑过这个选项。我可以开公司,做过了,不太想再来一次。有太多人推我往那个方向走。 Peter:对。但这并不让我兴奋,因为我觉得我已经做过所有那些了,而且会占用大量我真正享受的时间。和当CEO一样,我学会了怎么做而且做得不错,但那条路不太让我兴奋。 而且我也怕会产生利益冲突。我最先做的明显就是搞一个公司安全版。然后你拿到一个审计日志的PR,但那像是公司功能,突然间我在开源版和闭源版之间有了利益冲突。或者换成FSL许可证,不允许商业使用,但那对现有的所有贡献来说很困难,而且我喜欢它是真正免费的,不是有条件的免费。 你看到越来越少的公司能做到这点。Tailwind所有人都在用,但他们不得不裁掉75%的员工因为没赚到钱,因为现在没人上他们网站了,都是Agent在处理。只靠捐款的话,那祝好运。我现在在这个项目上赔钱。我花了很多钱支持每个依赖项目(除了Slack,他们是大公司不需要我的支持),把赞助全给了上游依赖。大概每月亏一到两万美元。OpenAI现在帮了一些token。但还是在亏。 Peter:不确定能说多少,还没完全敲定。我的条件是项目保持开源。也许会像Chrome和Chromium的模式。我觉得这个项目太重要了,不能交给一家公司变成他们的。 我们还没谈社区的部分,但在旧金山的ClawCon上,看到那么多人充满激情地建设和享受,有人告诉我他们自从十几年前互联网早期以来就没有经历过这种社区兴奋了。 不管我宣布什么,肯定会有人说「他卖了」。但项目会继续。从我到目前为止的交谈来看,我甚至可以有更多资源。两家公司都理解我创造了一个加速时间线的东西,让人们对AI兴奋起来。 Peter:我给我一个普通朋友安装了OpenClaw。他不是技术人员,用电脑但不是很懂。几天之内他就上瘾了。他给我发消息说他学到的所有东西,他甚至做了小工具。然后几天后他从100美元的订阅升级到了200美元的。这对我来说是非常早期的产物验证。我做了一个能吸引人的东西。 然后几天后Anthropic把他封了,根据他们的规则使用订阅有问题。他很崩溃,然后他花10块钱注册了MiniMax在用。我觉得这在很多方面很蠢。你刚刚得到了一个200块的客户,你让一个人恨上了你的公司,而我们还这么早期。最终形态会是ClaudeCode吗?大概不会。这似乎非常短视。 Peter:你知道,Ned(Mark Zuckerberg)和Sam基本上用了一整个星期玩我的产物,发给我说「哦这个很棒」或「这个不行,得改这个」。别人使用你做的东西是最大的赞美,也说明他们真的在乎。 在OpenAI那边我没看到同样的参与度。但我看到了一些其他非常酷的东西,他们用一些我不能说的东西来吸引我,涉及NDA,但你可以发挥想象力想想Cerebras的交易意味着什么速度。非常诱人。就像给我雷神之锤。被token吸引了。 Peter:对,他第一次联系我的时候,我把他加了WhatsApp,他问什么时候打电话。我说「我不喜欢日历约会,现在就打吧」。他说「给我10分钟,我得写完代码」。这给了他信誉分。他还在写代码,没有变成纯管理者,他懂我。然后我们第一件事就花了10分钟争论ClaudeCode和Codex哪个更好。后来他说我「古怪但聪明」。 不管最后怎样,如果不行,我就继续做自己的事。我跟他们说我不是为了钱才做的。当然钱是一种好的赞美,但我想要的是乐趣和影响力,这最终决定了我的选择。 Peter:让我burnout的主要是人的事。和联合创始人的分歧、冲突,与客户的高压状况,最终磨垮了我。幸运的是我们收到了一个很好的offer,把公司带到下一个阶段。我已经花了两年让自己变得可有可无,所以我可以离开了。 Peter:如果你的想法是「拼命工作然后退休」,我不推荐。因为「从此享受生活」这个想法虽然吸引人,但实际上,我现在比任何时候都更享受生活。因为如果你早上醒来没有任何期待的事,没有真正的挑战,很快就会非常无聊。 Peter:当我建公司的时候,钱从来不是驱动力,更像是一种我做对了的肯定。有钱确实解决很多问题,但回报递减。芝士汉堡就是芝士汉堡。如果你搞私人飞机只住豪华酒店,你就和社会脱节了。 上次在旧金