谈DeepSeek、痛苦回忆、女儿成长、创业:李想最新访谈实录

5月7日, 理想AI Talk第二季上线。距离AI Talk第一季过去130多天,人工智能的世界翻天覆地。理想汽车CEO兼董事长李想分享了对人工智能最近的思考,以及对于创业和个人成长的见解。

谈梁文锋和DeepSeek:跟梁文锋聊过一次,感觉他特别自律

李想谈到DeepSeek和梁文锋。

李想称:“我只跟他(梁文锋)聊过一次,是去年的九月份,印象特别深,应该是 ChatGPT-o1 发布前几天,我自己个人感觉他有两个特点。第一个,我觉得他是个特别自律的人,比较明显的,跟他沟通的过程中其实能够看到。第二个,我认为其实他会在全世界范围之内去研究和学习,然后最佳实践和最好的方法论的这样的一个人。”

李想表示,DeepSeek的出现对他们加速做VLA(视觉语言行动模型)是巨大的帮助。理想原本计划于2025年9月完成的VLA语言模型部分,因直接采用DeepSeek的开源框架,研发进度提前了9个月。

李想称,DeepSeek让他觉得应该给对社会贡献点什么,不让行业那么卷,而开源星环OS“说白了纯粹是感谢DeepSeek”。

谈特斯拉FSD:基本功非常扎实

李想谈到特斯拉FSD进入中国。

李想表示实测发现特斯拉“大概在用”FSD 12.5 之前的模型,而这并非特斯拉的真实能力,与特斯拉的真实能力相比仍有很大差距。FSD 13.0 之后的能力还是非常强的,能看到特斯拉具有非常扎实的基本功,包括感知距离、运行帧率、车辆控制的稳定性。

李想表示,美国很多顶级的公司,像苹果,像特斯拉这种企业,就是他们基本功特别扎实。在今天这种内卷的环境下,然后包括外部的不确定的环境下,这时候更是每个企业扎扎实实练基本功的最好的时候,而且到了人工智能时代的话,基本功就更是不可能、不可跳跃的。

首次公开谈及女儿:她是自己和妻子的第三个支撑点

李想谈及大女儿。他说“从去年底春节过后一个最大的变化是,我们家大女儿她形成了我们的第三个支撑。她14岁了,她对事情的理解在发生巨大的变化。她自己的三观开始有效、特别完善地形成,而且超出了我们的预期。”

李想表示女儿有能力做特别好的沟通了,关于她自己的人生规划、喜好、对人和事物的理解,这个特别有意思。

谈辅助驾驶:现阶段比较像黎明前的黑暗

当谈到辅助驾驶所处阶段,李想表示“我认为黎明马上就要来了,但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。这是今天这么一个阶段。”

他表示,正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题,这是我们自己坚决相信的。

当被问到为什么人类一定需要辅助驾驶?

李想回答:只要人类会雇佣司机,人工智能技术是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后进行替代。

谈痛苦回忆:曾被造谣倒闭,一季度亏了将近二十亿

李想谈及自己痛苦的回忆时表示:太多了。全网的黑公关都说理想汽车倒闭,那一个季度我们亏了将近二十亿,从没亏过那么多。忽然从巅峰掉到谷底,好处还是我说的,我们认识到很多能力不足,我们就去补了很多能力。但正是因为这件事情,我们的调整又带来了2023年获得接近三倍的增长,我们直接做到了1200亿的收入。

谈创业:创业确实不容易,但是没必要苦哈哈

对于创业中的痛苦回忆,李想表示为了让自己有更好的正能量,还是尽可能地只保留那些有价值、美好的片段。

哪怕是一个不好的东西,也会换种方式表达,比如被黑被打击,会转变成“看,正是因为这件事情我们增长了三倍,我们获取了其他新势力没有的能力,我们面临其他新势力没有的挑战”。李想说这是一种心态。

他还认为创业确实不容易,但是没必要苦哈哈的。苦和甜是一个硬币的正反面,取决于你选择看哪一面。

谈成长:做汽车之家时我说做好业务就行了,最后其实折在了资本上

李想称在做汽车之家的时候,说做好业务就行了,资本根本不重要,最后其实折在了资本上。

在做理想汽车的时候就非常注重资本,请最好的FA(财务顾问),请最好的律所,股权架构的设计、投票权,今天大家可以看到所有的新势力企业里面,理想汽车的股权架构、治理结构、资本现金管理都是做得最好的。“我并没有改变我的业务,其实是增强了一个能力。”

谈十年里最深刻的场景画面:理想ONE和理想L9发布

7月理想将迎来十周年,谈及十年里最深刻的场景画面是什么,李想称第一个最重要的画面,是2018年理想ONE第一次发布,一直延续到2019年的4月份,上海车展第一次正式的展示,带有价格的。“那是一个非常重要的时刻,我们真的能做出来一辆车,而且这个车特别受用户喜欢。在上海车展的展馆里面,我们是人流量最大的一个展台。因为我们是从什么都没有开始来做的。”

李想称另一个是2022年发布理想L9,“我觉得那真的是一个全世界最卓越的产品。到了今天2025年,能看到至少有5个以上的企业是因为当时理想L9的成功,在打造跟理想L9相同的产品。”

以下是访谈实录:

“人工智能发展这么好,但我每天工作时间并没有减少。”

张小珺:距离上次的AI talk过去了130天,你最大的进步是什么?你有成为一个更智能的李想吗?

李想:这130天我更高兴看到的是整个中国的进步,包括DeepSeek、千问在内,可以让中国无论是基座模型,还是reasoning推理模型,还是后边的多模态,已经跟美国的距离基本上拉近了。而且中国的企业做出来这些模型效率也更高,无论是在预训练上,在训练的层面,还是在后边的整个推理层面,我们做了很多的深层的工程改造,我觉得也让中国的人工智能领域更有信心,包含后边我看到一些比较惊喜在Agent(智能体)上面的一些突破,无论是Manus还是Genspark,其实这些方面做的都非常好。

从我们自己个人而言,这也树立了我们AI做得更好的信心,让我们也更加坚信这条路走下去是对的。

张小珺:那你有变成一个更智能的李想吗?

李想:没有那么大的变化。如果从实际的角度而言,人工智能发展这么好,但我每天工作时间并没有减少,还是在增加。

张小珺:这是为什么?

李想:大部分人还是在把它当成一个信息工具来使用。那如果是信息工具的话,其实AI作为一个信息工具不是完美的,因为它最后一定要给你个next token(下个词元),一定要给你一个结果。而且大家今天使用的时候会先点上联网搜索,先去通过Rag(检索增强生成)联网搜索一些索引信息。但往往其实索引的信息源,就已经失真和不准确了,所以最后推理的过程,(虽然)很认真地在做推理,但是你明显都看到这个过程和结果已经开始有问题了。所以某种程度而言,如果我们不对这套机制进行一个改造的话,它某种程度仍然是在做熵增,在增加大量的无效信息、无效结果、无效结论。

这是一个很大的挑战。我就在思考一个问题,还是要站在真正用户价值的角度,如果大家在拼命地使用AI,大家在为AI做投资,但是我的工作时长并没有减少,我的工作结果也没有变好,那这个问题到底在哪里?所以这也是过去几个月我们内部讨论非常多的一个问题。

信息工具对大家而言更重要的其实是参考作用。再往下,AI变好了以后它会变成辅助工具。比如我们今天做的辅助驾驶,大家在车上用人工智能的语音方式来进行导航、查找美团、调取音乐,它会让我们的效率更高,但它仍然离不开我们。所以这时候,这种角色比较像什么呢?它确实比原来的使用体验会更好了,但它是个辅助的一个工具。

什么时候才能真正改变我们的工作成果以及减少工作时长,它必须变成生产工具。我自己认为Agent最重要的评判条件是它是否是个生产工具、是否真正能替代我去完成专业的工作、产生有效的生产力、解决我工作中那最重要的8小时的时间。这个是我接下来对Agent最重要的衡量,也是我认为Agent的意义所在。

张小珺:信息工具、辅助工具、生产工具,这是你对于工具的三个分级?

李想:对,我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。

“理想星环OS开源,纯粹是感谢DeepSeek。”

张小珺:你从DeepSeek身上学到了什么?

李想:DeepSeek极简地运用了人的最佳实践。比如DeepSeek V3是一个MoE(混合专家模型),671B的一个模型。MoE是个非常好的架构,它相当于把一堆专家组合在一起,然后每一个是一个专家能力。它做这个专家能力是怎么来构建的?DeepSeek展示了一个最佳实践:第一步一定要先搞研究。

这非常重要。任何时候当我们想去改变和提升能力,第一步一定是搞研究,第二步是研发,第三步是把能力表达出来,第四步是能力变成业务的价值。这四个步骤是个极简的人类最佳实践,但我们经常做着就忘掉了,看到什么东西就直接去启动研发,而没有去搞研究。

我们自己也很受益,无论我们是在端到端和VLM(视觉语言模型)上,还是今天做VLA(视觉语言行动模型),我们的研究团队其实表现得非常好。包括你可以看国外的像李飞飞,其实她在引用辅助驾驶的时候,也经常会引用我们关于辅助驾驶方面的研究论文。这个其实挺重要,研究跑通了以后研发效率会变得非常的高。

张小珺:DeepSeek全球爆火的时候,你这个春节是怎么过的?

李想:春节过得挺好的,还带着孩子去看《哪吒2》。我印象应该是1月下旬DeepSeek R1上线,然后到后边开源,我们对DeepSeek做了很多研究,包括整个训练和推理的效率,包括MoE模型部署上去对内存占用的挑战。

比较有意思的一点是,我没有上来敢跟模型团队直接聊,我先跟谢炎(理想汽车CTO)聊了一下,我说我们本身要做VLA,然后VLA一个很重要的计划是,到今年9月做一个非常好的语言模型出来,才能再往下去训练VLA。那我们到9月份做的模型,能力是否比DeepSeek V3加R1更强?而且它开源开得如此彻底,我们是否应该站在巨人的肩膀上去做?然后谢炎说肯定应该这么做。

那时候我们比较担心陈伟(理想汽车基座模型负责人)会怎么想,因为这个压力挺大的。然后陈伟比我们还坚决,他说这个会加速我们往下一步的工作,应该以这个为基础加速VLA,加速端到端的多模态进展,研究团队也都在研究我们如何在芯片上也跑到同样的训练和推理的效率,大家都在同步地进行工作。

我发现大家并不纠结,因为理想这个企业的基因,还是要为用户推出最好的产品和服务。拥抱DeepSeek的这个过程比我们想象的要快,所以这是今天其实我们VLA推出的速度也会比原来的预期的要快。

张小珺:你怎么看DeepSeek创始人梁文锋?他怎么找到人类最佳实践?

李想:我只跟他聊过一次,是去年9月份,印象特别深,应该是ChatGPT的o1发布前的几天。我感觉他有两个特点,第一他是个特别自律的人,第二他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。

张小珺:你怎么理解自律?

李想:最大特点就是能够坚守这些你相信的东西,能够坚守这些最佳实践,能跟人性的一些懒惰、走捷径做对抗。这让我们更加敬佩他,包括我们的开源。

我觉得DeepSeek的出现对我们加速做VLA是巨大的帮助。过去我们打算要到今年年底才能做出一个像样的、能够满足需求的语言模型,但DeepSeek一开源我们就加速了9个月的时间,给我们带来了巨大的收益和帮助。

我们受到了那么大的帮助,所以在想能对社会做点什么贡献,所以就把自研的整车操作系统理想星环OS给开源了。没有大家想的那么复杂,我自己内心、包括谢炎,就是DeepSeek给我们带来那么大的帮助,我们应该给对社会贡献点什么,不让行业那么卷。说白了纯粹是感谢DeepSeek。

张小珺:这很有意思。DeepSeek感觉带来了更多的善良和善意。

李想:是的。

张小珺:理想星环OS自研了四年吗?

李想:对,那真的是做得好,明显的好。如果你做得不好的东西出去开源不就丢人吗?

张小珺:你有没有想过DeepSeek为什么不是你做的?

李想:我只能做最好的自己。我的人生经历,从个人网站、到IT网站、汽车网站,最后希望能够改变汽车行业,推出更好的产品,其实一直在自己的长板的延长线上继续。他(梁文锋)的延长线其实就是从人工智能开始的,他在浙大学的就是人工智能,那是他的延长线。本身我也相信,量化交易的公司,对于整个模型的能力和理解,对于本身工程的能力,不会比任何互联网公司差,甚至可能还要更强。

理想要去追逐辅助驾驶的安卓时刻?

张小珺:既然都有DeepSeek,理想为什么还要做基座模型?

李想:因为我们的业务并不是说只是做好语言模型就够了,我们车上要有对话、有多模态,这个仍然其实需要我们自己去训练一个适用我们需求的基座模型,包括我要去做VLA。因为VLA里边哪怕V(vision视觉)和L(language语言)都和正常的是不一样的:我需要3D的vision,还有高清2D的vision,然后token(词元)要用预训练,必须得涉及到更专业的车领域的语义语料,交通领域的语义语料,家庭用户的语义语料,然后来做训练。

大家在做VLA训练的时候,很多时候在做基座时说我要把VL(视觉和语言)也要连在一起,然后把VL(视觉和语言)的组合语料放进去,那这些无论是OpenAI还是DeepSeek,它都没有这样的数据,也没有这样的场景和需求,也不去解决这样的问题,那只能我自己来做了。只是好处是说VLA里边的这个language,我可以站在巨人的肩膀上,但是它只是我其中的一部分。

张小珺:所以一方面拥抱DeepSeek,另一方面加大投入了基座模型的团队是吗?

李想:是的,加大了投入。

张小珺:加多大?

李想:训练卡比他们今年预期的,我们应该多买了3倍。

张小珺:你现在给基座模型打多少分?希望2025年提升到多少?

李想:结果还没呈现呢。这才几月啊?没有什么捷径,虽然我们借用了一些能力,但你没有办法直接去吃第10个包子。如果你规则算法都做不好,你根本不知道怎么去做端到端,如果你端到端没有做到一个非常极致的水平,你连VLA怎么去训练都不知道。

张小珺:你说DeepSeek更像是Linux推出,而理想要去追逐安卓时刻?

李想:是一个比喻,比如说安卓其实是基于Linux开发出来的一个手机操作系统。那我们以语言作为基础,我们的VLA就是把vision这部分做成最强的,然后把action(行动)也做好,然后借助了L(language),就是语言的能力。

VLA就比较像在汽车或交通领域,更重要的一个大模型或者操作系统,这是我们的机会所在。

张小珺:今天的辅助驾驶其实走到了一个新的十字路口上,有人说甚至觉得辅助驾驶应该被叫停。你怎么想?

李想:我们这么多年从规则算法做到了端到端+VLM,然后今天真正的迈入到了VLA的阶段,我觉得比较像什么?比较像黎明前的黑暗吧。我认为黎明马上就要来了,但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。这是今天这么一个阶段。

正因为辅助驾驶行业遇到了问题,我最喜欢、最开心的方式,就是去解决行业解决不了的问题,这是我们自己坚决相信的。就跟我们推出增程,就是为了解决电池成本高、充电难的问题。我们推出5C,也是为了解决充电慢、等待时间长的问题。我们愿意去解决各种行业遇到的问题,包括做操作系统,也是因为过去传统的车控、智控操作系统性能差、开发缓慢、芯片匹配周期长等问题。这些问题(存在)恰恰是我们的价值所在。

张小珺:为什么人类一定需要辅助驾驶?为什么科技不能就此止步呢?

李想:只要人类会雇佣司机,人工智能技术是把类似这样的一些功能和角色,去变成真正的生产力、生产工具,然后进行替代。

从用户语言来讲,到底什么是VLA?

张小珺:什么是VLA?不要用技术语言。

李想:VLA(视觉语言行动模型)机器人领域也在讲,对于理想汽车而言, VLA是一个司机大模型,像人类的司机一样去工作的一个模型。到达VLA(司机大模型)它不是一个突变的过程,其实它是一个进化的过程,经历了三个阶段。

第一个阶段:我们从2021年开始,通过机器学习的感知,配合后边的规则算法,包括规划、控制、执行这些规则算法分段式的。

第一个阶段比较像什么?像昆虫动物的智能。它有既定的规则,还要依赖于高精地图,就比较像蚂蚁的行动和完成任务的一个方式。它能理解的世界非常之有限,效率比较低,也是个很麻烦的事情。它(规则算法)就这样一个规模的脑子,包括它的整个模型规模大概就只有几百万的一个参数,它就那么小的一个脑子,你让它去完成复杂的事情,几乎不可能的。所以你就不停地限定、限定,几乎把它做成了一个有轨交通的方式。这跟蚂蚁非常相似。

第二个阶段:我们从2023年开始搞研究,2024年推出的端到端。端到端比较像什么呢?端到端比较像哺乳动物的智能,比如马戏团里的一些动物像人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合视觉语言模型VLM。但是我们能够用到的视觉语言模型这些开源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。

到了VLA司机大模型,就是完全人类的运作方式了。

它会像人类一样的用3D的vision和2D的组合,去看整个真实的物理世界,也包含它能够去看懂导航软件是怎么在运行的,而不是像VLM那样只能看到一张图片。另外一方面,它有自己的整个脑系统,不但要看到物理世界,还能够理解这个物理世界。它有它的language,然后它也有它的CoT(思维链),有推理的能力。

第三个阶段,它能够像人类一样,真正地去执行这样的行动。这个是VLA(视觉语言行动模型)在汽车辅助驾驶领域,我们把它称之为VLA的司机大模型。

张小珺:VLA司机大模型三个部分的关系是什么,以及怎么训练的?

李想:第一个其实是训练的环节。训练环节第一个部分是什么呢?要训出来一个VL(视觉和语言)的基座,就vision和language的基座。我们目前在训的,当前的这个版本,是一个32B的,就是320亿云端的一个基座模型,所以先训这个。这里边的话,跟过去的时候这些语言模型的差异在于什么呢?第一在于我要放入更多vision的语料,放入vision的token。vision里面包含两个部分,一部分是3D上的vision,物理世界3D的vision要放进去,第二个是高清的、2D的vision。因为今天的话,大家看到各种多模态的开源VLM里边,它整2D vision的清晰度太低,所以看的距离不够。那我们放进去的基本上图像分辨率提升了10倍。我觉得这是非常之重要的。这是一个部分,是vision的token和语料。

第二个是要放入language,跟交通、驾驶相关的足够多的这方面的语料。这是language的部分。

第三个还有一个很重要的,是大家可能容易忽略的,就我们必须放入很多VL(视觉和语言)联合的语料,就是三维图像和对世界的理解语义要同时产生的。比如我举一个例子,我要把导航的地图和车辆对导航地图的理解一起放进去。

张小珺:这是原始的数据吗?

李想:没有原始的数据。

张小珺:这是你们自己的?

李想:比如我要放入一个,看到导航以后人类做了一个什么判断,然后这个判断我们的车辆是怎么记录的。把这个语料放进去。其实整个VL(视觉和语言)基座模型训练的时候,包含了三个部分,数据是vision的数据,language的数据和VL联合的数据。然后它形成一个VL的一个基座。同时我要把这个基座干什么呢?我要蒸馏下来,然后变成一个3.2B端侧的蒸馏模型。因为我要保证它运行速度足够得快,然后无论是两个Orin-X还是Thor-U上能够流畅地运行。蒸馏下来是一个3.2B,8个专家组成的MoE(混合专家模型)模型。如果直接跑3.2B一个完整模型的话,双Orin-X和Thor-U的帧率是达不到的,token的整个输出率是达不到的,这是第一个步骤,这是预训练的环节。

第二个步骤是什么?第二个步骤是做后训练。后训练是什么呢?后训练其实是我把它变成VLA司机大模型。我要把action放进来。action的部分后训练什么呢?其实仍然是一种模仿学习。特别像你去驾校学开车,就相当于我训练VLA,把它组合成一个VLA的端到端的一个方式,这是第二个部分。这个时候模型规模就会从3.2B扩大到接近4B这么一个规模。

同时,它一方面是个VLA,能够直接从视觉、到理解、到最后的输出。但是我们的CoT(思维链)就会很短,我不会做超长的CoT,我的CoT链条一般两步到三步,我不会再做更多的,否则延时太长,没有办法满足交通或者机器人的安全。另外当我action做完以后,我还会做一个diffusion(扩散模型)的预测,就是下边会发生什么样的时长的一个场景。这个主要根据性能会做出来4到8秒的一个diffusion的轨迹和环境的预测。这是第二个部分,比较像人去驾校学开车这样的一个环节。

第三个部分是什么?是强化,是要做强化的训练,比较像人到社会上开车了。所以强化我们分成两个部分:

1. 先做RLHF(人类反馈强化学习),带有人类反馈的,所以我们有很多人类数据。就是当它这样的话,人类就会接管,当它那样的话,人类不会接管。包括人类的一些习惯,所以拿这块来做一个带有人类反馈的强化训练。包括我们安全的对齐都是在这个强化的环节完成的,你除了要遵守交通规则以外,你要遵守比如中国的,大家的驾驶习惯。你的开车习惯能够融入社会,首先要开得跟整个社会环境上的大家一样好,不能给别人带来麻烦。

2. 纯粹的RL(强化学习),是(拿RL模型放到)我们的世界模型来做训练。这块儿的目的什么呢?就是开得比人类更好。这块儿的话,我们中间不会给人类的反馈,只会给一个结果,就是从a点到b点要开过去。但是会有三类的训练要求,首先我们可以通过G值(加速度数值)来判断它的舒适性。其次是做碰撞的反馈,它碰撞了这个强化就没有完成。最后是交通规则的反馈,如果它违反交通规则就没有完成。所以是舒适、交通规则和碰撞事故,让它自己来做整个强化的训练。当这三个步骤完成了以后,VLA能够跑在车端的模型其实就产生了。

张小珺:这其中这些步骤里面哪个是最难的呀?

李想:没法预测,因为这些东西我们前面没有任何人走过这条路。DeepSeek也没走过这条路,然后OpenAI也没有走过这条路,谷歌Waymo也没有走过这条路。我们其实走的是一个无人区。

张小珺:那你们为什么就押注了这条路呢?为什么你们觉得你们可以?

李想:我觉得交通领域应该是VLA(视觉语言行动模型)最早实现的。

张小珺:因为规则清晰?

李想:一是规则清楚,包括你说做强化是非常容易的。按照每个来讲,交通的世界,一个车会跑到哪里?其实是有的,虽然它很复杂,但是确定的对吧?车又不能开到水里,车也不能开到空中,车只能开到有路的地方,所以它是复杂但具备确定性。

第二其实车的控制,其实车是个3 DoF(自由度),车有三个自由度,左右是一个自由度,前后是个自由度,某种程度上还有一点轻微的旋转。甚至辅助驾驶某种程度就控制两个多,撑死就三个自由度。如果这个都不能实现,机器人的上来就是40多个自由度,那个挑战就更大了。所以这时候,我们进行模仿学习是特别容易的。

第三它还能做特别好的强化。大家在使用的过程中不满意的时候就干预了,其实这个就是跟人类没有对齐,它就告诉你不应该这么做,以及告诉你该怎么做,这是非常清晰的指标。

张小珺:司机Agent涉及到action进入了物理世界,怎么解决安全问题?

李想:我们其实从去年年底成立了超级对齐的团队,比如说模型能力很强,但不遵守交通规则、经常去加塞等等,做出来一些让人类坐在车上感觉到不安全的行为。是否发生碰撞,是模型能力的问题;但是否产生这些问题,其实这个价值观是模型要去做的对齐。

这也是刚才我讲的,就是说我们要做强化训练的第一个环节,我们必须把人类的这些规则、习俗、驾驶习惯,对于很多东西的判断,变成整个的要训练的反馈。这个其实是我们必须要做的,所以我们有一个挺大规模的,100多人的超级对齐团队。

因为你能力越强、责任越大,这是责任。如果拿一个人举例子的话,模型相当于是这个人的专业能力,然后超级对齐,是这个人的职业性。

张小珺:超级对齐,是什么时候开始做的?

李想:是我们做到了1000万Clips(视频片段)以后开始的,因为我发现这时候怎么去有效地运用模型的能力就很关键了,举个例子,它经常一拥堵就加塞,然后它的很多行为,虽然效率很高,但是人坐在车上不舒服,因为跟人类的一些处理方式不一样,它可能学到了一些不该学的行为。

张小珺:你们这个其实就是在造司机?

李想:对,是的。我一个很重要的感觉就是,我们只有让它变成一个真正的司机,它才是一个生产力工具,不只是一个辅助工具。今天L2、L2+其实是个辅助工具,辅助工具还需要人大量的参与。

如果想变成一个生产工具,我个人认为并不会出现通用的Agent,而是每个专业领域做专业的Agent。就像刚才讲的,要想开好车,它所有的vision的语料,language的语料,和action其实都是不一样的。

张小珺:什么是一个好的司机大模型的北极星指标(终极指标)?

李想:把司机大模型和Agent放在一起,这才是一个真正用户能够使用的产品。跟人的判断是一样,就我判断一个司机,第一是他开车水平好不好,其实是他模型能力强不强?第二他是否职业,很重要的一点就是我们的超级对齐工作,包括强化训练,是否做得足够的好?第三是否安全,他跟我之间的信任关系,我说上半句他就知道下半句,甚至我很多东西不说,他已经对我的记忆里边都可以独自去完成了。

我觉得以后所有的AI的,或者Agent的判断都应该是这样的,专业能力、职业能力、构建信任的能力。

张小珺:你觉得这个Agent应该怎么定价呢?

李想:我们雇用人类费用的几分之一,至于几分之一最后还是看把成本都算出来以后。

张小珺:端到端才出来一年,你们就要换架构了?是不是太快了?去年端到端就被放弃了吗?

李想:没有放弃,端到端是VLA(视觉语言行动模型)的基础。如果你把端到端想象成一个一个具身智能执行的环节,那它其实就是VLA的A(action行动)的部分。只是我要多语言的部分,还要多更强的3D vision和高清2D vision的部分。

“没有葵花宝典,我也不是吃第10个包子的人。”

张小珺:有可能一步直达VLA吗?比如去年不推端到端+VLM直接推VLA?

李想:没有可能,至少从我们自己的体验上其实没有可能。没有办法直接吃第10个包子,虽然可能大家觉得第10个包子吃饱了,但前面每个包子其实都跳不过去。如果大家不想做前面任何包子的积累,只想吃第10个包子,很多时候非常像练葵花宝典。

今天包括DeepSeek的出现并不是练葵花宝典练出来的,过去的时候它很早就构建这种集群的能力去做这些链路、基建的优化,都是非常之重要的,所以才有了它的低成本和高效率。今天这个社会整个的知识文明发展得越来越好了,不是胆大大于一切,我看不到什么捷径。包括今天很多企业做端到端都很吃力,因为在规则算法时候都没做好。

张小珺:大家觉得李想才是吃第10个包子的人,因为做辅助驾驶的时间比别人晚。

李想:但我们自研的时间并不短啊。从2021年上地平线征程Journey3芯片的时候就开始做自研,然后我们研究做得也很扎实。

我们是个用户导向的公司,认为技术是一种能力,所以更多讲的是用户价值,今天大家讲我们是冰箱、彩电、大沙发对吧?但是智能化背后的基础,今天大家看仍然是非常强的,体验起来是完全不一样。

张小珺:背后的基础是什么?

李想:就是大型软件的能力。举一个例子,为什么今天大家做端到端和VLM很难?是因为这个Orin芯片并不支持直接跑语言模型。包括今天为什么能做到双Orin-X跟Thor-U都能跑VLA司机大模型,可能对很多团队是个非常大的挑战,为什么呢?

因为我们自己有非常强的能力,我们有编译团队,有芯片的能力,有板子设计能力,有操作系统能力。所以我们是能够把两个 Orin-X带宽做到足够的大,它同样可以跑同等规模的VLA的模型。我们这方面的技术都是非常之扎实的,因为我自己还是认为,规模小的时候可能无所谓,规模大的时候基本功和能力永远是无法逾越的。

张小珺:VLA是终极的架构吗,解决自动驾驶的?还会有下一代吗?

李想:我自己认为VLA(司机大模型)能够解决到全自动驾驶,但是VLA是否是一个效率最高的方式?是否有效率更高的架构出现?我打个问号,我认为大概率还是会有的。因为VLA还是基于Transformer这样子的,那Transformer是不是一个效率最高的一个架构?这个其实后边不知道。

张小珺:在你看来它是现阶段效率最高的架构?

李想:我觉得它是能力最强的架构。今天辅助驾驶的这些规则算法、端到端跟人类差距还是太大了。VLA它是最接近人类的,甚至有机会在开车这件事情上超越人类的一种方式。那它是不是效率最高的方式?其实是打个问号。

张小珺:特斯拉FSD真实地进入了中国,对你有没有什么影响?

李想:从实测过来的话,他们大概在用12.5之前的模型,距离特斯拉真实能力还有巨大的差距。特斯拉13.0以后的能力还是非常强的。而且12.5之前应该是这个半规则算法的能力,所以我说不是特斯拉真实能力的体现,但是我们能看到特斯拉基本功是非常扎实的。

张小珺:你们现在还学特斯拉吗?

李想:美国很多顶级的公司,像苹果、特斯拉,他们基本功特别扎实,这个是我们真正要去学的。尤其是在今天这种内卷环境下,包括外部的不确定的环境下,这时候更是每个企业扎扎实实练基本功的最好的时候。而且到了人工智能时代,基本功就更是不可能、不可跳跃的。

张小珺:为什么学苹果?它也不是一家AI公司啊。

李想:最重要的是学能力。我们在规模小的时候没有看懂苹果,当你做到千亿收入,你再去看这种万亿收入公司的能力的时候,你开始模模糊糊能看懂一些了。因为规模是一个可以确定衡量的变化,也会带来用户规模和用户需求的变化,技术和产品的变化,也会带来组织和能力的变化。

张小珺:你试驾VLA有经历什么aha moment(惊喜时刻)吗?

李想:我觉得挺难有什么aha moment(惊喜时刻),因为你已经理解它的原理了,其实就是它就变得跟人很像了。

张小珺:就更像人了。

李想:就真的像人了。它变成更像人其实没什么惊奇的,对吧?相反,一个动物忽然会的一些东西,你觉得挺惊讶;但一个人做好东西,你认为其实是正常的。

张小珺:你之前对内说理想的辅助驾驶原创性超过了增程,是不是太自信了?

李想:我自己觉着我们在这方面的研究工作真的做得很深。我们为了做好辅助驾驶,做了大量学术研究、做了操作系统、构建完整的训练体系,甚至我们自己去直接去改芯片的底层软件。这方面做得功课、工作量,比增程做得更多。然后还有一个评价角度,就是我们历史上从来没有遇到过,2024年和2025年初,每一个辅助驾驶团队的核心人员可能基本上都会接到20个以上的猎头电话。

“创业确实不容易,但是没必要苦哈哈的。”

张小珺:7月理想将迎来十周年,回顾十年你最深刻的场景画面是什么?

李想:第一个最重要的画面,是2018年理想ONE第一次发布,一直延续到2019年的4月份,上海车展第一次正式的展示,带有价格的。那是一个非常重要的时刻,我们真的能做出来一辆车,而且这个车特别受用户喜欢。在上海车展的展馆里面,我们是人流量最大的一个展台。因为我们是从什么都没有开始来做的。

另一个是2022年发布理想L9,我觉得那真的是一个全世界最卓越的产品。到了今天2025年,能看到至少有5个以上的企业是因为当时理想L9的成功,在打造跟理想L9相同的产品。

张小珺:你脑海里浮现的都是幸福的时候,你会回忆到痛苦的时候吗?

李想:太多了,刚经历了理想L9的幸福就出现了。全网的黑公关都说理想汽车倒闭,那一个季度我们亏了将近二十亿,从没亏过那么多。忽然从巅峰掉到谷底,好处还是我说的,我们认识到很多能力不足,我们就去补了很多能力。但正是因为这件事情,我们的调整又带来了2023年获得接近三倍的增长,我们直接做到了1200亿的收入。

反正我创业那么多年了,当问题来的很多时候,又是一个更大的机会的到来。所以我对这方面其实也没那么纠结。我对于不正常的事情耐受力很差,但我对于一些不好的东西解决完以后,整个记忆能力也很差,会把它忘掉,但你让我回顾还是能回顾过来的。

张小珺:刻意删掉的记忆片段会是什么呢?

李想:为了让自己有更好的正能量,我还是尽可能地只保留那些有价值、美好的片段。哪怕是一个不好的东西,比如刚才讲的我们被黑、被打击,我会转变成“看,正是因为这件事情我们增长了三倍,我们获取了其他新势力没有的能力,我们面临其他新势力没有的挑战”这样的方式来表达,这是一种心态。

创业确实不容易,但是没必要苦哈哈的。苦和甜是一个硬币的正反面,取决于你选择看哪一面。

张小珺:余凯博士(地平线创始人兼CEO)回忆跟你第一次见面一起去爬山,你穿了个军大衣。我很好奇余凯博士见到的那个军大衣里包裹的是一个怎样的灵魂?它跟今天发生了什么样的变化?

李想:没什么变化。

我甚至认为我今天90%的状态、思维方式跟我上高中的时候差不多。遇到问题去解决问题、解决别人不愿意解决的问题、解决消费者遇到的最大的问题、去找更多的人学习。那时候我是个人网站站长,但是我又有合伙人,是少数的有小团队的站长。靠自己能力不行的时候还要靠别人,然后继续完善能力。到今天为止我没变化,只是解决的问题在变大、服务的用户群体在变大、公司的规模在变大、组织在变大。

张小珺:过去十年中所有的记忆里如果能改变一个记忆,改变一个程序,你想改变什么?

李想:我觉得没什么要改变的。能赶上这么一个时代,几次创业还能一路走下来,在最难的时候都有人来帮你,当遇到问题的时候,总是能从坑里快速爬出来,一帮人齐心竭力变得更好,挺幸运的了。无论是从运气层面,还是从能够创造出来的价值层面,没什么可后悔的,挺好的。

张小珺:你刚才说一个词是能量,怎么让自己成为一个更有能量的人,更强大的人,或者是能吸引到更多能量的人?

李想:关注人,尤其是关注那些离你最近的人,关注亲密关系的人。

关注人的时候首先你得先关注自己,作为我自己,我会怎么来看待自己?第一,我会接受自己所有的优点。我很多身上的特质,这么多年的积累,从DNA里带来的,其实它就是我的优势,我应该怎么去发扬自己的优势。第二个是要能接受自己的不足。往往不足就是优势的另外一面。比如这个人很擅长决策,他可能就没有办法其实去做很细致的运营,因为这两件事是冲突的。每个人是不一样的,往往我们如果要改的话,会变成一个更差的别人,以及一个更糟糕的自己。所以我说要接受自己的不足。第三个是用成长替代改变。更重要的是我有没有成长,我们在做汽车之家的时候,我说做好业务就行了,资本根本不重要,最后我们其实折在了资本上。

在做理想汽车的时候就非常注重资本,请最好的FA(财务顾问),请最好的律所,股权架构的设计、投票权,今天大家可以看到所有的新势力企业里面,理想汽车的股权架构、治理结构、资本现金管理都是做得最好的。我并没有改变我的业务,其实是增强了一个能力,所以它是个成长。我们会面临方方面面的能力成长,就能给自己带来能量。你的成长有自己的能量,然后你又不跟自己纠结,当有这个能力的时候,我们再看待别人其实也是一样。

我会先看别人的优点,这非常重要。这个优点怎么让他发挥出来?第二个看到别人不足的时候其实根本不是问题。我从创业开始就有合伙人。樊铮就是我的互补,是我所不具备的,秦致是我所不具备的,李铁、马东辉、谢炎、邹良军就是我所不具备的。当看到大家这些不足的时候,反而其实是我的价值,我有价值能帮助到他,他有价值能帮助到我。第三去看别人的成长,你能看到孩子的成长,你能看到爱人的成长,你能看到身边每个同事的成长,其实这就有能量了。

张小珺:成长带来能量。

李想:对,因为变好就有能量嘛。而且你关注的是人的成长,不是那些事儿。所以,第一你能自己产生能量,第二你能够带给别人能量,第三你能从别人那获取能量,因为别人给你能量,别人也不会丢掉能量,它是个辐射作用。所以这是我一些随着自己的成长,开始有效的一些理解。

然后另外一方面其实很重要的是亲密关系,我觉得亲密关系里边特别重要的一点,是要关注人,我需要我的爱人,我需要我的孩子,我需要李铁、马东辉,我需要刘杰、解卫国、范皓宇,甚至超过了他们需要我。首先是我需要他们,才是他们需要我,这时候这些人之间的连接就不一样了,我们在一起就能形成一个非常强的脑力、非常强的心力,形成特别好的能量,这个是特别重要的,而不是说我对他们没有需求。

“今天我们很卷,这恰恰是人工智能真正的意义。”

张小珺:你最近看见的一个人是谁?

李想:在我的家里非常有意思的一点,过去我和我老婆之间的相互支撑还是有限的,从去年底春节过后一个最大的变化是,我们家大女儿她形成了我们的第三个支撑。她14岁了,她对事情的理解在发生巨大的变化。她自己的三观开始有效、特别完善地形成,而且超出了我们的预期。

她有能力跟我们做特别好的沟通了,关于她自己的人生规划、喜好、对人和事物的理解,这个特别有意思,我们家里实现了一个三人的支撑,这让家里的能量大幅地提升。我每次跟我老婆聊,在聊到大女儿的时候都是非常的高兴,就没想到她14岁就能和我们两个人形成一个三人的支撑了。

张小珺:形成了最小的人数。

李想:对,我们能跟她一起去讨论很多问题了。我们可以讨论事情,可以讨论人,可以讨论不同的见解,也可以讨论她的规划,可以讨论怎么出去玩,可以讨论家里要解决一些什么问题,都可以的,我觉得这个特别好。

张小珺:除了家庭观,你有没有更大的宇宙观、世界观?

李想:我们从人出生开始,上学到大学毕业到开始工作,有多少自己想去做的事情没有去做?我们有多少想接触的万物没有去接触?我每天都在忙着去工作,去做事儿。但什么是智慧呢?智慧就是我们跟万物的接触。

如果你没有去过森林,没有在森林里,认真地玩儿、住过几天,那你可能觉得木头就是做筷子的,就是做纸的,就是做桌子的,而并不是意味着它是一个生命,它是跟我们不同的生命,对吧?你没有跟孩子在一起长时间的生活体验,没有跟他们一起去玩,你可能就不知道什么是亲密的关系,你就没法真正地去理解孩子。那什么是智慧?我觉得智慧就是我们和万物的关系。

但是怎么去提升我跟万物的关系?首先要有足够的时间跟万物去接触。所以我在讲的一个很重要的问题,就是今天我们很卷,但这是恰恰是真正的人工智能的意义。

张小珺:在AI面前,什么是值得被保留的人性?

李想:我觉得所有的人性都应该得以保留,无论是好的和坏的。

张小珺:为什么要把坏的保留下来?

李想:没有坏的,其实就没有好的。如果只想要好的东西,放弃所有不好的东西,这件事情并不成立。你可以把好的东西和不好的东西都当成一种特质,我觉得这样才是一个有生命力的世界,才是活生生的人。

本文来自微信公众号“三言Pro”,36氪经授权发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注