小鹏自曝每年花7亿买GPU 率先推送端到端智驾模型:买车送司机
小鹏汽车,刚刚把车圈端到端的“口水仗”推向最高潮:
520当天,自研的端到端智驾大模型上车,直接OTA推送给了用户。
全球唯二,中国首个。
不论之前业内如何激辩大模型怎么上车、怎么争论端到端技术范式,也不论发布会上纷纷攀比“遥遥领先”,现在小鹏的回应方式:上车、上路,交给用户来评价。
直接的改变,是小鹏全系智驾体验提升,官方给了明确的数据:
前后顿挫减少50%、违停卡死减少40%、安全接管减少60%
小鹏最新OTA的,是什么大模型?
这次OTA的新智驾技术体系,小鹏在产品、技术传播口径上出现了明显变化:
不再讲“AI定义汽车”,而是首次提出“AI智驾”、“无AI不智驾”。
以前的智驾,难道就不是AI吗?
何小鹏告诉你,真的不全是。
传统自动驾驶系统中,只有感知一个模块用到AI模型,其余的模块基本都是人工定义的规则。
这就造成两个主要问题:一个是独立模块之间的信息是逐级传递的,在这个过程中必然会存在信息的丢失和误差,而且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。
第二个就是人为定义的规则,试图用“穷举法”覆盖自动驾驶的所有场景,或者说出现一类问题,打一个相应补丁。
但问题是,几乎不可能穷举所有种类的交通目标和场景。
何小鹏给了具体的概念:较为稳定的传统量产智驾系统,大约有10万条左右各类人工定义的规则。即使这样,功能仍然无法超越L2,体验也是参差不齐。
而经过测算,一个无限接近人类司机的自动驾驶系统,大概等效于10亿条规则。
这怎么写?人力、时间、维护成本都无法承受。
所以,小鹏大约在2021年左右意识到模块化、规则驱动的自动驾驶技术体系的局限性,开始转向端到端的新技术范式。
简单地说,两个端分别指数据输入端和指令输出端,中间不再分成几个相互独立的模块。通过完全数据驱动的模式,让AI司学习人类成熟驾驶行为,看到一种场景,做出相应对策。自主且高效解决行泊场景中新出现的各类长尾问题,具备更快的迭代效率,有效降低开城成本。
小鹏的端到端大模型,有三个组成部分:神经网络XNet+规控大模型XPlanner+大语言模型XBrain。
何小鹏特别强调,端到端智驾大模型体系下不是只有神经网络,实际上目前也没有任何一个玩家将整个体系完全AI化。
端到端体现在将感知、策略和规控统一在相同的Transformer架构下,模型有足够解释性的前提下,一体化程度逐渐提升。
比如XNet属于三个神经网络的整合,动态、静态和占用网络,让自动驾驶系统如同裸眼3D,对现实世界中的可通行空间进行3D高真实度还原。感知范围面积可达1.8个足球场大小,同时识别50+个目标物。
而同时,小鹏还引入了AI大语言模型XBrain,这相当于给了自动驾驶系统超越“感知”的“认知”能力。能够认识待转区、潮汐车道、特殊车道、路牌文字,秒懂各种令行禁止、快慢缓急的行为指令,进而做出兼顾安全、性能的拟人驾驶决策。
这样一来,系统处理复杂甚至未知场景的泛化处理能力大幅提升,对真实物理世界的宏观逻辑的推理能力亦是如此。
XPlanner同样是神经网络模型,作用类似人类的小脑,通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”。
何小鹏透露,目前端到端大模型能够做到“2天迭代一次”。在未来18个月内,XNGP的能力可以提升30倍(接管率指标) 。
这也是端到端的技术优势之一,只要在稳定大量优质数据来源的情况下,就能以“一日千里”的速度迭代进步。
而在这样的竞争中,小鹏首次明确智驾全栈“AI化”是最低门槛和标准:
“没有AI”或AI含量不足的,都不能称为合格智驾。
小鹏智能化,上了哪些新?
端到端智驾大模型,是小鹏最重要的更新。
不过体验飞升可能还要过一段时间才能体现出来:
2024年第三季度,小鹏汽车的智驾即可实现“全国都能开,每条路都能开”。
2025年实现城区智驾比肩高速智驾体验。
小鹏指的“每条路”,不局限于有地图导航的路,还包括园区、小区内非标准、无地图信息的路。
“城区智驾比肩高速智驾体验”,何小鹏也给出了具体的标准:平均1000公里接管一次。
而在用户看得到“摸得着”的智驾功能,小鹏也给了足够多的新体验。
首先是AI代驾,业内也有叫“通勤NOA”。小鹏的产品特点是“点到点”超长记忆领航智驾。仅需一次学习,系统便可生成定制化的驾驶路线,提供覆盖全程的智能辅助驾驶。
单个用户最多可存储10条记忆路线,每条路线最长100km。
官方透露AI代驾已经可以实现“通勤路线0接管0降级”,而且还能记忆模仿不同车主独特的驾驶习惯。
泊车场景也有进化。免遥控离车泊入,和迎宾出库功能。整体可泊入车位提升3倍,泊车速度提升50%,侧方位、断头位等复杂刁钻车位也可一把到位。
智能座舱层面,车机平均帧率、首帧跟手性、触摸响应速度均提升30%以上,应用启动速度提升50%。
以前的语音助手“小P”,现在有了小鹏“全域大语言模型”加持,变成了“AI小P”,具备更高级别的理解能力和需求推理能力。体验上最大的区别,是用户从“给出指令”式的交互方式,变成“诉说需求”,AI小P准确理解洞悉,给出解决方法。比如,“一句“我有点冷”,即可理解用户是否需要打开空调。
总体来说,整个汽车产业都在拥抱大模型,试图把大模型威力是释放到智能汽车的方方面面。但真正迈出第一步,有技术积累和产品初步形态,并且敢开放给用户的,小鹏是第一个。
这一点被何小鹏反复强调,他认为这次OTA背后体现的能力和储备,是小鹏下一个10年的关键。
何小鹏:端到端,越往后越难成
何小鹏这话,是把时间尺度放到今后10年的竞争中说的。
他的依据是今后的10年高阶智驾会逐渐成为ABS、ESP这样的车辆标配“硬实力”,没有或者体验不好,就卖不出去。
而保证这一核心能力的方法,非端到端不可。
技术层面的原因前面已经说过。何小鹏又从技术本质出发,给出了最新的判断:
端到端头部效应越来越明显,越往后越难做成。
这样的看法和业界普遍大相径庭。
端到端兴起后,业内再次躁动起来,很多人认为既然以往模块化、规则驱动的技术体系要推倒重构,那就意味着所有人回到了同一起跑线——相当于F1比赛中“安全车”出场,优势清零重置。
何小鹏也不否认这一点,他说现在还没有谁拿稳了智驾“船票”,大家都有机会。
但从技术本质、业务模式和持续投入三个角度来看,后发的“追赶者”,和小鹏的差距会越来越大。
首先是技术本质,何小鹏认为“端到端自动驾驶技术范式,从0-1很难,很慢。但从1-100会非常快。”
具体体现在端到端模型本身对数据的需求量激增、可解释性不好搞…以及技术体系切换的沉没成本。
其次是业务层面,何小鹏再次提起了行业已经很久没人提过的“升维降维”路线之争,他认为:
小鹏的自动驾驶之路,一开始就是软硬结合、由低向高走,这非常重要。因为自动驾驶量产落地,竞争的不是代码能力,而是工程能力、泛化能力。需要投入巨大的车队、算力和安全措施成本。
小鹏、特斯拉的相同之处,是从造车开始上手,逐渐积累了自动驾驶量产的车规流程、测试标定,以及十万、百万计的超大规模“路测车队”——这些都是L4玩家短期难以实现的底层积累和konw how。
同样,也正是因为小鹏需要持续开发、维护、升级量产智驾系统,而非只做展示型的Demo,所以从一开始,小鹏就持续花大成本投入AI基础设施的建设。
何小鹏透露了一个具体数字:每年大概7亿元,今后只增不减。
这样的投入极高,不是传统Tier 1靠卖给车厂软件这种商业模式能承担的。所以端到端也会冲击重构自动驾驶产业链,何小鹏甚至直接判断今后“普通Tier 1可能很难做”。
总结一下,何小鹏的意思其实是:
端到端给了所有玩家新的机会,但并不平等。小鹏押注并实现了领跑,这次赌对了。
这可能也是为何何小鹏是车圈唯一一个销量起起伏伏,但依然成竹在胸的老板。
甚至当被问“怎么应对产品高度重合小米汽车竞争”时,何小鹏直接说:
现在卖得好的,不代表能力强。汽车行业是个长线的竞争,而不是短期个把月的销量。