2024北京智源大会聚焦大模型 毫末智行贺翔:DriveGPT重塑汽车智能化技术路线
通用人工智能、Scaling Law、多模态大模型、端到端自动驾驶……这些AI热词在2024北京智源大会频频出现,成为现场与会者热议的焦点。
6月14日至15日,2024北京智源大会在北京举行。作为已经举办了五届的人工智能学术盛会,智源大会再次迎来多位顶级行业大咖。OpenAI 的Sora负责人Aditya Ramesh(阿迪提亚·拉梅什),零一万物CEO、创新工场董事长李开复与中国工程院院士张亚勤等国内外AI最前沿领军人物齐聚一堂,围绕大模型的发展现状与未来趋势展开了深入探讨,并针对AI安全问题行了多场热烈的讨论,为我们带来了前沿的见解和深刻思考。
毫末智行,作为国内领先的自动驾驶AI技术公司,也受邀出席了本届智源大会。在智能驾驶分论坛上,毫末智行数据智能科学家贺翔带来题为《自动驾驶3.0时代,大模型重塑汽车智能化路线》的演讲,深入分享了毫末在自动驾驶多模态大模型数据驱动及认知智能方面所积累的丰富经验,为与会者带来了宝贵的技术洞察。
贺翔表示,毫末根据过去数十年自动驾驶的发展历程,把自动驾驶技术演进路线分成了三个阶段,即以硬件驱动的1.0时代、以软件驱动的2.0时代以及以数据为驱动的自动驾驶3.0时代。贺翔指出,自动驾驶3.0时代的核心特点就是大数据、大算力、大模型。面对这样的技术趋势,毫末于2023年推出了业内首个自动驾驶生成式大模型DriveGPT雪湖·海若。
DriveGPT可以将感知结果和司机的驾驶动作结合做生成式的学习。DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列,即将自动驾驶场景Token化,形成“Drive Language”,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。
近期,随着特斯拉的FSD系统有望进入中国市场,以及英国自动驾驶公司Wayve成功获得大规模融资,使得自动驾驶及端到端技术再度成为行业焦点。与此同时,国内大模型技术也如雨后春笋般不断涌现,标志着智能驾驶正逐渐在汽车智能化的下半场崭露头角。在此背景下,毫末积极抢占先机,全面布局以大模型、大算力和大数据为核心的自动驾驶3.0时代,致力于通过先进的大模型技术,重新定义并推动汽车智能化的发展路径。
毫末希望DriveGPT可以通过认知决策训练出一个像人类一样具备世界知识的老司机。贺翔介绍,DriveGPT首先基于NeRF自监督的方式建立通用感知能力,将传感器数据压缩到4D向量空间,然后将4D空间Token化后,再基于GPT技术生成未来的BEV,最终实现自动驾驶的端到端训练。同时,毫末通过引入外部的大语言模型,通过与大语言模型交互获取世界知识,如同一位陪驾的老司机,不仅降低了训练成本,还加速了模型收敛。
贺翔同时指出,端到端大模型参数量非常大,还难以直接上车,但是随着技术的进步,应该很快就能实现量产上车。目前,毫末主要利用大模型优化云端工具链,以大模型为内核建立了数据智能体系MANA。大模型支持数据采集、场景理解、场景搜索、自动标注、数据生成等全过程,极大地简化了数据管理工作,大幅提高了自动驾驶开发效率。除了支持内部研发,MANA数据智能体系也支持对外商业化。
整体上,DriveGPT具备识别万物、理解三维空间、具备时序跟踪的全面建模能力,实现像人类一样的通用感知能力;DriveGPT借助大语言模型,将世界知识引入到驾驶策略,从而做出更好的驾驶决策优化,更像人类老司机。
经过四年多的发展,毫末乘用车智能驾驶产品 HPilot 搭载车辆超过20款,用户辅助驾驶行驶里程突破1.6亿公里,是中国量产自动驾驶领军者。技术创新是毫末发展的核心驱动力,自2022年起就开始探索端到端解决方案,走出了一条毫末自己的自动驾驶技术探索之路。毫末率先布局大模型、大算力、大数据为代表的自动驾驶3.0时代,发布行业首个自动驾驶生成式大模型 DriveGPT,力求用大模型重塑汽车智能化技术路线。
当前,人工智能正处在群体性技术变革的起点,正迈向多智能融合的新阶段,将成为第四次工业革命的标配,引发社会发展深远变革。随着大模型、端到端应用,对数据和供给要求降低,以及数据生成带来的仿真技术的进步,都会加快产品技术的迭代。
贺翔表示,毫末未来还将尝试融合大模型,并进行端到端的训练,力求实现从完美感知到精准决策的跃升。希望通过技术创新让自动驾驶的大模型能够如老司机般洞察万物,深刻理解和解析复杂多变的人类世界,精准把握各类驾驶场景,并做出与人类驾驶者相媲美的决策。最终让自动驾驶能更加智能化、人性化,为人们的出行带来更安全、更舒适的体验。