自动驾驶技术的黎明马上就要到来,现在是“黎明前的黑暗”。5月7日晚间,理想汽车董事长兼CEO李想在一个访谈节目中提出上述判断。
理想汽车正在开发VLA(视觉、语言、行动)大模型,李想认为,该模型和一个智能体助手结合,有潜力实现自动驾驶,有望替代人类司机。理想汽车也将这一大模型称之为“司机大模型”。
5月8日,理想汽车披露,“司机大模型”将在下半年上车。李想称,年初DeepSeek开源之后,帮助理想汽车至少节省了九个月的时间。理想汽车计划在DeepSeek语言模型基础上结合视觉和行动等模型及数据能力,完成“司机大模型”开发。
李想称,VLA大模型更容易在汽车领域落地。他解释称,汽车只有前后、左右和轻微的旋转等三个自由度的运动,相比有几十个自由度的机器人,要简单得多。汽车在路上行驶也有完善清晰的规则,研发人员更容易对大模型进行针对性训练。
据李想介绍,VLA的实现经历了三个阶段:第一阶段,理想自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”;第二阶段,理想自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”;第三阶段,VLA将开启“人类智能”的阶段,通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。
从端到端+VLM(视觉语言模型),迈入VLA(视觉语言行动模型)的阶段,AI技术成为关键。被李想喻为“巨人肩膀”的DeepSeek,得益于其开源,理想汽车在VLA司机大模型的语言能力研发上提速显著,节省了近9个月的时间和数亿元成本。
李想认为,当前汽车行业中的L2级别、或者宣传口径上的L2+级别自动驾驶,本质上依旧是辅助驾驶,仅能发挥辅助的作用。在这过程中,车辆行驶仍需要大量人工介入。但AI技术的发展能够大大缩短自动驾驶技术从L2级别到L4级及以上级别的跨越。