自动驾驶只是起点理想汽车正在构建一个“数字大脑”

Product Center 产品中心

联系我们 CONTACT US

手机：: 13564805630

电话：: 021-57708796

邮箱：: 838717855@qq.com

地址：: 上海市奉贤区民乐路88号3幢110室

新闻动态NEWS

当前位置：首页 > 新闻动态

自动驾驶只是起点理想汽车正在构建一个“数字大脑”

发布时间：2026-03-19 03:01:40　点击量：

　　如果把过去十年的辅助驾驶发展比作一部进化史，那么2026年很可能是一个关键的分水岭。

　　在此之前，行业对辅助驾驶的理解基本停留在“辅助工具”的层面——帮你保持车道、帮你跟车、帮你泊入车位。技术在进步，但本质没有变：车还是车，人还是得盯着。而当大模型从云端走向车端，当视觉、语言和行动被统一到同一个模型框架中，一个更根本的问题开始浮现：自动驾驶的终点，到底是一个更好用的驾驶辅助功能，还是一个能感知、能思考、能行动的物理世界智能体？

　　3月17日，理想汽车基座模型负责人詹锟在NVIDIA GTC 2026上给出了的思考——发布下一代自动驾驶基础模型MindVLA-o1。这不只是一次技术迭代，更是向具身智能通用模型迈出的关键一步。

　　要理解MindVLA-o1的意义，需要先看看理想汽车在辅助驾驶领域走过的路。

　　龙8国际官方入口 long8

　　自2021年启动辅助驾驶自研以来，理想辅助驾驶技术架构经历了多轮关键迭代，持续的技术探索与工程实践，为理想在辅助驾驶乃至AI完整技术栈、领域积累了深厚的基础研究能力与研发实力。2024年是理想辅助驾驶的重要分水岭，随着端到端+VLM（视觉语言模型）双系统架构量产交付，辅助驾驶首次真正具备了跨场景、跨任务的统一理解能力。2025年，理想进一步将空间理解、语言理解与行动决策统一到同一模型框架，构建了基于VLA、世界模型与强化学习三大技术栈的VLA司机大模型，并于8月随理想i8交付正式推送，9月向AD Max用户全量推送。

　　龙8国际 long8平台

　　截至2025年底，VLA司机大模型月使用率达到80%，VLA指令累计使用1225.4万次；春节期间理想辅助驾驶总里程达2.5亿公里，VLA指令使用次数达130.3万次。规模化的用户验证与持续积累的真实场景数据，为理想汽车推进下一代自动驾驶技术演进提供了坚实基础。

　　换句话说，MindVLA-o1不是从零开始的实验室产物，而是站在大规模量产验证的肩膀上，向更高维度发起的一次跃迁。

　　MindVLA-o1以原生多模态MoE Transformer为核心，通过五大技术创新——3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计，构建了面向物理世界智能的自动驾驶基础模型。用一句话概括：让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

　　在感知层面，理想汽车采用以视觉为核心的3D ViT Encoder（3D视觉模型编码器），并利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构，使其在单一表示中同时具备语义理解与三维感知能力。同时引入前馈式3DGS表示，将场景拆分为静态环境与动态物体分别建模，并通过下一帧预测作为自监督信号，使模型同时学习深度信息、语义结构与物体运动，最终形成融合空间结构与时间上下文的高质量3D表示。具备3D空间理解能力，使模型看得更远。

　　在思考层面，自动驾驶既要理解当前环境，也要预测未来几秒的场景演化。在语言模型承担语义理解、常识知识和交互能力的基础上，理想汽车还引入了预测式隐世界模型，在隐空间中高效模拟未来。训练分三阶段：第一，用海量视频数据预训练Latent World Token（隐世界词元），构建未来表征；第二，在MindVLA-o1中持续世界模型的推演，形成隐空间的未来推理能力；第三，将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。由此，模型不仅能理解当前场景并进行逻辑判断，还能在隐空间中提前“想象”未来画面，将驾驶决策具象化。理想汽车将这种能力定义为多模态思考。拥有多模态思考能力，让模型想得更深。

　　在行为层面，理想汽车构建了统一行为生成机制。MindVLA-o1使用VLA-MoE（混合专家模型）架构，引入专门的Action Expert（动作专家），从3D场景特征、导航目标、驾驶指令等多维输入中提取信息，结合多模态思考生成高精度驾驶轨迹。系统采用并行解码同时生成所有轨迹点，并引入Discrete Diffusion（离散扩散）进行多轮迭代优化，确保轨迹空间连续、时间稳定，并符合车辆动力学约束。形成统一行为生成机制，使模型行得更稳。

　　龙8国际 long8平台

　　在模型迭代层面，理想汽车构建了闭环强化学习框架，让模型不仅能从真实数据学习，还能在世界模拟器中持续探索和优化策略。理想汽车将传统逐步优化式重建升级为前馈场景重建，使系统能够瞬时生成大规模、高保真驾驶场景，支持大规模并行训练。同时结合生成式模型，模拟环境可扩展、编辑并生成全新场景。为支持大规模模拟与训练，理想汽车开发了统一的3D Gaussian Splatting渲染引擎和分布式训练框架，渲染速度提升近2倍，整体训练成本降低约75%。在闭环强化学习框架下，模型实现更快进化。

　　为解决传统端侧大模型部署耗时长、调试频繁的问题，理想汽车提出面向端侧大模型的软硬件协同设计定律，在模型性能与硬件约束之间建立统一的分析框架。基座模型团队评估了近2000种模型架构配置，在英伟达Orin与Thor平台上完成验证，将架构探索时间从数月缩短至数天，大幅提升端侧VLA模型的设计与部署效率。在软硬件协同设计定律下，模型部署更高效。

　　龙8国际官方入口 long8

　　如果只把MindVLA-o1理解为“更好的自动驾驶模型”，那就低估了理想汽车的野心。

　　MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分。这套AI框架由四大核心模块组成：MindData，统一的VLA数据引擎，负责大规模数据的采集、清洗和自动标注；MindVLA-o1，统一的原生多模态VLA模型，可以理解环境、进行推理，并生成驾驶行为；MindSim，可控的多模态世界模型，用于生成复杂驾驶场景并支持大规模闭环训练；RL Infra（强化学习基础设施），通过奖励模型和策略学习，使系统在仿真与真实环境中自我进化。

　　四部分协同形成完整闭环，使AI能够感知、理解并在物理世界中自主行动，并持续学习。从结构上看，这套系统如同一个“数字大脑”：感知层对应视觉皮层，推理与规划如前额叶，场景生成似运动皮层，强化学习则类似多巴胺反馈，实现了感知、理解、行动和持续优化的完整闭环。

　　该框架不仅服务于汽车，也可扩展至机器人及各种物理系统。正如詹锟在演讲中所说：“当我们把视觉、语言和行动统一到一个模型中时，它已不再只是自动驾驶模型，而是在逐渐演化为面向物理世界的通用智能体。”

　　当大多数车企还在为实现L3级或L4级自动驾驶而努力时，理想汽车已经把目光投向了一个更远的坐标——不是造一辆更聪明的车，而是构建一套能够驱动物理世界智能的基础模型。

　　自动驾驶只是这套模型的第一个应用场景，但不会是最后一个。从汽车到汽车，再到人形机器人，理想汽车正在用同一套技术底座，去解锁物理世界中更多的可能性。在新一轮的竞争开启后，谁能率先构建起面向物理世界的完整AI系统，谁就将掌握下一个十年的主动权。

上一篇 : 这才是技术王炸！理想发布新自动驾驶模型还...

下一篇: 广州这张地图给自动驾驶装上“超强大脑”

[返回列表]

Long8（龙8国际）唯一官方网站