- 手机:
- 13564805630
- 电话:
- 021-57708796
- 邮箱:
- 838717855@qq.com
- 地址:
- 上海市奉贤区民乐路88号3幢110室
智能汽车算法进阶自动驾驶迎来端到端时代FSD效果惊艳,Robotaxi迈向现实5特斯拉FSDV123登场,自动驾驶辅助功能推向全量用户端到端算法加持,驾驶体验显著提升特斯拉推动,Robotaxi有望迈向现实算法算力数据全面加速,特斯拉加足马力快速推进端到端算法形成三大落地形式将多个神经网络拼接形成端到端算法显式端到端多模态基础模型自动驾驶隐式端到端
2024年3月FSDV12.3推出,解决复杂场景能力大幅提升,驾驶体验平顺丝滑
拟人化程度高。FSD开始从“测试版”晋级为“监督版”,并面向所有北美车主
免费试用30天。随后马斯克在社交媒体上表示将在8月8日推出Robotaxi功
法,对算力和数据需求激增,马斯克表示到2024年底将累计投入100亿美金在
算力和数据领域,到2024年底总算力规模有望突破100EFlops,目前FSD的累
(2)面向整体驾驶目标进行全局优化;(3)从“行为”学习“行为”,驾驶行
为更加拟人化;(4)数据驱动,更易发挥规模法则;(5)精简计算任务,减少
3.1.2、世界常识助力解决长尾场景,快慢系统结合为彻底实现自驾提供思路17
3.2.1、领先量产玩家小步快跑,采用渐进路线、数据驱动迈向认知驱动,大语言模型和端到端有望协同助力智驾20
图6:马斯克一度表示算力掣肘算法迭代,但在3月之后表示算力不再构成瓶颈7
图19:亦有模型采取隐式的端到端算法,即整个模型作为大的神经网络实现自驾13
图37:英伟达并行驾驶算法构建自动驾驶的基础模型,并嵌入大语言模型功能21
图38:采用大语言模型监督的自动驾驶算法很好的识别了广告牌上的停车标志,避免了幽灵刹车21
图47:好的仿真环境提供完美的自动驾驶场景仿线:端到端时代对仿真验证提出新的要求,闭环验证难度大,世界模型有望成为解决方案26
图49:华为ADS3.0采用GOD网络+PDP预决策规划一张网的架构27
图51:华为ADS3.0采用多模态感知信息,激光雷达和4D毫米波实现升级28
图57:小鹏智驾实现对感知大模型升级,并推动基于神经网络的规控大模型上车30
图60:小鹏智驾实现对感知大模型升级,并推动基于神经网络的规控大模型上车31
特斯拉FSDV12.3登场,智驾时代更进一步。早在2023年5月,马斯克即在
社交媒体上表示,FSDV12将是一个视频输入+控制输出的端到端的自动驾驶算法;
2023年底,FSDV12版本开始在北美的特斯拉车辆中试用;2024年3月12日,
开始向所有北美用户开放,允许免费试用30天,另外马斯克还要求北美地区销售
必须带客户短途试驾FSD才能交车。2023年4月,FSD的订阅价格从199美元降
低至99美元,买断价格从12000美元降低至8000美元。价格下探叠加向全美用户
开放,表明公司马斯克已经对FSD功能的完善度相当自信,意味着将有百万数量级
的用户有机会体验到自动驾驶辅助功能,有望显著增加FSD的曝光度以及订阅率,
图1:马斯克宣布FSD订阅费用降价至99美金图2:马斯克推动FSD为所有美国车主免费试用一个月
特斯拉FSDV12.3推出以来,驾驶体验丝滑优雅,获得市场广泛好评。具体而
言,我们看到几个方面的驾驶体验显著改善。(1)解决复杂场景的能力大幅提升:
例如可顺滑处理无保护左转和环岛等场景,相比V11大幅进步;无缝处理施工路段
等复杂场景;对人类意图的理解加深,部分场景可以识别手势;可以根据其他车辆
行驶状况判断当前场景是否可以通行,接管次数大幅降低。(2)驾驶体验丝滑平顺
拟人化:转弯、红绿灯启停无顿挫感,加减速拟人化;遇到开双闪的车辆占道会毫
不犹豫变道绕行,流畅自然;遇到周围骑行者、行人绕行时从容淡定,绕行幅度拟
人化;遇到其他车辆倒车,会留足空间,驾驶具有“礼貌性”;拟人化程度高,经
常让乘客难以区分到底是人还是算法在执行驾驶行为。(3)新增部分功能:部分场
景可以掉头,抵达目的地后可以自主寻找停车处停车,不依赖导航。当然当前版本
也会出现一些问题如距离道路边缘近,容易出现剐蹭,对交通规则的遵守度弱,以
及其他车辆意图判断仍需提升,无法倒车等问题。未来,随着算法的迭代,小的问
图3:FSDV12甚至可识别自行车骑手的手势并减速图4:FSDV12可以从0时速启动
中即出现,后续马斯克亦在多次财报电话会议中提及。具体而言,一旦特斯拉实现
了完全自动驾驶,将创立一个共享出行平台,通过特斯拉车辆来实现Robotaxi运营。
特斯拉建立自有车队,同时特斯拉车主也可将自己的车辆加入到共享车队,后续特
斯拉从每个订单中抽成。Robotaxi将与造车业务实现协同,其运行数据将成为整个
特斯拉数据闭环的一部分,最大化提升自动驾驶的盈利能力,此外闲置车辆可以赚
钱将提升车辆的使用效率和特斯拉车辆的吸引力。2023年4月,马斯克在社交媒体
上宣布特斯拉将在2024年的8月8日推出Robotaxi。目前,自动驾驶功能的完善度
将是Robotaxi能否实现的核心,Robotaxi有望为自动驾驶打开新的成长空间。
合表示,模型仅仅依靠神经网络构建,并未加入环形交叉路、红绿灯等场景和元素,
对场景的理解和驾驶行为完全依靠模型自身通过大量的人类驾驶视频训练而学习到。
和大语言模型类似,规模法则(ScalingLaw)在自动驾驶领域也效果凸显,对端到
端算法来说,算法之外,更迫切的是需要海量的数据和算力将模型的能力推升到更
高水平。2024年初,马斯克在多个场合表示,算力制约了特斯拉FSD功能的迭代,
根据特斯财报公布的算力增长曲线,我们可以观察到,在FSDV11以及之前版本的
时代,算力基本在等效5000片H100的水平之下,在FSDV12也就是端到端算法
推出前后,算力开始阶跃式提升至约等效15000片H100水平,此后算力进一步快
速拉升至等效3.5万片H100左右,时间节点大约与FSDV12.3版本推出对应,此
时特斯拉开始向所有订阅用户推送V12以上版本,并去掉Beta改为Supervised,同
时为所有用户开启FSD试用1个月。在2024Q1财报电话会议上,马斯克表示,
2023年底将会有等效8.5万片H100的算力投入使用,与此前公布的在2024年将达
到100Eflops算力对应。可以观察到的是,伴随端到端的落地,特斯拉对算力的需
资料来源:特斯拉财报、Notaateslaapp官网、第一电动汽车网公众号等
升。特斯拉FSD从V12版本推出到V12.3共推出7个迭代的衍生版本,花费了近4
个月时间,而从V12.3到V12.3.6推出的8次版本迭代所花费的时间仅有1个半月
左右。功能方面,V9到V11时代更多的是一些微小的性能提升和用户开放规则的
放宽。而V12时代以来,新版本的功能实现大跨步提升,V12.3甚至可以做到识别
手势,而近期马斯克在社交媒体上表示,即将推出的版本中FSD将会把自动驾驶和
自主泊车结合,实现“真正的代客泊车”,同时将去掉手握方向盘检测,此外在面
临最新场景时也将有更好的表现,如驶入狭窄封闭道路中需要倒车来寻找新的路线:特斯拉FSD版本在迅速迭代
2022.8FSDBetaV10.69改善车道线识别、占用网络、预测、规划能力
2023.2FSDBetaV11.3强化感知规控能力,加入更多神经网路,合并高速和城区FSD
预计FSDSupervised更加舒适,处理更复杂场景,取消驾驶员手握方向盘监测,将
2024.5-6V12.4/V12.5泊车和自动驾驶融合,车辆可以自主寻找车位并停车
会中提到训练模型所需的数据:“100万个视频Case训练,勉强够用;200万个,
稍好一些;300万个,就会感到Wow;到了1000万个,就变得难以置信了。”而训
练数据仍需来自于优质的人类驾驶行为。对特斯拉而言,目前有数百万辆量产车辆
可以实现数据收集,同时亦有大量订阅FSD的用户可以反馈FSD使用过程中的问
题。特斯拉用户带来的FSD的累计行驶里程数加速增长,从2023Q1的1.5亿英里,
提升至2023Q3的5亿英里,2023Q4达到接近8亿英里,2024年4月突破10亿英
里。在2024年4月马斯克表示到2024年在训练算力、海量的数据闭环体系以及海
量视频存储上将特斯拉将累计投入超过100亿美元。特斯拉一步步探索自动驾驶的
图8:FSD行驶里程2024年4月突破10亿英里图9:特斯拉2024年将在自驾领域投资超100亿美元
驶算法中,人类工程师依靠自己的经验将驾驶问题拆解和提炼为一些简单的过程,
通常情况下自动驾驶算法分为感知、预测、规划控制几个部分,以流水线式的架构
进行拼接,模块之间会以人为定义的信息表征方式进行信息传递,进而实现驾驶任
务。端到端算法则采用一个整体化的神经网络,在模型的一端输入感知信息,另一
行人、道路等元素简化为检测框(Boundingbox)或者占用栅格以及车道线等;而
预测和规划模块则根据上游感知提供的信息,将复杂的世界抽象为几类简单的场景,
分别输出轨迹点和驾驶路径和行为。这实际上会造成信息损失,当人为定义的抽象
的指标并不能很好的描述场景时,下游模块只能根据有限的信息做判断,造成错误
的结果,体验上来讲会造成模型对复杂场景的处理能力不足,泛化性差,决策僵硬。
端到端算法则可以将各个模块几乎所有信息传递给下游模块,并且由下游模块来决
定使用哪些上一环节的信息。例如当经过侧面有障碍物遮挡的小巷子时,如果人类
司机观察到障碍物后面有汽车发出的灯光,可能会提前减速。模块化的算法由于感
知端只检测障碍物、车道线等内容,可能会丢掉光照变化的信息,规控算法则无法
提前规避侧向来车;而对端到端算法来说,全部传感器感知到的数据都会被收集,
只要有足够的数据,模型会自己学习到灯光和驾驶员行为的关联进而拟人化的处理
(mAP),规控算法的检测指标要考虑碰撞率、任务完成率等。端到端自动驾驶则
对整个自动驾驶流程进行优化,神经网络的链式法则可以从输出端(控制)向输入
端(感知)贯通,输出结果可以将误差依次反向传播给所有模块,以最小化整体损
(好比考试的时候,答案中ABCD的占比是一样的,但如果不通篇看题目,会丢掉
这一重要的全局信息)在特斯拉FSDV12版本的视频中,有些时候会出现规控算法
不会完全按照感知呈现的结果执行驾驶行为,或许亦体现了全局优化的优势(规控
势。吴新宙在GTC大会上提到,在传统自动驾驶开发过程中,工程师希望定义一
些动作,通过建立状态机转换不同的动作来实现驾驶,而为了实现更好的驾驶效果,
会引入越来越多的动作让机器的行为尽量像人。但现实情况中,人类的行为难以通
过一些离散的动作量化,规则无法定义什么是好的驾驶,甚至有些场景下并无最优
决策,好比单纯用文字很难精确的描述一幅画的内容,何小鹏提到无限接近人的自
动驾驶系统大概等效于10亿条规则,靠人类根本无法达到,因此传统算法产生的
驾驶决策死板单调,拟人性差。端到端或者说基于学习的规划让模型去学习人类行
为,会大幅提升算法的适应性和灵活度,据元戎启行在GTC大会上介绍道,元戎
的算法由于使用了端到端技术,不仅实现了舒适、高效,还会考虑后车需求,实现
采用海量数据对模型进行训练,突破性能上限。而模块化算法则只能依靠工程师来
图13:端到端算法让驾驶更加丝滑拟人化图14:端到端算法实现完全数据驱动,突破性能上限
的误差如标定误差、定位精度误差、控制误差等会在模块间传递,最终会在下游累
积,导致控制模块收敛难度加大。同时,模块之间的数据传输和计算都需要花费时
间,导致整体算法延时较高,处理紧急场景能力弱。端到端算法则可避免上述情况
出现。此外马斯克亦表示,通过使用端到端自动驾驶算法,特斯拉采用2000行代
行分析,因此可解释性较差。其次由于算法完全依靠数据驱动,对数据的质量、数
据分布等要求高,海量数据的获取或生成难度较大。此外仿真验证也是端到端算法
开发的难点,端到端算法更需要闭环评估,而在当前的技术条件下,缺乏良好的工
具实现这一过程。最后对自动驾驶公司来说,算法的变化也意味着团队的调整,如
在自动驾驶端到端算法领域,大体形成几大方向:将不同功能的神经网络模块拼接
形成端到端的自动驾驶算法(显式);依靠多模态基础模型实现端到端自动驾驶算
到端算法。该算法包含可见的算法模块,可以输出中间结果,当进行故障回溯时可
以一定程度上进行白盒化调整,训练时首先将每个模块分别训练,再将其拼接进行
联合微调和训练,在数据量有限的情况下更容易收敛,且对于算法团队来说可以最
大限度的继承此前模块化算法的开发能力,同时又具备端到端算法的优势,是目前
诸多量产玩家青睐的方案。获得2023年CVPR最佳论文奖的UniAD模型亦采用此
方法,可明显的观察到算法中仍包含感知、预测、占用预测、规划器等模块,并采
数据,忽略中间过程,直接监督最终控制信号进行训练。这类模型通常采用视觉或
者多模态的信息作为输入,模型直接输出控制或者轨迹信号。诸多玩家探索的自动
驾驶世界模型在这里也有应用,即将视频、甚至文字信息送入模型,此后模型可以
预测未来发生的事情以及所应该采取的行动,或者可以对所执行操作进行文字解释。
该方案理论上限更高,但训练难度高,收敛困难,对数据需求量大且可解释性差,
图19:亦有模型采取隐式的端到端算法,即整个模型作为大的神经网络实现自驾
Wayve的端到端自动驾驶网络即采用单一的神经网络,直接输入感知数据,输
车辆的驾驶动作,中间没有抽象化的感知结果输出,因此车辆上也不包含通常自动
驾驶具备的“SR”(SituationalAwareness,用来呈现自驾算法看到了什么)界面。
图20:Wayve采用端到端的自动驾驶模型图21:Wayve的端到端模型可处理各类复杂场景
通过将外部环境的信息进行编码,由模型基于这些输入的语料来预测未来世界可能
的状态,再通过不同的解码器解码出不同类型的信息,亦成为开发端到端自动驾驶
算法的一大方式。以极佳科技和清华大学联合推出的DriveDreamer为例,模型主要
采用注意力机制和Diffusion模型构建。可对驾驶场景实现全面的理解,集成了多模
态的输入数据如文本、视频、高精度地图、3D检测框、驾驶行为等,可以实现可
控的驾驶视频生成和预测未来的驾驶行为。同时DriveDreamer还可以与驾驶场景互
质反馈。大语言模型凭借其强大的认知能力,越来越多的被应用于驾驶场景。经过
A6Unit 2 My Week A Let’s spell公开课教学设计.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者