撰文 / 王 剑
编辑 / 轩辕奖执委会
设计 / 师瑜超
我们为什么要关注“端到端”?
据轩辕奖执委会统计,在最近4个月(20240517-20240919),至少14款搭载“端到端”技术的车型在中国市场推出(含OTA更新),截止今年年底,还会有4款车型推出。另外,布局此项技术的车企或智驾供应商6家以上。
随之,能看到一系列他们争夺“领先”的宣传——“行业首发、业内首个、全球唯二”;以及对“端到端”智驾体验的描述——“类人、拟人、超人”;还有技术路线的不同——两段式、一段式可解释、一段式不可解释。
正如上图所示,主流车企+智驾供应商已经推出相关车型,第二梯队的企业也有布局。另外,从近期第十二届轩辕奖的申报车型中,我们也发现了好几款搭载“端到端”技术的车型。显然,这是继2022年BEV、2023年OCC占用网络之后,2024年智驾领域最热、最引人关注的技术方向。
但,引人思考的是,“端到端”是乘用车智驾的唯一路线吗?真的适合所有车企与车型?要做好必备条件是什么?算力成本1-2亿元就够吗?从消费者体验而言,所带来的功能有多重要?轩辕奖在今年的实车评测中,会用怎样的方法来检验这项技术所带来的效果?
拨开迷雾,探索本质。
为此,我们采访了轩辕奖评审团与顾问团中智驾领域的3位专家,他们是——轩辕奖评委、同济大学汽车学院教授朱西产;轩辕奖技术顾问与合作伙伴、魔视智能创始人虞正华,以及另一位技术顾问与合作伙伴、知行科技创始人兼CEO宋阳——他们从自身多年学术与实战经验出发,表达了自己的见解。
非唯一路线、高端车先上
Q:我们很好奇,“端到端”一定是未来乘用车智驾的唯一路线吗?所有车企都适合这条路吗?
朱西产(轩辕奖评委、同济大学汽车学院教授):从目前看,“端到端”是实现自动驾驶唯一的计算路线。但是并不是所有车企都要做具备自动驾驶功能的高端车型,价格在15万元以下乘用车是主力车型,BOM成本在3000-5000元人民币的NOA系统肯定不会走完全“端到端”技术路线,所以“端到端”这条路并不适合所有车企。
虞正华(轩辕奖技术顾问与合作伙伴、魔视智能创始人):端到端是主要路线,特别是近两三年,端到端的上车还是主要处于技术探索和验证的阶段。对车企来说,有很多不同定位和价位的车型,技术方案要根据产品需求和定位来选择。端到端技术的优势是用户体验上限高,但是所需资源也相应更多,更适合注重用户体验的高端产品,在近几年不适合注重成本的高性价比产品。
宋阳(轩辕奖技术顾问与合作伙伴、知行科技创始人兼CEO):端到端方案具有“上限高,但下限低”的特点。通俗来说就是,做得好可以达到很好的效果,做得不好比传统方案更差。
对于 L2 和 L3 来说,“端到端”只是可行方案之一,在应用时还需要与其他技术方案进行组合搭配。域控制器式架构的数据规模与里程积累正相关,销量加速才能增加里程积累,并使得数据规模快速提升。
所以个人认为,主机厂中央计算架构车型配置和销量相对集中,更有利于数据运营、人才建设、AI基建等多方面能力的建设与提升,使得车企能更好地布局“端到端”方案。
Q:“端到端”的优劣势,分别是什么?
朱西产:“端到端”模型的优势,是减少了各模块之间信息传递过程中的信息丢失,通过Transformer构成一个更大的网络,训练过程中实现更多参数的全局最优。另外还可以提升开发效率、全局优化、更强泛化性等。
“端到端”的缺点,是无法与人工准则模型进行组装,尤其是涉及安全的准则模型,我们认为在运动规划算法中一味地强调“丝滑”,而取消安全准则模型的算法存在巨大安全隐患。另外还有数据要求质量高+数量大、算力难题、算法难题、可解释性难题、模型设计难题、上车难题等挑战。
虞正华:
优势——
1)用户体验:基于算法原理上的突破,能够提升用户体验的上限。
2)提升开发效率:简化了系统架构,减少了模块间接口的复杂性,降低了算法开发的复杂性,不需要人工设计各种规则。
3)无损信息传递:不依赖于工程师定义的模块接口,减少了传统模块间的数据转换和信息损失。
4)更强泛化性:得益于VLM等大模型,能够更好地处理各种复杂场景。
劣势——
1)验证方法:对于端到端架构开环的验证手段无法重现实车的所有问题,而实车测试的代价极大。所以需要支持高保真度和传感器一致性的仿真测试方案。
2)数据要求高:需要大量高质量数据进行训练。
3)解释性难题:一端感知输入,另一端输出结果,中间是难以解释的“黑盒”。
4)算力挑战:需要强大的计算资源来支持模型训练和推理。
5)组织资源:端到端的团队对于传统自动驾驶团队分工和工作方法论具有颠覆性,需要重新按照新的技术范式组织人员和资源。
宋阳:在传统自动驾驶系统,不同任务模块针对特定任务独立设计(例如最典型的阿波罗架构),在可解释性、可验证性和易于调试等方面具有优势,但是由于各个模块优化目标不同,如感知模块追求检测精度,规划模块追求驾驶安全性和舒适性,所以整个系统可能会因为错误积累而失效,并且多任务和多模块部署也会增加计算负担。
和传统的自动驾驶系统相比,“端到端”系统有以下优势——
1)可以将感知、预测和规划集合到一个可以联合训练的模型中。
2)整个系统,包括其中间特征,都是针对最终目标进行优化。
3)共享了主干网络,提高了计算效率。
4)数据驱动的优化任务可以通过扩展训练数据不断优化提升系统能力。
不要放弃传统模块化方法,可满足中端及以下产品需求
Q:除了“端到端”,是否还有其他选择?相形之下,优劣势是?
朱西产:目标物感知模块、地图感知模块、轨迹预测模块、占用网络模块及运动规划模块,分功能分别开发AI算法模块和人工准则模块,采用模块组装的方式构建NOA算法模型,能够弥补数据和AI训练算力不足的难题,对智能驾驶域控制器的AI推理芯片的算力需求也能够大大降低,从而有效控制智能驾驶系统的BOM成本。对于15万元以下的乘用车,用户更关注实用性,不会花高价为“自动驾驶”的噱头买单。
虞正华:传统模块化方法,在简单的ODD场景下,能够满足大部分中端及以下产品的需求。
宋阳:行业对“端到端”有似乎神话的倾向,认为其无所不能。事实上,喧闹之外,行业还需要对“端到端”有一些基本常识的认知。
第一,“端到端”并不是一个特别大的模型,比如理想汽车的“端到端”方案其实在一个Orin-x上就能跑通,并且有大量的rule-based兜底。
第二,“端到端”并非万能,其“黑盒”特性决定了无法通过简单而明确可解释的规则约束系统的安全边界,存在安全性挑战。
第三,模型能力评测从模拟环境到真实环境,系统的适应能力和泛化能力有待更广泛的验证。
所以,在目前量产落地的“端到端”方案中,几乎所有玩家都会采取规则兜底的方式进行风险规避。
最痛苦:研发模式的更改
Q:当前的车企或智驾供应商,如果想要做好“端到端”,必须要具备的核心要素是什么?目前有解吗?如何解?
朱西产:“人工准则模型”拼人力,“AI模型”的训练测试拼数据和云平台算力。
特斯拉FSD 12版本的“端到端”,是一个参数量高达10亿的“黑箱”AI模,完全取消了人工准则模型,其训练和测试所需要的数据量和云平台算力需求都非常高。特斯拉的用户数据闭环系统在美国以及全球有400多万辆车型能够为FSD 12版本的训练收集数据,Dojo平台算力高达100E Flops(折合英伟达A100算力,约30万张卡),建设费用高达100亿美元。
特斯拉已经证明,与模块化算法结构对比,“端到端”结构能够提升智能驾驶的性能上限,这是风魔“端到端”的原因。
但是,根据Scaling Low,国内车企走“端到端”技术路线,将受到数据量和训练平台计算能力的限制。由于AI热,现在全球范围内高算力AI计算芯片一卡难求,再加上美国的限制,国内企业要购买AI训练显卡非常贵、并且难买到。国内目前车企有万卡训练平台的企业就屈指可数。
目前国内企业中,华为已经具备破除“端到端”Scaling Low魔咒的能力,华为海思云计算高算力AI芯片昇腾910的性能,能够匹敌英伟达A100;昇腾910B能够匹敌英伟达H100。华为云并不缺高算力云计算平台。
并且,由于问界系列车型的热销,以及华为系的智界、享界、阿维塔、极狐等车型的数据都可以通过“八爪鱼”用户数据闭环系统进行数据收集,能够提供数据的车型也很快能够达到百万辆这个量级。相信我国智能驾驶计算不会被特斯拉甩开。
虞正华:
核心要素包括——
1)算法研究能力:算法团队对VLM等AI算法有深入理解和创新能力,并可以结合开源社区的进展。
2)数据处理能力:包括数据挖掘、采集、清洗、标注和增强。
3)算力资源:强大的计算资源来支持模型训练和部署。
4)测试验证:建立有效的测试验证流程和工具。
解决方案——
建立这些核心能力需要大量的投入,不是所有公司都有能力全部独自进行。所以企业应该了解自身优势,明确定位,在最核心的要素上发力,在其它技术要素上采取生态合作的方式,利用技术社区和行业分工的力量。
宋阳:“端到端”算法将带来的研发模式地更改,这才是每个主机厂和自动驾驶公司需要关注的重点,也是最痛苦之处。
“端到端”以纯数据驱动的多模态大模型为核心,如果某智驾公司之前的技术方案有很多规则,那这些规则基本上就都要被推翻了;如果之前的技术方案已经大部分改为模型驱动,那么这部分代码大概率能以某种形式重用。
除了模型端以外,“端到端”也需要进行更多数据方面的工作:重构数据闭环体系及其迭代效率,“端到端”的测试和验证。其中,如何将整个仿真平台的传感器输入做得足够真实,是目前非常有挑战性的技术问题。
纯“端到端”算力成本,每年约一到两个亿
Q:您认为,现在中国车企或智驾供应商,哪些是真正有实力来做这件事的?
朱西产:华为肯定没问题,畅销车(获取数据必备)、云计算、AI大模型能力、车端芯片、工程经验,一样也不缺。并且华为有近千亿的自有资金用于智能汽车研发。
理想汽车AI基础设施虽然差一些,但是理想L系列车型持续热销,也即将进入百万量级,数据是AI的基础,只要增加AI算力投入,也可期待。
供应商角度,地平线、Momenta的生态做的好,也是可期的。
虞正华:华为是有实力做这事的一家企业,其它头部的AI算法能力极强的供应商也有可能做成这件事。车企里面,估计极少数头部的车企有可能做成这事。
魔视智能作为一家以AI算法为核心优势的供应商,也会投入并期待在端到端的方向做出自己的贡献。
宋阳:“端到端”所需的算力主要用于“训练”和“部署”两方面。“部署”是采购多少块域控数量的问题,其成本固定且较低,并与单车成本相关。最大的成本是“训练”成本,分自建买卡和跟云服务商合作两种。对订单量比较大的车企来说,自己造数据中心更加合算;但对订单量没有那么大或处在前期研发阶段的车厂和供应商来说,找云服务商租服务器是较好的选择。
如果只是简单的一次“端到端”自动驾驶模型训练,上百张大算力的 GPU 就可以支持。但是要长期投入,并保证“端到端”质量的话,自动驾驶公司的训练算力规模基本在上千卡级别,车企投入会更多。
从综合成本来说,作为技术演进的纯“端到端”算力投入,其实小于模块化架构,每年成本约一到两个亿,知行会稳步推进,持续渐进地赋能我们的核心客户和伙伴。
“端到端”,非终局
Q:对当下中国市场“端到端”的火热,三位如何看待?
朱西产:更多是为了流量,实际上国内车企具备做“端到端”的技术实力的没几个,但是,嘴上不能输啊,打仗呢,一躺下就再也起不来了。
虞正华:自动驾驶技术近几年依然在快速迭代,端到端目前还只是一个比较宽泛的概念,实际的实现方法有很多的不同,而且端到端也不是技术的终局。在技术向前发展的大趋势中,企业应当根据自身定位逐步打造核心能力,比如数据闭环的能力。
宋阳:在过去的2年里,AI的发展速度超过历史任何时期,但即使如此迅速和火热,我坚信我们还处于AI变革的早期。我们能看到的是“端到端”已经在改变研发体系,加速智能车的电子电气架构变革和算力提升。
是用户核心需求吗?什么最重要
Q:从消费者的角度而言,他们更多关注“端到端”带来的驾乘体验。那么,“端到端”究竟会带来哪些功能或体验(智驾方向)?
朱西产:“端到端”从用户体验角度是“丝滑”,与人工准则模型不同,采用用户数据闭环采集的数据训练出来的AI模型,驾驶风格更像一个“老司机”。
虞正华:我更关注更好的用户体验,以及安全性。用户体验主要是在日常使用的城市路段可以应对高峰期拥堵的车流,更好的安全性是可以比人开车更安全,包括端到端的主动安全功能。
宋阳:第一,在长尾场景的处理上,“端到端”系统能够比原来的系统覆盖更多的极限场景,如常识处理能力。
第二,自动驾驶系统的行为更加拟人化,也能够更强地建立消费者和系统之间的信任,“端到端”在博弈性比较强的场景里更像人类司机。
第三,数据驱动能快速解决热点问题,快速迭代优化以回应消费者的热点诉求。
Q:那么,这些功能或体验,是用户的核心需求吗?
朱西产:我认为安全才是智能驾驶的核心需求,我不认为“端到端“技术能给用户带来核心需求。
虞正华:总体来说,用户的核心需求是希望在其选定的车型上实现相对最好的智驾体验。因此,对高阶车型而言,最好的体验是核心需求,这部分用户对成本不敏感;对中阶以下的车型而言,性价比是更核心的需求。
宋阳:安全、安心、好用、拟人、快速迭代,这些毫无疑问是目前所有智驾系统的核心需求。
有分歧:15万元车型是否搭载
Q:针对刚才描述的用户体验,对比车企为“端到端”付出,这样的投入产出比,划算吗?
朱西产:不划算,但是对于50万元以上的豪华车,没必要去计较是否“合算”。但15万元以下的主流车型,现在一窝蜂的“端到端”,肯定是不划算的,走通“端到端”,企业投入巨大,而15万元经济型车型的车主不会为“端到端”的噱头买单,企业会赔的更多。
从电动化到智能化,汽车越造越好,但是汽车企业好像赔的越来越多,我觉得没有几个企业能继续为“端到端”噱头把自己赔死也要做的。
虞正华:这取决于车企的定位,个人认为需要量力而行。极少数的车企出于自身的定位和资源积累情况,需要做端到端,但是并不是所有的车企都能够并且需要付出这么大的投入,做汽车行业智能化先驱。
宋阳:开个玩笑,每个人都得要买菜做饭吃饭,所以不能从“划算不划算”的角度考虑这么重要的事。
从大行情上说,参照《2024麦肯锡中国汽车消费者洞察》,中国消费者对自动驾驶功能的兴趣有所提升,但相比2023年,愿意为自动驾驶功能付费的金额却有所下降。
但是前面其实也谈到了,“端到端”由if-else的规则人工堆叠变成数据驱动,迭代的效率、研发人员的数量、数据投入和AI基建这些因素都处于一个动态平衡的过程中,最后就是“什么时间,买什么菜,做什么饭”的经济性问题了。
在汽车行业日益激烈的“内卷”竞争中,知行作为从业者,必须要将我们要交付的智驾系统做成像筷子一样,人人可用,必用,爱用,所以我们会优先考虑把“端到端”落地到泊车和安全类功能这些高频刚需场景中。
如何评测“端到端”车型?
Q:在「轩辕奖」入围车型实测中,二位的公司负责智能驾驶方面的测试,请问对于目前“端到端上车”带来的功能,您会怎样测试?主要考量的维度是什么?
虞正华:作为轩辕奖测试合作伙伴,我们在测试中会关注系统的安全性、舒适性和人机交互友好程度。针对端到端技术带来的变化,我们会重点关注对用户体验敏感的场景,比如复杂的交通流,不规范的道路,不清晰的路面标识等场景。
宋阳:
1)系统配置(算力、传感器配置等)
2)系统性能(边界、复杂场景)
3)系统安全能力(安全场景表现)
4)系统舒适性(交互、易用性、安心感)
5)通行效率(路径优化、功能速率等)
举报/反馈