Momenta智驾大模型,不仅仅是“端到端”

近日,埃安首款全球战略车型——第二代AION V霸王龙正式发布,该车型将搭载广汽与Momenta共同打造的端到端高阶智驾方案,应用了Momenta最领先的算法5.0。此前,另一家重要汽车制造厂商,广汽丰田也宣布了其铂智3X车型将首发搭载该智驾大模型。Momenta已成为中国第一批量产端到端方案的公司之一。

4a540da8c9dc34bff22d0b42a849f664_172232942222671000_a700x398.png

如今,通用大模型成为AI业界的主流趋势,位处不同场景的AI公司都在探索如何将大模型落地自身所在的产业。在自然语言处理场景下有大语言模型,在智能驾驶场景下,“端到端大模型”则成为了最近的最热话题。

由特斯拉FSD V12开始,今年来国内也有几家头部智驾公司官宣了自己的端到端大模型,在其中,Momenta的智驾大模型仍显得与众不同,其创新性地采用“短期记忆”和“长期记忆”两条支路,使得最终端到端大模型的训练成本可以缩小10到100倍,显著提高训练效率。

目前,Momenta已经与全球排名前十的汽车集团中的一半展开量产合作,成为了交付车型最多的智能驾驶公司。8年的发展以来,这家公司探索出一条独特而成熟的发展路径,并在今年年初通过证监会备案,正式启动赴美上市。如果成功,它会成为美股中国自动驾驶第一股。

Momenta,正走在超越智驾摩尔定律的路上。

做最省钱的“智驾大模型”

端到端可谓是这两年来自动驾驶行业最热的话题之一。目前,通用大模型是AI技术的最新发展趋势,不管在自然语言处理、计算机视觉还是自动驾驶,都在逐渐由多个专用小模型驱动,进化到将这些模型融合为一个更加通用的大模型去完成任务。

2024 年,特斯拉的完全自动驾驶系统FSD V12上线,将感知到决策融为一个贯通的大模型,即“端到端大模型”:一端输入摄像头等传感器获得的数据,另一端直接输出车辆行驶轨迹。最直观来说,FSD V12的端到端神经网络取代了30多万行C++代码。

特斯拉一出手,包括蔚小理这样的新势力车企,和地平线、元戎启行、毫末智行、商汤绝影等多家智驾公司都宣布跟进这一技术路线。但是实际上,各家所谓的“端到端”并非都是同一种框架下的产品。

自动驾驶有感知、规划与决策和控制三个模块,靠感知 “看”,靠决策 “思考” 怎么开车,靠控制模块完成驾驶行为。国内目前大部分“端到端”还停留在已构建感知模块模型,探索规划、控制模型的阶段,三者还未做到完全融合。而Momenta的智驾大模型,已将视觉模型和决策模型合并,变成了一个贯通的端到端大模型,Momenta也成为中国第一批量产端到端方案的公司。

Momenta对智驾领域的端到端,或者说深度学习的探索最早开始在2020年,到2022年初,开始量产高速NOA,Momenta决定选择用深度学习方法做量产方案的决策模块,2023年上半年,基于深度学习的规划算法已经可以成熟量产上车,这个时间点甚至早于特斯拉。

在端到端上,Momenta与特斯拉的路线相似但不同,最大的创新点在于,其智驾大模型分为两条支路——“短期记忆”和“长期记忆”。

“短期记忆”由感知(DDLD)和规划(DDOD),以及记忆与深度学习的规划(DLP)构成,通过这样的方式,可以先进行快速训练,验证用于训练的数据是否正确,以及训练使用的算法是否有效。最终,被“短期记忆”验证过的好的算法和数据会在一段时间的积累后应用在“长期记忆”,即最终的端到端大模型上,这样可以保证一次就能把大模型训练好。

这样的逻辑与人类学习的逻辑类似,人类在探索环境的过程中同样会先更新短期记忆,然后再将已经验证过的成功经验更新进长期记忆中,这样就能够更加低成本、短周期地去适应环境。

“低成本+短周期”,这正是现在端到端,乃至所有通用大模型最需要的东西。

“用深度学习去做自动驾驶是一个开始,不是一个结束”曹旭东说。智驾大模型构建起来之后,未来还需要很多的探索和升级。

在学术界,端到端并不是一个新鲜的概念,已经有诸多相关论文和研究。但是直到去年,在带高阶辅助驾驶功能的量产车大规模落地后,有了海量数据和海量算力加持,这才取得了突破性进展。这也证明了,在探索的过程中,大模型的演进逻辑决定了,其需要大量的数据和算力的投入才能达成一定的训练效果,这同时也意味着巨大的成本投入。

“从特斯拉的开发经验来看,端到端自动驾驶真不是一般的企业能玩的,其所需的数据规模、算力规模远远超出国内企业的承受能力。”有智能驾驶业内人士告诉界面新闻。

该业内人士判断,数据会占据端到端自动驾驶开发中80%以上的研发成本。根据特斯拉的计算,完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的 Clips (视频片段)。算力也是很大的限制。为了能在云端处理这些数据,当前特斯拉拥有近10万张英伟达的A100,位居全球top5。埃隆·马斯克在社交平台表示去年花了20亿美金构建特斯拉的数据中心,今年计划用100亿美金做自动驾驶的训练和推理。其目标是,依靠英伟达的GPU和自身的Dojo超级计算机,要在2024年底达到100EFlops的算力,遥遥领先。

而在美国多轮制裁之下,国内采购GPU难上加难。大部分企业手里拥有的算力资源非常有限,拥有超过1000张A100的企业寥寥无几,甚至全国加起来都没有特斯拉一家企业多。

如此高的投入使得自动驾驶大模型的试错成本昂贵,如果训练方法或者数据处理做得不好,一次模型训练所花费几百万美金可能就会打水漂。

而曹旭东透露,Momenta使用“长期记忆”和“短期记忆”配合的方式,能够让智驾大模型的训练成本缩小10到100倍。这无疑是一个无比诱人的数字。

面对特斯拉在数据和算力上的先发优势,Momenta为国内企业提供了在端到端大模型上加速赶超的有效解法。

超越智驾的“摩尔定律”

创立之初,Momenta在一众智驾公司中就显得有些“与众不同”。智能驾驶技术的实现路径一直存在渐进式与跨越式之争。渐进式路线是指从难度相对较低的辅助驾驶入手,逐步完成从L0到L5的布局;跨越式路线则是提倡直接研发L4及以上自动驾驶,一步到位。

当各家公司纷纷试图证明自己选择的那一方才是最优路线时,Momenta选择了“两个都要”,即“一个飞轮,两条腿”的战略。

“一个飞轮”是数据驱动的AI飞轮。实现规模化无人驾驶需要解决的最重要的问题就是长尾问题(corner case),这些问题在实际生活中很少见,但是无人驾驶系统在设计时必须做到覆盖,在遇到时才能够应对。

这样的长尾问题有数百万个,因此很难用人工针对每一个问题设定规则、逐一攻破。Momenta提出的解法是以数据驱动的飞轮自动化地解决。这样的解法现在也成为了自动驾驶界的共识,而领先一步的Momenta目前数据驱动的飞轮已经迭代到第五代。从第一代能够自动化地解决50%的问题,到现在超过99%的问题都可以通过第五代系统自动化地去解决,极大提升了整个研发迭代的效率。埃安本次与Momenta合作的车型上就搭载了其算法5.0。

那么,有了数据飞轮算法,究竟需要多少数据才能够实现规模化的L4呢?

根据Momenta的测算,验证一套系统是否达到了可规模化的L4水平,需要至少1000亿公里的数据。这样大的数据量必须要量产车才能采集到。

基于此,Momenta又有了“两条腿”走路的产品战略,即通过量产车上人类司机的海量驾驶数据自动化地训练算法,实现算法的快速成长。随着数据积累和算法迭代,飞轮也将越转越快。

最终,Momenta的目标是实现全国都能开甚至全球都能开的可规模化L4,并且能够达到10余倍人类司机的安全水平。

无疑,智驾大模型大规模量产后,Momenta的飞轮会转得更快。

Momenta内部有智驾的摩尔定律的说法,包含智驾硬件的摩尔定律和智驾软件的摩尔定律两个部分。在硬件上,每两年硬件的成本会降一半,在软件上,每两年智驾的水平至少提升10倍。

“未来,能够跟上(智驾)摩尔定律的公司能够生存,能超越摩尔定律的公司能够成为一家卓越的公司。”曹旭东说。

2016年成立以来,Momenta已有8年的历史,上汽、通用汽车、奔驰、丰田等车企都与其有合作,最终这些企业也成为了Momenta的战略投资人。

车企之外,Momenta的投资人名单里还有知名投资机构如淡马锡、IDG资本、GGV纪源资本,也有互联网大厂如腾讯、马云的云锋基金、小米系顺为资本,以及博世这样的一级供应商,阵容堪称豪华。

这家公司现在已与全球排名前十的汽车集团中的一半企业开展量产合作,是最早开始做量产交付的智驾公司,同时也是目前交付车型最多的公司。已交付过类似高阶方案的供应商现在只有华为和Momenta,自研智驾的车企中,则只有蔚小理。

Momenta,正走在超越智驾摩尔定律的路上。