新势力集体拥抱“端到端”

如题所述

第1个回答  2024-03-09

 


“再不努力工作,你就要被AI淘汰了。” 


2024年伊始,伴随着Sora红遍全球,社畜们陷入了新一轮的AI焦虑之中。 


与此同时,站在智能驾驶行业前沿的大佬们,却从中看到了无限的希望。 


近日,《汽车产经》围绕着Sora对智能驾驶行业的启示,面向夏一平 (极越CEO) 、刘涛 ( 智己汽车联席CEO) 、杨泓泽 (车联天下CEO) 等行业专家进行了简单的问卷调查,问题如下。 



极越CEO夏一平问卷结果


关于前两个问题,几乎所有受访嘉宾都选择了非常同意。因为在他们眼里生成视频只是Sora的表象。 


在 OpenAI的官网上,关于 Sora 的研究论文被命名为《把视频生成模型作为 世界 模拟器》。 


“世界模拟器”(world simulators)是比“生 成视频”更关键的存在,也是Sora真正令人兴奋的地方。 


Sora通过简单语言生成的那些视频,在很大程度上证明了: 即便脱离了繁复的规则,AI也能理解世界的物理逻辑。这和目前智能驾驶进化的核心逻辑是一致的。


“只有让AI 像人一样认知和思考问题,实现端到端的架构部署,我们才有机会真正达成无人驾驶。”一位不愿具名的受访者说道。 


NO.1


[  Sora为“端到端”架构正名 ]


2月初,Sora惊艳了全世界。只要输入简单的指令就能够得到一段足以媲美专业拍摄水准的60秒视频。 


人们惊叹于其生成画面的精美与细腻,更感叹于无论是广角、中景、近景还是特写,在各种机位下视频中人物和背景的关系都保持着高度的一致性。 



Sora生成视频片段:同一视频多机位展示 


当然最厉害的是 当列车车窗被遮挡的瞬间,Sora知道人物的倒影需要变清晰 (如下图所示) , 并且它是基于AI对于物理世界的理解来实现这一点,不需要人们单独写一行代码来告诉它。



Sora生成视频片段:车窗被遮时,人物倒影变清晰 


“对智能驾驶来说,不论给系统叠加多少条代码和规则,都无法穷尽长尾场景,但AI能够理解世界,意味我们有机会摆脱规则和代码的堆砌,这是令人兴奋的。”某新势力智能驾驶负责人解释道。


事实上,目前整个智能驾驶行业也确实在顺着这个方向向前探索。 


在Sora爆火之后,马斯克很快就转发了一条特斯拉2023年的视频,并表示特斯拉拥有世界上最好的现实世界模拟和视频生成能力! 


视频中,特斯拉通过AI生成了七个不同角度的驾驶视频,只要输入“变道”或者“转弯”等指令,七个视频就能同步发生变化。 



特斯拉自动生成用于训练智能驾驶模型的视频素材 


由于特斯拉生成的视频只用于模拟车辆行驶,所以和Sora生成的视频相比,场景相对单调。 


但在马斯克看来,二者的AI的能力是不相上下的,区别只在于他们将这种能力用到了不同的领域。 


去年8月,马斯克直播测试了特斯拉的FSD V12版本,并自豪地表示特斯拉首先跑通了端到端的智能驾驶架构; 


2月中旬,特斯拉将FSD V12向部分普通用户推送,标志着端到端的架构初步走向商业化落地。 


据介绍,在FSD V12中,工程师删除了30万行定义驾驶规则的C++代码,并省掉了传统智驾系统的感知、预测、决策、控制等模块,转而 向系统输入数以百万计的人类驾驶视频,使其学习像人类一样应对真实的驾驶状况。


最终做到以感知数据为输入,直接输出用于车辆的控 制指令,全部过程都靠神经网络模型来完成,而不是像过往那样,按照设置好的规则执行具体的命令。 



端到端智能驾驶系统示意


这正是端到端模型的核心,它和Sora都在试图让AI拥有人类一样的发散和逻辑能力。 


特斯拉和OpenAI这两个充满爱恨纠葛的企业,用不同的方式展示了:当大模型对世界有了理解和模拟,会带来多大的突破和想象空间。 


NO.2


[ 夏一平:落地“端到端”不一定输特斯拉 ]


随着大模型一次又一次惊艳世人,拥抱端到端架构已经成为了智驾行业主旋律。 


新势力们争先恐后地跟进这条路线,并未很多人表示可以在国内拿出比特斯拉FSD更加卓越的体验。


“行业转向端到端架构的方向是非常明确的。特斯拉虽然有一定领先,但极越在中国的落地能力一定更强。”极越CEO夏一平自信地表示。


同时他还认为,不管是ChatGPT还是最近的Sora, AI发展越来越像人类自己,因此Sora对智驾研发本身有很大的启发。 



极越CEO夏一平 


智己汽车联席CEO刘涛同样认为,Sora进一步印证了端到端路线的正确性,目前智己汽车也正在全力 推动 端到端架构落地,创造“更像人”的智能驾驶体验。 



智己汽车联席CEO刘涛 


另外,蔚来已经确定将在年内推出基于端到端的主动安全能力; 


理想的端到端模型也在全力加速中,并且基于其销量规模的领先,很多专家看好其能够后来居上。 


当然,仅从宣传口径上来看,小鹏是国内新势力中走得最快的。 


1月份,何小鹏宣称:“端到端大模型已经在运用中展现出了足够的优越性。小鹏汽车将在2024年内推动其全面上车,并且在北上广深等核心城市实现千公里被动接管次数小于1次的目标。” 


2022年10月份,小鹏在广州落地全国首个城市NGP时,对外表示其城市NGP在预测、规划、控制模块的代码量是高速NGP代码量的88倍,而感知模块的神经网络模型数量是高速NGP的4倍。 


“大模型团队成立之后,发现特别多的泛化代码变成了相对简单的端到端模型,车辆在感知、控制方面都表现得比想象中更聪明。它甚至可以理解‘前方ETC维修,请变道’的提示。” 何小鹏说道。 



小鹏汽车董事长何小鹏 


除了更高的功能上限,结构的简化还带了更高的效率和更优的功耗。 


例如小鹏XNGP早期架构,仅负责动态感知的XNet就要耗费一颗OrinX算力的122%。 


优化之后仅用9%的OrinX算力就实现了同样功能。省下来的车端算力,可用于更多功能或更强性能,进一步提升系统的功能上限和鲁棒性。 


总而言之, 为了获得更强的能力而不断堆叠的代码,对车企来说是“越来越沉重的负担”,与追求更加简洁的系统原则是相悖的。 而 端 到端的智能驾驶在功耗、效率、性能上都展现出了足够的优越性。 


更重要的是,它有机会彻底突破corner case对于行业制约,已经被行业当作终极的技术路线,但并非所有人都有能力跟进这条路线。 


NO.3


[ 实现“端到端”没那么简单 ]


从普通架构转型端到端的智能驾驶,对于车企而言意味着部分颠覆掉过去成果和积累。同时在算力、数据量和人才、资金等方面都会有更高的要求。 


有行业专家甚至预言: “全世界大约只有10%的玩家有能力完成架构的切换。”


夏一平认为“相比Sora所展现的AI水准,我们(国内)的AI在数据量、质量、模型和算力上都还有很大的差距,当然最关键差距在人才上。”。 


具体来看,虽然端到端架构省略了大量的基础代码,大大提升了自动化程度。但仍需人类工程师手写代码来完成筛选数据、处理数据、组织模型训练等工作。 


“这些代码少而精,需要基础扎实、经验丰富的工程师团队反复试错、验证。这样的人才,在国内少之又少。”一位智驾从业者说道。 



数据源:工信部 图源:前瞻经济学人 


除了人才,端到端架构需要的数据量成倍增长,数据质量要求更高,这也意味着需要更高算算力的超算基础设施。 


截止到去年底,初步实现端到端智驾落地的特斯拉FSD Bate累计行驶里程为12.9亿公里。据悉,在 FSD V12 版本训练初期中,特斯拉便投喂了约 1000 万个特斯拉车主的驾驶视频片段。 


相比之下,小鹏的智驾累计总里程还不到6亿公里,新势力中销量最突出的理想智驾里程也只有5.6亿公里,在数据规模上和特斯拉还有较大差距。 


除了数据量的差距,从这些难以计算的数据中,找出可以用于训练的有效数据,是另一个重要的挑战,它不但需要好的模型,更需要强大的算力基础。 


依据公开资料,截止到2023年8月,特斯拉能提供 10EFLOPS 规模的算力。 


国内厂商中,领先的华为拥有2.8EFLOPS算力;吉利星睿中心算力为 810PFLOPS(1EFLOPS=1000PFLOPS),理想汽车、毫 末智行和小鹏汽车的算力分别为 750PFLOPS、670PFLOPS 和 600PFLOPS。 



注意:1EFLOPS=1000PFLOPS 


另外,无论是人才、数据还是算力,最终比拼的都是金钱。 


按照计划,特斯拉今年将会在超算集群上再投入15亿美元,到年底让总算力提升到100EFLOPS。小鹏在年初也宣布要拿出35亿人民币投向智能驾驶相关的AI技术研发。 


所以,端到端的智能驾驶,比拼的不仅仅是技术储备。更多的时候PK的是企业的综合能力,尤其是和销量规模息息相关的数据的数量与质量,最有可能扮演胜负手的角色。


而这一切都决定了智驾行业未来几年会随着汽车行业一起快速走向集中化。 


NO.4


[ “端到端”有时也会骗人?]


端到端的模型,对于智能驾驶一定会起到正面的作用 吗??至少当前这个阶段并不一定完全肯定。 


在特斯拉晒出的视频当中,FSD的V12版本和V11版本相比,在一些复杂场景下拿出了更好的体验,比如变道博弈,绕行障碍等。但与此同时一些基础的体验却出现了退步,比如在空旷的路上,可能会莫名 地加减速。 


另外,Sora在视频生成的过程中会有同样的问题,一些复杂的场景能够处理 得很好,一些简单的场景却会翻车,椅子悬浮在半空、小动物数量凭空增加等。 



Sora视频片段:椅子莫名在半空漂浮 


类似的情况,在同样基于Transformer模型的 GPT 4.0上也存在,它可以很精准 地回答某些问题,也经常会一本正经地胡说八道。 


另外,在近期举行的DeepFast大会上,一个沙特自主制造的男性人形机器人,居然在一场活动中突然将手伸向了前方女记者的臀部。 



网络视频截图:疑似机器人骚扰女记者 


对于这些现象,很多人认为就是单纯的能力不够导致的。也有人担心,AI可能在故意按照自己的意识行事。就连马斯克也担心通用人工智能可能会威胁人类。 


这样的忧虑并非没有道理,因为很多时候人类并不能系统合理 地解释,为什么大模型在经过足够的参数训练后,会突然变得很强大。 


这种无法被解释的现场被称之为“涌现”。 但人们并不知道,一个大模型产生涌现之后,内部到底是如何思考和决策的,这让人们无法完全信任AI。


很多人认为人类能否顺利理解并且解释大模型产生类人意识和思维的原理,将会是其全面进入各行各业的关键,当然也包括智能驾驶。 


NO.4


[ 写在最后 ]


“望山跑死马”这个成语非常贴切地形容了人类对自动驾驶的追逐状态。 


2015年,时任谷歌无人驾驶项目主管Chris Urmson以及百度高管王劲都曾经信誓旦旦 地表示,将在2020年左右向用户销售无人驾驶汽车。 


遗憾的是已经2024年了,各路大佬的脸被打了一遍又一遍,但“无人”这个目标 依然可望不可及。 


从ChatGPT到GPT-4再到如今的Sora,通用人工智能领域一次又一次地突破,让人们重新审视智能驾驶,同时也看到了新的希望。 


端到端 这 条路,也并不一定就是最终的答案,但有新的可能性,总是好的。 

    官方服务
      官方网站
相似回答