追赶FSD V14，理想在补哪些课？｜最前线

2026-06-26

在自动驾驶行业，竞争焦点在过去几年经历了显著演变。起初，硬件是主要比拼点，包括激光雷达的配置、摄像头的数量以及算力水平（TOPS）。随后，随着大模型技术的兴起，竞争转向了端到端、VLA（视觉-语言-动作）以及World Model（世界模型）等技术路线。

如今，越来越多的企业认识到，单纯拥有更大的模型已不足以构成代际优势。真正决定技术上限的，在于模型、数据、算力和芯片之间能否构建一个持续优化的闭环。

正是基于这一认识，越来越多的汽车制造商开始投入自研。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全流程。在国内，小鹏、蔚来及理想等品牌也在不断向更底层技术延伸。

理想汽车在其今年推出的L8和L9车型中，已采用了自研的马赫M100芯片。该芯片采用数据流架构，被理想汽车视为AI领域的重要技术方向。同时，理想汽车也在马赫M100上运行了自研的马赫VLA模型。

然而，对于整个行业而言，更关键的问题并非“是否自研”，而是这些投入具体能解决哪些技术难题。

带着这个疑问，我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断，并阐述了自研芯片、数据体系以及AI基础设施背后的设计理念。以下是访谈的主要内容，经过编辑整理：

问：为了在第四季度达到特斯拉FSD V14的性能水平，理想汽车还需要在哪些方面发力？

詹锟： 我认为追赶FSD主要体现在两个层面。

第一是基础体验，具体包括安全感、效率和舒适度。FSD在这三个方面都表现出色，其安全感十足，效率很高，且乘坐体验舒适，这些是其核心功底。即使不选择极具挑战性的测试路段，也能达到FSD在这些基础体验上的同等水平。

第二是高级能力，这方面追赶的难度更大。例如，特斯拉能够识别并礼让特殊车辆，能在极窄的道路上精准感知，并能理解交警的指挥信号，这些能力都非常强大。

在能力层面，存在架构升级的机会。为何某些能力是特斯拉独有？这可能与过去的范式限制有关，也与架构和数据有关。我们在这些方面进行了大量探索。

问：我理解马赫VLA是一套技术体系，而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型。那么，当前的智能驾驶模型中是否还包含“L”（Language语言）的成分？

詹锟： 当前自动驾驶的架构普遍趋向于融合VLA（视觉-语言-行为模型）和World Model（世界模型）。

从长远来看，所有技术路线都会朝着这个方向发展。无论是VLA还是World Model，其内部的Prompt（提示）都需要用到语言（Language）。因此，语言成分是必然存在的，关键在于如何运用。

在机器智能领域，我认为基于视觉（Vision Based）的方案更为合理，它能够更好地理解空间、感知三维环境并服务于环境交互。语言（Language）同样具有价值，它有助于理解环境、交通状况、指令以及进行复杂的决策思考。

从长远来看，基于视觉和语言的原生基础模型，可能是未来的发展趋势。

谢炎： 如果要实现L3、L4级别自动驾驶，需要解决更泛化的难题，模型的思考能力需要接近人类。此时，语言的重要性将愈发凸显，这也是未来需要巨大算力的原因。

如果模型仅具备Vision和Action（视觉和动作）能力，即使拥有海量数据，在遇到分布外（out-of-distribution）的情况时也会束手无策。就像动物即使学会了所有常见情况，面对从未见过的情形也可能不知所措，无法做出正确的选择。

我们认为，随着自动驾驶向L3、L4级别迈进，解决的问题将越来越接近90%、95%、98%之后的情形——那些前所未见的问题，需要模型具备类似人类的思考能力。而实现这种推理和思考能力的关键来源是语言模型。例如，理解一名交警的手势是让你通行还是停止，这并非仅通过收集或生成数据就能解决。

问：随着理想汽车车队规模的不断扩大，从内部视角来看，数据的边际效应是否出现了衰减？你们是如何定义有价值数据的？

詹锟： 首先，数据的规模必须足够庞大，核心目标是收集更多Corner Case（长尾场景）。目前，业界有多种方法，例如在车端部署先进的Neural Trigger（神经网络触发器），以识别场景的难易程度，并将关键数据回传。这也是特斯拉在数据方面表现强劲的重要原因之一。

其次，数据质量至关重要，尤其体现在行为（Action）的质量上。当前，业界逐渐趋向于端到端（End-to-End）的范式，无论是VLA、World Model还是Vision-Action模型，都强调行为的准确性、干净度和一致性。

至于数据规模增大后边际效应是否衰减，首先，只要模型持续进步，并且我们追求100分的表现，那么数据带来的收益曲线必然是对数增长，而非线性增长，这在任何AI公司都是如此。尽管后期数据收敛的速度会放缓，但我们仍希望通过规模化来加速这一进程。

问：马赫M100能够支持多种AI场景的运行。展望未来五年或更远的几代产品，理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片？

谢炎： 尽管业内存在“舱驾一体”的说法，但我们认为，舱驾一体的核心在于AI算力部分，其他部分的集成度则不那么关键。因为座舱系统和AI智能驾驶系统可以完全独立，但AI算力可以集中处理，从而大幅提升效率。

我们规划的最终形态是，车内拥有一个统一的AI计算中心，所有AI任务均在此处进行计算。这类似于在笔记本电脑上运行OpenClaw，AI计算并非在笔记本本地完成，而是在Token Provider Server（Token供应服务器）上进行，车内也将采用类似的架构，设立一个Token Server（Token服务器）。

该Token Server的优势在于：第一，极高的效率。第二，能够实现不同任务的相互隔离，互不干扰。例如，智能驾驶任务的确定性——无论是内存还是带宽，都能得到保障，不受其他任务的干扰，这是软硬件协同设计才能实现的结果。

问：马赫M100采用数据流架构的AI推理芯片，是否意味着相较于其他厂商的自动驾驶芯片，它对带宽的需求较低，但对片上存储的需求更高？

谢炎： 我们的确对带宽的要求相对较低，但这并非直接导致SRAM容量（非显存）设计的原因。目前HBM（高带宽内存）备受关注，许多人认为带宽越高越好。然而，计算、带宽、SRAM等都需要晶体管资源来实现，最终的设计是基于成本、综合性能等多方面考量的权衡。

不同架构的设计，仅凭一两个指标进行简单对比是不合理也不专业的。这如同拳击比赛，身高和体重各有优势，但最终的胜负并非由单一指标决定，而是取决于整个比赛过程的表现。

问：为何目前的高算力芯片方案，如英伟达、小鹏以及理想的自研芯片，都没有实现芯片级的舱驾融合，而高通却在低算力芯片上进行了此类尝试？

谢炎： 本质上，座舱（舱）和智能驾驶（驾）是两个独立的系统。特别是对于高端L3向L4级别进阶的自动驾驶，智能驾驶需要一个更高确定性的系统，包括专属的内存和计算资源。在这种情况下，融合的意义就大大降低了，因为资源无法实时切换，而实时切换会影响确定性。如果朝着越来越独立的趋势发展，融合的价值就不大了——即便将两个芯片集成在一起，晶体管数量可能不变，仅能节省封装成本。对于中低端芯片而言，这部分成本可以节省，但幅度有限。

从长远来看，随着智能驾驶的不断高端化，舱驾融合的意义可能并不显著。如果将这些芯片做得更近，集成在一块电路板上形成小体积的集成化方案，这是可行的，不一定非要集成到一块芯片中，也可以是多块芯片协同工作。

问：自研芯片需要具备哪些条件，例如销量、营收和研发投入？鉴于自动驾驶迭代速度的加快，芯片要实现持续迭代，需要哪些支撑？

谢炎： 芯片的初期投入确实不菲，可能每年需要数亿元。

首要条件是达到一定的营收规模。对于车企而言，年营收达到1000亿元以上，研发投入至少占10%，即每年有数十亿至上百亿元的投入，才足以支撑芯片的研发。第二个条件是，研发的芯片所解决的问题，必须能显著提升产品的核心竞争力。

许多人认为芯片需要巨大的出货量才能摊薄成本。实际上，芯片的成本与面积密切相关。一辆车上的智能驾驶芯片，例如Livis采用两颗马赫M100，总面积约800平方毫米。而一款高端手机芯片的面积大约为100平方毫米，因此一辆车的智能驾驶芯片面积相当于8部高端手机芯片的总和。

这样计算下来，数十万辆车的需求所对应的晶圆面积非常可观，足以有效摊薄成本。因此，不能仅凭单颗芯片的数量来衡量成本。

问：动态数据流编译器在技术上存在哪些难点？攻克这些难点花费了多长时间？

谢炎： 在芯片流片之前，甚至在设计阶段，我们就已经开始了编译器的工作，并在流片前完成了许多模型的运行验证。

数据流架构是一种完全不同的体系，它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信和协作变得极其复杂，无法依赖单一的中央管理员来管理。传统的冯·诺依曼架构调度方式在这种规模下已不可行，这是一个超大规模的并行调度问题。

热门游戏评论

运营专家

玩家ID：游戏达人

玩家ID：攻略分享者

玩家精彩分享

搜索内容

最新动态

广告位

归档

热门标签

联系我们

客服热线

电子邮箱

相关链接

订阅我们

九游官方资讯