特斯拉的最终形态：一家人工智能科技公司

驾驶哥 2021年8月23日浏览：1850

2021 年 8 月 20 日，特斯拉 AI 日终于在预热了一个月以后正式开始了。

这次特斯拉依然没有让人失望，「一大堆」高科技技术展示了出来，包括，神经网络算法技术、超级计算机 Project Dojo、D1 芯片，真人形态的特斯拉机器人原型。

看了整场发布会，可以得出一个对特斯拉全新的认识，特斯拉虽然以汽车企业的形态存于市场，但 Ta 本质上是一家人工智能公司，而且特斯拉以数据、神经网络算法、超算平台构建了一条又宽又深的护城河。

下面展开聊聊。

特斯拉的最终形态：一家人工智能科技公司的图2

纯视觉方案以及 HydraNets

在 AI Day 之前的预热中 Dojo 出现的频次比较高，但在发布会正式开始后首先开讲的并不是期待已久的 Dojo 而是先介绍了纯视觉的自动驾驶方案以及背后的神经网络算法。

为了便于理解发布会中所讲的内容，我们必须先介绍一个背景：就是特斯拉自动驾驶方案的选择。

我们都知道的是 Autopilot 系统是特斯拉自研的自动驾驶系统，这套系统最大的特点是采用视觉感知方案，从 Autopilot 1.0 到现在的 FSD Bate V9.0 版本这套系统的变化则是，特斯拉取消了系统中的雷达，将用摄像头视觉和深度神经网络来支撑整个系统的运行，V9 版本 FSD 已经切换到了纯视觉。

而取消雷达让市场对与特斯拉自动驾驶的能力以及安全性提出来质疑，大部分人认为摄像头有天然的不足，感知融合方案则是传感器之间的相互补充，从而达到对环境感知能力的最优化。

而今天特斯拉就介绍了，Ta 如何利用纯视觉感知和深度神经网络来实现高级别自动驾驶。

首先开讲的是特斯拉 AI 总监 Andrej Karpathy 博士，他介绍，特斯拉纯视觉自动驾驶系统通过 8 个1280×960 12-Bit HDR 36Hz 摄像头的数据输入进单个神经网络中，整合成 3D 环境的感知，这被称为 Vector Space。

特斯拉纯视觉方案，基本构建原则是把自动驾驶系统看作一个生物，有眼睛、有神经、有大脑。他们从头设计了神经网络，按照生物视觉方法去建模，并利用多头路线，其中包括相机校准、缓存、队列和优化以简化所有任务。

简单理解就是，特斯拉在设计汽车中的视觉时，是按照人眼感知生物视觉的方式进行建模，那么全车 8 个摄像头的数据会输入到一个矢量空间内，经过神经网络计算时，自动驾驶电脑会不断缩小分辨率，同时提升通道数量，通过不同的数据输入创建不同的执行结果用于不同的功能和目的。

Karpathy 还展示了过去特斯拉识别单张图片算法的视频。在过去曾分享过的FSD的视频中可以看出，虽然每个摄像头的检测很好，但事实证明矢量空间是不够的。

而特斯拉现在的纯视觉算法「HydraNets」基于不同摄像头的视觉内容进行识别，到这里其实才到整个纯视觉的精髓，HydraNets（神经网络算法）是这套系统的核心，按照 Karpathy 博士所说 Ta 有几个特性，一，能够独立调节微任务；二，高效预测；三，做特征标注。

目前，纯视觉与采用感知融合的明显出现了区别，特斯拉在纯视觉上越走越远，但采用纯视觉就要解决有的问题，比如，多传感器融合算法的精密与优先权；还有就是摄像头能否展示真实的物理空间。

也就是说，去掉雷达后就要要求特斯拉用摄像头实现距离、速度、高度以及加速度等信息，用单纯的摄像头实现这些显然有困难，那么特斯拉的做法是利用深度神经网络来增加象限。

这就要提到 RNN（Recurrent Neural Network循环神经网络），什么是 RNN?

RNN是一种特殊的神经网络结构, 它是根据「人的认知是基于过往的经验和记忆」这一观点提出的，RNN 之所以称为循环神经网路，因为它是基于一个序列当前的输出与前面的输出也有关来处理信息。

通过记忆来处理任意时序的输入序列，来预测接下来即将发生的事情。这里面提到一个关键词「预测」。

简单理解就是，给到系统当前汽车周围的行人、车辆和其他障碍物的移动路径，RNN 就可以预测接下来的移动轨迹，包括位置、速度和加速度。

特斯拉采用 Transformer 算法用于预测距离。实际测试发现，在一段两侧都停放车辆的城市道路上，多摄像头感知的准确性和稳定性都要强大很多。

红绿灯左转是对于自动驾驶的巨大挑战，当车辆在道路上行驶并通过交叉路口时，神经网络会通过 RNN 进行预测。并在虚拟环境中进行多次模拟，以进一步改善路径规划和理解。

这套算法的特点是，特斯拉可以用海量的数据进行快速迭代，而对于数据最重要的处理就是标注，特斯拉表示，他们的数据并没有外包给第三方标注，而是自己建立了一个 1000 人左右的团队。

特斯拉的最终形态：一家人工智能科技公司的图8

但特斯拉一开始是基于 2D 图像数据标注，但现在特斯拉转向了 4D 图像后可以在向量空间中进行标注。不过，对于高阶的自动驾驶能力，光靠手动标注并不能满足需求，因此，特斯拉开发了自动标注工具。

特斯拉自动驾驶软件负责人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何从一辆正在行驶的汽车中「重建」出来的。这有效地让特斯拉能够更快地标记数据，同时允许车辆即使在存在遮挡的情况下也能安全准确地导航。

特斯拉的最终形态：一家人工智能科技公司的图9

除了以上，特斯拉还有一个仿真模拟系统。

特斯拉利用一个新的仿真程序，来测试边缘情况和其他可能遇到的问题特斯拉表示，就像是 Autopilot 扮演玩家的视频游戏。

特斯拉的模拟（simulation）大有裨益。目前已经帮助特斯拉确定了行人、自行车和车辆检测和运动学。

特斯拉的最终形态：一家人工智能科技公司的图10

车辆中的网络已经能够得出 3.71 亿个模拟图像和 4.8 亿个立方体。

特斯拉的自动驾驶场景模拟系统能够根据现实视频自动对场景进行标注，重建场景，最后得出合成场景，该系统包括五个部分：

准确传感器模拟；
逼真渲染；
各种路上的事物和定位；
可扩展的场景生成；
情景重构。

总体来说，特斯拉在软件上实现了技术栈的闭环，强大的数据能力可以用于算法的迭代，而算法可以让纯视觉方案达到它的最优能力，从目前北美推动的 FSD Bate 系统的表现能力来看这套技术依然还在持续进化中。

特斯拉的最终形态：一家人工智能科技公司的图11

Dojo

在「AI Day」发布会的邀请函上，放着一张夸张的芯片图。该芯片才用了非常规的封装形式，有多层结构组成具体有：

第一层和第五层铜质结构是水冷散热模块；
红色圈出的第二层结构由 5*5 阵列共 25 个芯片组成；
第三层为 25 个阵列核心的 BGA 封装基板；
第四层和第七层应该只是物理承载结构附带一些导热属性；
蓝色圈出的第六层应该是功率模块，以及上面竖着的黑色长条，很可能是穿过散热与芯片进行高速通信的互联模块。

从第二层结构的圆形边角，以及拥有 25 个芯片结构来看，非常像 Cerebras 公司的 WSE 超大处理器，即才特斯拉可能采用了 TSMC（台积电）的 InFO-SoW（集成扇出系统）设计。

所谓 InFo-SoW 设计，简单理解来说就是原本一个晶圆（Wafer）能够「切割」出很多个芯片，做成很多个 CPU/GPU 等类型的芯片（根据设计不同，光刻时决定芯片类型），而 InFo-SoW 则是所有的芯片都来自于同一个晶圆，不但不进行切割，反而是直接讲整个晶圆做成一个超大芯片，实现 system on wafer 的设计。

这么做的好处有三个：极低的通讯延迟和超大的通讯带宽、能效的提升。