Tesla AI DAY 深度分析 硬核!
一页总结 Whole summary
系统地总结一下tesla 近几年的发展
Vision部分:
数据标注量方面:
60亿label (含velocity/depth)
250w video clip
1.5 PB存储
高质量数据(diverse, clean, large)
3.1 Refer to Waymo
3.1.1 20w frames, 5 hours
3.1.2 12M labels
Tesla vision (core)
首先提一下特斯拉Vision 的研发历程:
以下是各年份一些重要发布or更新:
2016-
1、RegNet:
2、2D detector
2018-2019
1、加入了multi-tasks learning 并把网络称为:HydraNet
2、BiFPN 后文会详细介绍
3、标注主要以manual labelling 为主
4、Vector space 可以理解为 BEV下面的一个feature space/map,区别于image space, image space更多可以理解为perspective view下的一个空间。
5、自动驾驶系统称为AutoPilot 4.0 ,其实就是现在的L2,集合ACC, ALC/LKA等功能,蓝色是他们的产品线,
2019-2020 可以称为一个milestone
1、各大自动驾驶公司都开始往 Multi-tasks learning 方向进攻
2、Fusion: for smart summon, 为了需要在vector space /(BEV)下更加好地识别车道线,以及为了做到fusion,加入了传感器融合的功能。
3、图中灰色是 former version, 彩色的是这一版本的
4、为了达到scalable, 数据标注从manual label 升级到 auto-labelling
2021 - 7月最新技术
1、亮点:spacial - temporal,在 former version transformer 基础上,加入了时序信息(video module and feature queue)
2、其实不论transformer, 3D convolution, spacial RNN等,这些思路大家都能想到,在这一个公司,能把这么工程的想法实现, 其中包括自称60亿的label 和 250w video clip, 耗费数以万计的计算资源,不知道多少张卡,把这些features 都实现,确实令人佩服。
Tesla HydraNets
图像raw data -- RegNet -- BiFPN -- Backbone输出结果
输入:raw image (12bit HDR) 36Hz,
Sensor 没有过db or ISP,就是1920x960图像
图像不是rgb图像,也不需要处理三通道图像
12bit 能给到更大广度的光照范围,在夜晚场景下,对面车的车灯强光照射这种高对比度的环境下,更加能把握暗处的细节,不至于因为这种场景下,暗处的物体检测不到的现象。
36hz high frame rate 有助于在高速场景下,神经网络能汲取跟多信息,更快做出反应,实时性更加好
BiFPN:
Multi-tasks
Smart Summon -- multicam lane & road curve
problem
solution
Transformer
利用transformer, 对8 cameras 2D pixel 下的features, 在3D BEV下做一个融合
不直接乘Homography, 而是让网络implicitly学习外参
鼻祖transformer 论文:Attention is all you need, arxiv.org/pdf/1706.0376 2017
Positional encoding: kazemnejad.com/blog/tra
Virtual Camera
我们怎么去训练virtual camera 的参数呢?
为什么还要做一个畸变还原呢?
先大层面概括下 Tesla 目前(2021.8.19)所展示的总架构为:
预测前车的轨迹,即前面的车大概率会往前或往左拐
可预测未来的可行驶区域
Transformer: 这里有篇论文大家可以参考看看:AXIAL ATTENTION IN MULTIDIMENSIONAL TRANSFORMERS arxiv.org/pdf/1912.1218
其实当时Andrej轻描淡写30秒把3D convolution or Transformer的方法给讲过去了,实际上如果要复现,估计一个季度的时间也不一定可以..