NVIDIA(Jetson_Xavier_NX世上最小嵌入式AI超级计算机)

NVIDIA发布了Jetson Xavier NX,这是世界上最小和最先进的嵌入式AI超级计算机,用于自主机器人和边缘计算设备。Jetson Xavier NX可以在紧凑的70x45mm毫米外形中部署服务器级性能,并可以以15W的功率提供多达21台计算机。ML Perf Impact 0.5是Jetson Nano基于NVIDIA的Xavier pin的最新计算结果,部署工作量可能有限,比如那些基于成本和性能的。

图Jetson Xavier NX处理器引擎框图,包括高速I/O和内存结构。

如图2所示,Jetson Xavier NX包括一个集成的384核NVIDIA Volta GPU、48个张量核和6核NVIDIA Carmel ARMv8。2位CPU、8GB 128位LPDDR4x、双NVIDIA深度学习加速器(NVDLA)引擎、4K文章编码器和解码器、专用摄像头捕捉、多达6个同步高分辨率传感器流、PCIe Gen 3扩展、双显示端口/HDMI 4K显示器、USB 3。1和GPIO,包括SPI、I2C、I2S、CAN总线和UART。特性列表见下表1,完整规格见Jetson Xavier NX模块数据表。共享内存结构允许处理器自由共享内存,无需额外的内存副本(称为零副本),有效提高了系统的带宽利用率和吞吐量。

表Jetson Xavier NX计算模块的特性和功能

* CPU最高工作频率在4/6核模式下为1400MHz,双核模式下为1900MHz。

最大并发流数,达到总吞吐量。支持的文章编解码器:H. 265、H .264、VP9

具体编解码器和配置文件规格参见Jetson Xavier NX模块的数据手册。

每个通道/MIP 2个,总共2个。

1 1 PCIe仅支持根端口,1 1/2/4支持根端口或端点模式。

工作温度范围,Xavier SoC结温(Tj)

Jetson Xavier NX由NVIDIA完整的CUDA -X软件堆栈和JetPack SDK开发套件支持,用于AI开发。除了实时计算机视觉,它还可以在多个高分辨率传感器流上同时运行流行的机器学习框架和复杂的DNN,以加速全桌面Linux环境下的图形和丰富的多媒体应用。Jetson和NVIDIA的AI加速计算平台的兼容性让开发变得更加容易,云和edge之间的MIG无缝匹配。

设计宣传资料Jetson Xavier NX设计指南NX模块将于2020年3月上市,售价399美元。嵌入式设计师可以参考Jetson提供的下载,包括Xavier,为Jetson Xavier NX模块创建生产设备和系统。与Jetson Nano的引脚兼容性允许共享设计和直接技术插入,以升级到Jetson Xavier NX。除了提供现成的载体、传感器和配件,捷成生态系统的硬件设计合作伙伴还可以提供定制设计服务和系统集成。

软件开发人员现在可以开始为Jetson Xavier NX构建人工智能应用程序,方法是使用Jetson AGX Xavier开发工具包,并向JetPack应用设备配置补丁,使设备像Jetson Xavier NX一样运行。通过软件,它将改变可用的CPU和GPU核心的数量,此外还可以设置整个系统的核心时钟频率和电压。这个补丁是完全可逆的,可以用来在硬件可用之前近似Jetson Xavier NX的性能。

Jetson Xavier NX定义了10和15W的默认功率模式,根据活动模式可以实现14到21个峰值性能。用于管理电源配置文件的nvpmodel工具可以调整CPU、GPU、内存控制器和其他SoC时钟的最大时钟频率,以及在线CPU集群的数量——这些设置如表2所示,适用于Jetson Xavier NX预定义的10W和15W模式。CPU分为三组,每组有两个内核。4/6核模式下最高工作频率为1400MHz,双核模式下最高工作频率为1900MHz。对于可能需要更高单线程性能和多线程性能的应用,最大工作频率为1900MHz。

NVIDIA Jetson Xavier NX电源模式

表Jetson Xavier NX 10W和15W功率模式的最大工作频率和内核配置。

*使用NVDLA时,GPU的最高工作频率为600MHz (10W模式)和1000MHz (15W模式)。

根据工作负载,动态电压和频率调节(DVFS)调节器在运行时将频率调整到活动nvpmodel定义的最大限制,从而根据空闲时间的处理器利用率降低功耗。nvpmodel工具还可以根据应用要求和TDP轻松创建和定制新的电源模式。您可以编辑电源配置文件,并将其添加到/etc/NVP模式。一个Conf文件和一个GUI部件被添加到Ubuntu状态栏中,以便在运行时方便地管理和切换电源模式。

深度学习推理基准

NVIDIA今天也宣布在MLPerf中推断为0。5项基准测试在5个类别中的4个类别中占据榜首,其中Jetson AGX Xavier是边缘计算SoC的领导者,包括所有基于视觉的任务:使用Mobilenet和ResNet-50的图像分类,以及使用SSD Mobilenet和SSD ResNet的目标检测。NVIDIA GPUs是十个竞争芯片架构中唯一一个在MLPerf定义的所有五项推理测试中提交结果的。

为了参考Jetson家族成员之间的可扩展性,我们还测量了Jetson Nano、Jetson TX2、Jetson Xavier NX和Jetson AGX Xavier在图像分类、目标检测、姿态估计和分割等常见DNN模型上的推理性能。如下图3所示,这些结果是用JetPack和NVIDIA的TensorRT推理加速器库运行的,它优化了网络的实时性能。这个库是在流行的ML框架(如TensorFlow、PyTorch、Caffe、MXNet等)中训练出来的。).

图3。TensorRT用于推断Jetson家族中各种基于视觉的DNN模型的性能。

Jetson Xavier NX的性能比Jetson TX2高10倍,功耗相同,占用空间小25%。在这些基准测试中,每个平台都以最高的性能运行(MAX-N模式用于Jetson AGX Xavier,Xavier NX和TX2为15W,Nano为10W)。当批大小不超过16ms的延迟阈值时,获得最大吞吐量,否则,对于其平台超过延迟阈值的网络,批大小为1。这种方法在实时应用的确定性低延迟需求和多流用例场景的最大性能之间提供了平衡。

在Xavier Jetson NX和Jetson AGX Xavier上,NVDLA引擎和GPU以INT8的精度同时运行,而在Jetson Nano和Jetson TX2上,GPU以FP16的精度运行。Jetson Xavier NX中张量核的Volta架构GPU可以达到12。3个顶级的计算,这个模块的每个DLA引擎最多可以生成4个。第五频道。

ML框架除了用TensorRT运行神经网络,还可以通过cuDNN和CUDA安装在Jetson上,包括TensorFlow、PyTorch、Caffe/Caffe2、MXNet、Keras等。除了AWS Greengrass等物联网框架和Docker、Kubernetes等容器引擎之外,Jetson Zoo还包括这些预构建的安装程序和构建说明。

突破性的人工智能产品

Jetson Xavier NX为部署下一代自主系统和智能边缘设备开辟了新的机遇,这些设备需要在小、低功耗的空间内实现高性能的人工智能和复杂的DNN,如移动机器人、无人机、智能相机、便携式医疗设备、嵌入式物联网系统等。支持NVIDIA CUDA -X的JetPack SDK提供了开发前沿AI解决方案的完整工具,并以世界领先的性能在云和边缘之间扩展其应用。

关于作者

达斯汀富兰克林(Dustin Franklin)是英伟达Jetson团队的开发者传道者。Dustin有机器人和嵌入式系统的背景。他乐于在社区中提供帮助,并参与Jetson的项目。你可以在NVIDIA开发者论坛或者Github上找到他。

审计郭婷