近日,AI Benchmark发布了最新的移动SOC推理测试结果。在这个战报其中备受AI圈关注的紫光展锐5G芯片T770取得了86.2K的好成绩
AI标杆是世界的权威AI性能评测平台,由苏黎世联邦理工学院计算机视觉实验室出品。这个实验室由计算机视觉领域的著名学者Luc Van Gool、医学影像学教授Ender Konukoglu和计算机视觉与系统教授Fisher Yu组成。是欧洲乃至世界顶尖的CV/ML研究机构之一。
AI Benchmark覆盖26组测试,共78个测试子项,包括目标识别、目标分类、人脸识别、光学字符识别、图像超分、图像增强、语义分割、语义增强等AI场景。平台/设备的AI能力由CPU和AI加速器从INT8和FP16模型的推理速度、准确率、初始化时间等数据综合衡量。因此,AI Benchmark可以从更客观的角度评价芯片的AI性能。
在12维测试中,共有102个测试数据,T770超过59.8%的数据超过竞品。
具体表现在图像分类、并发场景(量化模型)、物体检测、字符识别、语义分割、图像过评分、图像分割、深度估计、图像增强、文章过评分、自动文本生成等场景。
接下来,让让我们从几个关键的测试维度来看看T770 AI的具体性能:
逐项拆卸MobileNet
首先,让让我们看看MobileNet神经网络的经典维度。这里稍微介绍一下MobileNet的起源:2017年,谷歌提出了一个专注于移动或嵌入式设备的轻量级CNN网络。它最大的创新是深度可分卷积。移动网络-V2是移动网络-V1的改进,是一个轻量级的神经网络。MobileNet-V2保留了V1版本的深度可分卷积,增加了线性瓶颈和逆残差,而MobileNet-V3则是Google基于MobileNet-V2的又一力作,精度和时间都有所提升。MobileNet-V3有哪些变化?它引入了SE结构,修改了尾部结构和通道数,改变了非线性变换。MobileNet-V3提供两个版本,一个是mobileNet-V3 Large,也就是AI Benchmark在本次测试中使用的版本,另一个是MobileNet-V3 Small,分别对应对计算和存储要求高和低的版本。
选择AI-Benchmark的两个版本V2和V3 Large进行测试。下面的数据直方图是什么意思?包含CPU和AI加速器分别对量化和浮点模型的处理性能,主要从推理速度和准确率两个维度评估平台/设备的AI能力,时间单位为毫秒。
灰色条形图代表竞品,紫色代表T770。可以看出,在mobileNet-V2维度上,T770在CPU量化、CPU浮点、加速器量化上基本优于竞品。加速器浮点略有差距。在mobileNet-V3 Large的维度上,T770在CPU量化、CPU浮点、加速器浮点处理上优于竞品,加速器量化上略有差距。这两个数据各有千秋。从MobileNet神经网络的整体维度来看,T770优于竞品。
逐项拆卸事件-v3
incidence-v3架构的主要思想是分解卷积和积极正则化。可以看出,在精度基本相同的情况下,在CPU浮点和加速器量化两个关键维度上,T770运行速度比Inclusions-V3快,加速器浮点模型数据运行速度略有差异,但精度略优于竞品,如下图所示:
按项目拆卸效率网
EfficientNet是谷歌研究人员在ICML 2019年论文《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》中提出的一种新的模型缩放方法。可以看出,T770 running EfficientNet的性能与竞品相当,在CPU浮点、加速器量化、加速器浮点模型数据的运行速度上具有优势。
刚刚提到的MobileNet,Inception-V3、高效的Net网络结构经常被用在图像分类、物体检测、语义分割等技术开发中。这些神经网络结构可以用于常见场景,比如手机相册中的相册分类、手势识别等。它们可用于行业,如快递分拣、头盔检测和头盔识别,在医疗领域,可用于皮肤真菌识别等应用。当然,这些神经网络可以支持的场景并不局限于刚才介绍的那些,利用这些AI能力可以开发出更多基于物体/事物分类的场景。
T70在这些神经网络结构中的良好表现,说明T770有更全面、更强大的能力支持这些场景的发展。
逐项拆卸事故-v3平行
接下来看Incident-V3并行(NN-Int8),你肯定会想,怎么又出现了一个Incident-V3?没你刚才没有表现出来吗?是否重复?有错误吗?当然不是!这里是Incident-V3并行的能力,即同时处理多个Incident-V3,对应的是平台/设备对于AI并发处理的能力。如何理解这种并发处理?给我举个栗子。哦,我今天忘记带栗子了。抱歉().
简单地说,这意味着应用程序同时发出多个任务。简单来说就是同时做两件或两件以上的事情,比如图片分类,手势识别。还是唐我不明白?简单地说,它就像一个人一边吃饭一边刷短文章。
好吧,让让我们来看看具体的数据。下图是AI加速器同时处理1/2/4/8定量模型的能力。可以明显看出T770在AI多任务能力上优势明显。
Yolo-v4微型逐项拆解
让让我们看看Yolo-V4的微小结构。是Yolo-V4的简化版,属于轻量化车型。参数只有600万,相当于原来的十分之一。这大大提高了检测速度,非常有利于在端侧部署。它已广泛应用于智能安防领域,如车辆识别、人员识别、路径预测与跟踪、行为分析、安全帽识别等。
先看一下具体数据,如下图。除了加速器量化模型略有不足,其他都有优点,比如CPU量化,浮点,加速器浮点等。
分解的DPED-逐项记录
看一下T770在DPED-雷斯内特处理维度上的表现,解释一下DPED是DSLR照片增强数据集,而DSLR指的是数码单镜头反光相机,也就是数码单反相机。说到这里,不得不提一篇论文《DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks》,是2017年发表的一篇关于图像增强的神经网络论文。大概的结果是以手机照片为输入,以DSLR相机拍摄的照片为目标,通过网络让他们学习一个映射函数,目的是让手机拍出DSLR照片的效果。
基于DPED,我们可以将旧的或者低质量的照片转换成高质量的照片,转换效果非常好,可以用于照片美化等应用场景。如下图所示,可以看出在speed雷斯网错误率相同的情况下,T770错误率极低,处理速度优势明显。
逐项拆卸LSTM
接下来,让让我们来看看T770在长短期记忆中的表现(LSTM)。由于其独特的设计结构,LSTM适用于处理和预测时间序列中具有很长间隔和延迟的重要事件。LSTM通常比时间递归神经网络和隐马尔可夫模型(HMM)更好,例如,它用于无分割的连续手写识别。
2009年,LSTM构建的人工神经网络模型赢得了ICDAR手写识别比赛。LSTM也广泛用于自主语音识别。2013年使用TIMIT自然语音数据库记录的错误率为17.7%。作为一个非线性模型,LSTM可以作为一个复杂的非线性单元来构建一个更大深度的神经网络。
从下图可以看出,在LSTM处理错误率相同的情况下,T770在处理速度上优势明显。
逐项拆卸U-Net
U-Net是较早的使用全卷积网络进行语义切分的算法之一,以网络语义分割是图像处理和机器视觉技术中图像理解的重要组成部分,也是人工智能领域的一个重要分支。语义分割对图像中的每个像素进行分类,确定每个像素的类别(如背景、人或汽车等。),然后划分区域。目前,语义分割已经广泛应用于自动驾驶、无人机落点确定等场景。U-Net还被应用于医学领域,如医学图像分析,即从医学图像中,提取特定的人体部位,如前列腺& gt;肝脏等等,都是可以识别的。
从下图可以看出,T770和竞品的U网处理错误率极低,而T770的错误率极低,处理速度明显占优。
好吧,那这都是为了数据比较和分析。如果你对T770在其他AI场景下的性能数据感兴趣,可以去AI Benchmark官网自行查看。
从上面可以看出,T770具有良好的AI性能,可以帮助用户在相册分类、物体分类、智能美图、背景虚化、渲染、语音助手、智能家居、车牌识别、人脸识别、文章超分辨率应用场景中实现。除此之外,它还可以满足实时和高并发的AI场景,如车牌识别和人脸识别,同时满足常见的CV/NLP应用场景。
看着T770 AI性能的精彩展示,大家对T770如何在AI上大放异彩有什么疑问吗?让让我们简单介绍一下。
T770有多个设备可以用于AI加速。当然,有时候资源越多并不是一件好事,因为识别、管理和调度资源会变得异常困难。因此,如何让T770上的多个AI加速装置相互配合,发挥最大效率,成为我们技术研发最重要的挑战。
大家都知道三个和尚挑水的故事:一个和尚挑水,两个和尚挑水,三个和尚没水。
故事很简单,道理也很简单。用这个故事,我想在这里表达三个核心问题:
一、任务来了,谁能做?
二、任务来了。谁来做比较合适?
三、工作安排好了吗?你活跃吗?
为解决上述问题,紫光展锐研发了两项核心技术:
1)智能调度:采用智能算法,精确识别每个AI任务最适合在哪个加速器中处理,然后进行分配,使其跟随天赋;
2)设备助推:采用智能调节算法,根据推理任务大小,智能调节加速器负载,使其放松。
正是得益于紫光展锐研发的这两大核心技术,T770在AI性能上大放异彩,能够帮助用户在多变的AI场景中实现丰富的AI场景落地。
而且,紫光展锐还将继续针对多种AI场景进行优化。届时,T770的AI性能将大幅提升,创新不会停止,敬请期待!
注:本文测试数据来自AI Benchmark官网发布。