您的当前位置:套套资讯网 > 娱乐 > 正文

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

DGX SuperPOD系统在MLPerf Training v0.7基准测试中开创了八个全新里程碑,共打破16项纪录。

作者 | 包永刚

雷锋网消息,2020年7月30日MLPerf组织发布第三个版本MLPerf Training v0.7基准测试(Benchmark)结果。结果显示,英伟达基于今年5月最新发布的Ampere架构GPU A100,和HDR InfiniBand实现多个DGX A100 系统互联的庞大集群——DGX SuperPOD系统在性能上分别开创了八个全新里程碑,共打破16项纪录。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

打破MLPerf Training基准测试16项记录

MLPerf是2018年5月成立的行业基准测试组织,在AI火热的当下,获得了芯片巨头和AI芯片公司的广泛关注。为了能够让机器学习处理器的基准测试也像CPU那样,MLPerf组织囊括了该行业中的所有知名企业,比如英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软等。

这些巨头公司也乐于通过MLPerf的跑分证明其AI实力,平头哥在去年11月MLPerf首个版本基准测试成绩公布之后就宣传其AI芯片含光800在Resnet50基准测试中获得单芯片性能第一。

作为AI领域的领军者,英伟达自然也不会错过MLPerf。2018年12月,NVIDIA首次在MLPerf训练基准测试中创下了六项纪录,次年7月NVIDIA再次创下八项纪录。在最新MLPerf Training v0.7基准测试中,有两项新的测试和一项经大幅修订的测试。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

其中,一项基准测试对推荐系统的性能进行了排名,推荐系统是日益普及的一项AI任务。另一项基准测试对使用BERT的对话式AI进行了测试。BERT是现有最复杂的神经网络模型之一。最后,强化学习测试中使用了Mini-go和全尺寸19x19 围棋棋盘。该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。

特别值得一提的是,英伟达是唯一一家在MLPerf Training v0.7测试中均采用市售商用产品的公司。其他大多数提交使用的公司,要么是预览类别(preview category),其所用的产品预计需要几个月后才会面市,要么使用的是研究类别的产品,更是在较长的一段时间内都不会面市。

另外,在提交结果的九家公司中,除英伟达外,还有六家公司多家生态系统合作伙伴也提交了基于英伟达GPU的MLPerf测试结果,其中包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮)。

英伟达18个月内实现AI性能4倍提升

创造纪录的英伟达DGX SuperPOD系统是基于Ampere架构以及Volta架构。雷锋网此前报道,5月份发布的Ampere架构GPU A100基于台积电7nm工艺,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

A100对比V100

由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。

此次,英伟达在Selene上运行了系统的MLPerf测试,Selene是基于DGX SuperPOD的内部集群。DGX SuperPOD是针对大规模GPU集群的公共参考架构,可在数周内完成部署。

根据测试结果,相较于首轮MLPerf训练测试中使用的基于V100 GPU的系统,如今的DGX A100系统能够以相同的吞吐率,在18个月内实现了4倍的性能提升。能够取得这样的成绩还有两大关键——软件和网络连接。

A100 GPU搭配CUDA-X库的软件更新,为通过Mellanox HDR 200Gb/s InfiniBand网络构建的扩展集群提供支持。HDR InfiniBand可实现极低的延迟和高数据吞吐量,同时通过可扩展分层聚合和缩减协议(SHARP)技术,提供智能深度学习计算加速引擎。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?

英伟达能否无人能敌?

英伟达A100发布之后,就有业内人士表示GPU的性能又上了一个台阶,AI芯片初创公司想要超越英伟达的难度有增加了。

说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!