首页 > 科技快讯 > 教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

晰数塔互联网快讯
2019-12-18 15:11

编者按：本文来自微信公众号“新智元”（ID：AI_era），作者：新智元编辑部，36氪经授权发布。

又到了一年一度的英伟达GTC China大会，NVIDIA 创始人兼首席执行官黄仁勋又是一身黑色皮衣亮相苏州，为大家分享了英伟达取得的成绩：NVIDIA已经售出15亿块GPU。

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

据悉，这是有史以来参会人数最多的一次，现场有超过6100人参会，比三年前增长了250%。

黄教主一口气讲了两个多小时，先奉上黄仁勋这次的演讲重点：

NVIDIA加速计算，持续加速着图形，HPC及AI领域的计算任务。

在过去的一年中，又有三大类应用成功运行在了 NVIDIA 的平台上：光线追踪(RTX)，5G(Aerial)，以及最新的基因组处理(Parabricks)。

NVIDIA 与腾讯 Start 团队携手将游戏带到了云端。

NVIDIA与 ARM平台现在可以结合进行高性能计算。

在人工智能领域，推荐系统是驱动互联网的引擎，现在通过深度推荐网络，这类最重要的应用可以获益于 GPU 的加速。

TensorRT 7 现在可以加速所有种类模型的线上推理-CNN，Transformer & RNN网络

运用 TRT7，对话式AI现在可以变得有互动性和更加自然。

Orin 是NVIDIA最新的机器人平台芯片——更快，可以处理更高精度的传感器感知数据，以及拥有世界级的安全和防范能力。

在创建下一代人工智能——智能机器人——的征途上，NVIDIA的 Isaac SDK 提供了模拟仿真和训练的平台，开放了计算能力，多种预训练模型，及多种参考应用样例。

重磅发布TensorRT 7，支持超千种计算变换

今天黄仁勋也正式发布了TensorRT 7，并称其是“我们实现的最大飞跃”。

TensorRT是一种计算图优化编译器，以如TensorFlow等深度学习框架训练得到的模型作为输入，为CUDA GPU生成优化了的模型运行时。

TensorRT 通过寻找计算图中可以融合的节点和边，从而减少计算和内存访问。

去年在GTC China大会上，英伟达发布了TensorRT 5，支持自动低精度推理，将FP32模型转换成FP16或INT8模型，而不损失准确率。

但TensorRT 5仅支持CNN，这是一个不足，因为大多数语音模型需要RNN的支持，而语音推理需要大量的工作负载。

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

今天发布的TensorRT 7解决了这一不足，它支持各种类型的RNN，Transformer 和 CNN。相比TRT5 只支持30种模型，TRT 7能够支持多达1000种不同的计算变换和优化，包括最新的BERT、RoBERTa等。

TensorRT 7能够融合水平和垂直方向的运算，可以为开发者设计的大量RNN配置自动生成代码，逐点融合LSTM单元，甚至可跨多个时间步长进行融合。并且尽可能做自动低精度推理。

那么，TensorRT 7能做什么？

TensorRT 7强大功能的典型代表是支持交互式会话AI。作为NVIDIA第七代推理软件开发套件，它为实现更加智能的AI人机交互打开了新大门，从而能够实现与语音代理、聊天机器人和推荐引擎等应用进行实时互动。

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

AI在语音和自然语言理解方面的突破使会话AI成为可能，但会话是交互式、应答式的，因此低延迟至关重要。

一套端到端的流程可能由二三十种模型组成，用到不同的模型结构，包括CNN、RNN、transformer、自编码器、MLP等。

TensorRT 7内置新型深度学习编译器，该编译器能够自动优化和加速递归神经网络与基于Transformer的神经网络。

使用CPU推理，这样一套流程的延迟是3秒。现在，使用TensorRT 7，我们可以对所有模型进行编译，使其在NVIDIA GPU上运行。T4 GPU上推理会话AI只需要0.3秒。与在CPU上运行时相比，会话式AI组件速度提高了10倍以上，从而将延迟降低到实时交互所需的300毫秒阈值以下。

黄仁勋在主题演讲中表示：“我们已进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能，为世界各地的开发者提供工具，使他们能够构建和部署更快、更智能的会话式AI服务，从而实现更自然的AI人机交互。”

自主机器平台DRIVE AGX Orin，全面助力L2-L5自动驾驶

本次发布平台名为NVIDIA DRIVE AGX Orin。内置全新Orin系统级芯片，晶体管数量达到170亿个，集成NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器，每秒可运行200万亿次计算，几乎是NVIDIA上一代Xavier系统级芯片性能的7倍。

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络，能够支持从L2级到L5级完全自动驾驶汽车开发的兼容架构平台，助力OEM开发大型复杂的软件产品系列。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程，因此开发者能够在一次性投资后使用跨多代的产品。

NVIDIA创始人兼首席执行官黄仁勋表示：“打造安全的自动驾驶汽车，也许是当今社会所面临的最大计算挑战。实现自动驾驶汽车所需的投入呈指数级增长，面对复杂的开发任务，像Orin这样的可扩展、可编程、软件定义的AI平台不可或缺。”

Navigant Research首席研究分析师Sam Abuelsamid表示：“ NVIDIA对交通运输行业的长期承诺，以及其创新的端对端平台和工具，已经构成了一个广阔的生态系统。几乎每家自动驾驶汽车领域的企业，都在其计算堆栈中使用NVIDIA的解决方案。Orin可以看作是整个行业向前迈出的重要一步，它将帮助我们在这个技术不断发展的行业中书写新的篇章。”

NVIDIA DRIVE AGX Orin系列将包含一系列基于单一架构的配置，并将于2022年开始投产。

新版Isaac软件开发套件，为构建自主机器统一平台树立里程

NVIDIA发布全新版本Isaac软件开发套件（SDK），为机器人提供更新的AI感知和仿真功能。

Isaac SDK包括Isaac Robotics Engine（提供应用程序框架），Isaac GEM（预先构建的深度神经网络模型、算法、库、驱动程序和API），用于室内物流的参考应用程序以及Isaac Sim的第一个版本（提供导航功能）。

教主黄仁勋亮相GTC China：英伟达已售出15亿块GPU，重磅发布TensorRT 7

为了加快AI机器人的开发速度，全新Isaac SDK包括各种基于摄像头的感知深度神经网络。其中：

对象检测——识别用于导航、交互或操控的对象

自由空间分割——检测和分割外部世界，例如确定人行道在哪里，以及机器人可以在哪里行驶

3D姿态估计——了解目标的位置和方向，从而实现诸如机械臂拾取物体的任务

2D人体姿态估计——将姿态估计应用于人，这对于与人互动的机器人（例如配送机器人）和协作机器人（专门设计用于与人合作）非常重要

推出Isaac Sim

新版本引入了一项重要功能——使用Isaac Sim训练机器人，并将所生成的软件部署到在现实世界中运行的真实机器人中。这有望大大加快机器人的开发速度，从而实现综合数据的训练。

多机器人Sim来了

全新SDK也提供了多机器人仿真。这使开发人员可以将多个机器人放入仿真环境中进行测试，以便它们学会彼此相关的工作。各个机器人可以在共享的虚拟环境中移动时，运行独立版本的Isaac导航软件堆栈。

Isaac与DeepStream集成

全新SDK还集成了对NVIDIA DeepStream软件的支持，该软件广泛用于处理分析功能。开发人员可以在支持机器人应用程序的边缘AI部署DeepStream和NVIDIA GPU，以实现对视频流的处理。

使用Isaac SDK进行编程

对于已经开发了自己代码的机器人开发人员，全新SDK也能集成他们的工作，并添加了基于C编程语言的新API。这使开发人员可以将自己的软件堆栈连接到Isaac SDK，并最大程度地减少编程语言转换——为用户提供通过C API访问路由的Isaac功能。

全新Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能，从而可以在各种环境和情况下对机器人进行测试和验证。这样一来，可以节省成本。可以说，在建立统一的机器人开发平台以实现AI、仿真和操控功能方面，Isaac SDK迈出了重要的里程碑。