首页 > 科技快讯 > 美光入局AI处理器

美光入局AI处理器

晰数塔互联网快讯
2019-11-08 11:04

编者按：本文来自微信公众号“半导体行业观察”（ID：icbank），作者 venturebeta，36氪经授权发布。

来源：内容由半导体行业观察（ID：icbank）编译自「venturebeta」。

早前，全球最大的存储芯片制造商之一的美光科技（Micron Technology）收购了人工智能硬件和软件初创公司Fwdnxt时，此举可能非常有趣。如果能取得成果，Fwdnxt可以使美光科技与英特尔和英伟达等合作伙伴进行直接竞争，因为美光科技认为内存和AI计算正在融合到同一个架构中。

美光这个项目的负责人人之一是史蒂夫·帕洛夫斯基（Steve Pawlowski），这是前英特尔芯片架构师，他拥有数十项专利。Pawlowski现在是美光公司高级计算解决方案副总裁。

与美光的存储芯片结合使用时，Fwdnxt（发音为“ forward next”）将使美光能够具备探索数据分析所需的深度学习AI解决方案的能力，尤其是物联网和边缘计算。也许它将制造基于AI的存储芯片，或者包括AI的存储芯片。

美光公司首席执行官Sanjay Mehrotra说，美光公司正在从事这项工作，因为“昨天的计算体系结构不适用于明天……从长远来看，我们认为计算最好在内存中完成。”

下面是我们对美光的一个采访剪辑：

Steve Pawlowski： 2014年，我离开英特尔时来到了美光，当时他们说：“您想做什么？”我说：“我坚信计算和内存的融合对于提高性能和降低延迟至关重要。而你们是一家记忆公司。你们拥有技术，我想在这里解决这个问题。”他们说，“好。”

我有一个小组，专注于发现计算和内存的问题。我们先可以开始测试，开始将概念引入产品中，但不会增加成本。我在英特尔学到了一件事，这是我永远不会忘记这个故事：我们曾经拥有数学协处理器。80287，80387。我们在387上赚了可观的钱。我们有一个聪明的主意，那就是如果将协处理器集成到486中，我们可以更快更好地做到。我们做到了，突然之间我们没有了足够的足迹（footprint.）。不需要它的人说：“您不需要为此死区向我收费。”而需要它的人说，“您将与其他人一样付给我，因为我是一个有利的客户。”实际上，整个业务归于零。

我在当中获取的教训是：直到有绝大多数人从中获得真正价值之前，您不能增加更多的复杂性和成本，并希望人们立即支付费用。因此我们关注的重点是找到人们今天可以从中获得价值的关键事物，然后看看您是否可以随着时间的推移扩大泡沫。我将其视为八到十年的旅程。在那些年末，我可能回头一看，意识到我耗费了他们。或者我可以回头说：“哇，我们可能还没到这里，但是我们做得很好。”

VentureBeat：关于此可能产生的结果，这引发了很多想象力，但是您是否会暗示某些特定的内容？

Pawlowski: 有一件事，你在这里已经听过很多次了，那就是AI在边缘。我们关注这个问题的原因是，没有一个现成的编程模型或现成的架构可以让你与市场竞争。可以说，每个人都在争着进入同一个市场。寻找机会去那里做点什么。人们不会看着你说:“美光是一家内存公司。你为什么要谈这个?“他们是这样看的——我们在FPGA上有这种能力，我们的高性能内存和架构映射在FPGA上。我们负责处理所有的抽象，所以你不必成为一个VHDL程序员。您愿意开始处理数据集的问题吗?

有趣的是，我并不需要去推动它。我们一直在参加FPGA会议之类的活动。主要是政府机构来说，“我们这里有个问题。我们想在这方面多做些尝试。“政府的问题是，他们很早就兴奋起来了，但如果你想做什么事，那就得花很长时间。”采购周期很长。合同是长期的，还有其他一切。

我们决定着眼于一般市场。有一家汽车公司来了，他们说，“我们还没有达到Level 5，但我们肯定可以生产达到Level 3，Level 4的自动驾驶汽车，我们希望能够利用网络告诉我们正在发生什么。这看起来是有趣的。你愿意和我们一起工作吗?内部很多人说:“他们为什么对与你合作感兴趣?”“这是因为我不会进来告诉他们需要做什么。我说，“这就是我们所拥有的。我们能为您做些什么?他们说:“好吧，你愿意听我们的。这是我们的问题。”

信不信由你，我从2005年AMD推出的Opteron中吸取了教训。当时我们仍在推广7千兆位处理器、33级流水线，并且没有人去那里。我们去了华尔街，那是您想要爬进贝壳的一刻，因为它们确实被照亮了。但我说:“你能再给我们一次机会吗?”我们能坐下来了解一下我们的工作量吗，和你一起工作，然后我收回那句话，我们可以创造更好的产品吗?我们做到了。

瑞银(UBS)，我记得他们在一篇专栏文章中写道，“你可能造不出最大的芯片，也造不出最好的芯片，但你来了，就理解了我的问题。”“这是真正理解客户和他们的问题，以及你能做什么。如果你这么做了，却没有帮助他们，嘿，你学到了一些东西。

VentureBeat:那是不是以为着你们在开发一种新的记忆体，还是弄清楚了在哪里进行处理?

Pawlowski：答案是肯定的。但它是真正理解动态的。顺便说一下，这取决于模型。我刚才和下面的人聊了聊有些语言模型需要100 GB的参数。当你看到有人说，“嘿，我有2 GB，4 GB时，”这适用于大多数型号，但不是所有型号。模型真的在进化。

这也取决于解决方案的延迟。我不知道你们是否看过下面OHSU的视频那位女士患了乳腺癌。他们需要大量的数据，因为他们想把所有的电子显微镜图像放在一起，建立一个3D卷积模型，即肿瘤的3D表示。他们没有足够的时间进行讨论，因为他们想要在一天甚至一个小时内获得可操作的见解。我们与CERN的合作，现在需要数据。我们必须在微秒内做出决定。这是有趣的事情还是我们将其放在地板上？

不同的解决方案需要不同类型的存储。英特尔的经历让我清楚知道程序中的指令是什么。我也知道他们是如何在机器中执行的，然后进入系统。所以当我来到美光时，我唯一看到的就是地址和命令。读/写命令和地址。我完全不理解，这个东西是把15个不同的东西复制到不同的元素（elements）上，还是覆盖，还是什么?有了我们在6月合作和收购的公司，我们就可以构建这些算法，运行它们，看看整体效果如何。

我们的首要目标是，我们可以在内存存储中做什么以缩短解决方案的时间？我们总是可以建立更高的带宽，但那不一定能让你达到目的。有什么可以做的，例如散射张量阵列（scatter tensor arrays）？如果我们可以建立一个可以引入矩阵的缓冲区，并且让我们能够一口气将矩阵转移过来，而不只是随便找东西去寻找，这可能会有很大的好处。

最终，我们还要看到的是-其中大多数是乘法和累加架构，非常简单。它们只是被复制了数千次。实际上，一旦晶体管变得更好一点，您就可以建立一个相当好的乘法并在存储设备中进行累加。最终，您能否采用该架构，然后将其放入存储设备本身？这是长远的愿景。

我想做的是，无论我们做什么，我们都要建立一个编程基础设施和一个范例，这样人们就不必每次迁移时都重写他们的代码。在我看来，这就是英特尔的巨大成功。当我们做386的时候，还没有32位的软件。但它确实能很好地运行16位代码。人们买它就是为了这个。你有很多平台，然后人们说，“好吧，现在我们去优化32位。“486在六到八年后问世时，就有软件可以利用它，它变成了一台永不回头的机器。

从内存开始，首先是存储，我们能做什么。然后我们就会看到，随着时间的推移，什么可以真正迁移。答案可能是什么都不是。答案可能是一切。我想是在中间的某个地方。这取决于你把“针”移到哪里。

VentureBeat：您门已经和Fwdnxt携手。他们能统共一个相当全面的作品，那么您还需要找到很多合作伙伴吗？

Pawlowski：我们将需要大量的合作伙伴和数据科学家。Fwdnxt拥有一批已经开发了五年，十年，十二年，具备资深推理引擎架构经验的人。同时他们也有不同公司和不同的学术背景。创建它的人是普渡大学的教授。他们一直在优化该架构。他们有一个相当不错的编译器，可以使用Open Network Exchange前端，然后将其映射到其硬件。

后面我需要的是数据科学家，我需要应用。我还认为我们将需要动态的运行时/调度程序（runtime/scheduler）。如果您真的有这样的模型——如果今天我在硬件上，在Intel处理器上写了一个网络，那么三年以后，您仍然可以运行相同的程序。这一切都是通过指令集来抽象的。我在这里要做的是抽象网络，这意味着我们将需要某种类型的动态运行时。这就是说，“好吧，这东西有8,000个乘法和累加单元。这有1,000个。我可以把那东西扩散一点。或者说，哦，这150个单元死亡（die）了。我不想在上面安排任何东西，但我仍然希望能够使用该部件。”

有一些实体正在研究解决动态运行时（dynamic runtime ）问题，我认为这将非常重要。特别是。我曾经从一个在Intel负责Litho的人那里听到，他们相信当达到5nm以下时，他们认为30％的设备在制造时将会超出规格。

VentureBeat：这是否意味着和Intel和Nvidia有更多的竞争？

Pawlowski：其实是将有更加合作。任何人在数据中心很难与英特尔和英伟达竞争。Nvidia的训练时长也已经坐稳。即使人们提出了很多新的解决方案。但不止一家初创公司告诉过我，哪些做超大规模训练的人告诉他们：“将我们的训练算法从GPU移出是如此困难。他们也做得很好了，但他们仍然在给我们带来性能提升。所以不要再花时间做这样的事了。”而且，我听到的最后一个，我听到的最后一个统计数据是，推理的很大一部分仍在至强处理器上进行。

我们一直在聚焦，如果我们要在数据中心中做任何事情，这将为Nvidia和Intel之类的客户提供帮助。但是，如果从内存存储的角度来看有可能发生任何创新，那么让我们从边缘进行研究。这就是我们将获得最大效率和规模经济的地方。

VentureBeat：摩尔定律部分还好吗？你按计划吗？

Pawlowski：这是一个挑战，但这并没有阻止我们继续微缩。老实说，我必须永远保持摩尔定律。您不可对摩尔定律说不好！因为那是第十一条诫命。当人们问我的时候，正是Dennard缩放的缓慢和停止才真正推动了创新。现在，我们可能不会每两年获得两倍的晶体管增加。时间也许会增加到每三四年一次。但是，我们将在第三维度入手。所以这并没有阻止我们。问题的关键是什么才是最经济的方法。而工程师正在寻找解决难题解决方案。