英特爾Naveen Rao：企業(yè)級(jí)人工智能需要更全面的方法

不僅是CPU或者GPU

英特爾

2018-05-24 19:03 6202

在5月23日舊金山舉行的英特爾人工智能開發(fā)者大會(huì)上，我們介紹了有關(guān)英特爾人工智能產(chǎn)品組合與英特爾 Nervana? 神經(jīng)網(wǎng)絡(luò)處理器的最新情況。

北京2018年5月24日電 /美通社/ -- 5月23日，在舊金山舉行的英特爾人工智能開發(fā)者大會(huì)上，英特爾公司全球副總裁兼人工智能產(chǎn)品事業(yè)部總經(jīng)理Naveen Rao發(fā)表了演講，以下為全文：

在5月23日舊金山舉行的英特爾人工智能開發(fā)者大會(huì)上，我們介紹了有關(guān)英特爾人工智能產(chǎn)品組合與英特爾 Nervana? 神經(jīng)網(wǎng)絡(luò)處理器的最新情況。這是令人興奮的一周，英特爾人工智能開發(fā)者大會(huì)匯集了人工智能領(lǐng)域的頂尖人才。我們意識(shí)到，英特爾需要與整個(gè)行業(yè)進(jìn)行協(xié)作，包括開發(fā)者、學(xué)術(shù)界、軟件生態(tài)系統(tǒng)等等，來釋放人工智能的全部潛力。因此，我很興奮能夠與眾多業(yè)內(nèi)人士同臺(tái)。這包括與我們共同參與演示、研究和實(shí)踐培訓(xùn)的開發(fā)者，也包括來自谷歌*、AWS*、微軟*、Novartis*、C3 IoT*的諸多支持者。正是這種廣泛的合作幫助我們一起賦能人工智能社區(qū)，為加快人工智能領(lǐng)域的技術(shù)創(chuàng)新和進(jìn)步提供所需的硬件和軟件支持。

本文作者:Naveen Rao 英特爾公司全球副總裁兼人工智能產(chǎn)品事業(yè)部總經(jīng)理

Naveen Rao發(fā)表演講

在加速向人工智能驅(qū)動(dòng)的未來計(jì)算過渡之時(shí)，我們需要提供全面的企業(yè)級(jí)解決方案。這意味著我們的解決方案要提供最廣泛的計(jì)算能力，并且能夠支持從毫瓦級(jí)到千瓦級(jí)的多種架構(gòu)。企業(yè)級(jí)的人工智能還意味著支持和擴(kuò)展行業(yè)已經(jīng)投資開發(fā)的工具、開放式框架和基礎(chǔ)架構(gòu)，以便更好地讓研究人員在不同的人工智能工作負(fù)載中執(zhí)行任務(wù)。例如人工智能開發(fā)者越來越傾向于直接針對(duì)開源框架進(jìn)行編程，而不是針對(duì)具體的產(chǎn)品軟件平臺(tái)，這樣有助于更快速、更高效的開發(fā)。我們?cè)诖髸?huì)上發(fā)布的消息涉及所有這些領(lǐng)域，并公布了幾家新增的合作伙伴，這都將幫助開發(fā)者和我們的客戶更快速地從人工智能中受益。

針對(duì)多樣化的人工智能工作負(fù)載而擴(kuò)展的英特爾人工智能產(chǎn)品組合

英特爾近期的一項(xiàng)調(diào)查顯示，在我們的美國(guó)企業(yè)客戶中，50%以上都正在轉(zhuǎn)向采用基于英特爾^®至強(qiáng)^®處理器的現(xiàn)有的云解決方案來滿足其對(duì)人工智能的初步需求。這其實(shí)肯定了英特爾的做法 -- 通過提供包括英特爾^®至強(qiáng)^®處理器、英特爾^® Nervana?和英特爾^® Movidius?技術(shù)以及英特爾^® FPGAs 在內(nèi)的廣泛的企業(yè)級(jí)產(chǎn)品，來滿足人工智能工作負(fù)載的獨(dú)特要求。

我們今天討論的一個(gè)重要內(nèi)容是對(duì)英特爾至強(qiáng)可擴(kuò)展處理器的優(yōu)化。與前一代相比，這些優(yōu)化大幅提升了訓(xùn)練和推理性能，有利于更多公司充分利用現(xiàn)有基礎(chǔ)設(shè)施，在邁向人工智能初始階段的過程中降低總體成本。最新的英特爾 Nervana 神經(jīng)網(wǎng)絡(luò)處理器（NNP）系列也有更新消息分享：英特爾 Nervana 神經(jīng)網(wǎng)絡(luò)處理器有著清晰的設(shè)計(jì)目標(biāo)，即實(shí)現(xiàn)高計(jì)算利用率，以及通過芯片間互聯(lián)支持真正的模型并行化。行業(yè)談?wù)摿撕芏嘤嘘P(guān)理論峰值性能或 TOP/s 數(shù)字的話題；但現(xiàn)實(shí)是，除非架構(gòu)設(shè)計(jì)上內(nèi)存子系統(tǒng)能夠支撐這些計(jì)算單元的充分利用，否則很多計(jì)算是毫無意義的。此外，業(yè)內(nèi)發(fā)表的很多性能數(shù)據(jù)采用了很大的方形矩陣，但這在真實(shí)的神經(jīng)網(wǎng)絡(luò)中通常是不存在的。

英特爾致力于為神經(jīng)網(wǎng)絡(luò)開發(fā)一個(gè)平衡的架構(gòu)，其中也包括在低延遲狀態(tài)下實(shí)現(xiàn)芯片間高帶寬。我們的神經(jīng)網(wǎng)絡(luò)處理器系列上進(jìn)行的初步性能基準(zhǔn)測(cè)試顯示，利用率和互聯(lián)方面都取得了極具競(jìng)爭(zhēng)力的測(cè)試結(jié)果。具體細(xì)節(jié)包括：

使用A（1536, 2048）和B（2048, 1536）矩陣大小的矩陣-矩陣乘法（GEMM）運(yùn)算，在單芯片上實(shí)現(xiàn)了高于96.4%的計(jì)算利用率¹。這意味著在單芯片上實(shí)現(xiàn)大約38 TOP/s 的實(shí)際（非理論）性能¹。針對(duì) A（6144, 2048）和B（2048, 1536）矩陣大小，支持模型并行訓(xùn)練的多芯片分布式 GEMM 運(yùn)算實(shí)現(xiàn)了近乎線性的擴(kuò)展和96.2%的擴(kuò)展效率²，讓多個(gè)神經(jīng)網(wǎng)絡(luò)處理器能夠連接到一起，并打破其它架構(gòu)面臨的內(nèi)存限制。

在延遲低于790納秒的情況下，我們測(cè)量到了達(dá)到89.4%理論帶寬的單向芯片間傳輸效率³，并把它用于2.4Tb/s的高帶寬、低延遲互聯(lián)。

這一切是在總功率低于210瓦的單芯片中實(shí)現(xiàn)的，而這只是英特爾 Nervana 神經(jīng)網(wǎng)絡(luò)處理器原型產(chǎn)品（Lake Crest）。該產(chǎn)品的主要目標(biāo)是從我們的早期合作伙伴那里收集反饋。

我們正在開發(fā)第一個(gè)商用神經(jīng)網(wǎng)絡(luò)處理器產(chǎn)品英特爾 Nervana NNP-L1000（Spring Crest），計(jì)劃在2019年發(fā)布。與第一代 Lake Crest 產(chǎn)品相比，我們預(yù)計(jì)英特爾 Nervana NNP-L1000將實(shí)現(xiàn)3-4倍的訓(xùn)練性能。英特爾 Nervana NNP-L1000還將支持 bfloat16，這是業(yè)內(nèi)廣泛采用的針對(duì)神經(jīng)網(wǎng)絡(luò)的一種數(shù)值型數(shù)據(jù)格式。未來，英特爾將在人工智能產(chǎn)品線上擴(kuò)大對(duì) bfloat16的支持，包括英特爾至強(qiáng)處理器和英特爾 FPGA。這是整個(gè)全面戰(zhàn)略中的一部分，旨在把領(lǐng)先的人工智能訓(xùn)練能力引入到我們的芯片產(chǎn)品組合中。

面向真實(shí)世界的人工智能

我們產(chǎn)品的廣度讓各種規(guī)模的機(jī)構(gòu)能夠輕松地通過英特爾來開啟自己的人工智能之旅。例如，英特爾正在與 Novartis 合作，使用深度神經(jīng)網(wǎng)絡(luò)來加速高內(nèi)涵篩選 -- 這是早期藥品研發(fā)的關(guān)鍵元素。雙方的合作把訓(xùn)練圖片分析模型的時(shí)間從11個(gè)小時(shí)縮短到了31分鐘 -- 改善了20多倍⁴。為了讓客戶更快速地開發(fā)人工智能和物聯(lián)網(wǎng)應(yīng)用，英特爾和C3 IoT宣布針對(duì)優(yōu)化的 AI 硬軟件解決方案進(jìn)行合作 -- 一個(gè)基于 Intel AI 技術(shù)的C3 IoT AI 應(yīng)用。此外，我們還正在把 TensorFlow*、MXNet*、Paddle Paddle*、CNTK*和 ONNX*等深度學(xué)習(xí)框架集成在 nGraph 之上，后者是一個(gè)框架中立的深度神經(jīng)網(wǎng)絡(luò)（DNN）模型編譯器。我們已經(jīng)宣布，英特爾人工智能實(shí)驗(yàn)室開源了面向 Python*的自然語言處理庫(kù)，幫助研究人員開始自己的自然語言處理算法工作。

計(jì)算的未來依賴于我們聯(lián)合提供企業(yè)級(jí)解決方案的能力，通過這些解決方案企業(yè)可以充分發(fā)揮人工智能的潛力。我們迫切地希望可以與社區(qū)以及客戶一起開發(fā)和部署這項(xiàng)變革性技術(shù)，并期待在人工智能開發(fā)者大會(huì)上擁有更精彩的體驗(yàn)。

測(cè)試中記錄了組件在特定系統(tǒng)的具體測(cè)試中的性能。硬件、軟件或配置中的差異將會(huì)影響實(shí)際性能。如果考慮購(gòu)買，請(qǐng)?jiān)谠u(píng)估性能時(shí)參考其它信息來源。欲了解關(guān)于性能和基準(zhǔn)測(cè)試結(jié)果的完整信息，請(qǐng)?jiān)L問：http://www.intel.com/benchmarks

來源：英特爾在限定版軟件開發(fā)工具（SDV）上的測(cè)量

¹矩陣-矩陣乘法（GEMM）運(yùn)算；A（1536, 2048），B（2038, 1536）矩陣大小
² 兩個(gè)芯片 vs. 單芯片的GEMM運(yùn)算性能； A（6144, 2048），B（2038, 1536）矩陣大小
³全芯片MRB-CHIP MRB數(shù)據(jù)轉(zhuǎn)移，使用send/recv，Tensor 大小 = (1, 32)，5萬次迭代的平均值
⁴20倍是通過從單節(jié)點(diǎn)系統(tǒng)擴(kuò)展到8插槽集群而實(shí)現(xiàn)的21.7倍速度提升。

⁸插槽集群節(jié)點(diǎn)配置：CPU：英特爾^®至強(qiáng)^® 6148處理器（2.4GHz）；核心數(shù)：40；插槽數(shù)：2；超線程：?jiǎn)⒂?；?nèi)存/節(jié)點(diǎn)：192GB，2666MHz；網(wǎng)卡：英特爾^® Omni-Path Host Fabric Interface （英特爾^® OP HFI）；TensorFlow：v1.7.0；Horovod：0.12.1；OpenMPI：3.0.0；集群：ToR Switch：英特爾^® Omni-Path Switch

單節(jié)點(diǎn)配置：CPU：英特爾^®至強(qiáng)^®融核處理器7290F；192GB DDR4 RAM；1x 1.6TB 英特爾^® SSD DC S3610系列SC2BX016T4；1x 480GB 英特爾® SSD DC S3520系列SC2BB480G7；英特爾^® MKL 2017/DAAL/Intel Caffe

英特爾技術(shù)的特性和優(yōu)勢(shì)取決于系統(tǒng)配置，可能需要特定的硬件、軟件或服務(wù)激活。實(shí)際性能因系統(tǒng)配置而異。沒有任何計(jì)算機(jī)具有絕對(duì)安全性。更多信息見 intel.com 或咨詢系統(tǒng)制造商或零售商。

英特爾不控制或?qū)徲?jì)本文中提及的第三方基準(zhǔn)測(cè)試數(shù)據(jù)或網(wǎng)站。請(qǐng)?jiān)L問參考網(wǎng)站并確認(rèn)參考數(shù)據(jù)是否精確。

消息來源：英特爾