NESY049 White paper

深度學習加速器

CPU 和 GPU 雖然適合其他工作，但不是加快深度學習工作的最佳核心。CPU 有輸送量限制且需高功耗；GPU 則是所有核心中消耗最多功率者，且記憶體體積龐大。

TI 視覺 AI 處理器整合深度學習加速器，其中包含栓接至可編程 C71 DSP，位於 ASIC 中的矩陣乘法加速器 (MMA)。MMA 可實現高性能 (每週期累積 4K 8 位元固定乘數) 和低功率張量加速，C71 DSP 則可加速向量和分頻器運算，並管理 MMA。

結合 MMA 與 C71 DSP 即可得到實現業界最高性能 (每秒推論) 與功率 (每瓦推論) 的加速器。C71 核心的編程靈活性讓您能夠跟上邊緣 AI 創新的腳步。除了應用在深度學習外，核心也可以低功耗處理其他運算密集工作。

智慧型記憶體架構可提高加速器的利用率。加速器有自己的記憶體子系統，適合資料傳輸的專用 4D 可編程直接記憶體存取 (DMA) 引擎，以及可將資料直接從外部記憶體傳送至 C71 核心和 MMA 功能單元並旁路快取的專用串流硬體。圖磚和超圖磚功能可減少來往外部記憶體間的資料傳輸。

表 2 說明採用每秒 8 TOPS 加速器的 AM68A 與 TDA4VM 8 位元固定推論性能。報告性能使用批次大小 1 及單一 32 位元 LPDD4。

表 2 MLPerf 建議模型的推論測試基準。

免責聲明：TI 採用 MLPerf 建議模型與準則進行邊緣 AI 推論測試基準。TI 尚未將結果提交給 MLcommons 組織。