NESY049A january   2022  – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1

 

  1.   摘要
  2.   Authors
  3.   簡介
  4.   定義邊緣 AI
  5.   什麼是高效邊緣 AI 系統?
    1.     選擇 SoC 架構
    2.     可編程核心類型與加速器
  6.   以 TI 視覺處理器設計邊緣 AI 系統
    1.     深度學習加速器
    2.     成像和電腦視覺硬體加速器
    3.     智慧型內部匯流排與記憶體架構
    4.     系統 BOM 最佳化
    5.     使用簡單的軟體開發環境
  7.   結論

深度學習加速器

CPU 和 GPU 雖然適合其他工作,但不是加快深度學習工作的最佳核心。CPU 有輸送量限制且需高功耗;GPU 則是所有核心中消耗最多功率者,且記憶體體積龐大。

TI 視覺 AI 處理器整合深度學習加速器,其中包含栓接至可編程 C71 DSP,位於 ASIC 中的矩陣乘法加速器 (MMA)。MMA 可實現高性能 (每週期累積 4K 8 位元固定乘數) 和低功率張量加速,C71 DSP 則可加速向量和分頻器運算,並管理 MMA。

結合 MMA 與 C71 DSP 即可得到實現業界最高性能 (每秒推論) 與功率 (每瓦推論) 的加速器。C71 核心的編程靈活性讓您能夠跟上邊緣 AI 創新的腳步。除了應用在深度學習外,核心也可以低功耗處理其他運算密集工作。

智慧型記憶體架構可提高加速器的利用率。加速器有自己的記憶體子系統,適合資料傳輸的專用 4D 可編程直接記憶體存取 (DMA) 引擎,以及可將資料直接從外部記憶體傳送至 C71 核心和 MMA 功能單元並旁路快取的專用串流硬體。圖磚和超圖磚功能可減少來往外部記憶體間的資料傳輸。

表 2 說明採用每秒 8 TOPS 加速器的 AM68A 與 TDA4VM 8 位元固定推論性能。報告性能使用批次大小 1 及單一 32 位元 LPDD4。

表 2 MLPerf 建議模型的推論測試基準。
網路 影像解析度 每秒幀數 (fps)
MobileNet_v1 224 × 224 741
Resnet-50 V1.5 224 × 224 162
SSD-MobileNets-V1 300 × 300 385

免責聲明:TI 採用 MLPerf 建議模型與準則進行邊緣 AI 推論測試基準。TI 尚未將結果提交給 MLcommons 組織。