NESY049A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1
CPU 和 GPU 雖然適合其他工作,但不是加快深度學習工作的最佳核心。CPU 有輸送量限制且需高功耗;GPU 則是所有核心中消耗最多功率者,且記憶體體積龐大。
TI 視覺 AI 處理器整合深度學習加速器,其中包含栓接至可編程 C71 DSP,位於 ASIC 中的矩陣乘法加速器 (MMA)。MMA 可實現高性能 (每週期累積 4K 8 位元固定乘數) 和低功率張量加速,C71 DSP 則可加速向量和分頻器運算,並管理 MMA。
結合 MMA 與 C71 DSP 即可得到實現業界最高性能 (每秒推論) 與功率 (每瓦推論) 的加速器。C71 核心的編程靈活性讓您能夠跟上邊緣 AI 創新的腳步。除了應用在深度學習外,核心也可以低功耗處理其他運算密集工作。
智慧型記憶體架構可提高加速器的利用率。加速器有自己的記憶體子系統,適合資料傳輸的專用 4D 可編程直接記憶體存取 (DMA) 引擎,以及可將資料直接從外部記憶體傳送至 C71 核心和 MMA 功能單元並旁路快取的專用串流硬體。圖磚和超圖磚功能可減少來往外部記憶體間的資料傳輸。
表 2 說明採用每秒 8 TOPS 加速器的 AM68A 與 TDA4VM 8 位元固定推論性能。報告性能使用批次大小 1 及單一 32 位元 LPDD4。
網路 | 影像解析度 | 每秒幀數 (fps) |
---|---|---|
MobileNet_v1 | 224 × 224 | 741 |
Resnet-50 V1.5 | 224 × 224 | 162 |
SSD-MobileNets-V1 | 300 × 300 | 385 |
免責聲明:TI 採用 MLPerf 建議模型與準則進行邊緣 AI 推論測試基準。TI 尚未將結果提交給 MLcommons 組織。