JAJY134 ホワイト・ペーパー

JAJY134A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1

ディープ・ラーニング・アクセラレータ

他のタスクには適していますが、CPU と GPU はディープ・ラーニングのタスクを高速化するのに最適なコアではありません。CPU にはスループットの制限があり、消費電力が大きくなります。GPU はすべてのコアの中で消費電力が最大で、メモリ・フットプリントが大きくなります。

テキサス・インスツルメンツのビジョン AI プロセッサは、ASIC の行列乗算アクセラレータ (MMA) で構成されるディープ・ラーニング・アクセラレータを、プログラマブル C71 DSP に接続して統合しています。MMA は高性能 (1 サイクルあたり 4K 8 ビット固定積和演算) と低消費電力のテンソル・アクセラレーションを可能にし、C71 DSP はベクトルとスカラーの演算を高速化して MMA を管理します。

MMA と C71 DSP の組み合わせにより、業界最高の性能 (1 秒あたりの推論) と消費電力 (1 ワットあたりの推論) を実現するアクセラレータを生み出します。C71 コアのプログラミングの柔軟性により、エッジ AI のイノベーションに対応することができます。また、ディープ・ラーニングに使用されていない場合、コアは低消費電力で、他の演算集中型タスクを処理することができます。

スマート・メモリ・アーキテクチャにより、アクセラレータの高い利用率が可能になります。このアクセラレータには独自のメモリ・サブシステムが付属しています。データ転送のための専用の 4D プログラマブル・ダイレクト・メモリ・アクセス (DMA) エンジンと、キャッシュをバイパスして、外部メモリから C71 コアと MMA の機能ユニットにデータを直接送ることができる専用のストリーミング・ハードウェアです。タイリングおよびスーパータイリング機能により、外部メモリとのデータ転送を最小限に抑えます。

表 2 に、1 秒あたり 8TOPS のアクセラレータを搭載した AM68A と TDA4VM の 8 ビット固定推論性能を示します。報告される性能は、バッチ・サイズ 1、シングル 32 ビット LPDD4 でのものです。

表 2 MLPerf 推奨モデルでの推論ベンチマーク。

ネットワーク	画像解像度	1 秒あたりのフレーム数 (fps)
MobileNet_v1	224 × 224	741
Resnet-50 V1.5	224 × 224	162
SSD-MobileNets-V1	300 × 300	385

免責事項：テキサス・インスツルメンツは、エッジ AI 干渉のベンチマークに MLPerf 推奨モデルとガイドラインを使用しました。テキサス・インスツルメンツは MLcommons にまだ結果を提出していません。