JAJY134A january   2022  – march 2023 TDA4VM , TDA4VM-Q1

 

  1.   概要
  2.   Authors
  3.   概要
  4.   エッジ側での AI の定義
  5.   効率的なエッジ AI システムとは。
    1.     SoC アーキテクチャの選択
    2.     プログラム可能なコア・タイプとアクセラレータ
  6.   テキサス・インスツルメンツのビジョン・プロセッサを使用したエッジ AI システムの設計
    1.     ディープ・ラーニング・アクセラレータ
    2.     イメージングおよびコンピュータ・ビジョンのハードウェア・アクセラレータ
    3.     スマート内部バスおよびメモリ・アーキテクチャ
    4.     最適化されたシステム BOM
    5.     使いやすいソフトウェア開発環境
  7.   まとめ

ディープ・ラーニング・アクセラレータ

他のタスクには適していますが、CPU と GPU はディープ・ラーニングのタスクを高速化するのに最適なコアではありません。CPU にはスループットの制限があり、消費電力が大きくなります。GPU はすべてのコアの中で消費電力が最大で、メモリ・フットプリントが大きくなります。

テキサス・インスツルメンツのビジョン AI プロセッサは、ASIC の行列乗算アクセラレータ (MMA) で構成されるディープ・ラーニング・アクセラレータを、プログラマブル C71 DSP に接続して統合しています。MMA は高性能 (1 サイクルあたり 4K 8 ビット固定積和演算) と低消費電力のテンソル・アクセラレーションを可能にし、C71 DSP はベクトルとスカラーの演算を高速化して MMA を管理します。

MMA と C71 DSP の組み合わせにより、業界最高の性能 (1 秒あたりの推論) と消費電力 (1 ワットあたりの推論) を実現するアクセラレータを生み出します。C71 コアのプログラミングの柔軟性により、エッジ AI のイノベーションに対応することができます。また、ディープ・ラーニングに使用されていない場合、コアは低消費電力で、他の演算集中型タスクを処理することができます。

スマート・メモリ・アーキテクチャにより、アクセラレータの高い利用率が可能になります。このアクセラレータには独自のメモリ・サブシステムが付属しています。データ転送のための専用の 4D プログラマブル・ダイレクト・メモリ・アクセス (DMA) エンジンと、キャッシュをバイパスして、外部メモリから C71 コアと MMA の機能ユニットにデータを直接送ることができる専用のストリーミング・ハードウェアです。タイリングおよびスーパータイリング機能により、外部メモリとのデータ転送を最小限に抑えます。

表 2 に、1 秒あたり 8TOPS のアクセラレータを搭載した AM68A と TDA4VM の 8 ビット固定推論性能を示します。報告される性能は、バッチ・サイズ 1、シングル 32 ビット LPDD4 でのものです。

表 2 MLPerf 推奨モデルでの推論ベンチマーク。
ネットワーク 画像解像度 1 秒あたりのフレーム数 (fps)
MobileNet_v1 224 × 224 741
Resnet-50 V1.5 224 × 224 162
SSD-MobileNets-V1 300 × 300 385

免責事項:テキサス・インスツルメンツは、エッジ AI 干渉のベンチマークに MLPerf 推奨モデルとガイドラインを使用しました。テキサス・インスツルメンツは MLcommons にまだ結果を提出していません。