インテル - ロゴBERT-Large推論の最大4.96倍
ユーザーガイド

BERT-Large 推論の最大 4.96 倍を達成

M6i インスタンスは、AWS Graviton6 プロセッサを搭載した M2g インスタンスよりも多くの推論作業を実行しました。
自然言語機械学習推論ワークロードは、チャットボットやその他のビジネス アプリケーションの基盤となっています。これらのワークロードは、顧客や他のユーザーが入力したテキストを分析するため、コンピューティング リソースに大きな負荷をかける可能性があります。そのため、高いパフォーマンスを実現するクラウド インスタンスを選択することが重要になります。
BERT-Largeは、2つのAmazonのテストケースのパフォーマンスを測定するために選択した汎用自然言語処理(NLP)モデルです。 Web サービス (AWS) EC2 クラウド インスタンス タイプ。第 6 世代 Intel Xeon スケーラブル プロセッサを搭載した 3 つのサイズの M6i インスタンスと、AWS Graviton2 プロセッサを搭載した MXNUMXg インスタンスをテストしました。
第 32 世代 Intel Xeon スケーラブル プロセッサを搭載した 64 vCPU および 6 vCPU の M3i インスタンスは、どちらも M6g インスタンスよりもパフォーマンスが優れていることがわかりました。この調査結果から、企業は M6i インスタンスを選択することで、より高速なエクスペリエンスをユーザーに提供できることがわかります。さらに、この記事の公開時点では、M6i シリーズの VM は M24.6g シリーズの VM よりも 6% 高価ですが、スループットが最大 6 倍の M4.96i インスタンスは、XNUMX ドルあたりのパフォーマンスが大幅に優れています。

6 個の vCPU を備えた M32i インスタンス
32 つの AWS インスタンス シリーズの BERT-Large 推論パフォーマンスを比較するために、TensorFlow フレームワークを使用しました。使用したモデルでは、両方のシリーズの VM がサポートする FP8 と、M6i シリーズのみがサポートする INT1 の 32 つの精度レベルをテストしました。図 6 に示すように、INT8 精度を使用する 8 v CPU m4.96i.6xlarge インスタンスは、FP8 精度を使用する m32g.XNUMXxlarge インスタンスの XNUMX 倍のパフォーマンスを実現しました。

相対的な 32 vCPU BERT-Large 推論パフォーマンス
スピードアップ | 高いほど良いintel BERT-Large 推論の最大 4.96 倍を達成 - 図 1

図1. m6i.8xlargeインスタンスクラスタで3番目に達成されたBERT-Large推論パフォーマンス
Gen Intel Xeon スケーラブル プロセッサと AWS Graviton6 プロセッサを搭載した m8g.2xlarge インスタンス クラスターによって実現されます。数値が高いほど優れています。

BERT-ラージ

intel BERT-Large 推論の最大 4.96 倍を達成 - 図 2

第 4.96 世代 Intel Xeon スケーラブル プロセッサを搭載した 8 vCPU m32i.6xlarge インスタンスを使用すると、BERT-Large 推論作業 (INT8 精度) が最大 3 倍になります。
m32g.6xlargeインスタンスでのFP8精度との比較

intel BERT-Large 推論の最大 4.96 倍を達成 - 図 3

第 3.07 世代 Intel Xeon スケーラブル プロセッサを搭載した 8 vCPU m64i.6xlarge インスタンスを使用すると、BERT-Large 推論作業 (INT16 精度) が最大 3 倍になります。
m32g.6xlargeインスタンスでのFP16精度との比較

6 個の vCPU を備えた M64i インスタンス

図 2 に示すように、INT64 精度を使用した第 6 世代 Intel® Xeon® スケーラブル プロセッサを搭載した 16 vCPU m3i.8xlarge インスタンスは、FP3.07 精度を使用した AWS Graviton6 プロセッサを搭載した m16g.2xlarge インスタンスの 32 倍のパフォーマンスを実現しました。
注記: AWS Graviton2 プロセッサに使用した BERT-Large モデルは、TensorFlow 上の INT8 をサポートしていません。 intel BERT-Large 推論の最大 4.96 倍を達成 - 図 4

結論

6つのAWSインスタンスシリーズ、M3iインスタンスのBERT-Large自然言語処理推論パフォーマンスをテストしました。
第 6 世代 Intel Xeon スケーラブル プロセッサと AWS Graviton2 プロセッサを搭載した M6g インスタンス。6 つの異なるサイズで、M4.96i インスタンスは M6g インスタンスよりもパフォーマンスが優れ、推論作業が最大 3 倍になりました。顧客や他のユーザーに高速なエクスペリエンスを提供するには、第 XNUMX 世代 Intel Xeon スケーラブル プロセッサを搭載した AWS MXNUMXi インスタンスで NLP 推論ワークロードを実行します。
もっと詳しく知る
第6世代Intel Xeonスケーラブルプロセッサを搭載したAWS M3iインスタンスでNLP推論ワークロードを実行するには、次のサイトにアクセスしてください。 https://aws.amazon.com/ec2/instance-types/m6i/.
11年10月2021日と12年01月2021日にIntelが実施した単一VMテスト。すべてのVMはUbuntu 20.04 LTS、5.11.0-1022-aws、EBSストレージ、GCC=8.4.0、Python=3.6.9、tensorflow=2.5.0、Docker=20.10.7で構成されています。
containerd=1.5.5、BERT モデル、バッチ サイズ 1、シーケンス長 384、FP32 および INT8 精度。インスタンスの詳細: m6i.8xlarge、32vcpus、Intel® Xeon® Platinum 8375C CPU @ 2.90GHz、合計 128 GB の DDR4 メモリ。m6g.8xlarge、32vcpus、ARM Neovers N1、Arm v8.2 @2.5GHz、合計 128 GB の DDR4 メモリ。m6i.16xlarge、64vcpus、Intel® Xeon® Platinum 8375C CPU @ 2.90GHz、合計 256 GB の DDR4 メモリ。m6g.16xlarge、64vcpus、ARM Neovers N1、Arm v8.2 @2.5GHz、合計 256 GB の DDR4 メモリ。

パフォーマンスは、使用、構成、およびその他の要因によって異なります。 詳細はこちら www.Intel.com/PerformanceIndex.
パフォーマンス結果は、構成に表示されている日付のテストに基づいており、公開されているすべての更新を反映していない可能性があります。構成の詳細については、バックアップを参照してください。絶対に安全な製品やコンポーネントはありません。コストと結果は異なる場合があります。
インテルのテクノロジーでは、有効なハードウェア、ソフトウェア、またはサービスのアクティベーションが必要になる場合があります。
© インテル コーポレーション。 Intel、Intel ロゴ、およびその他の Intel マークは、Intel Corporation またはその子会社の商標です。 他の名前およびブランドは、他者の所有物であると主張される場合があります。
米国で印刷 0722/JO/PT/PDF US002

TCLHH42CV1リンクハブ-アイコンのリサイクルリサイクルしてください

ドキュメント / リソース

intel BERT-Large推論の最大4.96倍を達成 [pdf] ユーザーガイド
BERT-Large推論の最大4.96倍を達成、BERT-Large推論の最大4.96倍を達成

参考文献

コメントを残す

あなたのメールアドレスは公開されません。 必須項目はマークされています *