2026. 06. 29 (月)

ファーウェイ、長文AI推論の処理速度を最大372%向上

  • 『MWC上海2026』でAI推論加速ソリューションを発表

ファーウェイは24日、中国上海で開催されたMWC上海2026に参加し、AI推論加速ソリューションの成果を発表した。写真=ファーウェイコリア
ファーウェイは24日、中国上海で開催された『MWC上海2026』に参加し、AI推論加速ソリューションの成果を発表した。 [写真=ファーウェイコリア]


ファーウェイは、中国通信業界で初めて商用ネットワーク環境において、長文(long-sequence)AI推論のトークン処理量を最大372%まで引き上げることに成功した。

ファーウェイは、24日、中国上海で開催された『MWC上海2026』において、中国モバイル湖北と共同で『AI推論加速ソリューション』の検証成果を発表した。

このソリューションは、ファーウェイのオーシャンストアA800ストレージとアセンドA3スーパーポッド、統合キャッシュマネージャーを基盤に構築されている。通信事業者が大規模なAIコンピューティングサービスを効率的に展開できるための重要な技術基盤が整ったとの評価がある。

最近、AIサービスがエージェント中心に進化する中で、コード生成やマルチターン対話など、長い文脈を扱う長文シナリオが増加している。しかし、既存のオンチップメモリとDRAMの限界により、データ処理が遅延するボトルネックが発生していた。

ファーウェイはこれを解決するために、外部の高性能ストレージを活用するUCM技術を導入し、ペタバイト(PB)級の大容量KVキャッシュを実現し、重複演算を排除することで推論コストを大幅に削減した。

中国モバイル湖北の商用ネットワークで行われた今回の検証では、ミニマックスM2.5やGLM-5.1などの主要AIモデルを対象に、8Kから190Kトークンに及ぶ長文入力をシミュレーションした。

検証の結果、GLM-5.1モデルでは、最初のトークン生成時間(TTFT)が最大93%短縮された。1秒あたりのトークン数(TPS)は、128Kの長文環境で最大372%向上した。ミニマックスM2.5モデルも128K環境でTPSが78%増加するなど、コンテキストウィンドウが長くなるほど加速効果がより顕著に現れた。

マイケル・チュウ ファーウェイグローバルデータストレージマーケティング・ソリューションセールス部門社長は、「AI推論加速ソリューションは応答時間を大幅に短縮するだけでなく、トークンコストの削減にも寄与する」と述べ、「通信事業者が効率的で環境に優しいAIコンピューティングインフラを構築できるよう支援を惜しまない」と強調した。





* この記事はAIによって翻訳されました。
亜洲日報の記事等を無断で複製、公衆送信 、翻案、配布することは禁じられています。
기사 이미지 확대 보기
경북 포항시 경북 포항시
닫기