音声分析による表情変化AI技術の開発

C-METと既存方法の感情編集結果比較写真 — C-METと既存方法の感情編集結果比較 [写真=聯合ニュース・蔚山科学技術院]

音声に含まれる感情を分析し、映像内の人物の表情を自然に変える人工知能（AI）技術が国内の研究チームによって開発されたと、聯合ニュースが報じた。

聯合ニュースによると、蔚山科学技術院（UNIST）の人工知能大学院の金泰煥教授の研究チームは、音声信号から感情を抽出し、別の参照画像なしでも映像内の話者の表情を希望する感情に変更できるAIモジュール『C-MET（Cross-Modal Emotion Transfer）』を開発した。

この技術は、単に『喜び』や『悲しみ』のように感情にラベルを付けて学習する従来の方法とは異なり、感情間の変化量に注目する点が特徴である。研究チームは、中立的な音声と感情が込められた音声の違いをベクトル形式の数値情報として計算し、その変化が顔にどのような表情変化として現れるかをAIが学習するようにした。

これにより、言葉の内容と感情が混在している音声からも、表情変化に必要な感情信号だけを抽出できる。同じ文でも、話し方やトーンによって口角や眉、目の周りの動きが変わるように表情を変化させることができると説明されている。

特に、従来の学習過程で直接接触できなかった感情も表現できる点が注目される。研究チームは、二つの感情間の変化量を分析する方法を活用し、皮肉、共感、カリスマ性など微妙な感情まで表情に反映できると明らかにした。

例えば、「よくやった」という言葉も、心からの称賛なのか、皮肉の意味なのかをトーンだけで区別し、異なる表情で実現できる。

また、感情を表現した正面写真などの高品質な参照画像が必要ないため、活用範囲が広いという利点もある。

性能も従来の技術より向上した。研究チームが最新の表情編集技術であるイディトーク（EDTalk）の表情エンコーダーをC-METに置き換えて実験した結果、感情表現の正確度は41.99%から55.91%に約14ポイント向上した。

別の顔生成モデルであるPD-FGCに適用した際も、感情の正確度は33.36%から36.82%に改善された。これはC-METが特定のモデルに限定されず、さまざまな顔生成AIシステムに適用可能であることを示す結果だと研究チームは説明した。

金泰煥教授は聯合ニュースを通じて、「今回の研究は、参照画像なしで音声だけで顔の映像の感情を変えることができる点で、従来の方法の限界を実質的に解決した」と述べ、「仮想人間の制作や映画・コンテンツの後処理、感情認識AIなど、さまざまな分野で活用できる基盤技術である」と語った。

今回の研究成果は、AI・コンピュータビジョン分野の国際学会『CVPR 2026（Conference on Computer Vision and Pattern Recognition）』に採択された。

* この記事はAIによって翻訳されました。

亜洲日報の記事等を無断で複製、公衆送信、翻案、配布することは禁じられています。

音声分析による表情変化AI技術の開発

UNIST、参照画像なしで感情表現可能な『C-MET』を公開