Googleは9日(現地時間)に新しいリアルタイム音声翻訳モデル『ジェミナイ 3.5 ライブトランスレート』を発表した。このモデルはGoogle翻訳アプリやビデオ会議サービスGoogle Meet、開発者向けのジェミナイライブAPI(リアルタイム音声機能連携ツール)に順次適用される。
新しいモデルは、利用者が翻訳する言語を事前に選択しなくても、会話中の言語を自動的に認識する。70以上の言語を音声で認識し、他の言語の音声に変換することができる。複数の言語が混在する会話でも使用可能である。
最大の変化は通訳の速度である。従来の音声通訳は相手の言葉が終わった後に翻訳音声を出すことが多かったが、新しいモデルは相手が話している間にも翻訳音声を続けて聞かせる。Googleは元の言葉と翻訳音声の間の差が数秒程度にとどまると説明している。
音声品質も改善された。単に文の意味を伝えるのではなく、元の話者のイントネーションや話し方、話す速さ、音の高さを最大限に反映する。機械的に読み上げる翻訳音声ではなく、実際の会話に近い音声を実現しようとしている。
新しいモデルはAndroidおよびiOS用のGoogle翻訳アプリに適用される。利用者はイヤフォンを接続してリアルタイム音声翻訳を聞くことができる。Androidではスマートフォンを耳に当てると通話のように翻訳音声を聞くことができる『聞き取りモード』も提供される。
この機能を利用すれば、旅行中に現地の人と異なる言語で会話する際に、スマートフォンを通じてリアルタイムに近い音声通訳を受けることができる。
Google Meetには一部の企業顧客から先行して適用される。Googleは今月、企業向けGoogle Workspace顧客を対象に新しい音声翻訳機能を試験提供し、年内に適用対象を拡大する計画である。多言語会議で発言をリアルタイムで翻訳して伝える用途である。
開発者向けにはジェミナイライブAPIとGoogle AIスタジオを通じて試験公開される。開発者はこの機能を活用してリアルタイム音声翻訳サービスを作成できる。アゴラやライブキットなどのリアルタイムメディアプラットフォームも関連機能の連携を支援する。
配車サービスのグラブはこのモデルを運転手と旅行者間の多言語通話に活用する方法をテストしている。異なる言語を話す運転手と乗客がアプリ内で通話する際にリアルタイム翻訳を提供する方式である。
GoogleはAIが生成した音声を識別できるように、すべての生成音声にシンスIDウォーターマークを適用すると発表した。シンスIDウォーターマークはAIで生成された音声に見えない識別マークを入れる技術である。
* この記事はAIによって翻訳されました。
亜洲日報の記事等を無断で複製、公衆送信 、翻案、配布することは禁じられています。
