IT大手企業2社が音声合成サービスと自動文字起こしサービスのアップデートを発表



先日、とあるニュース記事を読んでいたところ音声合成と文字起こしに関する気になる2つの記事が目に止まりました。

なかなか面白い内容だったため、それぞれご紹介したいと思います。

『GoogleのクラウドサービスであるGoogle Cloudは「Google Cloud Platform」(GCP)上で動作するテキストの音声合成サービス「Google Cloud Text-to-Speech API」の一般提供開始を発表した。』

Googleは3月に、Text-to-Speechを発表し、GoogleがDeepMind買収による技術をいかに活用できるのかについて示して見せました。
DeepMindは、ディープニューラルネットワーク(DNN)を用いて生の音声を合成するWaveNetという技術を生み出した企業です。
WaveNetを用いることで、標準的なテキスト音声合成技術を用いる場合よりも自然な音声を合成できるという事です。

Text-to-Speechの発表以来、WaveNet音声ポートフォリオを米国英語以外に拡大することを求める顧客の声が多かったと言います。
今回一般提供が開始されたAPIでは、新たなWaveNet音声として26の音声がサポートされており、標準音声として用意されているものを含めると56種類の音声がサポートされている事になります。

『MicrosoftはMicrosoft 365ユーザーを対象に、OneDrive for BusinessとSharePointで動画・音声ファイルの文字起こしサービスを提供する計画を明らかにした』

Microsoftによれば新しいサービスはユーザーがビデオを視聴するとき、リアルタイムで音声を自動的に文字起こしして表示するという事です。
320種類のファイルをサポートするのでユーザーがどんなファイルをアップロードしても対応できるだろうとの事です。


ITの大手企業2社による、音声合成サービスや文字起こしサービスのアップデートによって一般のユーザーでも気軽にこれらのサービスが利用できるようになるという事で、今後どういった展開をみせるかとても楽しみです。

 


ニュースソース
https://www.zdnet.com/article/google-clouds-text-to-speech-api-moves-to-ga-adds-new-wavenet-voices/
https://srad.jp/submission/78396/
https://techcrunch.com/2018/08/28/microsoft-will-soon-automatically-transcribe-video-files-in-onedrive-for-office-365-subscribers/


  お問い合わせ  - お気軽にお問い合わせください - 

  • 株式会社 パブリックリレーションズ
  • 〒064-0807
  • 北海道札幌市中央区南7条西1丁目13番地 弘安ビル5階
メールでのお問い合わせはこちら

  • この記事をシェアする