Google CloudのSpeech-to-Text APIがアップデートされたので、試してみた

以下の記事でGoogle CloudのCloud Speech-to-Text APIがアップデートされたとありました。

この記事で気になったのは以下です。

ビデオや高性能電話用のプレミアムのAIモデルも昨年ベータでローンチし、主に短いクエリや音声コマンド用のスタンダードモデルよりも書き起こしエラーが少なくなる、と約束された。この高性能AIモデルもやはり今回、一般供用となった。

書き起こしエラーが少なくなるということだったので、どうなのか試してみました。

書き起こしエラーの減少を期待して試してみたのですが、結果は変わりませんでした。全てを比較したわけではなく、音声を認識できていない部分を中心に確認しました。しかし、アップデート前で音声認識できていない個所は、アップデート後も同様に認識できていませんでした。

ただ、confidence（音声認識の信頼度）は数字だけかもしれませんが、向上していました。テキスト化されている個所で、アップデート前が0.9453951だったのに対し、アップデート後が0.951325となっており、信頼度が向上していました。

東京生まれHOUSE MUSIC育ち