Google Cloud Speech APIでSession22の文字起こしをしての振り返り

以下でGoogle Cloud Speech APIを活用した文字起こしを実際にやってみました。この記事は文字起こしをしての振り返りです。

Google Cloud Speech APIでの文字起こし時間

音声ファイルの約半分の時間で文字起こしされます。

約50分の音声ファイルをGCP(Google Cloud Platform)にアップロードして、文字起こしするためのコマンド投入したら、約25分で文字起こしされました。

音声ファイルのファイルフォーマットを変換したり、モノラルに変換んしたりと、ファイルを準備するのが手間なものの、これは速いと思います。

文字数は約1万6千でした。400字詰めの原稿用紙だと、約40枚の文字数になりました。

また、文字起こしされた文章は、句読点がありません。また、改行も無いので、とても読みにくいです。

改めて認識率の高さに驚きました。

口癖的に「あのー」とか「えーと」とかもちゃんと認識してくれます。

もちろん100%ではありません。認識していても、同音意義の漢字が使用されていたりするのですが、それでも十分使えるレベルだと感じます。

ラジオなので、トークの掛け合いがあります。

質問してそれに答える、「そうですね」などの合いの手を入れる個所は認識率が下がります。

Google Cloud Speech APIの仕様なのか、言葉と認識できる個所まで文字にならないことが多いです。認識できないなりに、強引に文字を当てはめるようなことはしていなかったです。

これは文字起こし特有なのだと思いますが、Google Cloud Speech APIを使用して文字になってからがツラいです。

Google Cloud Speech APIで出力された文字は句読点や改行が無いため、それらをつけないと読めるものではありません。

そのためには何度か聞きなおす必要があります。誤字や脱字を確認したり、誰が話しているかを追記するためだけに聞き直すのがツラかったです。

なので、先の文字起こしはGoogle Cloud Speech APIで文字になってから、さらに2回聞き直しました。2回聞き直しても、文字起こしとしては十分なものにはなってないと思います。まだ誤字脱字が存在しますし、誰が話しているかの追記も最初だけしか書いてないですし。

音声があるので、ちゃんと理解したければ、音声を聴けば良いと自分で割り切っちゃいました。

こういう作業をやってみると、文字起こしをwebで公開している方には尊敬しかないです。

完璧な文字起こしより、何を話しているかの見出しが重要だと感じました。文字だけあっても、読むのはつらいですから。

見出しがあれば、どのあたりを再生すればいいかわかると思いますしね。