Cloud Speech-to-Textのドキュメントを読んでいると、ベータ版機能ということで、様々な機能が提供されています。
制約があるので、「ベータ版だから動かないだろうな」とは思うのの、「もしかしたら動くかも??」という期待もあったので、試しに使ってみました。
最初に結論を言うと、ベータ版の機能を使うことができなかった(対応していなかった)のですが、どんなことをやったかを以下に記録しておきます。
早く以下のベータ版機能が正式版として提供されてほしいです。
異なる話者の分離
文字起こしをする際、この機能があったら嬉しいなと思うのが、誰が話しているかを自動的に分析する機能です。
音声録音内の異なる話者の分離 | Cloud Speech-to-Text API | Google Cloud
結果は、以下のエラーが返却され使用できませんでしたた。返却されたエラーは「そんな定義はないよ」というものでした。
以下が返却されたエラーです。fieldViolationsの中に説明があります。
{ "error": { "code": 400, "message": "Invalid JSON payload received. Unknown name \"enable_speaker_diarization\" at 'config': Cannot find field.\nInvalid JSON payload received. Unknown name \"diarization_speaker_count\" at 'config': Cannot find field.", "status": "INVALID_ARGUMENT", "details": [ { "@type": "type.googleapis.com/google.rpc.BadRequest", { "fieldViolations": [ { "field": "config", "description": "Invalid JSON payload received. Unknown name \"enable_speaker_diarization\" at 'config': Cannot find field." }, { "field": "config", "description": "Invalid JSON payload received. Unknown name \"diarization_speaker_count\" at 'config': Cannot find field." } ] } ] } }
複数のチャンネルを含む音声の文字変換
複数のチャンネルを含む音声の文字変換 | Cloud Speech-to-Text API | Google Cloud
2人で話している場合に、このチャネルが有効なのかもしれないと考えました。
そこで、channelの定義を2にしてみると下のエラーが返却されました。実際に2チャンネルもっている音声ファイルでないと動かないようです。
{ "error": { "code": 400, "message": "Invalid audio channel count", "status": "INVALID_ARGUMENT" } }
そこで、チャネル数の定義を1にすると動作はします。ただ、特に話者などを認識するはありませんでした。
句読点の挿入
次に句読点の挿入です。
句読点の挿入 | Cloud Speech-to-Text API | Google Cloud
と書いてあります。
動くことは動きましたが、句読点は表示されませんでした。。。
デザイニング・ボイスユーザーインターフェース ―音声で対話するサービスのためのデザイン原則
- 作者: Cathy Pearl,川本大功,高橋信夫
- 出版社/メーカー: オライリージャパン
- 発売日: 2018/12/01
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
- 作者: 日経ビッグデータ
- 出版社/メーカー: 日経BP社
- 発売日: 2017/01/26
- メディア: Kindle版
- この商品を含むブログを見る