東京生まれHOUSE MUSIC育ち

悪そうな奴はだいたい友達なの?

Cloud Speech-to-Textのベータ版機能をダメもとで使ってみた


スポンサードリンク

Cloud Speech-to-Textのドキュメントを読んでいると、ベータ版機能ということで、様々な機能が提供されています。

制約があるので、「ベータ版だから動かないだろうな」とは思うのの、「もしかしたら動くかも??」という期待もあったので、試しに使ってみました。

最初に結論を言うと、ベータ版の機能を使うことができなかった(対応していなかった)のですが、どんなことをやったかを以下に記録しておきます。

早く以下のベータ版機能が正式版として提供されてほしいです。

異なる話者の分離

文字起こしをする際、この機能があったら嬉しいなと思うのが、誰が話しているかを自動的に分析する機能です。

音声録音内の異なる話者の分離  |  Cloud Speech-to-Text API  |  Google Cloud

結果は、以下のエラーが返却され使用できませんでしたた。返却されたエラーは「そんな定義はないよ」というものでした。

以下が返却されたエラーです。fieldViolationsの中に説明があります。

{
  "error": {
    "code": 400,
    "message": "Invalid JSON payload received. Unknown name \"enable_speaker_diarization\" at 'config': Cannot find field.\nInvalid JSON payload received. Unknown name \"diarization_speaker_count\" at 'config': Cannot find field.",
    "status": "INVALID_ARGUMENT",
    "details": [
      {
        "@type": "type.googleapis.com/google.rpc.BadRequest",
{
        "fieldViolations": [
          {
            "field": "config",
            "description": "Invalid JSON payload received. Unknown name \"enable_speaker_diarization\" at 'config': Cannot find field."
          },
          {
            "field": "config",
            "description": "Invalid JSON payload received. Unknown name \"diarization_speaker_count\" at 'config': Cannot find field."
          }
        ]
      }
    ]
  }
}

複数のチャンネルを含む音声の文字変換

複数のチャンネルを含む音声の文字変換  |  Cloud Speech-to-Text API  |  Google Cloud

2人で話している場合に、このチャネルが有効なのかもしれないと考えました。

そこで、channelの定義を2にしてみると下のエラーが返却されました。実際に2チャンネルもっている音声ファイルでないと動かないようです。

{ "error": { "code": 400, "message": "Invalid audio channel count", "status": "INVALID_ARGUMENT" } }

そこで、チャネル数の定義を1にすると動作はします。ただ、特に話者などを認識するはありませんでした。

句読点の挿入

次に句読点の挿入です。

句読点の挿入  |  Cloud Speech-to-Text API  |  Google Cloud

と書いてあります。

動くことは動きましたが、句読点は表示されませんでした。。。