- 新しい順
- 投票が多い順
- コメントが多い順
Amazon Transcribeのカスタム語彙機能における日本語の複合語認識に関する問題について、ご質問ありがとうございます。ご指摘の問題は複雑で、現在のシステムの制限に起因する可能性があります。
-
日本語モデルにおける音素「u」の仕様について: 日本語の基本的な母音である「ウ」に対応する音素「u」がサポートされていないというのは、システムの不具合か設定の誤りである可能性が高いです。日本語の音素セットには「u」が含まれるべきです。正式にサポートされている日本語の音素記号のリストを確認し、必要に応じてアップデートする必要があるかもしれません。
-
単語分割問題への対処法: 現在のシステムでは、スペースを含む複合語をカスタム語彙に直接登録することは難しいようです。この問題に対する推奨される方法としては、以下のアプローチが考えられます:
a) カスタム言語モデルの使用: カスタム語彙だけでなく、カスタム言語モデルを作成することで、より文脈に応じた認識が可能になる場合があります。大量のドメイン固有のテキストデータを用いてモデルを訓練することで、「EM工」のような複合語の認識精度が向上する可能性があります。
b) 代替表記の試行: 「EM工」の代わりに「イーエムコウ」や「イーエムコー」などの代替表記をカスタム語彙に登録し、出力時に置換する方法を検討してください。
c) 後処理の実装: Transcribeの出力結果に対して、独自の後処理スクリプトを実装し、「em こう」を「EM工」に置換する方法も考えられます。
これらの方法でも問題が解決しない場合は、Amazon Transcribeの開発チームに直接フィードバックを提供し、日本語モデルの改善要求を行うことをお勧めします。
なお、カスタム語彙の制限や仕様は更新される可能性があるため、最新のドキュメントを参照し、サポートチームに具体的な使用例と共に問い合わせることで、より詳細な情報と解決策が得られる可能性があります。
Sources
Improving transcription accuracy with custom vocabularies and custom language models - Amazon Transcribe
Using a custom vocabulary - Amazon Transcribe
もしAWSサポートからの公式な回答を希望されている場合は対象のAWSアカウントにサインインの上、下記URLからサポートケースを起票してみてはいかがでしょうか?
ご回答ありがとうございます。 ここが公式の場と勘違いしていました。 その後改めて調べていると以下のサイトにサウンドライク、IPAはサポートしなくなっていることがわかりました。 https://docs.aws.amazon.com/transcribe/latest/dg/custom-vocabulary-create-table.html
AIの回答にもあるようにカスタム言語の登録をしてみたいと思います。
関連するコンテンツ
- 質問済み 1年前
- 質問済み 1年前
- AWS公式更新しました 3年前
