概要
2024年5月30日時点で本機能はPublic Beta版となっております。
Real-Time Transcription(以下RTT) は、スピーカー音声をリアルタイムで文字に変換する機能です。RTTの機能概要・ユースケースは以下の通りになります。
リアルタイム音声の文字起こし
音声をリアルタイムで文字に起こし、テキストデータをチャンネルに送信することが可能です。
字幕は参加者のアクセシビリティ向上に役立ちます。
同時発話対応
同時接続スピーカーがそれぞれ何を言ったかを簡単にラベル付け可能です。
スピーカーが多い場合は、音量に基づいて上位のスピーカーが選択され、その音声が文字起こしされます。
検閲機能
低遅延な文字起こし機能により、チャンネル内の会話検閲機能を実装することが容易になります。
不適切な発言を行ったユーザーの対策になります。
データ活用
RTTで音声をテキスト化したデータをWebVTT形式で保存し、ファイルをサードパーティのクラウドストレージにアップロードすることで、会話の要約・検索機能を実装することが容易になります。
また、GAI等のソリューションと組み合わせることで、会話データを活用することが可能です。
サードパーティのクラウドストレージに関してはこちらをご参照ください。
複数言語対応
RTTは主要な言語をサポートし、各チャンネルでは同時に異なる2言語スピーカーの音声から異なる5言語への翻訳をすることが可能です。
使用できる言語はこちらをご参照ください。
実装概要
RTTを実装するには、自前で準備いただいたサーバー(Business server)を介してRESTful APIを使用し、HTTPリクエストを送信します。
RESTful API一覧
acquire:ユーザーを認証します。文字起こしを開始する権限を与えるbuilderTokenを要求します。このbuilderTokenを使用して5分以内にstartを呼び出す必要があります。
start:RTTタスクを開始します。タスクを開始すると、builderTokenはセッション全体で有効になります。タスクをクエリおよび停止するには、同じbuilderTokenを使用します。
query:タスクの状態を確認します。
stop:タスクを停止します。
実装のイメージは下記シーケンス図をご覧ください。
詳細な実装方法はこちらをご参照ください。
RESTful APIの実装方法はこちらをご参照ください。
※注意点として、Startに関してV2のRestful APIをご利用ください。
お申し込み
以下の内容をZendeskのチケットシステムにてご連絡ください。およそ1週間を目処として有効化完了後にお知らせいたします。その際も以下の内容をご教示ください。
- App ID
- 利用業界(教育・エンタメ等)
- ユースケース (例. 1対1のビデオ通話、1対多の一方向のライブ配信)
- 上記のAppIDは検証環境と本番環境のどちらで利用しているものか
- チャンネルあたりの想定同時接続スピーカー数(デフォルトでは2名まで)
- 想定同時接続チャンネル数(デフォルトでは5チャンネルまで)