オーディオファイルからスピーチクリップを作成する

Face Robot では、オーディオファイルからリアルなアニメーションデータを作成することができます。Face Robot では、国際音声記号(IPA)の標準規定に従う英語の 38 の音素と日本語の 23 の音素を識別し、音声認識技術によってこれらの音素がオーディオファイルのどこに位置するかを自動的に判断します。インポートしたライブラリの口形素が、対応する各音素に自動的にマップされます。

口形素のアニメーションは、頭のモデルのミキサにロードされるスピーチクリップに保存されます。このクリップには、唇、顎、および舌のアニメーションコントロールにあるリップシンクアニメーションが含まれます。オーディオクリップは、このトラック上にロードされ、スピーチクリップに相対的にリンクされるので、どちらか一方が移動しても同期するように設定されています。詳細については、「リップシンクアニメーションをブレンドする」を参照してください。

サポートされているオーディオファイル形式

Face Robot では、次のオーディオファイル形式がサポートされています。詳細については、「サポートされているオーディオファイル形式」を参照してください。

[*.aiff]/.aif: Audio Interchange File Format
[*.aifc]: Audio Interchange Format - Compressed
[*.avi]: Audio Video Interleave
[*.mov]: Apple^® QuickTime
[*.qt]: Apple QuickTime
[*.wav]: Windows waveform

オーディオおよびテキストファイルをロードする

オーディオファイルをロードする前に、使用するオーディオファイルの形式が現在サポートされているかどうかを確認してください(前述のリストを参照)。また、オーディオファイルの台詞が書き出されたテキストファイルも必要になります。このテキストファイルは、オーディオファイルと同じ名前になりますが、拡張子には .txt などが使用されます。オーディオファイルの台詞のテキストを使用することにより、より自然なリップシンクを作成することができます。

オーディオファイルの台詞を書き起こしたテキストファイルがない場合は、まずオーディオファイルと同じフォルダに同じ名前で空の.txtファイルを作成し、[LipSync(リップシンク)]ダイアログボックスに直接テキストを入力して保存します。

オーディオファイルをロードして、リップシンククリップを作成するには

[Library(ライブラリ)]パネルから[リップシンク](LipSync) [リップシンクの作成](Create LipSync)を選択します。
[LipSync(リップシンク)]ダイアログボックスが開いたら、リップシンクの作成に使うオーディオファイルとテキストファイルの[言語](Language)を、英語と日本語の中から選択します。
[オーディオ](Audio)のブラウズボタン(...)をクリックし、オーディオファイルを選択します。
- オーディオファイルに対応するテキストファイルが同じフォルダ内に存在する場合は、それが自動的にロードされます。ここで、誤字?脱字があればそれを修正し、[保存](Save)ボタンをクリックしてロードする前に更新します。
- テキストファイルがオーディオファイルとともに自動的にロードされない場合は、[テキスト](Text)のブラウズボタン(...)をクリックして、テキストファイルを選択するためのブラウザを開きます。
- オーディオファイルのテキストファイルがない場合は、まずオーディオファイルと同じフォルダに同じ名前で.txtファイルを作成します。次に、その.txtファイルをロードし、台詞をこのテキストボックスに入力します。[保存](Save)ボタンをクリックすると、入力した台詞が空の.txtファイルに書き込まれます。
リップシンククリップを開始するフレームを選択します。
- [現行](Current)ボタンをクリックして、タイムライン上で再生カーソルが現在位置しているフレームからクリップを開始します。これにより、[クリップオフセット]テキストボックスがそのフレームに更新されます。
  
  または
- [クリップオフセット](Clip Offset)テキストボックスで、クリップを開始するフレーム値を指定します。
  
  スピーチクリップの作成
スピーチクリップを作成する準備が整ったら、[Lip Sync(リップシンク)]ダイアログボックスで[リップシンクの作成](Create LipSync)ボタンをクリックします。
- オーディオファイルとテキストファイルが解析され、音素が作成され、それがリップシンクビューのトラックに挿入されてビューポートの下に表示されます。「リップシンクビュー」を参照してください。
- インポートしたライブラリの口形素は、オーディオファイル内の対応する音素に自動的にマップされます。
- スピーチクリップは、頭のモデルのミキサに作成されます。表示された[Speech Blend(スピーチブレンド)]プロパティエディタで、そのクリップの唇、舌、および顎のアニメーションがブレンドされる方法を設定することができます。「リップシンクアニメーションをブレンドする」を参照してください。
アニメーションで再生して、台詞に沿って口がどのように動くかを確認します。より良い音声を求めてすべてのフレームを再生するよりも、リアルタイムで音声を再生してください。再生する音声を設定する詳細については、「オーディオを再生する」を参照してください。

また、フリップブックを作成して、最初の結果を解析することができます。「フリップブックでアニメーションをプレビューする」を参照してください。
音素の変更準備が整ったら、リップシンクビューを開きます。「リップシンクビュー」および「音素を調整する」を参照してください。