リップシンクアニメーションをブレンドする

リップシンクアニメーションを作成すると、スピーチアクションクリップ(SpeechAction)が頭のモデルのミキサに作成されます。このクリップは SpeechBlend オペレータによって制御され、ここには口形素の一連のポーズに対応した、顔の唇、顎、および舌のコントロールのあるリップシンクアニメーションが含まれます。口形素とは、リップシンクビュー内のオーディオクリップに使用される一連の音素を指します。

SpeechBlend オペレータにより、唇、顎、および舌のアニメーションが互いにどのようにスムーズにブレンドされるか、音素間がどのようにブレンドされるかが決定されます。また、リップシンクアニメーションが頭のその他のアニメーション(モーションキャプチャやキーフレーム)、および補正シェイプとどのようにブレンドされるかも決まります。

音素は、唇、顎、および舌の動きの組み合わせで表現されます。これらの口の各部分は、スピーチアクションクリップで「チャンネル」と呼ばれます。1 つのクリップ内にこれらの 3 つのすべてのチャンネルのアニメーションが揃えば、リップシンクアニメーションを 1 つのエンティティとしてまとめて制御できるため、口形素間をスムーズにブレンドすることができます。なお、クリップ内では唇、顎、および舌のコントロールが別々の F カーブに分割されるので、各チャンネルを個別に制御することができます。

スピーチクリップを表示するには

リップシンクビューの[ミキサ]タブをクリックします。

または
[Ctrl]+[0]キーを押して、ミキサをフローティングウィンドウとして開きます。

ミキサにスピーチクリップが表示されない場合は、頭を選択し、ミキサのコマンドバーから[更新]アイコンをクリックします。

ミキサについては、「Animation Mixer の概要」を参照してください。

[スピーチブレンド](Speech Blend)プロパティエディタ

[Speech Blend]プロパティエディタを開きます。

このプロパティエディタは、スピーチクリップを作成すると自動的に表示されますが、必要に応じて Lip Sync ビューの[Lip Sync(リップシンク)]タブで[インスペクト](Inspect) [スピーチオプション](Speech Op)を選択していつでも開くことができます。

[Speech Blend]プロパティエディタで、次のオプションを設定します。

A	リップシンクビューで表示する音素の言語を、英語と日本語の中から選択します。
B	リップシンクビュー内のすべての音素で[一般]>[サイレンスの最小値]および[音素の最小値]を設定します。「サイレンスおよび音素の長さの最小値を設定する」を参照してください。
C	適切なタブ([唇]、[顎]、または[舌])の各チャンネルを有効または無効にします。「各チャンネルを有効にする」を参照してください。
D	適切なタブの各チャンネルで[ウェイトスケール係数]を設定します。「リップシンクアニメーションのウェイト設定をする」を参照してください。
E	適切なタブの各チャンネルで[時間オフセット]を設定します。「各チャンネルの時間オフセットを設定する」を参照してください。
F	適切なタブの各チャンネルで[ブレンド]の[減衰]を設定します。「音素間でリップシンクアニメーションをブレンドする」を参照してください。
G	適切なタブの各チャンネルで[音素タイプ]パラメータを設定します。「音素のブレンド時に口形素ポーズを保持する」を参照してください。
H	口形素の補正シェイプを作成した場合、そのウェイトを[唇]タブの[補正シェイプ]でブレンドすることができます。「補正シェイプをグローバルにブレンドする」を参照してください。

サイレンスおよび音素の長さの最小値を設定する

[一般]パラメータは 3 つのタブで表示されますが、通常はスピーチクリップのすべてのチャンネル(唇、顎、および舌)に適用されます。

[サイレンスの最小値](Min(imum) Silence Length)は、ブレンドに含まれる、音素と音素の間(サイレンス)に発生するギャップの長さ(秒単位)です。

サイレンスがここに設定した値よりも小さい場合は、ブレンド時に無視され、隣接の音素にブレンドされます。

逆にサイレンスがここに設定した値よりも大きい場合は、(隣接の音素にブレンドする長さが計算されるとき)ブレンドのサイレンスが音素として処理されます。ただし、あまりにも長いサイレンスは長い音素としては処理されません。長いサイレンスのブレンドは、次に発生する音素の長さと、残りのブレンド量に基づいて制限されます。
[音素の最小値](Min(imum) Phoneme Length)は、ブレンドに含まれる音素の長さ(秒単位)です。

音素がここに設定した値よりも小さい場合は、ブレンド時に無視されます。これは、ブレンド時の短い音素でアニメーションが突然発生し、隣接の音素に合わせて徐々にイーズイン/イーズアウトを行う時間が十分にない場合に役立ちます。

各チャンネルを有効にする

[Speech Blend]プロパティエディタの各チャンネルのタブ(唇、顎、および舌)の[有効](Enable)オプションを切り替えて、該当するチャンネルのアニメーションコントロールがリップシンクアニメーションに使用されているかどうかを確認します。たとえば、リップシンクアニメーションの代わりに、顎を制御するモーションキャプチャを使用する場合は、台詞の長さに合わせて顎の[有効]オプションを無効にします。

また、このオプションをアニメートして、台詞の特定のフレームのみでチャンネルを有効にすることもできます。たとえば、舌のキーフレームアニメーションを特定の音素で使用する場合、これらの音素のフレームで舌の[有効]オプションを無効にしてキーフレームアニメーションが優先されるようにし、リップシンクアニメーションを使用するときにもう一度有効にします。

ヒント:1 つのチャンネルを完全に無効にしない場合は、各チャンネル(唇、顎、および舌)の[ウェイト]の値を設定し、アニメートすることもできます。詳細については、「リップシンクアニメーションのウェイト設定をする」を参照してください。

各チャンネルの時間オフセットを設定する

[Speech Blend]プロパティエディタ内の各タブ(唇、顎、および舌)の[時間オフセット(秒単位)](Time Offset (seconds))を設定して、チャンネルのブレンド時間をオフセットします。

たとえば、唇と顎のチャンネルのみの音声が 1/8 秒リードするように設定することができます。これにより、口形素と音声をぴったり同期させるよりも仕上がりがよくなる場合があります。または、舌のみを音声よりも 1/4 秒早く動かすことができます。

音素間でリップシンクアニメーションをブレンドする

音素を 1 つひとつ明確に発音する場合や逆にうやむやに発音する場合など、口の動きがより自然になるように音素間でリップシンクアニメーションがブレンドされる方法を変更する必要がある場合もあります(通常、人は話すときには 1 つひとつの音素を明確に発音することはありません)。これを実行するには、[Speech Blend]プロパティエディタ内の各タブ(唇、顎、および舌)の[ブレンド]パラメータを使用します。これらのパラメータでは、各チャンネル(唇、顎、および舌)がブレンドされる音素数と、各音素で口形素のポーズがどのようにスムーズにイーズイン/イーズアウト(減衰)されるかを指定します。

ブレンドに使用される音素数が多いほど、口形素ポーズ間のブレンドがスムーズになります。ただし、音素数があまりに多すぎると、すべての口形素ポーズがはっきりしなくなる場合があります。音素を 1 つひとつ明確に発音する文などで口形素ポーズを適切に定義するには、この値を低めに設定しておきます。なお、逆にブレンドが十分でないと、音素間で口が何度も途切れてしまいます。

[ブレンド]の値をアニメートして、各チャンネルのブレンドをリップシンクアニメーションで変更します。

音素間で各チャンネルのブレンド値を設定するには

次のいずれかを実行します。

[Speech Blend(スピーチブレンド)]プロパティエディタ内の各チャンネルのタブで[ブレンド](Blend) [前/後(音素)](Before/After (phonemes))を設定します。この値は、ブレンドされる現在の音素の前または後の音素数です。

デフォルト値は、音素が突然発生したり、はっきり聞き取れないといったトラブルを避けるために、唇と顎で 1.5 音素に設定されています。舌のデフォルト値は 1.25 音素に設定されています。

または
Lip Sync ビューの[Lip Sync(リップシンク)]タブのコマンドバーで、[カーブ](Curves) [唇]/[顎]/[舌]の[ブレンド](Lips/Jaw/Tongue Blend)オプションを設定します。これにより、リップシンクアニメーションで、指定したチャンネルの[ブレンド]>[前/後]の値に相当するカーブが緑色で表示されます。

リップシンクビューの右端に表示される、各チャンネルのブレンドスライダテキストボックスに値を入力します。

ブレンド値をアニメートするには

キーを設定するフレームに移動します。
プロパティエディタまたは Lip Sync ビュー内のチャンネルのブレンドスライダで、[ブレンド](Blend) [前/後](Before/After)の値を変更します。
[ブレンド](Blend) [前/後](Before/After)パラメータの横にあるアニメーションアイコンをクリックするか、または Lip Sync ビュー内のチャンネルのブレンドスライダを移動して、キーを設定します。

キーを削除するには、キーのあるフレームに移動し、アニメーションアイコンをもう一度クリックします。

ブレンドの減衰値を設定するには

[Speech Blend(スピーチブレンド)]プロパティエディタ内の各チャンネルのタブ(唇、顎、および舌)で[ブレンド](Blend) [減衰](Falloff)を設定します。これにより、対応するチャンネルの各音素で口形素ポーズがどのようにスムーズにイーズイン/イーズアウトされるかが制御されます。デフォルト値は 0.4 に設定されており、ポーズの開始と終了がすばやくブレンドされます。

プロパティエディタのスライダには表示されませんが、減衰値には -1～1 の値を入力できます。
- 負の減衰値を入力すると、口形素ポーズが広い範囲でイーズイン/イーズアウトされるため、ブレンドがすぐに段階的に実行されます。
- 正の減衰値を入力すると、口形素ポーズが狭い範囲でイーズイン/イーズアウトされるため、ブレンドが後に突然実行されます。

たとえば、キャラクタがゆっくり話す場合は、減衰値を下げて、口形素ポーズをより段階的に音素にブレンドさせます。または、キャラクタが早口で話す場合は、減衰値を上げて、口形素ポーズを急激に音素とブレンドさせます。

音素ごとにブレンドイン/ブレンドアウトの値を調整する

前述したようにブレンド値を設定したら、リップシンクアニメーションで各音素の開始と終了をどのようにブレンドするかを調整することができます。個別の[ブレンドイン]および[ブレンドアウト]コマンドでは、音素内の言語行動に合わせて、さらに多くのコントロールを必要に応じて使用することができます。たとえば、司令官が部隊を大声で呼ぶとき(「Atteeeen-tion!」(気をつけーっ)などの号令)、リップシンクアニメーションを最初は音素でスムーズにブレンドし、最後は短く止めます。

音素ごとのブレンドインおよびブレンドアウトの値が、[Speech Blend]プロパティエディタのグローバルブレンド値の上のスケール係数として適用されます。結果は常に、最初に適用したグローバルブレンド値に依存します。たとえば、グローバルブレンドの[前/後]の値を 2 音素に設定した場合、ブレンドイン値を 0.5、ブレンドアウト値を 2.0 に設定して、リップシンクアニメーションがその音素の 1 音素前と 4 音素後でブレンドされるようにします。

音素ごとに確認できるブレンドインおよびブレンドアウトの変化はかなり微妙です。これは、グローバルブレンドの減衰値で最初に設定した減衰によって、音素のウェイトが急に下がるためです。

音素ごとのブレンドイン/ブレンドアウトの値を設定するには

リップシンクビューを開きます。「リップシンクビュー」を参照してください。
1 つまたは複数の音素を選択します。
次のいずれかを実行します。
- 選択した音素の 1 つを右クリックし、メニューから[ブレンドイン](Blend In)または[ブレンドアウト](Blend Out)を選択し、サブメニューから値を選択します。
  
  [ブレンドイン]または[ブレンドアウト](Blend In/Out)の値が1.0に設定されている場合は、音素には[Speech Blend(スピーチブレンド)]プロパティエディタのグローバルブレンドの前/後に設定した値が100%使用されます。0.25～2.5 の範囲内に値を設定できます。値を 2 に設定すると、グローバルブレンド値が 2 倍になります。
  
  または
- 選択した音素の 1 つを右クリックし、メニューから[編集](Edit)を選択します。[Phoneme(音素)]ダイアログボックスで、[ブレンドのオーバーラップ調整](Blend Overlap Adjustment) [イン](In)および[アウト](Out)の値を設定します。
  
  各パラメータリストからプリセット値を選択するか、テキストボックスに 0 以上の値を入力します。
  
  [適用]ボタンをクリックして、これらのパラメータの値を選択した音素に適用します。

音素のブレンド時に口形素ポーズを保持する

ブレンドの前/後に高い値を設定すると、口形素ポーズによってははっきりしない場合があります。口形素によってはそれでも問題がない場合がありますが、音素を正しく認識できるように口の形を形成したほうがよい場合もあります。口形素は、「ランドマーク口形素」と呼ばれることがあります。たとえば、両唇音(M、P、および B)では、ここで P の口形素を示すように、口形素ポーズで上唇と上唇が合わさってこれらの音素と識別できるまで調整します。

唇、舌、または顎など使用する口の部分に応じて、口形素となる口の形を保持することができます。各口形素と各音素がどのように分類されて保持されるかを確認するには、現在の Viseme (口形素)ライブラリ内の[USEnglish.csv]ファイル(日本語の場合も同じ)を開きます。ライブラリの各音素は、口の全体のコントロール、顎と舌、または主に舌など、口のコントロールのタイプに応じて分類されます。たとえば、顎と舌が保護された音素では、唇のコントロールがブレンドされ、顎および舌のコントロールが常に正しいシェイプに形成されるようにできます。

各チャンネルのシェイプを保持するには

[Speech Blend(スピーチブレンド)]プロパティエディタ内の各タブ(唇、顎、および舌)の[音素タイプ](Phoneme Type) [スケール係数の保持](Preserve Scale Factor)を設定して、対応するチャンネルのウェイトを上げ、口形素のシェイプを保持します。

値が 1 の場合は、ウェイトが増加されていないことを意味します。1 以上の値を指定すると、対応する音素にそのスケール係数が適用され、ブレンドに変化が確認できますが、ウェイトの増加量は周りの音素に依存します。

たとえば、ある 1 つの音素では主に顎を使用し、その周りの音素では顎を使用しない場合、ここに 1 以上の値を設定すると、顎を使用する音素のウェイトが増加します。ただし、周りのすべての音素でも顎を使用する場合は、そのすべてのウェイトが増加され、ブレンドですべてが正規化されるため、スケール係数を設定しても何の効果も見られません。

各チャンネルの保持係数の減衰を設定するには

[音素タイプ](Phoneme Type) [減衰](Falloff)の値を設定して、保持された音素のスケール係数がどのようにスムーズに音素をイーズインおよびイーズアウトするかを制御します。[減衰](Falloff)の値を 0 に設定すると、同じ一定の減衰が行われますが、-1～1 の範囲内に設定することができます(スライダが表示されない場合は、テキストボックスに値を入力できます)。
- 負の減衰値を入力すると、スケール係数が広い範囲でイーズイン/イーズアウトされるため、ブレンドがすぐに段階的に実行されます。
- 正の減衰値を入力すると、スケール係数が狭い範囲でイーズイン/イーズアウトされるため、ブレンドが後に突然実行されます。

リップシンク アニメーションをブレンドする

スピーチ クリップを表示するには

[スピーチ ブレンド](Speech Blend)プロパティ エディタ