動画ベースのキャラクターパフォーマンスモデル:LPM 1.0 が変えること
LPM 1.0 アーキテクチャを平易な言葉で分解 — 動画ベースのキャラクターパフォーマンスモデルとは何か、LPM 1.0 論文がなぜ重要か、そして対話動画・バーチャル配信者・ゲーム NPC にとって何が変わるか。
- パラメータ数
- 17B
- 遅延
- 0.35s
- 解像度
- 480P / 720P
- フレームレート
- 24fps
01
動画ベースのキャラクターパフォーマンスモデルとは?
動画ベースのキャラクターパフォーマンスモデルとは、参照画像と 1 つ以上の制御信号(テキスト、音声、ポーズ)を条件として、キャラクター動画を直接ピクセルとして生成する生成システムです。3D リグをアニメーションさせたり、トーキングヘッド合成を背景にコンポジットしたりはしません。すべてのフレームがエンドツーエンドで合成されます。
このカテゴリは、3 つの古い系譜の交点に位置します:顔再演、音声駆動トーキングヘッド、全身モーション生成。このモデル類を新しくしているのは、それら 3 つを 1 つのデコーダの中で、リアルタイムに、ビデオ通話レベルの遅延で同時に行おうとする野心です。
LPM 1.0(Large Performance Model)は、このタスクのために訓練された 17B パラメータの Diffusion Transformer です。公開された技術レポートには、データセット構築、アーキテクチャ、蒸留パイプライン、ベンチマーク方法論が 43 ページにわたり記録されています — この分野で最も詳細な公開のひとつです。
02
なぜ LPM 1.0 がリアルタイム AI 動画にとって重要か
つい最近まで、キャラクター動画システムはトレードオフを強いられていました:速い、表現豊か、アイデンティティが安定 の 3 つから 2 つを選ぶ。トーキングヘッドモデルは速いが平板。Diffusion 動画モデルは表現豊かだがクリップ毎に数分。多段階のアバターパイプラインはアイデンティティを保てるがライブ入力に反応できない。
LPM 1.0 の貢献は、同じモデルが 3 つの軸すべてを処理することです。480P/720P、24fps で 0.35 秒のエンドツーエンド遅延、フォトリアル・アニメ・3D・非人型キャラクターへのゼロショット汎化、そして長時間の連続セッションでのアイデンティティ維持 — 22 分・45 分の全二重対話セッションで漂流ゼロが記録されています。
03
全二重対話、アイデンティティ安定性、低遅延
LPM 1.0 の 3 つの中核能力は、それぞれ従来手法の特定の失敗モードに対応します:
- 全二重
- モデルは「話す」と「聴く」のふるまいを同じ前向きパスで生成します — 視線の動き、微小なうなずき、リップシンク、反応的な表情が、後付けではなく同時に産出されます。これがキャラクターを単にアニメ化されたものではなく、その場にいる と感じさせます。
- アイデンティティ安定性
- 多粒度の参照条件付け — グローバル外観、多視点ボディ、表情エグゼンプラ — により、モデルは細部を幻覚するのではなく「キャラクターがどう見えるか」を条件付けます。長セッションで競合モデルが目に見えて減衰する中、LPM 1.0 のアイデンティティスコアは平坦に保たれます。
- 低遅延ストリーミング
- Distribution Matching Distillation(DMD)により、17B の Base LPM を 1 フレームあたり 2 拡散ステップで動く因果的 Online LPM へ圧縮します。結果はビデオ通話レベルの遅延でのリアルタイム出力で、知覚可能な品質の崖はありません。
04
LPM 1.0 vs 従来のアバターアニメーションパイプライン
従来パイプラインは、リギング、モーションキャプチャ、リップシンクモデル、レンダーパスを積み重ねます。LPM 1.0 はそれを 1 つの拡散ベースモデルに収束させます。トレードオフの形もそれに合わせて変わります。
| 能力 | LPM 1.0 | 従来パイプライン |
|---|---|---|
| エンドツーエンド遅延 | 0.35s、リアルタイム | クリップごとに数分 |
| 反応的リスニング | ネイティブ、全二重 | 手作業ループまたはポスプロ |
| キャラクター汎化 | スタイル横断ゼロショット | キャラクター毎リグ&再訓練 |
| アイデンティティ漂流 | 長セッションで安定 | 数分で目に見える漂流 |
| エンジニアリング表面 | 単一モデル + プロンプト | リグ + キャプチャ + リップシンク + レンダ |
05
ユースケース — 対話 AI、ゲーム NPC、バーチャル配信者
対話 AI
チャットや音声エージェントに「聴く顔」を与える。リアルタイム生成は、ユーザーが話している最中にアバターが反応することを意味します — 後ではなく。
ゲーム NPC
キャラクター画像とスクリプトをドロップインするだけ。LPM 1.0 はアニメ・3D・スタイライズドキャラクターにキャラクター毎の再訓練なしでゼロショット汎化します。
バーチャル配信者
長セッションのアイデンティティ安定性こそが、永続的なバーチャルホストと 20 秒デモを分けるものです。LPM 1.0 には複数時間にわたるセッションが記録されています。
LPM 1.0 を自分で試す
アーキテクチャを理解する最も直接的な方法はモデルを使うことです。出発点を選んでください — キャラクター動画を生成、厳選された出力を閲覧、または購入前にプランを比較。
