Skip to main content
30
:
00
:
00
立减 40%
查看套餐
研究简报

视频角色表演生成模型:LPM 1.0 改变了什么

用通俗语言拆解 LPM 1.0 架构 — 什么是视频角色表演生成模型、LPM 1.0 论文为何重要、它对对话视频、虚拟主播和游戏 NPC 意味着什么。

参数量
17B
延迟
0.35s
分辨率
480P / 720P
帧率
24fps
章节

01

什么是视频角色表演生成模型?

视频角色表演生成模型是一种生成系统:以参考图像 + 一个或多个控制信号(文本、音频、姿态)为条件,直接以像素的形式产出角色视频——说话、聆听、反应、表达情感。它不是给 3D 骨架做动画,也不是把人脸贴图合成到背景上。每一帧都是端到端合成的。

这一类别处于三条早期分支的交汇点:人脸再现、音频驱动的人头视频、全身动作生成。让这一模型类别变得新颖的,是它试图在单一解码器内同时做到三件事,且实时运行,达到视频通话级延迟。

LPM 1.0(Large Performance Model)是一个 17B 参数的 Diffusion Transformer,专为该任务训练。公开的技术报告用 43 页详细记录了数据构建、架构、蒸馏管线与基准方法学——这是该领域最详尽的公开披露之一。

章节

02

LPM 1.0 对实时 AI 视频意味着什么

在不久之前,角色视频系统总是被迫做出取舍:从 表现力强身份稳定 中选两个。人头视频模型快但表情扁平。扩散视频模型表现力强但每段需要数分钟。多阶段虚拟形象管线身份稳定但无法实时反应。

LPM 1.0 的贡献是用同一个模型同时处理三条轴。它在 480P/720P、24fps 下做到 0.35 秒端到端延迟,可零样本泛化到写实、动漫、3D 和非人形角色,并在长时间连续会话中保持身份——已记录的 22 分钟和 45 分钟全双工对话场景下零漂移。

章节

03

全双工对话、身份稳定性与低延迟

LPM 1.0 的三大核心能力分别针对前期工作的具体失败模式:

全双工
模型在同一次前向中同时生成「说」和「听」的行为——视线变化、微点头、唇形同步、反应式表情都是联合产出,而不是事后拼接。这正是让一个角色感觉到 在场,而不仅仅是被动画化。
身份稳定性
多粒度参考条件——全局外观、多视角身体、面部表情样例——让模型基于「角色的样子」而不是凭空想象细节。在长会话中,竞品身份评分明显衰减时,LPM 1.0 的身份评分保持平稳。
低延迟流式生成
通过 Distribution Matching Distillation(DMD)将 17B 的 Base LPM 压缩为因果式 Online LPM,每帧仅 2 步扩散。结果是视频通话级延迟下的实时输出,且无可感知的质量断崖。
章节

04

LPM 1.0 vs 传统虚拟形象动画管线

传统管线把绑定阶段、动作捕捉阶段、唇形同步模型和渲染阶段堆叠在一起。LPM 1.0 把整套流程压缩成一个基于扩散的模型。取舍的形态也随之改变。

能力LPM 1.0传统管线
端到端延迟0.35s,实时每段数分钟
反应式聆听原生,全双工手工循环或后期合成
角色泛化跨风格零样本每个角色绑定 + 重训
身份漂移长会话中保持稳定数分钟后明显漂移
工程复杂度单一模型 + Prompt绑定 + 捕捉 + 唇形 + 渲染
章节

05

用例 — 对话式 AI、游戏 NPC、虚拟主播

对话式 AI

给聊天或语音 Agent 一张会聆听的脸。实时生成意味着虚拟形象在用户说话期间就能反应,而不是事后。

游戏 NPC

丢入一张角色图和一段脚本即可。LPM 1.0 可零样本泛化到动漫、3D 和风格化角色,无需逐角色重训。

虚拟主播

长会话身份稳定性,是「持久虚拟主播」与「20 秒演示」之间的分水岭。LPM 1.0 已有数小时连续会话的记录。

章节 · 06

亲自试用 LPM 1.0

亲自用模型,是理解架构的最直接方式。从一个起点开始——生成角色视频、浏览精选输出,或在购买前对比套餐。