研究简报

视频角色表演生成模型：LPM 1.0 改变了什么

用通俗语言拆解 LPM 1.0 架构 — 什么是视频角色表演生成模型、LPM 1.0 论文为何重要、它对对话视频、虚拟主播和游戏 NPC 意味着什么。

章节

什么是视频角色表演生成模型？

视频角色表演生成模型是一种生成系统：以参考图像 + 一个或多个控制信号（文本、音频、姿态）为条件，直接以像素的形式产出角色视频——说话、聆听、反应、表达情感。它不是给 3D 骨架做动画，也不是把人脸贴图合成到背景上。每一帧都是端到端合成的。

这一类别处于三条早期分支的交汇点：人脸再现、音频驱动的人头视频、全身动作生成。让这一模型类别变得新颖的，是它试图在单一解码器内同时做到三件事，且实时运行，达到视频通话级延迟。

LPM 1.0（Large Performance Model）是一个 17B 参数的 Diffusion Transformer，专为该任务训练。公开的技术报告用 43 页详细记录了数据构建、架构、蒸馏管线与基准方法学——这是该领域最详尽的公开披露之一。

章节

在不久之前，角色视频系统总是被迫做出取舍：从快、表现力强、身份稳定 中选两个。人头视频模型快但表情扁平。扩散视频模型表现力强但每段需要数分钟。多阶段虚拟形象管线身份稳定但无法实时反应。

LPM 1.0 的贡献是用同一个模型同时处理三条轴。它在 480P/720P、24fps 下做到 0.35 秒端到端延迟，可零样本泛化到写实、动漫、3D 和非人形角色，并在长时间连续会话中保持身份——已记录的 22 分钟和 45 分钟全双工对话场景下零漂移。

章节

LPM 1.0 的三大核心能力分别针对前期工作的具体失败模式：

全双工: 模型在同一次前向中同时生成「说」和「听」的行为——视线变化、微点头、唇形同步、反应式表情都是联合产出，而不是事后拼接。这正是让一个角色感觉到在场，而不仅仅是被动画化。
身份稳定性: 多粒度参考条件——全局外观、多视角身体、面部表情样例——让模型基于「角色的样子」而不是凭空想象细节。在长会话中，竞品身份评分明显衰减时，LPM 1.0 的身份评分保持平稳。
低延迟流式生成: 通过 Distribution Matching Distillation（DMD）将 17B 的 Base LPM 压缩为因果式 Online LPM，每帧仅 2 步扩散。结果是视频通话级延迟下的实时输出，且无可感知的质量断崖。

章节

传统管线把绑定阶段、动作捕捉阶段、唇形同步模型和渲染阶段堆叠在一起。LPM 1.0 把整套流程压缩成一个基于扩散的模型。取舍的形态也随之改变。

章节

给聊天或语音 Agent 一张会聆听的脸。实时生成意味着虚拟形象在用户说话期间就能反应，而不是事后。

丢入一张角色图和一段脚本即可。LPM 1.0 可零样本泛化到动漫、3D 和风格化角色，无需逐角色重训。

长会话身份稳定性，是「持久虚拟主播」与「20 秒演示」之间的分水岭。LPM 1.0 已有数小时连续会话的记录。

章节 · 06

亲自用模型，是理解架构的最直接方式。从一个起点开始——生成角色视频、浏览精选输出，或在购买前对比套餐。