丽贝卡·莫恩(Rebeca Moen)
7月4日,2025年04:27
targin.ai介绍了TalkingMachines,这是实时AI视频生成中的突破,利用高级扩散模型用于交互式,音频驱动的角色动画。
角色ai宣布了实时视频生成的重大进步,这是一种创新的自回归扩散模型TalkingMachines的揭幕。这项新技术可以创建交互式,音频驱动的面部式视频,允许角色在各种样式和流派中实时交流,如pronem.ai博客所报道。
革命性的视频生成
TalkingMachines建立在角色的先前作品Avatarfx上,该作品在其平台上为视频发电提供动力。这个新模型为身临其实的实时AI驱动的视觉交互和动画字符设定了舞台。通过仅利用图像和语音信号,该模型可以生成动态视频内容,为娱乐和交互式媒体打开新的可能性。
说话机器背后的技术
该模型利用一种称为不对称知识蒸馏的方法利用扩散变压器(DIT)结构。这种方法将高质量的双向视频模型转换为快速的实时生成器。关键功能包括:
- 流相匹配的扩散: 预估计以管理从微妙表达到动态手势的复杂运动模式。
- 音频驱动的交叉注意: 1.2B参数音频模块,使声音和运动错综复杂。
- 因果关系稀疏: 通过关注相关的过去框架来减少内存和延迟。
- 不对称蒸馏: 为无限长度生成使用快速的两步扩散模型而没有质量损失。
对未来的影响
这一突破超出了面部动画的范围,为交互式视听AI字符铺平了道路。它支持各种风格,从影片化到动漫和3D化身,并有望通过自然的口语和听力阶段来增强流式传输。这项技术为角色扮演,讲故事和互动世界建设奠定了基础。
提高AI功能
角色。EA的研究标志着几项进步,包括实时生成,有效的蒸馏和高可扩展性,并且操作只能在两个GPU上运行。该系统还支持多钟相互作用,从而实现了无缝的角色对话。
前景
虽然尚未推出产品,但这种开发是角色的路线图中的关键里程碑。该公司正在努力将这项技术集成到他们的平台中,旨在实现类似FaceTime的体验,角色流和视觉世界构建。最终目标是使与沉浸式视听角色的创造和互动民主化。
Partin.ai在培训基础设施和系统设计方面进行了大量投资,利用了超过150万个策划的视频剪辑和三阶段的培训管道。这种方法体现了AI技术领域研究的精确性和目的。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: