首页 > 科技快讯 > 攻克视频生成难题！合工大、清华、智谱开源「多图像参考生视频」框架Kaleido

攻克视频生成难题！合工大、清华、智谱开源「多图像参考生视频」框架Kaleido

晰数塔互联网快讯
2025-10-28 12:33

（来源：网易科技）

近年来，视频生成技术，尤其是基于扩散模型（Diffusion Model）的技术，发展极为迅速，从文本到视频（Text-to-Video，T2V）、图像到视频（Image-to-Video，I2V）等任务不断取得突破。商业化系统（如 Sora、Veo3、Kling、Vidu）已经能生成媲美专业制作的视频内容，极大提升了创作效率，同时降低了成本。

在此过程中，主体到视频（Subject-to-Video, S2V）生成任务开始备受关注。S2V 的目标是：给定一个或多个参考图像，生成主体外观一致、背景可控的动态视频。这种方法结合了文本生成的创造性和图像生成的精准性，适合数字人、虚拟试穿、电商广告、艺术创作等场景。

然而，现有开源 S2V 模型难以在多主体场景中保持主体一致性，也难以实现背景信息的有效解耦。

论文地址：https://arxiv.org/pdf/2510.18573

代码地址：https://github.com/CriliasMiller/Kaleido

为应对这些挑战，来自合肥工业大学、清华大学和智谱的研究团队提出了开源多主体参考视频生成框架——Kaleido，旨在让开源模型在一致性与背景解耦方面达到最优水平。

图｜Kaleido的S2V生成，涵盖单人和多人场景中的人物、物体及可控背景生成。

实验表明，Kaleido 在一致性、保真度和泛化能力方面均优于先前的方法，代表了 S2V 生成领域的重要进展。

图｜S2V 评估（左）和用户研究结果（右）。

研究框架

现有 S2V 方法在保持多主体一致性和处理背景解耦方面仍存在不足，在多图像条件下，这通常会导致较低的参考保真度和语义漂移，可归因于几个因素：

基于此，研究团队提出新的数据构造流水线及对应的条件注入方案，创新点主要体现在三点：

1.高质量多样化数据构建流水线

2.Reference Rotary Positional Encoding (R-RoPE) 条件注入机制

3.两阶段训练策略

实验结果与效果

在多个维度评测中，Kaleido 展现了强大的性能：

更具体地，消融实验表明：

不足与未来方向

虽然 Kaleido 在开源体系中表现突出，但仍存在一些局限性：

未来探索方向包括：

如需转载，请直接在本文章评论区内留言

相关推荐

攻克视频生成难题！合工大、清华、智谱开源「多图像参考生视频」框架Kaleido
对话生数科技CEO骆怡航：参考生视频让创作回归本质，下一步将推进实时生成
 智谱AI公布清影新升级：视频生成步入“有声”时代
 智谱推出AI生成视频新清影：支持超高清，自带音效
 实测“电商神器” Vidu 参考生图：有素材就能拼出任何图片
 大模型低价火拼间，智谱AI“钱途”黯淡
 中国AI开源16强，最新出炉
 网购下单、朋友圈点赞智谱展示新AI工具可自动操作手机
 AI视频生成有多卷？‍‍‍‍‍‍‍‍
阿里再开源，首个MoE视频生成模型登场，电影级美学效果一触即达

网址: 攻克视频生成难题！合工大、清华、智谱开源「多图像参考生视频」框架Kaleido http://m.xishuta.com/newsview143636.html

所属分类：行业热点

最新科技快讯

银河通用获百达精工千台机器人订单，共建智能生产新体系

台积电熊本晶圆二厂将升级2nm制程

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点