港科大团队开源高效视频压缩重建模型videovae+,该模型在保持时间一致性和运动恢复的同时,实现了对大幅运动视频的高效压缩与精准重建。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使
用 DeepSeek R1 模型☜☜☜
AIxiv专栏持续报道全球顶尖AI学术研究成果,欢迎投稿分享您的研究成果。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
VideoVAE+模型关键创新:
VideoVAE+ 是一种跨模态视频变分自编码器,其核心突破在于:
论文地址: https://www./link/b22511377f9a12f2c227ef2628933a3d 代码地址: https://www./link/a1cae678af59c92bbf86e04d9949aad7
VideoVAE模型及现有方法的局限性:
VideoVAE模型用于视频压缩、重建和生成。许多现有方法直接采用图像VAE逐帧处理,忽略帧间关联性,导致时序闪烁。而一些考虑时间维度的VideoVAE方法,也存在细节模糊、失真、运动卡顿等问题。
图1:VideoVAE+与其他先进模型的视觉效果对比
VideoVAE+模型技术细节:
VideoVAE+采用时空分离的建模策略:
此外,VideoVAE+还采用了:
图2:三种时空建模方法对比
实验结果与结论:
VideoVAE+在多个数据集上显著优于包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。
Demo视频链接 (请替换为实际链接)
VideoVAE+的开源为视频压缩和重建领域带来了新的突破,其高效性和高精度有望推动相关应用的发展。