17370845950

新闻动态

港科大开源VideoVAE+，视频重建质量全面超越最新模型

港科大团队开源高效视频压缩重建模型videovae+，该模型在保持时间一致性和运动恢复的同时，实现了对大幅运动视频的高效压缩与精准重建。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏持续报道全球顶尖AI学术研究成果，欢迎投稿分享您的研究成果。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

VideoVAE+模型关键创新：

VideoVAE+ 是一种跨模态视频变分自编码器，其核心突破在于：

论文地址： https://www./link/b22511377f9a12f2c227ef2628933a3d 代码地址： https://www./link/a1cae678af59c92bbf86e04d9949aad7

VideoVAE模型及现有方法的局限性:

VideoVAE模型用于视频压缩、重建和生成。许多现有方法直接采用图像VAE逐帧处理，忽略帧间关联性，导致时序闪烁。而一些考虑时间维度的VideoVAE方法，也存在细节模糊、失真、运动卡顿等问题。

图1：VideoVAE+与其他先进模型的视觉效果对比

VideoVAE+模型技术细节:

VideoVAE+采用时空分离的建模策略：

此外，VideoVAE+还采用了：

图2：三种时空建模方法对比

实验结果与结论:

VideoVAE+在多个数据集上显著优于包括英伟达Cosmos Tokenizer和腾讯Hunyuan Video在内的最新模型。

Demo视频链接 (请替换为实际链接)

VideoVAE+的开源为视频压缩和重建领域带来了新的突破，其高效性和高精度有望推动相关应用的发展。