全球最大开源视频模型，现在也 Created in China了，阶跃出品

• 2025-02-20 10:21:38 • 新闻 •

作者：衡宇发自凹非寺

图片来源：由无界AI生成

刚刚，阶跃星辰联合吉利汽车集团，开源了两款多模态大模型！

新模型共2款：

多模态卷王开始开源多模态模型，其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议，可任意编辑和商业应用。

（老规矩，GitHub、抱抱脸、魔搭直通车可见文末）

在两款大模型的研发过程中，双方在算力算法、场景训练等领域优势互补，“显著增强了多模态大模型的性能表现”。

从官方公布的技术报告来看，这次开源的两款模型在Benchmark中表现优秀，性能超过国内外同类开源模型。

抱抱脸官方也转发了中国区负责人给予的高度评价。

划重点，“The next DeepSeek”、“HUGE SoTA”。

哦，是吗？

那量子位可要在本篇文章中掰开技术报告+一手实测，看看它们是否名副其实。

量子位求证，目前，本次2款新的开源模型都已接入跃问App，人人可以体验。

多模态卷王首次开源多模态模型

Step-Video-T2V和Step-Audio，是阶跃星辰首次开源的多模态模型。

Step-Video-T2V

先来看看视频生成模型Step-Video-T2V。

它的参数量达到30B，是目前已知全球范围内参数量最大的开源视频生成大模型，原生支持中英双语输入。

官方介绍，Step-Video-T2V共有4大技术特点：

第一，可直接生成最长204帧、540P分辨率的视频，确保生成的视频内容具有极高的一致性和信息密度。

第二，针对视频生成任务设计并训练了高压缩比的Video-VAE，在保证视频重构质量的前提下，能够将视频在空间维度压缩16×16倍，时间维度压缩8倍。

当下市面上多数VAE模型压缩比为8x8x4，在相同视频帧数下，Video-VAE能额外压缩8倍，故而训练和生成效率都提升64倍。

第三，针对DiT模型的超参设置、模型结构和训练效率，Step-Video-T2V了进行深入的系统优化，确保训练过程的高效性和稳定性。

第四，详细介绍了预训练和后训练在内的完整训练策略，包括各阶段的训练任务、学习目标以及数据构建和筛选方式。

分享链接： - 区块链日报

免责声明：本站所有内容不构成投资建议，币市有风险、投资请慎重。