当前位置：首页 > news >正文

300亿参数开源巨兽登场：Step-Video-T2V Turbo如何重塑AIGC视频生产？

news 2026/6/28 12:26:39

300亿参数开源巨兽登场：Step-Video-T2V Turbo如何重塑AIGC视频生产？

【免费下载链接】stepvideo-t2v-turbo项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v-turbo

导语

阶跃星辰正式开源300亿参数视频生成大模型Step-Video-T2V Turbo，以204帧超长视频生成能力和MIT开源协议，推动AI视频创作从专业领域向千行百业普及。

行业现状：文生视频进入「效率竞赛」

根据Business Research Insights 2025年报告，全球文本到视频模型市场规模预计将从2024年的11.7亿美元增长至2033年的44.4亿美元，年复合增长率达10.8%。这一赛道正呈现「双轨并行」格局：OpenAI Sora等闭源模型凭借资本优势占据高端市场，而开源社区则通过技术创新不断缩小差距。

2024-2025年，视频生成技术已从「能生成」向「生成好」跃迁。用户对视频长度（从秒级到分钟级）、分辨率（从720P到4K）和推理速度（从分钟级到秒级）的需求持续提升，而现有开源模型普遍面临「长视频卡顿」「物理规律失真」「多语言支持不足」三大痛点。

与此同时，国内企业也在积极布局这一赛道。吉利与阶跃星辰合作的Step-Video-T2V、爱诗科技PixVerse V3、字节跳动Goku等模型在生成时长、画面一致性、多模态融合和高分辨率生成等方面持续突破，推动着行业技术边界不断前移。

核心亮点：Step-Video-T2V的三大技术突破

1. 极致压缩的Video-VAE架构

模型采用16×16空间压缩与8×时间压缩的深度压缩变分自编码器（VAE），将视频数据压缩比提升至1:2048，较Hunyuan-video等同类模型效率提升3倍。这一设计使300亿参数模型能在单张80GB GPU上生成204帧视频，而峰值显存仅需77.64GB。

2. Turbo版本实现「实时生成」

通过推理步数蒸馏技术，Step-Video-T2V Turbo将生成204帧视频的推理步数从50步压缩至10-15步。配合Flash-Attention优化，在544×992分辨率下生成时长7秒的视频仅需408秒，较基础版提速68%，接近商业引擎的交互级体验。

3. 视频DPO与多模态融合能力

模型在训练末期引入视频偏好优化（DPO）技术，通过人类反馈数据调整生成策略，使动态连贯性提升40%。特别值得注意的是其双语处理能力，可精准生成包含"stepfun"等特定文字的视频内容，在品牌植入场景中表现突出。

如上图所示，该视频由提示词"乔布斯在发布会介绍stepvideo产品"生成，人物姿态自然度达92%，文字清晰度（屏幕上的"stepvideo is coming"）超越同类开源模型30%以上。这一案例验证了模型在复杂场景生成中的细节把控能力，特别是在人物表情、动作连贯性和文本清晰度方面的优势。

行业影响：开源生态如何重塑创作经济

Step-Video-T2V的MIT协议开源策略已产生显著行业影响。2025年2月与吉利汽车的跨界合作，首次将视频生成技术应用于汽车设计流程，使概念车动态展示视频制作周期从2周压缩至1天。在内容创作领域，"跃问视频"平台数据显示，采用该模型的创作者平均视频制作效率提升300%，其中游戏解说类内容的观众留存率提高27%。

行业分析师指出，这种开源模式正在形成良性循环：开发者基于模型权重优化出Turbo版本（10-15步快速推理），将生成时间缩短60%；企业用户则通过微调模型开发垂直领域解决方案，如教育机构的历史场景复原、电商平台的虚拟试衣间等创新应用。

部署指南：快速上手Step-Video-T2V

环境准备

git clone https://gitcode.com/StepFun/stepvideo-t2v-turbo conda create -n stepvideo python=3.10 conda activate stepvideo cd stepvideo-t2v-turbo pip install -e . pip install flash-attn --no-build-isolation # 可选优化