发布日期:2024-03-19 00:49 点击次数:102
它能生成高贵都市夜景中的骆驿连接。全球首个开源的类Sora架构视频生成模子神秘顾客技术,来了!
悉数这个词西席历程,包括数据处理、悉数西席细节和模子权重,全部绽开。
这即是刚刚发布的Open-Sora 1.0。
它带来的本色效用如下,能生成高贵都市夜景中的骆驿连接。
还能用航拍视角,展现峭壁海岸边,海水拍打着岩石的画面。
亦或是延时照相下的广袤星空。
自Sora发布以来,由于效用惊艳但时代细节寥寥,揭秘、复现Sora成为了确立社区最热议话题之一。比如Colossal-AI团队推出老本直降46%的Sora西席推理复现历程。
短短两周时候后,该团队再次发布最新发扬,复现类Sora决策,并将时代决策及详备上手教程在GitHub上免费开源。
那么问题来了,复现Sora奈何罢了?
Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora
全面解读Sora复现决策
Sora复现决策包括四个方面:
模子架构缱绻
西席复现决策
数据预处理
高效西席优化计谋
模子架构缱绻
模子取舍了Sora同源架构Diffusion Transformer (DiT) 。
它以取舍DiT架构的高质地开源文生图模子PixArt-α为基座,在此基础上引入时候谨慎力层,将其膨胀到视频数据上。
具体来看,悉数这个词架构包括一个预西席好的VAE,一个文本编码器和一个诳骗空间-时候谨慎力机制的STDiT (Spatial Temporal Diffusion Transformer)模子。
其中,STDiT 每层的结构如下图所示。
它取舍串行的形势在二维的空间谨慎力模块上近似一维的时候谨慎力模块,用于建模时序相干。在时候谨慎力模块之后,交叉谨慎力模块用于对皆文本的语意。
与全谨慎力机制比较,这么的结构大大缩小了西席和推理支拨。
与相同使用空间-时候谨慎力机制的 Latte模子比较,STDiT 不错更好的诳骗依然预西席好的图像 DiT 的权重,从而在视频数据上持续西席。
STDiT结构暗意图
悉数这个词模子的西席和推理历程如下。
据了解,在西席阶段领先取舍预西席好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本镶嵌(text embedding)一谈西席STDiT扩散模子。
在推理阶段,从VAE的潜在空间中飞速采样出一个高斯噪声,顾主与领导词镶嵌(prompt embedding)一谈输入到STDiT中,获取去噪之后的特征,临了输入到VAE的解码器,解码获取视频。
模子西席历程西席复现决策
在西席复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。
一共分为3个阶段:
大范围图像预西席;
大范围视频预西席;
高质地视频数据微调。
每个阶段都会基于前一个阶段的权重持续西席。
比较于从零出手单阶段西席,多阶段西席通过渐渐膨胀数据,更高效地达成高质地视频生成的意见。
西席决策三阶段
第一阶段是大范围图像预西席。
团队诳骗互联网上丰富的图像数据和文生图时代,先西席出一个高质地的文生图模子,将该模子行为下一阶段视频预西席的驱动化权重。
同期,由于现在莫得高质地的时空VAE,他们取舍Stable Diffusion预西席好的图像VAE。
这么不仅能保险驱动模子的优厚性能,还能权贵缩小视频预西席的合座老本。
第二阶段是大范围视频预西席。
这一阶段主要增多模子的泛化才能,灵验掌抓视频的时候序列关联。
神秘顾客公司_赛优市场调研它需要使用多数视频数据西席,神秘顾客技术而且保险视频素材的各样性。
同期,第二阶段的模子在第一阶段文生图模子的基础上加入了时序谨慎力模块,用于学习视频中的时序相干。其余模块与第一阶段保持一致,并加载第一阶段权重行为驱动化,同期驱动化时序谨慎力模块输出为零,以达到更高效更快速的不停。
Colossal-AI团队使用了PixArt-alpha的开源权重行为第二阶段STDiT模子的驱动化,以及取舍了T5模子行为文本编码器。他们取舍了256x256的小分手率进行预西席,进一步增多了不停速率,缩小西席老本。
Open-Sora生收效用(领导词:水中叶界的镜头,镜头中一只海龟在珊瑚礁间适意游弋)
第三阶段是高质地视频数据微调。
据先容,这一阶段能权贵进步模子的生成质地。使用的数据范围比上一阶段缩小一个量级,然而视频的时长、分手率和质地都更高。
通过这种形势进行微调,能罢了视频生成从短到长、从低分手率到高分手率、从低保真度到高保真度的高效膨胀。
值得一提的是,Colossal-AI还详备裸露了每阶段的资源使用情况。
在Open-Sora的复现历程中,他们使用了64块H800进行西席。第二阶段的西席量一共是 2808 GPU hours,约合7000好意思元,第三阶段的西席量是1920 GPU hours,不祥4500好意思元。经过初步估算,悉数这个词西席决策得手把Open-Sora复现历程法例在了1万好意思元傍边。
数据预处理
为了进一步缩小Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了浅陋的视频数据预处理剧本,让巨匠不错应付启动Sora复现预西席。
包括公开视频数据集下载、长视频把柄镜头连气儿性分割为短视频片断、使用开源大言语模子LLaVA生成综合的领导词。
他们提供的批量视频标题生成代码不错用两卡 3 秒标注一个视频,而且质地接近于 GPT-4V。
最终获取的视频/文本对可平直用于西席。借助他们在GitHub上提供的开源代码,不错应付地在我方的数据集上快速生成西席所需的视频/文本对,权贵缩小了启动Sora复现款式的时代门槛和前期准备。
高效西席加持
除此以外,Colossal-AI团队还提供了西席加快决策。
通过算子优化和夹杂并行等高效西席计谋,在处理64帧、512x512分手率视频的西席中,罢了了1.55倍的加快效用。
同期,收获于Colossal-AI的异构内存管制系统,在单台劳动器上(8H800)不错无粗放地进行1分钟的1080p高清视频西席任务。
而且团队还发现STDiT模子架构在西席时也展现出相当的高效性。
和取舍全谨慎力机制的DiT比较,跟着帧数的增多,STDiT罢了了高达5倍的加快效用,这在处理长视频序列等践诺任务中尤为弊端。
临了,团队还放出了更多Open-Sora的生收效用。
团队和量子位裸露,他们将永久更新优化Open-Sora的臆想处治决策和动态。将来将使用更多视频西席数据,以生成更高质地、更永劫长的视频内容,并接济多分手率特色。
本色应用方面,团队裸露将鼓舞在电影、游戏、告白等范围落地。
感好奇赞佩好奇赞佩实在立者们,可走访GitHub款式了解更多~
Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora
参考相连:
[1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers
[2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
[3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
[4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation
[5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original
[6]https://github.com/google-research/text-to-text-transfer-transformer
[7]https://github.com/haotian-liu/LLaVA
[8]https://hpc-ai.com/blog/open-sora-v1.0神秘顾客技术
Powered by 郑州服务调查 @2013-2022 RSS地图 HTML地图
Copyright 站群 © 2013-2022 粤ICP备09006501号