
你家里的显卡也能用!阿里万相视频生成模子开源
2月25日讯息,阿里云旗下视觉生成基座模子万相2.1(Wan)晓示开源,这次开源给与最宽松的Apache2.0公约,14B和1.3B两个参数规格的一皆推理代码和权重一皆开源,同期守旧文生视频和图生视频任务,全国缔造者可在Github、HuggingFace和魔搭社区下载体验。

据先容,14B万相模子在提示效能、复杂畅通生成、物理建模、笔墨视频生成等方面施展凸起,在巨擘评测集VBench中,万相2.1以总分86.22%的收成大幅超越Sora、Luma、Pika等国表里模子,稳居榜首位置。1.3B版块测试效率不仅越过了更大尺寸的开源模子,以至还接近部分闭源模子,同期能在破钞级显卡起初,仅需8.2GB显存就不错生成高质地视频,适用于二次模子缔造和学术筹办。

万相2.1以总分86.22%的收成稳居VBench榜单第一
在算法缱绻上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可推广的预考验计谋等。以3D VAE为例,为了高效守旧纵情长度视频的编码妥协码,万相在3D VAE的因果卷积模块中兑现了特征缓存机制,从而代替平直对长视频端到端的编解码进程,兑现了无穷长1080P视频的高效编解码。此外,通过将空间降采样压缩提前,在不蚀本性能的情况下进一步减少了29%的推理时内存占用。
万相团队的本质效率浮现,在畅通质地、视觉质地、作风和多主张等14个主要维度和26个子维度测试中,万相均达到了业界率先施展,况兼斩获5项第一。尤其在复杂畅通和物理规定效能上的施展大幅擢升,万相约略矫捷展现多样复杂的东谈主物肢体畅通,如旋转、越过、回身、翻腾等;约略精确归附碰撞、反弹、切割等复杂确切物理场景。
生成示例展示:

Prompt:体育影相作风,骑手在场面摧毁赛中提示马匹快速通过摧毁物。骑手身着专科比赛服,头戴安全帽,激情专注而坚韧,双手紧捏缰绳,双腿夹紧马腹,与马匹无缺联结。马匹腾空跃起,算作连贯且准确,四蹄有劲地踏过每一个摧毁物,保持速率和均衡。配景是当然的草地和蓝天,画面充满动感和病笃感。4K, 高清画质,算作完整。

Prompt:体育影相作风,中国皮划艇畅通员在洪水回旋比赛中,于湍急的水流顶用桨快速划水,活泼地绕过一个又一个摧毁物。他身着专科畅通服,肌肉线条彰着,激情专注而坚韧,展现出出色的操控手艺和松弛的拼搏精神。配景是走漏的河流和翠绿的山峦,画面充满动感与活力。算作完整,4K, 高清画质。

Prompt:一段超速POV镜头,录像机奔突穿越一条阳光下的中国乡村小径,镜头紧随着一个在空中飞翔的穿戴舒服服舒服鞋的中国女子的背后,她躯壳赠送伸开双臂,风吹动她的头发和衣服。
南边+记者 叶丹开yun体育网
