在信息管理中关村论坛以前东说念主工智能前锋论坛上
发布日期:2024-04-30 16:02    点击次数:153

在信息管理中关村论坛以前东说念主工智能前锋论坛上

时隔两个月,清华团队打造了一个中国版的Sora视频大模子。

4月27日,在中关村论坛以前东说念主工智能前锋论坛上,中国首个永劫长、高一致性、高动态性视频大模子Vidu崇拜发布。这一模子由清华大学和大模子创业公司生数科技长入发布,不错一键生成长度达16秒、分别率为1080P的高清视频本色。

证券时报记者独家获悉,清华大学东说念主工智能谈判院副院长、生数科技首席科学家朱军在Vidu发布后发声暗示:“Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚握,在实验室架构上吐花限定。”据先容,这亦然自OpenAI发布Sora以后,环球领先赢得要害毁坏的视频大模子。

Sora发布后,行业内一直有团队声称要追逐和复现Sora,而Vidu团队用两个月的时分领先跑出来。记者梳剃头现,生数科技在多模态大模子规模也曾有较深的积聚,亦然现在多模态大模子赛说念估值最高的初创公司之一。现在公司已完成三轮融资,融资额达数亿元东说念主民币,投资方包括启明创投、智谱AI、BV百度风投、锦秋基金等一众机构。

对标Sora,生成视频连贯高清

“画室里的一艘船驶向镜头”,只需要输入这么一句粗浅的辅导,即不错生成遵循传神、镜头连贯的一段视频。在生数科技发布的Vidu模子生成视频样片中,视频的举座质感险些可与Sora相比好意思。

据生数科技先容,Vidu模子弃取团队原创的Diffusion与Transformer交融的架构U-ViT,支援一键生成长达16秒、分别率高达1080P的高清视频本色。“U-ViT架构早在2022年9月就由团队提议,早于Sora弃取的DiT架构,是环球首个Diffusion与Transformer交融的架构。”生数科技暗示。

记者注意到,本年3月生数科技完成新一轮融资后,生皮公司就公开暗示, 微波炉天然Sora的出现标明好意思国在多模态大模子规模具有逾越性, 雕刻工艺品“但中国也并非王人备从零驱动的阶段”。据先容, 羊绒衫朱军在2023年1月就提议了基于Transformer的多模态扩散大模子UniDiffuser, 交通安全弃取了U-ViT,该架构与Sora的架构道路王人备一致,区别在于UniDiffuser主要运用于图像生成任务,但也不错以此为基础进行视频任务的拓展。

恰是基于在机器学习和多模态大模子的永远积聚,团队能力够在短短的两个月时分里毁坏了长视频暗示与处置的多项要津时间,见效研发推出Vidu视频大模子。朱军在Vidu模子发布现场暗示,Vidu主要有以下方面的特质与上风:

一是模拟真确物理天下,不错生成复杂、细节丰富的场景,光影遵循与东说念主物心绪都大致合适真确的物理设施。

二是豪阔思象力,不错编造场景以及思象超推行看法的画面。

三是具有多镜头谈话,信息管理不再局限于固定镜头,大致在盲从主体一致性的情况下完毕前景、近景、中景、特写等不同镜头的动态切换,还不错完毕长镜头、追焦等遵循。

四是有出色的视频时长,能支援16秒长度的视频生成,保握镜头和主体的连贯一致。

五是能和会中国元素,不错更好地和会生成熊猫、龙等豪阔中国文化特色的形象。

Vidu生成的龙、熊猫等中国文化元素视频

背后团队来自清华,已融资数亿元

Vidu的背后,是一家来自清华的明星创业公司生数科技。

企业-上媛亚坚果有限公司

公开而已显现,生数科技开垦于2023年3月,中枢成员来自清华大学东说念主工智能谈判院,费力于于自主研发天下逾越的可控多模态通用大模子。公司的CEO本硕就读于清华大学打算机系的唐家渝,首席科学家由清华东说念主工智能谈判院副院长朱军担任,CTO鲍凡则是清华大学打算机系博士生、朱军涵养的课题构成员,永远柔软扩散模子规模谈判。

记者注意到,本年3月,唐家渝曾在同样会上向媒体暗示,本年内公司的大模子一定能达到Sora现在版块的遵循,“但很难说是三个月如故半年”。但是,Vidu却提前交出了一份令东说念主惊艳的考卷,这主要收货于团队是国内最早布局多模态大模子的团队之一,多年以来在这一规模酿成了深厚的积聚。

据唐家渝先容,生数科技现在弃取模子层和运用层两条路步碾儿的方法。一方面,构建阴私文本、图像、视频、3D 模子等多模态才略的底层通用大模子,面向B端提供模子做事才略;另一方面,面向图像生成、视频生成等场景打造垂类运用,按照订阅等样式收费,运用地点主如若游戏制作、影视后期等本色创作场景。

记者梳剃头现,生数科技自开垦以来就备受本钱柔软。天眼查数据显现,生数科技现在共完成3轮融资。2023年6月,完成近亿元东说念主民币天神轮融资,投资方包括蚂蚁集团、BV百度风投、卓源亚洲、卓源本钱;2023年8月,完成数千万东说念主民币天神+轮融资,投资方为锦秋基金;2024年3月,完成数亿元东说念主民币A轮融资,投资方除了启明创投、达泰本钱、智谱AI等新机构之外,还有BV百度风投、卓源亚洲两个老鼓吹。

精河县钟博有机肥有限公司

在三轮融资推断数亿元东说念主民币的本钱加握下,生数科技已成为现在国内多模态大模子中估值最高的初创公司之一。生数科技暗示,Vidu的问世不仅是U-ViT交融架构在大范围视觉任务中的又一次见效考证信息管理,也代表了生数科技在多模态原生大模子规模的握续转变才略和逾越性。