在新年伊始,一个崭新的大模型应用悄然成为网络新宠,引发一系列独特且趣味盎然的视频在社交媒体中疯传。2024年的第一个工作日,国内的社交媒体平台和朋友圈被一股新的视频潮流席卷:马斯克、兵马俑等意想不到的角色跳起了科目三舞和各类网红舞,而这些耐人寻味的短视频,都是由一款大模型技术生成的。
事实上,这大约只有10秒的视频,并非由真人出镜拍摄所成,而是通过阿里云推出的一款新技术“通义千问APP”生成。通过这项技术,使用者仅需上传一张图片,短短十几分钟,便可生成一段完整的舞蹈视频。不仅如此,视频中的人物形象仍旧保持着原照片的面部表情、身材比例、服装甚至背景等特征,宛如真人在屏幕中跳舞。
阿里云通义千问APP现已为用户提供了科目三、蒙古舞、划桨步和鬼步舞等12种热门的舞蹈模板。用户在APP内输入“通义舞王”、“全民舞王”等口令之后,可进入体验页面,上传图片后即刻参与这场AI跳舞的盛宴。
这一功能背后的技术成果是由阿里通义实验室自主研发的视频生成模型“Animate Anyone”。这一模型在国际社交媒体推特、Youtube上早已掀起热潮,相关视频播放量突破亿级,Github上的项目星标迅速突破万级,已成为大模型领域内颇受追捧的黑科技。
其核心技术不仅解决了过去人物视频生成过程中的技术难题,如人物形象的一致性、动作的流畅自然以及时序上的完美无缺,还引入了革新的ReferenceNet技术,可以捕捉和保留图片中的信息,高度还原人物、表情和服装的细节。Pose Guider姿态引导器也确保了动作的准确性,而其时序生成模块则保证视频帧间的连贯流畅。
在国内外相同数据集的测试下,“Animate Anyone”表现出色,性能远超同类模型。如今,通义千问不仅成为国内首批通过备案的大模型之一,还在APP上提供了文本对话、语音对话、翻译、PPT大纲助手、小红书文案等多项功能服务。
这项技术的出现,在网民中引发了极大的兴趣和讨论,人们纷纷畅想着AI的无限可能性,并在体验后分享出了充满惊喜的反馈。“AI治愈了我的四肢不协调”、“科目三的风吹到了考古界”、“再也不用担心跳科目三崴脚”等金句频频出现,网友也带着欢笑和喜悦,迎接了一个未来洋溢的新年。