近期网络上传出一段谷歌所研发的大型语言模型Gemini的视频,从视频演示中可以看出,Gemini在多模态方面取得了突破性进展,这一进步有望重新定义人机交流的方式。
众所周知,以往与人工智能系统的交互主要通过文本方式进行,我们要打字与之对话。然而,多模态技术的出现意味着系统能够接收更加丰富的输入方式,比如语音、视频甚至音乐。在谷歌发布的Gemini演示视频中,尽管谷歌自己承认视频进行过剪辑处理,但视频所展示的场景使人眼前一亮:你可以向Gemini展示一段视频、拍一张照片或手绘草图,它都能理解并作出反应。更进一步,你甚至可以用自然语言直接与其沟通,这种沟通方式与人类的日常交流习惯高度契合。
在Gemini的正式发布中,谷歌展示了其显著的优势。首先,谷歌拥有雄厚的人才基础,此次研发Gemini的团队就近千人之众,人才密度十分高。其次,谷歌掌握着广泛的场景和流量的优势。作为全球最大的互联网入口之一,拥有Gmail、搜索引擎、Chrome浏览器和安卓操作系统等多个平台,谷歌能够将大模型与日常应用相结合,这让Gemini能迅速吸引到大量用户使用和提供反馈,对于模型的迭代和优化非常有利。
此外,作为领先的搜索引擎,谷歌在数据和知识积累方面拥有巨大优势。不仅如此,与OpenAI等公司相比,Google在数据训练方面毫不逊色。搜索领域出身的公司,如谷歌、百度、360等都有其独到之处:由于大模型可能产生的幻觉问题,谷歌将搜索引擎与大模型的结合视为解决这一问题的有效方式。通过这种方式,搜索引擎的实时性和智能搜索能力相结合,可能会促成颠覆性的进步。
同时,谷歌还拥有丰富的优质语料优势。Gemini模型的多模态能力,不仅仅是为了与ChatGPT竞争,更有着更深远的意义。大模型训练可能在不久的将来就会耗尽书籍和网页上的知识。那么,未来的学习资源从何而来?Gemini的背后有着YouTube这样的强大资源——一个能提供人类海量视频和知识标签的平台。如果能利用这些视频数据,其多模态学习能力将大大增强。
最后,不容忽视的是,谷歌拥有自主的人工智能芯片:TPU。与常见的英伟达GPU不同,TPU是专门为了训练和推理设计的芯片,可有效提升大模型的训练速度和降低成本。
对此,创业者应该如何应对呢?AI巨头们的竞争不在是开发一个超级APP,而是将注意力集中到传统产品和业务中去发现垂直细分场景,然后利用人工智能来实现革命性的改造。对于未来的大模型,既要在宏观上认识到其带来的工业级变革,也要在实操中分析出它在细节上的实用价值,以此来优化业务流程和产品功能。