GPT-4o掀新一轮AI竞赛 国产大模型哪家更“全能”

自2024年年初Sora的爆火、再到最近OpenAI发布的“全能”大模型GPT-4o,多模态能力已成为AI行业新焦点。

5月14日,OpenAI发布了新一代旗舰大模型GPT-4o(“o”即omni,意为“全能”),标志着AI技术在多模态能力上的重大突破。GPT-4o不仅在文本、音频和图像的理解上具备了流畅的输入、输出能力,更是在人机交互体验上实现了质的飞跃,其快速响应和情感表达能力让人印象深刻。

如果说2023年用户对AI大模型的印象还停留在“聊天机器人”这样单一的功能,进入到2024年,多模态能力的提升,能够让人工智能技术更好的帮助人类提高工作效率。

在国内,AI大模型的竞争日益激烈。3月18日,月之暗面宣布其对话式AI助手产品Kimi智能助手支持200万字的无损上下文输入,随后,百度文心一言宣布免费开放200万—500万长文本能力,阿里通义千问直接上线1000万字长文本,360也官宣内测500万字长文本。讯飞星火、商汤日日新大模型也在4月进行了多项能力的升级;就在5月15日,字节跳动发布“豆包大模型”家族,将大模型使用成本从以分计价推进到以厘计价。可见,国产大模型都在通过比拼技术或价格优势,来在这场大模型竞赛中争得一席之地。

然而,也有不少网友吐槽,国内大模型纷纷对标ChatGPT,看似技术提升,实际上在日常生活中并没有实用价值,以长文本为例,日常的合同、保险等长文档,一般在几万字,而大模型所支持的几百万到一千多万的文档处理能力,在日常生活场景中并不多见。

笔者注意到,最近一份评测报告中,就以日常办公、生活等使用场景为维度,对多款国产大模型进行了实测。评测所选取了六家国产大模型:Kimi、文心一言、通义千问、讯飞星火、商汤商量、智谱清言,分别选取了租房合同、汽车保险赔付、撰写报告提纲、辅导孩子作业等几个场景中,从而考察大模型在长文本、图片、视频等多种格式的文档理解、问答、输出能力,即“多模态”能力,以及逻辑推理、数学能力,也就是大模型是否“聪明”。

在日常生活中,除了需要处理长文档,还会有许多的拍照、录像、长视频资料,而当前的大模型已经开始具备处理这些复杂信息,做提炼整理的能力,能够极高的提升办公效率。在做数学题方面,大模型也能够生成解题思路,成为学生的学习助手。

[MD:Title]

根据评测结果来看,Kimi依然在长文本处理上表现突出,但多模态能力缺失,导致Kimi无法处理很多用户日常需求。而商汤、文心一言和通义千问,也存在图片、音视频文档处理结果不理想,或是存在无法解析视频、大模型对话和文档处理不在一个入口等问题。整体来看,讯飞星火的综合能力更强,在解决用户实际问题上更为高效,其综合排名位居第一。

GPT-4o的发布为AI行业树立了新的标杆,而国产大模型的快速发展也让我们看到了追赶甚至超越国际先进水平的可能。在多模态AI的赛道上,国产AI正以强劲的势头不断前行。然而,作为普通用户,我们也希望,国产大模型的发展应当更多地关注用户需求,而不能偏离实际使用场景。AI技术的进步应当服务于用户的实际体验,而非单纯的技术自嗨。只有在深入了解并解决用户痛点的基础上,国产AI大模型才能在国际竞争中站稳脚跟,推动AI技术在各个领域的应用落地。