AI周报 | 谷歌OpenAI字节推出AI新品 万兴“天幕”赋能《歌手》片头制作
1.Google I/O 2024开发者大会发布多款AI模型
Google在I/O 2024开发者大会上发布了近10款AI模型,包括上下文窗口扩展到200万tokens的Gemini 1.5 Pro,以及轻量级模型Gemini 1.5 Flash。此外,还推出了视频生成模型Veo、文本到图像模型Imagen 3,和全新的架构Gemma 2.0。Android操作系统也通过集成Gemini模型进行了重大更新,提供了更多AI功能。
2.OpenAI发布GPT-4o模型,精准狙击谷歌
谷歌I/O 2024开发者大会前一天,OpenAI发布了GPT-4的重大升级版本——GPT-4o,标志着人机交互进入了新时代。GPT-4o能够利用语音、文字、图像进行推理和交互,具备强大的多模态能力和情感感知,实现了接近人类的交互体验。该模型在文本、推理、编码智能方面达到了GPT-4 Turbo级别的性能,并在多语言、音频和视觉功能上取得突破。GPT-4o的发布,使得OpenAI在AI行业继续保持技术与产品化的领先地位,为AIGC生产力工具带来显著提升。此外,GPT-4现在向所有用户免费开放,而GPT-4o API的性能是GPT 4-Turbo的两倍,价格仅为一半。
3.字节跳动推出“豆包大模型家族”
字节跳动在2024年春季火山引擎Force原动力大会上发布了自研的豆包大模型,该模型包含多种功能,如通用模型、角色扮演、语音合成等,能日均处理1200亿Tokens文本和生成3000万张图片。豆包大模型已广泛应用于字节跳动的多个业务中,如抖音和飞书,以提升效率和产品体验。此外,火山引擎与多家智能终端厂商成立大模型联盟,推动大模型服务的接入。豆包大模型的定价远低于行业标准,企业市场定价为0.0008元/千Tokens,比行业便宜99.3%,旨在通过降低成本加速企业业务创新。豆包App已成为AIGC类应用下载量第一名,月度活跃用户达2600万。
4.万兴“天幕”赋能《歌手》片头制作
5月10日晚,时隔4年回归的《歌手2024》焕新开唱,并迅速火爆全网。当天,《歌手2024》片头同步震撼亮相,该片头部分视频画面由AIGC软件A股上市公司万兴科技(300624.SZ)旗下万兴“天幕”支持生成。
万兴“天幕”大模型是国内首个音视频多媒体大模型,依托15亿用户行为数据和百亿本土化音视频数据,采用先进的音视频生成式AI技术,可为全球创作者提供从模型到应用场景的全链路创作支持。该大模型具备近百项音视频原子能力,其中文生视频能力实现不同风格、丰富场景及主题的连贯性,一键生成时长率先支持60秒+。万兴“天幕”已于4月28日率先在业内公测,后续将逐步向企业和开发者开放API接口。
5.OpenAI人员动荡加剧
OpenAI联合创始人兼首席科学家Ilya Sutskever发文宣布离职,结束了数月的猜疑。曾担任OpenAI研究总监的Jakub Pachocki将成为其继任者。与Ilya一同离职的还有Jan Leike,二者此前共同领导OpenAI的超级对齐(Superalignment)项目。项目旨在确保AI模型的行为方式符合开发者价值观。同时,OpenAI联合创始人、科学家John Schulman将接替负责相应工作。
Ilya的离职也标志着与CEO Sam Altman之间的分歧得到解决,后者在经历被Ilya等人短暂逼迫下台后,重新确立了在OpenAI的领导地位。
6.联发科与英伟达合作开发AI PC处理器
联发科计划与英伟达合作开发基于ARM架构的AI PC处理器,预计于2024年第三季度完成设计,第四季度进行验证。联发科在高效能低功耗处理器设计及成本控制方面具有优势,而英伟达则在GPU和AI计算能力方面领先。合作有望使联发科利用英伟达的技术优势,推广AI PC产品。尽管联发科在高端AI市场面临挑战,但合作可能助其在中低端市场取得突破,逐步建立品牌信誉并扩展市场份额。
7.微信读书上线“AI问书”功能
微信读书推出“AI问书”功能,通过人工智能技术辅助用户阅读。用户遇到疑问时,选中文字并选择“AI问书”,系统即提供相关解释或背景信息,答案来自平台内书籍,支持即时跳转深入阅读。