深扒「全球10大顶尖大模型团队」 167位华人榜上有名|AMiner发布

人工智能(AI)大模型正在重塑世界,改变我们身边的每一个人。

如今,全球范围内的科技大厂、明星独角兽,新兴大模型初创企业,都在争先恐后踏入大模型的浪潮。

业内人士也一直在努力回答这样一个问题:为什么是 OpenAI 打造出了震惊世界的顶级模型 ChatGPT(GPT-4)和 Sora?

事实上,除了优质的数据、充足的算力和高效的算法,断档式的技术、工程人才储备,也是 OpenAI 能够在大模型领域做到始终遥遥领先的资本。古语有云,得人才者得天下,这句凝聚着先人智慧的话语,不无道理。

在未来的某一个时间,人们憧憬的通用人工智能(AGI)、超级智能(Super Intelligence),也将由大模型人才借助更好的数据、算法、算力和知识来实现。

因此,对于 AI 领域的研究者、从业者和决策者而言,全面了解全球大模型发展现状和人才分布,意义重大。

那么,放眼整个大模型行业,最牛的大模型人才(们)都在哪里?他们都有怎样的特点?我们能从中学习到什么?

为此,AMiner 发布了《全球十个大模型核心团队成员分析报告》,旨在为大模型领域的相关人员在今后的研究交流、人才引进提供参考。

[MD:Title]

该报告结合当下模型知名度和专家建议选取了全球十个大模型(GPT、Gemini、Claude、GLM、LLaMA、Qwen、Falcon、PaLM、BERT、T5),从地域分布、年龄结构、教育背景、华人占比和学术影响力 5 个维度进行全面分析,揭示了十个大模型核心成员的人才现状。

其中,以下几个结论特别值得关注:

· 大模型核心人才整体呈年轻化趋势,968 人中有 69% 的成员年龄在 40 岁及以下。团队中以青年成员居多,因此较年轻的核心成员在 H-Index 上表现普遍较低。但仍有个别成员具有卓越的影响力,最高 H-index 达到了 103,其中有 86 人被评为“AI 2000 全球人工智能学者(全名单链接:https://www.aminer.cn/ai2000)。

· 华人在大模型领域具有一定竞争力,在挑选的国外(除 GLM、Qwen)大模型团队成员 899 人中,华人成员共计 167 位占比达 18.7%。

· 十个大模型团队全部核心成员的智慧摇篮主要集中在世界著名的高校,其中加州大学系统和斯坦福大学为最主要的培养基地。清华大学为唯一一所上榜的中国高校,占居重要地位。

· 十个大模型核心成员最高学历曾在中国高校就读的 139 位中有 86 位进入国际市场,说明国际市场对中国高校教育水准的认可,以及对未来人才回归的展望。

有关十个大模型的相关分析如下:

十个大模型核心成员数量

本报告基于 AMiner 开放平台,结合当下模型知名度和专家建议选取了全球十个大模型,对其团队进行分析,模型挑选如下 GPT、Gemini、Claude、GLM、LLaMA、Qwen、Falcon、PaLM、BERT、T5。

本报告选择 2023 年前(包括 2023 年)十个大模型推出时发布的技术论文和相关报告(共计 22 篇)。如果该模型没有技术报告(或技术报告未罗列作者),则挑选该模型所属机构较为代表性的对应技术论文。

(所选模型报告,不包含变体衍生模型技术报告)根据报告的作者在 AMiner 平台查询出的学者作为十个大模型的核心成员,共计 968 位。

其中报告覆盖最多的核心成员是来自 Google 的 Gemini 和来自 OpenAI 的 GPT 团队,分别为 417 人和 262 人。

[MD:Title]
图注:十个大模型基本信息数据来源:AMiner开放平台(注:因存在核心成员同时参与多个模型开发创立,故核心团队人数加总>968)

核心成员年龄分布:中国注重培养新锐力量,青年成员(小于 40 岁)占比高达 84%

全球十个大模型核心成员的年龄分布呈现鲜明特征。当下在中国的核心成员中 40 岁及以下占比高达 84%,相较之下,美国和全球分别为 67% 和 69%。中国学者在这一年龄段的 TGI 达到显著的 122.9。

数据表明挑选的十个大模型团队 986 人中核心成员成年轻化趋势,中国核心成员更偏好集中于青年成员,表明了中国大模型团队对新兴力量的强烈关注。

在 41~55 岁年龄段中,美国主导,占比为 32%,中国占比为 16%。在大于 55 岁年龄段中,中国未有核心成员分布,美国有 9 位成员分布在这一年龄段。综合而言,大模型核心力量主要集中在年轻人才(<=40),且相较于美国,中国在大模型领域更注重挖掘和培养新兴力量。

[MD:Title]
图注:中、美、全球十个大模型核心成员年龄分布数据来源:AMiner 开放平台(注:中、美成员按照当前所在机构国家统计)TGI =(当前国家年龄段分布占比/全球成员分布占比) x 100

核心成员的教育经历:TOP10 高校主要分布在美、英、中、印

从数据来看,全球十个大模型核心成员的教育经历主要集中在世界著名的高校中。前十个高校分布在美、英、中、印四个国家,共计为十个大模型团队输送了 573 位人才,占总人数的 59.2%。

美国的加州大学系统(十院校)和斯坦福大学位列前两位,就读于该两大院校的核心成员共计 207 人,分别占据了 11.7% 和 9.7%。数据凸显了这两大院校在培养人工智能领域顶尖人才方面不容忽视的地位。

此外,清华大学作为中国高校中唯一跻身前列的人工智能人才智慧摇篮,位列全球第七,968 位核心成员中 48 位就读于该校,占比 5%。这显示出清华大学在人工智能领域的卓越教育质量和影响力。

同时,印度的印度理工学院也有不可忽视的人才贡献,968 位核心成员中 21 位来自该校,占比为 2.2%。这反映了印度在培养人工智能领域专业人才方面的积极努力。其他著名高校如麻省理工学院、卡耐基梅隆大学等也为十个大模型团队做出了可观的人才贡献。

综合而言,全球各大高校都在积极为人工智能领域输送人才,为模型的发展提供了坚实的学术基础。

[MD:Title]
图注:十个大模型核心成员教育经历 TOP10 高校数据来源:AMiner 开放平台(注:按核心成员就读院校及地区统计)

[MD:Title]
图注:中美两国大模型核心成员 TOP10 高校数据来源:AMiner 开放平台(注:按核心成员就读院校及地区统计)

华人影响力不容忽视:国外大模型团队核心成员华人占比 18.7%

报告数据显示,在挑选的十个大模型团队成员 968 人中,899 位为国外大模型(GPT、Gemini、Claude、LLaMA、Falcon、PaLM、BERT、T5)团队成员,在国外大模型团队中华人成员共计 167 位占比达 18.7%。

数据说明,华人在大模型国际市场具有较强竞争力,同时,国际一流科技公司在全球范围内的影响力和知名度也为华人提供了更多的选择机会。

最高学历曾在中国高校就读的核心成员86 位进入国际市场

根据报告数据显示,在挑选的模型团队成员中,中国顶尖高校培养的华人人才中一部分进入了国际顶尖机构。

968 位核心成员中,有 139 位是华人且最高学历曾在中国高校就读。在这 139 位成员中,86 位(62%)流入国际市场。

数据说明,国际市场对中国高校教育水准的高度认可,在未来,中国科技产业的蓬勃发展和高校的不断提升将有望吸引更多优秀华人回归或留在国内,共同推动中国科技创新的发展。

[MD:Title]
图注:核心成员中国教育背景人员国外就业动向数据来源:AMiner 开放平台(注:流入机构为核心成员最近机构所在地区统计)

核心成员学术影响力:成员主要集中在 H-index35 以内

数据显示,十个大模型核心成员的学术影响力(H-index)普遍集中在 1-35 间,该区间学者共计 804 位,占 968 位核心成员的 83.1%。这表明十个大模型团队大多数核心成员在学术领域的贡献力量相对较小。

这种趋势可能受到多种因素的影响。首先,核心成员可能更加集中于技术研发和工程实践,而相对较少专注于学术出版和学术交流,从而在 H-index 方面分值不高。其次,团队中以青年成员居多,而 H-index 需要时间的积累,因此较年轻的核心成员在这一指标上表现普遍较低。

[MD:Title]
图注:中、美、全球十个大模型核心成员 H-Index 分布数据来源:AMiner 开放平台(注:中、美成员按照当前所在机构国家统计)

十个大模型团队中不乏学术贡献卓越的学者,其中有 86 人被评为“AI 2000 全球人工智能学者。下表列举了 H-index 前 15 名核心成员,最高 H-index 达 100,对学术领域做出不可忽视的贡献。

[MD:Title]
图注:十个大模型核心成员 H-Index Top15数据来源:AMiner 开放平台(注:按照当前所在机构国家统计,部分呈现)

除此之外,AMiner 团队在《全球十个大模型核心团队成员分析报告》中,也特别从团队人才结构、学术背景、团队稳定性和学术贡献方面,对当下大模型巅峰团队 GPT 和第一个原生多模态模型团队 Gemini 进行了详细的团队分析。

声明:1、本报告仅探讨挑选的十个大模型团队情况分析,不对大模型技术进行深入研究。2、本报告挑选的模型不代表其在大模型领域技术或知名度的领先地位,仅供读者参考模型团队情况。3、本报告出现的“AI 2000全球人工智能学者”,是通过AMiner学术数据每年在全球范围内遴选2000名人工智能学科最有影响力、最具活力的学者。

数据来源:本报告所用数据均来自 AMiner 开放平台。AMiner 由清华大学计算机科学与技术系团队建立,是拥有我国完全自主知识产权、国内最早研发、访问量最大、以人为中心的科技情报大数据挖掘和服务平台。它致力于为全球学术界提供研究人员、机构、论文、项目等相关信息的数据挖掘、分析和推荐服务。数据源囊括多个方面:如学者论文、学者信息、研究机构、期刊信息、专利信息等;本报告中所用到十大模型相关论文、作者、机构、地理位置等仅为AMiner覆盖数据产出分析结论。