当前位置: 首页 > news >正文

人工智能指数报告

2024人工智能指数报告(一):研发

前言

全面分析人工智能的发展现状。

从2017年开始,斯坦福大学人工智能研究所(HAI)每年都会发布一份人工智能的研究报告,人工智能指数报告(AII),对上一年人工智能相关的数据进行跟踪、整理、提炼并进行可视化。这份指数报告被认为是关于全球人工智能发展状况最可信、最权威的来源之一。正值人工智能对社会的影响达到前所未有的时刻,前不久他们刚刚发布了第七份报告。今年的报告扩大了研究范围,以便更好地概括技术进步、公众看法等情况。整份报告分为八章,分别总结了人工智能的研发、技术性能、负责任的人工智能、经济、科学与医学、教育、政策与治理、多样性、舆论等方面的情况。我们选取部分编译出来,分四部分刊出,此为第一部分。

一、报告摘要

1. 人工智能在某些任务(但不是全部)的表现上超过了人类。

人工智能在多项基准测试的表现超越了人类,其中包括图像分类、视觉推理和英语理解的部分测试项目。不过,对于更复杂的任务,比如数学竞赛、视觉常识推理还有规划等任务,人工智能仍落后人类。

2. 人工智能研究前沿仍由产业界主导。

2023 年,产业界发布了 51 个知名机器学习模型,而学术界仅贡献了 15 个。此外,2023年产学研合作开发出 21 个知名模型,数量创下新高。

3. 先进模型研发成本大幅上升。

根据人工智能指数报告的估计,最先进人工智能模型的训练成本已达到前所未有的水平。比方说,训练OpenAI 的 GPT-4 使用的算力成本估计为 7800 万美元,而训练谷歌的 Gemini Ultra 的算力成本为 1.91 亿美元。

4. 美国是顶尖人工智能模型的主要来源地,领先于中国、欧盟+英国。

2023 年,源自美国机构的知名人工智能模型数量为 61 个,远超欧盟的 21 个以及中国的 15 个。

5. 对大语言模型 (LLM) 责任性评估严重缺乏健全性与标准化。

人工智能指数报告的最新研究发现了一个问题:负责任的人工智能报告在标准化方面严重不足。OpenAI、谷歌以及 Anthropic 等行业领先公司在测试自家模型时往往采用不同的人工智能责任性标准,导致很难系统性地对顶级人工智能模型的风险与局限进行比较。

6. 对生成式人工智能的投资暴增。

尽管去年对人工智能的私募投资是下降的,但对生成式人工智能的投资却大幅上升,比2022 年增长了近八倍,达到了 252 亿美元。OpenAI、Anthropic、Hugging Face 以及 Inflection 等生成式人工智能的重要玩家均宣布获得了大额融资。

7. 数据证明:人工智能提高了员工的生产效率,提升了工作质量。

2023 年的多项研究显示,人工智能可帮助员工加快完成任务,且工作成果质量也有所提升。这些研究还指出,人工智能可帮助缩小不同技能水平员工之间的差距。但同时也有研究提醒,如果没有进行适当监管,使用人工智能也可能会影响工作表现。

8. 人工智能加速了科学进步。

从2022 年开始,人工智能已经促进了科学发现,而到了 2023 年,更多科学相关的人工智能应用相继出现,比方说 AlphaDev 令算法排序变得更加高效,而 GNoME 则在材料发现方面发挥了自身作用。

9. 美国对人工智能的监管举措大幅增加。

从过去一年乃至过去五年的尺度看,美国人工智能相关的监管举措显著增加。2023 年,相关规定增至 25 项,相比之下, 2016 年只有一项。光是去年监管规定数量就增长了 56.3%。

10. 全球对人工智能的潜能更加了解了,但同时也更加不安了。

根据 Ipsos 的一项调查,过去一年,相信人工智能将在未来三至五年内极大影响自己生活的人数比例从 60% 提升到 66%。但同时,有 52% 的人对人工智能产品与服务感到不安,比 2022 年增加了 13%。根据皮尤的数据,有52% 的美国人表示,相比之下自己对人工智能的态度是担忧多于兴奋,高于 2022 年的 38%。

二、研发

本章摘要

人工智能研究前沿仍由产业界主导。

2023 年,产业界发布了 51 个关注度很高的机器学习模型,而学术界仅贡献了 15 个。此外,2023年产学研合作开发出 21 个知名模型,数量创下新高。

更多的基础模型与开源基础模型。

2023 年共发布了 149 个基础模型,是 2022 年的两倍多。在这些新发布的模型当中,有 65.7% 都是开源的,相比之下,2022 年只有 44.4%,2021 年为 33.3%。

先进模型研发成本大幅上升。

根据人工智能指数报告的估计,最先进人工智能模型的训练成本已达到前所未有的水平。比方说,训练OpenAI 的 GPT-4 使用的算力成本估计为 7800 万美元,而训练谷歌的 Gemini Ultra 的算力成本为 1.91 亿美元。
美国是顶尖人工智能模型的主要来源地,领先于中国、欧盟和英国。 2023 年,源自美国机构的知名人工智能模型数量为 61 个,远超欧盟的 21 个以及中国的 15 个。

人工智能专利数量暴增。

2021 年至 2022 年间,全球获授权的人工智能专利数量大幅增加了 62.7%。自 2010 年以来,获授权的人工智能专利数量已增长了 31 倍多。

中国在人工智能专利方面占据主导地位。

2022 年中国在全球人工智能专利的占比达 61.1% ,位居首位,远超美国的 20.9%。2010 年美国在 人工智能专利的占比仍为有54.1% 之多,此后便逐年下降。

开源人工智能研究爆发。

Github上面人工智能相关的项目数量持续上升,从2011 年的845 个涨到 2023 年的约 180 万个。尤其是 2023 年,数量同比猛增了 59.3%。与此同时,Github上人工智能相关项目获得的星星数梁也增至 1220 万,比前一年增加了三倍多。

人工智能文献发表数量继续上涨。

2010 至 2022 年间,人工智能相关文献的发表数量增加了近三倍,从约 88000 篇增至 240000 篇以上,但最近一年仅增长了 1.1%。

1.1 论文发表情况

概述
下图展示的是 2010 至 2022 年间全球中英文人工智能论文的发表情况统计,分按隶属类型和跨界合作进行分类。同时,本节还详细介绍了人工智能期刊文章与会议论文的相关数据。

人工智能文献总量
图1.1.1展示的是全球人工智能文献数量。 2010 年至 2022 年间,人工智能文献总数几乎增加了两倍,从2010 年的约 88000 篇增加到 2022 年的超过 240000 篇。但去年同比增幅仅为 1.1% 。
```
按文献类型
图 1.1.2 展示的是全球不同类型人工智能文献的发表情况。2022 年,期刊类文章约有 230000 篇,会议论文约为 42000 篇。从 2015 年起,期刊与会议论文的增长速度是相当的,2022 年会议论文数是 2015 年的 2.6 倍,2022年期刊文章数为2015年的 2.4 倍图1.1.2

按研究领域
图 1.1.3 展示的是从 2010 年至今不同研究领域人工智能文献发表数量情况。最近十年机器学习的发表数量增速最高,自 2015 年起增长了近七倍。计算机视觉(21309 篇)、模式识别(19841 篇)以及过程管理 (12052 篇)紧随其后。
图1.1.3
在这里插入图片描述

按行业
本节展示的是按行业的文献发表分布情况,分别统计了全球以及美国、中国、欧盟及英国的情况。2022 年学术界贡献了 81.1% 的人工智能文献,是过去十年全球各地人工智能研究的主力军(图 1.1.4 和 1.1.5)。在人工智能文献发表上美国的产业界最为活跃,其次是欧盟、英国以及中国。(图1.1.5)
在这里插入图片描述

人工智能期刊发表情况
图1.1.6展示的是2010至2022年间人工智能期刊发表数量情况。2010年至2015年间人工智能期刊发表数量增长情况不大,但2015年后增长了2.4被。2021至2022年间,人工智能期刊发表增长率为4.5%。
在这里插入图片描述

人工智能会议论文发表情况
图 1.1.7 展示的是从 2010 年至今人工智能会议论文发表数量情况。最近两年论文数量出现暴涨:2020 年有 22727 篇,2021 年增至 31629 篇, 2022 年则高达 41174 篇。仅去年增长率就达到了 30.2%。自 2010 年起,发表的会议论文数量已经增加了一倍以上。
在这里插入图片描述

1.2 专利

概述

图 1.2.1 展示的是 2010 年至 2022 年间全球人工智能专利授权数量的增长趋势。过去十年,获授权的专利数量有了显著提升,最近几年增长情况尤其显著。比方说,2010 年至 2014 年间,获授权的人工智能专利数增长了 56.1%。但 2021 年到 2022 年的短短一年内,人工智能专利数量就增长了 62.7%。
在这里插入图片描述
按申请状态与地区分类
这一小节按照申请状态(是否获得授权)和所在地区对人工智能专利进行了分类。图 1.2.2 展示了全球各地人工智能专利申请情况的对比。截至 2022 年,未获授权的人工智能专利数量 (128952) 是获授权专利 (62264) 的两倍多。过去几年人工智能专利的许可情况发生了明显变化。 2015 年前,提交的人工智能专利大部分都能成功获得授权。但此后,未获授权变成主流,且未获授权的比例在逐年增大。比方说,2015 年时,有 42.2% 的人工智能专利申请未获授权,而到了 2022 年,这一比例增至 67.4%。
在这里插入图片描述
从全球主要的专利来源地—包括中国、欧洲联盟与英国及美国(图 1.2.3)来看,获授权与未获授权的人工智能专利之间的差距十分明显。最近几年,这些地区的人工智能专利申请总数及获授权数都有所上升。
在这里插入图片描述
图 1.2.4 对获授权的人工智能专利进行了地区分析。2022 年的数据显示,全球大部分的获授权人工智能专利(75.2%)来自亚太地区,其次是北美,占比为 21.2%。2011 年以前,北美在全球人工智能专利注册数量中一直领先。但此后亚太地区占比有了显著增长。
在这里插入图片描述
从地区分布情况看,获授权的人工智能专利大部分出自中国 (61.1%) 和美国 (20.9%) (图 1.2.5)。 2010 年的 54.1% 是美国的最高点,此后美国的获授权专利占比就一直在下降。
在这里插入图片描述
图 1.2.6 及 图 1.2.7展示的是人均人工智能专利数的领先国家。2022 年,韩国 以10.3件/10万人的人均专利拥有数指标位居全球榜首,其次是卢森堡 (8.8) 与美国 (4.2) (见图 1.2.6)。图 1.2.7 反映出 2012 年至 2022 年间新加坡、韩国及中国在人均人工智能专利拥有量有了显著提升。
在这里插入图片描述
在这里插入图片描述

1.3 人工智能前沿研究

本节深入探索人工智能研究的前沿。尽管每年都会推出大量新的人工智能模型,但只有一小部分能代表研究的最前沿。诚然,对前沿或先进的定义有其主观性:一个模型在某项基准测试创下新高,或引入了某种创新架构,或展现出新的、令人瞩目的能力,这些或许都可以是前沿研究的体现。

本人工智能指数跟踪了两类前沿人工模型的动态:“知名模型”(notable models)与基础模型。数据提供商 Epoch 对精选出来的“知名机器学习模型”(notable machine learning models)的定义是在人工智能/机器学习生态体系有特殊影响力的模型。相比之下,基础模型则是指那些用庞大数据集训练而来,可执行多种任务的人工智能大模型,如 GPT-4, Claude 3以及 Gemini 等。虽然很多基础模型也被视为知名模型,但反之并不亦然。

本节将从多个维度分析知名模型与基础模型的趋势,包括模型的来源机构、所在国、参数数量以及算力使用情况等。分析最后用机器学习的训练成本来做总结。

概述

Epoch AI ,一个专门研究预测先进人工智能进展的研究团队。其建立了一个数据库,里面收录了从 1950 年代起发布的各种人工智能与机器学习模型,选取标准包括先进性、历史意义或高引用次数等。分析这些模型可对机器学习领域(包括近年来以及过去几十年的)演进概况有一个全面的了解。虽然部分模型可能未被纳入,但该数据集仍能揭示相关的发展趋势。

行业分析

2014 年以前,发布机器学习模型的主力军在学术界。但此后,产业界开始占据主导。2023 年,有51个知名机器学习模型是由产业界制作的,相比之下,学术界只发布了 15 个 (图 1.3.1)。值得注意的是,同年产学合作还做出21个模型,创下新高。创建尖端人工智能模型需要大量数据、算力及资金支持,而这些往往是学术界不具备的。我们去年的报告首度突出展示这种转变趋势,尽管今年产学间的差距有所减小,但这种趋势依旧。
在这里插入图片描述
按国家归属
为了揭示人工智能地缘政治格局的变化趋势,AI Index 研究团队分析了知名模型的来源国。图 1.3.2 展示的是各国(模型研究者所属机构所在地)开发的知名机器学习模型数量情况。2023 年美国以产出 61 个知名机器学习模型领先,中国有 15 个,法国为 8 个。在产出知名模型的数量上,欧盟+英国自 2019 年以来首次超过了中国(图 1.3.3)。美国产出的模型数量领先于英国、中国及加拿大等其他主要地区(图 1.3.4),这种情况从2003 年就开始了。

在这里插入图片描述
在这里插入图片描述
参数趋势
机器学习模型的参数是指在训练过程中学到的数值,可用来确定模型对输入数据的解读及预测方式。一般来说,用更多数据训练的模型的参数也更多。同理,参数更多的模型往往表现更佳。

图 1.3.5 展示的是Epoch数据集的机器学习模型的参数统计,按模型源自什么行业分类。自2010年代以来,参数的数量有了显著增长,这反映出 人工智能模型要处理的任务越来越复杂,数据可用性的提高,硬件的改善,以及大模型的效能得到了验证。在行业板块,高参数模型尤其突出,展现了像 OpenAI、Anthropic 以及谷歌等公司对训练海量数据所需的计算成本的承受能力。
在这里插入图片描述
算力趋势
在人工智能领域,“算力” (compute) 是指训练及运行机器学习模型需要的算力资源。模型复杂度与数据量是影响算力需求的两大因素:复杂度越高数据量越大,需要的算力也就越大。如图 1.3.6 所示,过去 20 年许多知名机器学习模型训练过程所需算力有了显著增长。近年来,这种需求甚至呈指数级的增加,最近五年尤其如此。模型需要更多算力不仅对环境产生了较大影响,在算力资源的获取上,企业往往比学术界更有优势。
在这里插入图片描述
图 1.3.7 聚焦的是训练知名机器学习所需的算力(自 2012 年以来)。比方说,用GPU 提升人工智能模型效率的做法是AlexNet 这项研究率先采用的,其训练估计消耗了 470 petaFLOPs。2017年首个 Transformer 模型推出时,所需算力约为 7400 petaFLOPs 。最近发布的顶尖模型,谷歌的 Gemini Ultra所需算力已经达到约 500 亿 petaFLOPs。
在这里插入图片描述

特别聚焦:模型会用光数据吗?

如前所述,最近算法取得的进步,包括强大的大语言模型(LLM)取得的进步,很大一部分是通过用更多数据训练模型取得的。Anthropic 联合创始人兼 AI Index 指导委员会成员杰克·克拉克(Jack Clark) 最近指出,基础模型的训练基本上把互联网上能找到的绝大部分数据都用上了。

人工智能模型对数据的依赖性日益增强,这不仅让人担心将来计算机科学家可能没有足够的数据来扩展和提升系统。Epoch 的研究显示,这种担忧不无道理。Epoch已经给出了数据耗尽可能的时间表预测,包括基于历史数据的预测以及基于算力的预测。

比方说,研究者预测,到 2024 年,高质量的语言数据可能就会被用尽,二十年后,低质量的语言数据也将耗尽,而图像数据可能到 2030 年代末至 2040 年代中就会被完全用光(图 1.3.8)。用 人工智能生成的合成数据理论上可以解决数据不足的问题。比方说,可以用一个大语言模型生成的文本来训练另一个模型。用合成数据训练人工智能系统尤其有吸引力,不仅是可以作为数据可能耗尽的解决方案,也是因为在自然产生的数据很稀少的情况下(比方说罕见病或代表性不足群体),生成式人工智能系统原则上可以生成这种数据尽管如此,直到最近,大家对使用合成数据训练生成式人工智能的有效性和可行性还知之甚少。但是,最新研究指出,这种方法在实践上有其局限性。

比方说,来自英国和加拿大的研究团队发现,主要靠合成数据训练出来的模型会出现所谓的“模型坍塌” (model collapse) 现象,也就是这些模型会逐渐忘记真实原始数据的分布情况,开始生成范围狭窄的输出。图 1.3.9 展示的是变分自编码器 (VAE,一种常用的生成式人工智能架构)模型坍塌的过程。每一代的模型在接触到更多的合成数据指后,能生成的输出类型会越来越局限。如图 1.3.10 所示,从统计角度看,随着合成数据代数的增加,输出分布曲线的尾部逐渐消失,而数据集中度开始趋近中位数。这说明依赖合成数据的模型,其输出多样性和分布广度随时间减少。

在这里插入图片描述
在这里插入图片描述
2023 年对使用合成数据的生成式图像模型还进行过一项类似研究,研究发现,如果仅靠循环调用合成数据,获缺乏真正的人类数据支持,则模型的输出质量会明显下降。研究者称之为“模型自噬症” (Model Autophagy Disorder, MAD,与疯牛病有异曲同工之妙)。

本研究探讨了两种类型的训练方法:一种是完全合成 (fully synthetic) 法,也就是模型只用合成数据进行训练;另一种是合成增强 (synthetic augmentation) 法,也就是结合合成数据与真实数据对模型进行训练。这两种方法都会出现随着训练次数的增加,生成图像的质量逐渐下降的情况。图 1.3.11 展示的是用合成增强法图像生成出现逐步退化的情况,比方说在训练的第 7 和第 9 步里,生成的人脸图像出现了越来越多的不规则散点。从统计角度看,这些使用合成数据和合成增强方法生成的图像,其 FID 分数较高,意味着与真实图像的差异增大;精确度和召回率分数较低,表明图像的真实感和多样性都有所下降 (见图 1.3.12)。尽管添加了部分真实数据的合成增强法相较于完全合成法在图像退化上有所改善,但两者在进一步训练后都出现了效果递减的趋势。
在这里插入图片描述
在这里插入图片描述

基础模型

基础模型是人工智能模型当中发展很快且很受欢迎的一个类别。这些用大数据集训练的模型可适用于多种下游应用。比方说 GPT-4, Claude 3, 以及 Llama 2 等基础模型展现出的能力令人印象深刻,并正在逐步投入到实际应用当中。2023年斯坦福大学推出一个新的社区资源, Ecosystem Graphs,其目的是监测基础模型生态体系的动态,其中包括数据集、模型及其应用。本节内容利用率 Ecosystem Graphs 的数据来分析基础模型的发展趋势。

发布的模型情况

基础模型的访问有多种途径。比方说,有像谷歌的 PaLM-E 这样一般人访问不了,只有其开发者能访问的模型。也有像 OpenAI 的 GPT-4 这样提供有限访问的模型,可通过公共 API 提供部分访问权限。而像 Meta 的 Llama 2这类开放模型,不仅公开模型权重,还允许用户自由修改和使用这些模型。

图 1.3.13 展示的是从 2019 年至今,不同访问类型的基础模型总量变化情况。近几年基础模型的数量急剧增加,自 2022 年来翻了一番,相对于 2019 年增加了近 38 倍。2023 年共发布了 149 个基础模型,其中开放模型 98 个,有限访问模型 23 个,不开放访问模型 28 个。
在这里插入图片描述
2023 年绝大部分的基础模型(65.8%)都采用了开放访问的策略,有18.8% 的模型不开放访问,15.4% 提供了有限访问(见图 1.3.14)。从 2021 年开始,开放访问的模型比例有了显著提升。
在这里插入图片描述
组织隶属情况
图 1.3.15 展示的是基础模型来源所属板块的情况(自 2019 年起)。 2023 年的情况是 72.5% 的基础模型都是由产业界开发的。相比之下,只有 18.8% 的基础模型出自学术界。近年来,来自产业界的基础模型数量呈上升趋势。
在这里插入图片描述
图 1.3.16 聚焦了 2023 年推出的各类基础模型的来源。谷歌以 18 个模型独占鳌头,发布11个模型的Meta 紧随其后,微软发布了 9 个模型。加州大学伯克利分校是 2023 年发布模型最多的学术机构,共发布了 3 个模型。

在这里插入图片描述
自 2019 年以来,谷歌宫发布了40个基础模型,发布数量位居第一。OpenAI 以 20 个模型位列第二。清华大学发布了 7 个基础模型领先,在非西方机构当中领先,斯坦福大学则发布了 5 个模型,位居美国学术机构首位。
在这里插入图片描述
国家分布情况
鉴于基础模型在人工智能前沿研究的重要地位,从地缘政治视角了解这些模型的国家归属就显得尤为关键。图 1.3.18、 1.3.19以及 1.3.20 展示的是不同基础模型的国家归属情况。与本章前面对知名模型的分析类似,一个模型如果有研究者与某个国家的总部机构有关联,则认为该模型属于该国。

2023 年大多数的基础模型都起源于美国,数量达到了 109,其次是中国的 20 个,以及英国(图 1.3.18)。这方面美国自2019 年起就一直领先,是大多数基础模型的发源地(图 1.3.19)。

在这里插入图片描述
在这里插入图片描述
图 1.3.20 展示了自 2019 年以来各国发布的基础模型累计数量。在此期间,美国以发布 182 个模型领先,中国和英国的发布量分别是 30 和 21 。
在这里插入图片描述

训练成本

在关于基础模型的讨论中当中,成本推测是突出话题之一。虽然人工智能公司很少透露其模型训练的成本,但普遍认为达到了数百万美元,并且还在上升。比方说,OpenAI CEO 山姆·阿尔特曼(Sam Altman)曾提到 GPT-4 的训练成本超过了 1 亿美元。这种训练费成本的上涨实际上已经将传统的人工智能研究中心——大学拒之门外,导致后者很难开发自己的前沿基础模型。为此,已有一些政策举措试图打破这种产学失衡的情况,通过设立国家级的人工智能研究资源,将数据和算力授予给非产业界的行为人更,让其得以从事高级的人工智能研究。

了解人工智能模型训练成本很重要,但关于这些成本的详细信息仍然稀少。AI Index 是最早提供基础模型训练成本估算者之一。今年AI Index 与 人工智能研究机构Epoch AI进行了合作,使得我们的人工智能训练成本估算的健壮性得到了显著增强和巩固。为了估算前沿模型的成本,Epoch 团队分析了训练的持续时间,以及训练硬件的类型、数量和利用率,还利用了来自模型相关的出版物、新闻发布或技术报告的信息。

图 1.3.21 展示了按照所租用的云服务价格估算出来的人工智能模型训练成本。AI Index 的测算证实了近年来模型训练成本显著增加的猜测。比方说,2017 年初代 Transformer 模型(是几乎现代所有大语言模型架构的鼻祖)的训练成本约为 900 美元。2019年发布的(在SQuAD 、GLUE等众多权威理解基准测试中取得了最好成绩的)RoBERTa Large的训练成本约为 16 万美元。而到了 2023 年,OpenAI 的 GPT-4 与谷歌的 Gemini Ultra 的训练成本估计分别约为 7800 万美元和 1.91 亿美元。
在这里插入图片描述
图 1.3.22 展示的是 AI Index 测算的各人工智能模型的训练成本。如图可见,随着时间的推延,模型训练成本急剧上升。
在这里插入图片描述
如之前的人工智能指数报告所证实那样,人工智能模型的训练成本与其算力需求之间存在着直接的关联关系。如图1.3.23所示,需更多计算资源的模型,训练成本也相对更高。
在这里插入图片描述

1.4 人工智能会议

人工智能会议是研究者展示研究成果,与同行及协作者间建立联系的关键平台。在过去二十年的时间里,这些会议在规模、数量以及名声等方面均有了长足发展。本节探究的是重大人工智能会议参会情况的趋势。

参会情况
图 1.4.1 展示的是自 2010 年以来多场选定的人工智能会议的参会情况。先是因为全面回归面对面会议模式导致出席人数下降,但从 2022 到 2023 年间,参会人数开始反弹。

具体而言,最近一年的参会人数增长了 6.7%。从 2015 年开始,每年的参会人数平均增加了 50000 名,这既表明公众对人工智能研究的日益关注,也反映出新兴人工智能会议的增多。
在这里插入图片描述
神经信息处理系统会议(NeurIPS)依旧是人气极高的人工智能会议之一,2023 年吸引了约 16380 名参会者(见图 1.4.2 与 图 1.4.3)。在众多重要的人工智能会议当中,NeurIPS、ICML、ICCV 和 AAAI 的参会人数仍持续增长。但在过去一年当中,CVPR、ICRA、ICLR 以及 IROS 的参会人数则略有下降。
在这里插入图片描述
在这里插入图片描述

1.5 开源人工智能软件

GitHub 是一个可让个人及团队对代码库进行托管、审查以及协作的web平台。作为被软件开发者广泛使用的工具,GitHub 可促进代码管理、项目协作及开源软件支持。本节内容基于 GitHub 的数据,发现了一些学术出版物未涉及的开源人工智能软件开发趋势。

项目
GitHub 的项目通常含有源代码、文档、配置文件以及图像等多种文件,这些文件共同构成一个完整的软件项目。图 1.5.1 展示的是从 2011 年到 2023 年间 GitHub 人工智能项目数量的增长趋势。2011 年只有 845 个人工智能项目,而到了 2023 年这个数字已经达到了近 180 万。仅去年人工智能项目数量就增长了 59.3%。
在这里插入图片描述
图 1.5.2 展示的是 2011 年以来 GitHub 上各国人工智能项目的分布情况。2023 年出自美国的人工智能项目占比为 22.9%,位居首位,印度以 19% 的占比紧随其后,欧盟+英国占比为 17.9%。从 2016 年开始,美国人工智能项目的占比就在持续减少。
在这里插入图片描述

星标情况

在 GitHub 上,用户可以通过“星标”(star)功能来表达对某个开源项目的喜爱和支持,就像在社交网络上给帖子点赞一样。在人工智能编程社区当中,像 TensorFlow、 OpenCV、 Keras及 PyTorch 等知名开源库尤其受欢迎,经常能获得大量星标。比方说,专门用来开发和部署机器学习模型的TensorFlow使用广泛, OpenCV 则提供了多种计算机视觉工具,其中包括对象识别和特征分析等功能。

过去一年,GitHub 上人工智能项目的星标总数有了大幅增长,从 2022 年的400万增至 2023 年的1220万(参见图 1.5.3)。这种显著增长不仅体现出项目数量的增加,也标志着开源人工智能软件开发的发展之快。
在这里插入图片描述
2023 年美国获得星标数量最多,为约1050万(图 1.5.4)。欧盟+英国、中国、印度等各大地区的星标数同比也增加了。
在这里插入图片描述
本文翻译来自于神译局。

相关文章:

人工智能指数报告

2024人工智能指数报告(一):研发 前言 全面分析人工智能的发展现状。 从2017年开始,斯坦福大学人工智能研究所(HAI)每年都会发布一份人工智能的研究报告,人工智能指数报告(AII&…...

聊聊 Mybatis 动态 SQL

这篇文章,我们聊聊 Mybatis 动态 SQL ,以及我对于编程技巧的几点思考 ,希望对大家有所启发。 1 什么是 Mybatis 动态SQL 如果你使用过 JDBC 或其它类似的框架,你应该能理解根据不同条件拼接 SQL 语句有多痛苦,例如拼…...

【windows|004】BIOS 介绍及不同品牌电脑和服务器进入BIOS设置的方法

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 ​ 🏅阿里云ACE认证高级工程师 ​ 🏅阿里云开发者社区专家博主 💊交流社…...

lvgl的应用:移植MusicPlayer(基于STM32F407)

目录 概述 1 软硬件环境 1.1 UI开发版本 1.2 MCU开发环境 1.3 注意点 2 GUI Guider开发UI 2.1 使用GUI Guider创建UI 2.2 GUI Guider编译项目和测试 2.2.1 GUI Guider编译项目 2.2.2 编译 2.3 了解GUI Guider生成代码 3 移植项目 3.1 Keil中加载代码 3.2 调用G…...

Hadoop3:MapReduce中的Shuffle机制

一、流程图 Shuffle是Map方法之后,Reduce方法之前的数据处理过程称。 二、图解说明 1、数据流向 map方法中context.write(outK, outV);开始,写入环形缓冲区,再进行分区排序,写到磁盘 reduce方法拉取磁盘上的数据,…...

从设计到实践:高速公路监控技术架构全剖析

随着高速公路网络的迅速扩展和交通流量的日益增加,高效的监控系统成为保障交通安全、提升管理效率的重要手段。本文将深入探讨高速公路监控技术架构,从设计理念到实际应用,全面解析这一关键技术的各个环节。 ### 一、系统设计理念 #### 1. 高…...

Go Context

Context 介绍 Context 代表了协程的上下文,用以在父子协程之间传递控制信号,共享变量等操作// context.Context 接口 type Context interface {// 当Context自动取消或者到了取消时间被取消后返回Deadline() (deadline time.Time, ok bool)// 当Contex…...

centOS Stream9配置NAT8网络

首先将VMware关机,添加网络适配器 启动虚拟机,查看ens192是否打开连接 安装的图形化需要查看右上角电源处网卡是否连接 最小化安装一般不会出现未连接的状态 使用ip a 查看 配置网卡文件 cd /etc/NetworkManager/system-connections/cd到当前目录下…...

Linux - 进程

一、什么是进程 首先,Linux是一个多用户多进程的操作系统,系统上可以同时运行多个进程。 进程的产生:①是在执行程序或者命令时产生的;②定时任务进程 进程的类型:前台进程/后台进程 前台进程:一个终端…...

nginx+tomcat负载均衡、动静分离群集【☆☆☆☆☆】

Nginx是一款非常优秀的HTTP服务器软件,性能比tomcat更优秀,它支持高达50 000个并发连接数,拥有强大的静态资源处理能力,运行稳定,内存、CPU等系统资源消耗非常低。目前很多大型网站都应用Nginx服务器作为后端网站程序的…...

MySQL容器部署步骤

1、拉取MySQL镜像 docker pull mysql # 默认拉取最新版本docker pull mysql:5.7 # 拉取5.7版本docker pull mysql:8.0 # 拉取8.0版本 2、创建挂载目录 # 创建挂载目录 mkdir -p /home/mysql/conf/ # -p: 多级创建mkdir -p /home/mysql/log/mkdir -p /home/mysql/data/ 3…...

在 Ubuntu 18.04.4 LTS上安装 netmap

文章目录 步骤运行配置文件编译安装使用netmap 步骤 sudo su sudo apt-get update sudo apt install build-essential sudo apt-get install -y git sudo apt-get install -y linux-headers-$(uname -r)rootVM-20-6-ubuntu:/home/ubuntu/netmap/LINUX# git clone https://gith…...

spark 整合 yarn

spark 整合 yarn 1、在master节点上停止spark集群 cd /usr/local/soft/spark-2.4.5/sbin ./stop-all.sh 2、spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark文件 分别在node1、node2 的/usr/local/soft目录运行 rm -rf spark-2.4.…...

蓝桥杯十五届国赛模拟题1答案

1、bug缺陷报告 功能名称缺陷描述操作步骤预期结果实际结果缺陷级别销售订单列表...

分布式之日志系统平台ELK

ELK解决了什么问题 我们开发完成后发布到线上的项目出现问题时(中小型公司),我们可能需要获取服务器中的日志文件进行定位分析问题。但在规模较大或者更加复杂的分布式场景下就显得力不从心。因此急需通过集中化的日志管理,将所有服务器上的日志进行收集汇总。所以ELK应运而生…...

git常见错误

refusing to merge unrelated histories 如果git merge合并的时候出现refusing to merge unrelated histories的错误,原因是两个仓库不同而导致的,需要在后面加上--allow-unrelated-histories进行允许合并,即可解决问题。 git push origin …...

构建稳定高效的消息传递中间件:消息队列系统的设计与实现

✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 🎈🎈作者主页: 喔的嘛呀🎈🎈 目录 一、引言 二、设计目标 2.1、高可用性 1. 集群搭建 1.1 …...

支持 MKV、MP4、AVI、MPG 等格式视频转码器

一、简介 1、一款开源的视频转码器,适用于 Linux、Mac 和 Windows。它是一个免费的工具,由志愿者们开发,可以将几乎所有格式的视频转换为现代、广泛支持的编码格式。你可以在官网上下载该应用或源代码。该软件支持 MKV、MP4、AVI、MPG 等格式…...

yum

文章目录 本地源配置本地yum源仓库yum常用的操作命令 网络源阿里云当yum 安装源代码软件包需要编译安装,需要安装支持c和c程序语言的编译器,如gcc、gcc-c、make 如果使用rpm方式安装,则需要先安装多个依赖包,这样会很繁琐。可以使…...

【单片机毕业设计选题24016】-基于STM32和阿里云的采空区环境监测系统设计

系统功能: 系统分为主机端和从机端,主机端主动向从机端发送信息和命令,从机端 收到主机端的信息后回复温度,甲烷,一氧化碳,氧气和系统状态等信息。 同时主机端将这些信息上传至阿里云服务器。 主要功能模块原理图: 电源时钟烧…...

Leetcode3179. K 秒后第 N 个元素的值

Every day a Leetcode 题目来源:3179. K 秒后第 N 个元素的值 解法1:模拟 模拟 k 轮,数组保存上一次结果,然后计算当前轮次的结果。 代码: /** lc appleetcode.cn id3179 langcpp** [3179] K 秒后第 N 个元素的值…...

vue3第二阶段的开发文档

1 2.1 案例——学习计划表 2.1.1 准备工作 在开发“学习计划表”案例之前,需要先完成一些准备工作,具体步骤如下。 ① 打开命令提示符,切换到 D:\vue\chapter02 目录,在该目录下执行如下命令,创建 项目。 np…...

【网络安全学习】漏洞扫描:- 02- nmap漏洞扫描

1.nmap的介绍 Nmap是一款功能强大的网络探测和安全扫描工具,可以对目标进行端口扫描、服务探测、操作系统指纹识别等操作。 Nmap自带了许多内置的NSE脚本,它们可以根据不同的目标和场景来执行不同的功能。这些脚本存放在Nmap安装目录**/usr/share/nmap…...

Web开发技能树-HTML-class/id/name/tag

1 需求 需求1:CSS查找HTML元素 *tagclassid派生选择器 需求2:JavaScript查找HTML元素 通过id找到HTML元素:document.getElementById()通过标签名找到HTML元素:getElementsByTagName()通过类名找到HTML元素:document.getElemen…...

据APO Research(阿谱尔)统计,2023年全球乳酸企业产能约119.3万吨

乳酸又称 2-羟基丙酸,一种天然有机酸,分子式是 C3H6O3。是自然界中最为广泛存在的羟基酸,于 1780 年被瑞典科学家 Scheele 首次发现。乳酸是自然界最小的手性分子,以两种立体异构体的形式存在于自然界中,即左旋型 L-乳…...

百度文心智能体平台(想象即现实):轻松上手,开启智能新时代!创建属于自己的智能体应用。

目录 1.1、文心智能体平台 1.2、创建智能体 1.3、智能体报名入口 1.4、古诗词小助手 1.5、访问我的智能体 在这个全新的时代里,人工智能技术正以前所未有的速度发展,渗透到我们生活的方方面面。无论是智能家居、自动驾驶,还是医疗诊断、…...

Linux中ls -lsa 和ls -lst区别

在Linux中,ls 命令用于列出目录内容。当与不同的选项组合时,它可以以不同的方式显示文件和目录的详细信息。 对于 ls -lsa 和 ls -lst,它们的主要区别在于显示的列和排序方式: ls -lsa: -l: 使用长格式显示文件和目录的详细信息。…...

TDengine 签约上海晶澳太阳能,助力储能业务平台搭建

在全球能源结构转型和碳中和目标的大背景下,太阳能作为清洁能源的重要组成部分,正逐渐成为新能源发展的关键。作为一个领先的数据处理平台,TDengine 最近与太阳能行业的领头羊晶澳太阳能科技股份有限公司开展了深度合作。这项合作旨在利用 TD…...

【数据结构】选择题

在数据结构中,从逻辑上可以把数据结构分为(线性结构和非线性结构) 当输入规模为n时,下列算法渐进复杂性中最低的是() 时间复杂度 某线性表采用顺序存储结构,每个元素占4个存储单元&#xf…...

数据库 |试卷八试卷九试卷十

1.基数是指元组的个数 2.游标机制 3.触发器自动调用 4.count(*)统计所有行,不忽略空值null,但不但要全局扫描,也要对表的每个字段进行扫描; 5.eacherNO INT NOT NULL UNIQUE,为什么不能断定TeacherNO是主码&#xff…...

贵阳专业做网站/如何宣传推广

Vuex原理图 1. 概念 在Vue中实现集中式状态(数据)的管理的一个Vue插件,对vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式,且适用于任意组件间通信 2. 何时使用 …...

眉山营销型网站建设/怎样把广告放到百度

ASP.NET MVC框架开发系列课程(视频课程讲师:赵劼) ASP.NET 2.0入门与提高系列课程(视频课程讲师:徐栋) ASP.NET AJAX深入浅出系列课程(视频课程讲师:赵劼)面向开发人员之ASP.NET开发技术系列课程(视频课程讲师:徐栋) 实战ASP.NET…...

什么网站赚的钱最多/旺道seo怎么优化网站

pageX/pageY:鼠标相对于整个页面的X/Y坐标。注意,整个页面的意思就是你整个网页的全部,比如说网页很宽很长,宽2000px,高3000px,那pageX,pageY的最大值就是它们了。特别说明:IE不支持! //-------…...

做我的世界背景图的网站/谷歌浏览器搜索引擎入口

一. 前言最近有很多小伙伴开始找工作,在面试时,面试官经常会问我们这样一个题目:RabbitMQ如何防止重复消费?有很多小伙伴这个时候都在想,消息怎么还会重复消费呢???.......所以他们在面试后就跑来问壹哥,针对这个比…...

北京软装设计公司前十名/广州市口碑seo推广外包

注解本身没有功能的,就和 xml 一样。注解和 xml 都是一种元数据,元数据即解释数据的数据,这就是所谓配置。 本文主要罗列 Spring|Spring MVC相关注解的简介。 Spring部分 1、声明bean的注解 Component 组件,没有明确的角色 Servic…...

做网站app要多少钱/怎样在平台上发布信息推广

近几年,随着越来越多的传统电视厂商、互联网企业以及新人纷纷杀入到智能电视领域,这个行业变得人头攒动、战火连天。不过,随着行业的发展,今年伊始略有不同——在人工智能的大潮下,以往的简单粗暴地拼硬件时代即将一去…...