当前位置: 首页 > news >正文

通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

目录

前言

1.通用人工智能

1.1 生物学分析

1.2具身智能

1.2.1当前的人工智能的局限

1.2.2 具身智能实现的基础

1.2.3 强化学习(决策大模型)

2.结论

往期文章

参考文献


前言

      目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言处理领域的通用人工智能(语言大模型),

      所谓通用人工智能,简单理解为一种和人类一样能够思考和解决任何问题,甚至在各方面超过人类的智能体。从这个角度讲,想要理解通用人工智能,要先了解人体的各个功能

1.通用人工智能

1.1 生物学分析

理解和决策机构:

大脑:支配高级皮层的活动,如思维、运动、感觉、语言和情感等。

小脑:保持平衡,协调肌肉运动。

感知机构:
耳:听觉      鼻:嗅觉      嘴:味觉      眼:视觉

执行机构:
手臂:用于抓取、握持和搬运物品,用于平衡身体和调整姿势。
手:用于精细的动作,如写字、插针、打字等。
腿:用于站立、行走和奔跑。
足:支撑身体,保持站立稳定,参与步行和奔跑。

基于人体功能假设一个场景:

      我们命令()机器人去苹果园摘苹果,远远的它就闻()到了苹果的香味,走进时又看到了()又大又红的苹果,甚至它还偷偷尝了一个(),在这个场景下,我们用全部感知去认知这个苹果。(而目前的目标检测仅能从视觉上判断一个东西是不是苹果,显然从感知层次,这是不足够的)

      同时在采摘的过程中,它用腿和足行走到果树下面,再用手臂移动到苹果旁边,用进行抓取。(在目前的机器人行业,腿和足的功能用移动机器人实现,手臂的功能用机械臂实现,手的功能用一些末端执行器,像夹手或吸盘等,当然近期人形机器人也是爆点)

      在这整个过程中,感知机构将所获得的信息传回大脑(理解这些信息),再由大脑决定下一步应该做什么(思考),最后由小脑控制四肢(执行机构)落实大脑的决策。

      这就是人在面对一个问题时,身体各个部位所做的事情,同样,对于机器人而言,只有具备这些功能之后,才能具备了成为一个通用人工智能的可能

1.2具身智能

1.2.1当前的人工智能的局限

      今年世界机器人大会2023提到一个概念具身智能,提出这个概念是因为,当前我们所做的基于人工智能的机器人,是先在仿真环境训练模型,再将训练好的模型移植到真实世界中的机器人上,但这存在一个问题,这种训练模式下的机器人,只能解决训练环境中,已经提前模拟过的可能发生的各种问题,对于现实世界发生的没有在训练环境中模拟的情况,它不能解决。举个例子,假设我们在训练环境中,让机器人抓取一个苹果,但没有模拟抓取过程中它遇到障碍物时该如何解决,那么在真实世界中遇到障碍物时同样不知道如何解决。也就是说,机器人真实世界中它并不具备学习能力,它有的仅是在训练环境中学习到的能力,显然这不是我们想要的人工智能

1.2.2 具身智能实现的基础

      而且对于人类个体而言,尽管我们活在信息大爆炸时代,但在获取信息时,我们所学习的存在脑海中的不管是成功的还是失败的经验,都是自己独有的适合自己的,然后我们依靠这些经验,提升自己,逐步从小孩成长到大人。

      而在当前训练智能体时所采取的数据,全部来源于网络,这些数据庞大且混乱(真假难以辨别),就从Chatgpt来看,我们经常能发现它会给出一些错误的答案,这是因为它所学习到的数据并不全是对的的。但Chatgpt有一个优势,它可以和人类互动,去纠正之前错误的知识(真实世界的交互),这也就意味着Chatgpt有了进化的可能,因为它可以和全球几十亿人交流,学习他们的一切,并且能够变成自己的,甚至推陈出新。当然Chatgpt仅能算是语言(嘴和耳)的通用人工智能,扮演大脑的一部分,赋予了智能体理解人类问题以及和人类交流的能力。想要实现真正意义上的通用人工智能,我们还要获得眼,鼻等其他感知机构和现实世界的交互信息

      当前最接近具身智能的应该是数字孪生,之前我们说机器人无法解决真实世界中遇到的在训练环境中没有模拟的情况,但对于数字孪生,它可以利用虚拟环境(训练环境)实现和现实的实时交互,从而具有在真实世界学习的能力。我们还从上面的例子出发,同样我们在训练环境中让机器人抓取一个苹果,同时不设置障碍,和之前不同的是,此时在真实世界中遇到障碍,会将这个障碍信息实时反馈到虚拟环境(训练环境),那么此时机器人就可以快速在虚拟世界(训练环境)中训练,从而在真实世界避开这个障碍物,但这对于通讯的实时性和算力有很高的要求,不过确实可以利用机器人和真实环境交互后所得的信息提升自己。但是同样的,这不是真正的具身智能,因为我们当前的交互主要还是依赖于视觉信息,这中对世界的认知显然是不足够的,所以我们需要更多的大模型,视觉大模型,味觉大模型,嗅觉大模型等这样机器人才具备了和真实世界全方位交互的基础能力。而数字孪生也是具身智能的关键技术

1.2.3 强化学习(决策大模型)

      对于人类而言,小学时候老师教我们1+1=2,每次我们写错时,就给我们打个×,每次看到这个×我们就知道这样做是不对的,久而久之我们就知道1+1=2才是标准答案。这是人类在和现实世界交互后一个思考的过程,那对于机器人而言改如何思考呢?

      前面我们已经论述了具身智能所需要的感知能力,但有了这些感知能力,如何通过和现实的交互不断思考提升自己呢,这里我们引入强化学习概念,举个例子,我们询问Chatgpt一家小公司的发展历史,假设这个公司是2019年成立的,但网上存在错误信息,它不能有效识别,它可能会告诉你这个公司是2015年成立的,此时你回复它,你是不对的,这家公司实际上是2019年成立的,然后当你再次询问它这家公司什么时间成立时,它会告诉你是2019年成立的,此时,我们神奇的发现Chapt有了纠错能力。但过了很久当你再去问它时,它却又告诉你这家公司是2015年成立的,原因在于,它有一个奖励机制,假设你说这个公司成立于2019年,Chatgpt给这个答案加5分,但同时有十个人说成立于2015年,那么2015这个答案就有50分,显然Chatgpt会相信50分的答案,这和三人成虎异曲同工,所以此时我们需要找100个人回答说是2019,就可以保证答案更正为改公司成立于2019年,而在这个过程中,我们又神奇的发现,Chagpt似乎有了思考能力,它权衡了很多人的答案,最终给与出了自己的答案,这就是强化学习在语言模型中的应用Chatgpt先以深度学习基础,构建出一个笼统的答案库,再利用强化学习,不断的和人类交流,进而持续更正它的答案库中的答案。

      同样机器人执行机构运动和真实环境所得到的交互信息,也需要强化学习来思考决策过程,比方说,依然让一个机器人抓一个苹果,这个抓取过程的路线有无数可能,抓取的动作同样有无数可能,但是机器人该如何选择最好的路线和动作呢,我们引入强化学习,每一步都给一个奖励,最后我们用奖励最高的动作集合,作为决策,也就意味着,机器人通过和真实世界的交互,学到了最好的抓取苹果的动作集合。

2.结论

      从上面的论述中我们发现,感知大模型(语言大模型、视觉大模型、嗅觉大模型、味觉大模型)(深度学习),让智能体具有理解真实世界的能力,在这个能力的基础上,决策大模型(强化学习)赋予了智能体思考的能力,而数字孪生让智能体可以在虚拟环境中快速且无损的找到诸多思考下最优的解决方案,最后多模态大融合实现万态归一。

      而数字孪生的这个特点会是通用人工智能超过人类的一个关键,对于人类而言,遇到一个问题,需要花费大量的时间,多次试错,才能找到最优方案,但对于通用人工智能,它可以在虚拟环境中快速的找到最优答案,再应用于真实世界。这其中的差别,比方说,两个人在悬崖下找到了一本修仙秘籍,A苦练万年,多次历经生死大劫,九死一生之后终于得到成仙,而B找到了一个仙境,在个仙境中1亿年相当于外界一天,而且里面的人死后会瞬间复活,所以B在仙境中为了找到可以成为最强仙人的方案,疯狂作死,尝试了无数次之后,终于找到了答案,他在仙境花了365亿年,但在外界仅过了一年。

语言大模型(Chatgpt)(深度学习)和决策大模型(强化学习)的区别

      简单理解,语言大模型解决机器人能听懂什么,这赋予了智能体理解能力,决策大模型(强化学习)赋予机器人思考和决策能力,即如何最优解决一个问题的能力。Chatgpt只是利用深度学习技术,从庞大的数据库中找到一个答案,在这个过程并没有严格意义上的思考,而强化学习是面对一个问题从无到有,思考所有可能的答案,最终找到最优解决方案,显然这才符合人类的思维模式。而某种层面上思考能力是区别人和动物的根本因素

    写在最后:具身智能是通往通用人工智能的大门,而强化学习是通往具身智能的大门。

往期文章

1.具身智能(Embodied AI)_笑傲江湖2023的博客-CSDN博客

参考文献

1.大脑和小脑——规划和执行_规划决策大脑 运动控制小脑-CSDN博客

2.【AGI 通用人工智能】什么是通用人工智能 | What is Artificial General Intelligence_禅与计算机程序设计艺术的博客-CSDN博客 

相关文章:

通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献 前言 目前的人工智能实质上只是强人工智能,或者说单个领域的通…...

makefile的特性-部分语法记录

1.变量定义 1.1 来实现a1 $(a2)a2 lib.o1.2 : 来实现, 这种不能通过后面的变量来定义a1 : $(a2) b.0a2 : lib.o1.3 来实现a1 b.0a2 a11.4 ? 来实现,这种方式前面如果定义了,后面定义则无效a1 : a.oa1 ? lib.o //结果 a1 a.o 2.文件查找 2.1 VPATH 目录…...

【Java 进阶篇】JavaScript 正则表达式(RegExp)详解

JavaScript 正则表达式,通常简写为 RegExp,是一种强大的文本匹配工具,它允许你通过一种灵活的语法来查找和替换字符串中的文本。正则表达式在编程中用途广泛,不仅限于 JavaScript,在许多编程语言中也都有类似的实现。 …...

51单片机之串口通信例程

51单片机之串口通信例程 简介原理例程 简介 串行通信是指使用一条数据线,将数据一位一位地依次传输,每一位数据占据一个固定的时间长度。在串行通信中,数据可以以字符为单位进行传输,也可以以帧为单位进行传输。 在51单片机中&a…...

Hadoop高可用集群(HA)一键启动脚本

高可用集群启动时,需要分别在每个节点上都执行zkServer.sh start启动zookeeper,这个过程比较麻烦,并且当我们节点增多时,这个过程无疑不增加了我们的工作量,因此我们可以写一个一键启动所有节点zookeeper的脚本 脚本实…...

C#开发的OpenRA游戏之金钱系统(1)

C#开发的OpenRA游戏之金钱系统(1) 设计一个游戏,肯定要有一个唯一的资源,用这个资源来管理整个游戏的进度,以及相互争夺的焦点。在OpenRA里,就是使用矿产资源。所以在地图上分布几个矿场,玩家就需要相互争夺矿场,谁开采多谁就更有钱,谁有钱了就可以升级更好的科技,以…...

Puppeteer监听网络请求、爬取网页图片(二)

Puppeteer监听网络请求、爬取网页图片(二) Puppeteer监听网络请求、爬取网页图片(二)一、爬取需求二、实现讲解三、效果查看 一、爬取需求 首先打开浏览器,打开指定网站监听网站发出的所有请求,记录请求&a…...

GoLang连接mysql数据库

跟着文档走GORM 指南 | GORM - The fantastic ORM library for Golang, aims to be developer friendly. 1.使用命令拉取 go get -u gorm.io/gorm go get -u gorm.io/driver/sqlite2.开始使用 package mainimport ("fmt""github.com/gin-gonic/gin"&…...

软件工程与计算总结(八)软件设计基础

一.设计思想的发展 1958:软件这个名词第一次在公开刊物上使用~60年代中后期and70年代前中期:结构化编程、逐步求精、自顶向下理念是程序设计主要方法70年代中后期and90年代:结构化设计方法、抽象数据类型、信息隐藏、封装、继承、多态等思想…...

someip 入门

什么是someip? SomeIP(Scalable Service-Oriented MiddlewarE over IP)是一种基于以太网的通信协议,用于汽车领域的通信。它允许不同的汽车电子控制单元(ECUs)之间通过网络进行通信,以便在车辆内…...

C# 使用Parallel去执行并行下载

直接上代码&#xff1a; //最大线程下载数量ParallelOptions options new ParallelOptions{MaxDegreeOfParallelism 5};public async Task DownloadMusicUrl(List<MusicTags> musicTags){DateTime currentTime DateTime.Now;DateTime startTime new DateTime(1970, 1…...

@Component 和 @Bean的区别

Component 和 Bean 是Spring框架中用于管理和配置依赖注入的关键注解&#xff0c;用于定义和管理Spring应用程序中的组件。 Component: Component 是一种泛用型的Spring注解&#xff0c;用于标识一个类为Spring组件。Spring会自动扫描所有带有Component 注解的类&#xff0c;并…...

百度测试开发工程师面试心得

百度测试开发实习生面试心得&#xff1a; 电话面试&#xff1a; 面试官&#xff1a;首先做一下自我介绍吧 我&#xff1a;我是***&#xff0c;来自什么大学&#xff0c;现在大三&#xff0c;在学校期间担任过部长&#xff0c;副主席等职务&#xff0c; 组织举办了很多比赛&…...

发现更多美景!XnViewMP for Mac/Windows 图片浏览软件

想要轻松快捷地浏览、管理和编辑您的照片吗&#xff1f;XnViewMP for Mac 是您的最佳选择&#xff01;这款强大而多功能的图片浏览软件将给您带来全新的视觉体验。 借助 XnViewMP&#xff0c;您可以方便地浏览各种图片格式&#xff0c;包括JPEG、PNG、GIF等&#xff0c;并支持…...

城市广告牌安全传感器特点有哪些?

城市广告牌安全传感器特点有哪些&#xff1f; 在现代快节奏的都市生活中&#xff0c;城市的广告牌成为不可或缺的一部分&#xff0c;以各种形式和大小存在于城市的街头巷尾&#xff0c;商业中心和交通要道。广告牌是城市生命线组成的一部分。但是由于天气因素、材料老化、不当维…...

源码部署lamt架构

源码部署lamt架构 lamt由apache&#xff0c;mysql&#xff0c;tomcat三者组成 文章目录 源码部署lamt架构1.准备工作1.1.配置yum源&#xff0c;关闭防火墙和selinux1.2.拉取相应源码包 2.安装apache3.安装mariadb4.安装tomcat 1.准备工作 1.1.配置yum源&#xff0c;关闭防火墙…...

【Java 进阶篇】JavaScript Math对象详解

在JavaScript编程中&#xff0c;Math对象是一个非常有用的工具&#xff0c;用于执行各种数学运算。它提供了许多数学函数和常数&#xff0c;可以用于处理数字、执行几何运算、生成随机数等。在本篇博客中&#xff0c;我们将深入探讨JavaScript中Math对象的各种功能和用法。 什…...

geecg-uniapp 路由修改 页面创建 (2)

一&#xff0c;增加页面 添加路由 &#xff08;1&#xff09;我们以home的常用服务 当作示例 我们修改 usList 数据 &#xff08;2&#xff09;查找对应路径 work.js 目前荒石对应的路径跳转 helloword 我们修改成 huang &#xff08;3&#xff09;修改跳转路径 修…...

微信开发者工具下载

一、微信开发者工具下载官网 微信开发者工具下载地址与更新日志 | 微信开放文档 (qq.com) 二、微信开发者工具界面 下载安装好后&#xff0c;软件图标如下图所示。 运行软件如下图所示&#xff0c;这时候就需要使用你的管理员账号扫码登录。 登陆后的界面&#xff0c;如下图…...

ctfshow萌新计划web9-14(正则匹配绕过)

目录 web9 web10 web11 web12 web13 web14 web9 审一下代码&#xff0c;需要匹配到system|exec|highlight才会执行eval函数 先看一下当前目录下有什么 payload&#xff1a;?csystem(ls); index.php是首页&#xff0c;我们看看config.php payload&#xff1a;?csystem…...

【数据结构】单链表按位序插入元素e【前插】(带头结点的和不带头结点的)这篇很重要,文字说明比起其他篇是正确的

声明单链表的结构体成员 struct LNode {int data;struct LNode *next; };typedef struct LNode LNode;// 或者: 两者是等价的 typedef struct LNode {int data;struct LNode *next; }LNode;按位序插入元素e&#xff1a;就是在第i个位置插入新结点&#xff0c;数据域为e 以下带…...

Maven Surefire Exclude 无效问题排查日志

昨天有个需求,要在单元测试的时候单线程执行,并且只执行单元测试类特殊结尾的,那么根据以往经验,直接在maven里面配置exclude并且指定include即可。如下尝试 <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-surefire-plugin&…...

ArcGIS笔记4_水动力模型验证不理想时如何修改局部水深地形

本文目录 前言Step 1 模型验证不理想的情况Step 2 修改确值点并重新插值 前言 本章主要服务于MIKE水动力模型的调整修改工作。水动力模型跑完之后&#xff0c;常常会出现验证结果不理想的情况&#xff0c;比如潮位验证中&#xff0c;实测站点数据与模拟数据相差很大&#xff0…...

介绍一下mysql有哪些索引类型

以下是MySQL的8种不同索引类型的比较&#xff0c;以帮助你了解它们的特点和适用场景&#xff1a; 索引类型用途和特点适用场景B-Tree 索引用于范围查询、等值查找和排序操作大多数查询 &#xff0c;不适合全文搜索和空间数据。唯一索引保证索引列的值唯一&#xff0c;不允许重…...

#力扣:125. 验证回文串@FDDLC

125. 验证回文串 一、Java class Solution {public boolean isPalindrome(String s) {for (int l 0, r s.length() - 1; l < r; l, r--) {while (l < r && !Character.isLetterOrDigit(s.charAt(l))) l;while (l < r && !Character.isLetterOrDig…...

分享一下便利店怎么做微信小程序

便利店微信小程序开发&#xff0c;让生意更便捷&#xff01; 在这个数字化时代&#xff0c;微信小程序已经成为一种新的生活方式。它不仅改变了人们的消费习惯&#xff0c;还为各行各业提供了无限商机。对于便利店来说&#xff0c;微信小程序是一个绝佳的营销工具&#xff0c;…...

Gitlab CI/CD 入门教程

前言 开发人员常常提到的 CI/CD 是什么&#xff1f; 是用于集成测试的工具&#xff0c;每次提交代码后自动检测、构建和进行单元测试的过程。这一整条流水线式的测试流程我们称之为 pipeline。 入门教程 如何使用 CI/CD? 首先需要确保有可用的 runner&#xff08;如何确保…...

【mfc/VS2022】计图实验:绘图工具设计知识笔记

绘制曲线&#xff08;贝塞尔曲线&#xff09;&#xff1a; 转自&#xff1a;CDC 类 | Microsoft Learn 绘制一条或多条贝塞尔曲线。 BOOL PolyBezier(const POINT* lpPoints,int nCount);参数 lpPoints 指向包含曲线端点和控制点的 POINT 数据结构数组。 nCount 指定 lpPo…...

C# PortraitModeFilter (人物图片)背景模糊

效果 项目 代码 using Microsoft.ML.OnnxRuntime; using Microsoft.ML.OnnxRuntime.Tensors; using OpenCvSharp; using System; using System.Collections.Generic; using System.Drawing; using System.Drawing.Imaging; using System.Linq; using System.Windows.Forms; us…...

centos7下安装elasticsearch7.8.1并配置远程连接

1、下载安装包 sudo wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.8.1-linux-x86_64.tar.gz 2、解压 sudo tar -zxvf elasticsearch-7.8.1-linux-x86_64.tar.gz 3、添加用户并设置密码 sudo useradd es sudo passwd es # 设置密码 Lida15…...