当前位置: 首页 > news >正文

360周鸿祎又“开炮”:GPT 6-8就将产生自主意识!我们来测算一下对错

55a5daa17bacaa3b25d558db1ff67e8b.png

c77e5f937b50147fffebb25d5b5a08af.png

c6164bc444099eb4294ff376d126ff4d.png




‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


近日,360的周鸿祎放言“GPT6到GPT8人工智能将会产生意识,变成新的物种。未来,人工智能大语言模型有可能实现自我进化,自动更新系统和自我升级,或者指数级进化能力,人类将会面临不可预知的安全挑战。”

虽然360每况愈下,但周鸿祎作为“风口达人”,几乎每个风口都要掺和一脚。他的话有几分可信度,是要打一个大大问号的。

并且,周鸿祎只给出一个预测,但却没有给出自己的理由和推理逻辑。

作为主打行业深度的媒体,我们不能停留在标题党式的口号上,而要从更深层次来分析问题。

GPT会成长为一个通用人工智能模型么?如果会,这个过程可能需要多久时间?接下来,我们试图一起来探讨这个让人不安的问题。

要回答这个问题,我们就需要将GPT这类大模型“拆”开来,看看它内部是什么构造,是如何工作的。

“拆开”大模型的黑箱

大模型是指参数数量非常大的神经网络模型,通常用于处理复杂的自然语言处理、图像识别、语音识别等任务。大模型的核心要素主要是神经网络、层、神经元和参数。

38301adf704556ba2d38eec193658b32.png

数据猿制图

神经网络

神经网络是一种机器学习算法,它的灵感来源于人脑的神经系统。它由多个层组成,每个层都包含多个神经元,层之间的连接形成了神经网络。每个神经元都接收来自上一层神经元的输入,并根据其输入计算出输出,然后将其传递给下一层。

层是神经网络的组成部分,由多个神经元组成。每个层可以使用不同的激活函数、优化器等参数进行配置。通常,每一层都会对输入进行一些变换,然后将输出传递给下一层。常见的层包括全连接层、卷积层、池化层等,划分不同类型的层的依据主要是处理的数据类型、层的内部结构、层的功能等。比如,全连接层是神经网络中最简单的一种层,也是最常用的一种层。其核心功能是将上一层的所有神经元与本层的所有神经元相连接。这种连接方式允许神经网络学习到输入数据的复杂非线性关系。全连接层通常用于图像分类、语音识别、自然语言处理等任务;卷积层是卷积神经网络(CNN)中的核心层,用于处理具有空间结构的数据,例如图像。其核心功能是通过一组可学习的卷积核在输入数据上进行卷积操作,以提取输入数据的特征。卷积层的内部结构包括多个卷积核和一个偏置项,卷积层的输出通常被输入到池化层中。

神经元

神经元是神经网络中的基本单元,其主要功能是接受来自输入层或前一层神经元的信号,并产生输出信号。神经元的输入通过一组带权重的连接进行传输,并在神经元中被加权求和。然后,这个总和被输入到激活函数中进行非线性变换,产生神经元的输出。

神经元的核心是激活函数,激活函数是神经元处理输入信号的核心组成部分。神经元接收输入信号并对其进行加权求和,然后将其输入到激活函数中进行非线性变换。激活函数的作用是为神经元引入非线性因素,使神经元能够学习到非线性的模型,从而提高模型的表达能力。

参数

参数是指神经网络中的变量,它们会随着神经网络的训练而更新。每个神经元都有一个权重向量和一个偏置项,这些权重和偏置项通常被称为参数。这些参数的值在训练期间会被优化器更新,以使得神经网络的输出尽可能接近期望输出。

综上,神经元是层的组成部分,而层是神经网络的组成部分。参数被存储在神经元中,每个神经元都有一组参数(权重和偏置项)。在训练过程中,优化器会更新这些参数,以使得神经网络的输出尽可能接近期望输出。

那么,神经网络、层、神经元、参数是怎么系统工作的呢?

接下来,我们以GPT-4的训练过程为例,来说明大模型训练过程中不同元素的协同配合过程,具体来看:

1) 首先,随机初始化 GPT-4 模型的所有参数,包括神经网络中每个神经元的权重和偏差等。

2) 准备数据集,这些数据可以是经过标记的文本,如新闻文章、小说、论文、社交媒体帖子等。在训练之前,必须对数据进行预处理和清理,例如删除特殊字符、停用词和其他无关信息。

3) 训练数据会被划分成多个小批次(batch),通常每批次包含几百到几千个文本样本。将每个批次输入 GPT-4 模型中,模型将根据当前的参数计算输出,即预测下一个词的概率分布。

4) 计算模型的损失函数(loss function),损失函数可以反映模型在训练集上的性能。在语言模型的情况下,通常使用交叉熵作为损失函数。

5) 根据反向传播算法(backpropagation algorithm)计算参数的梯度,梯度反映了模型在某一点上的损失函数的变化率。然后使用优化器(optimizer)更新模型的参数,以减少损失函数。

6) 重复步骤 3-5 直到模型的性能达到预期或训练时间耗尽。

跟人脑有几分相似

从上面的分析可以看到,大模型是在尽力的去模拟人脑的工作机理。事实上,目前人类是唯一有智能的生物,要想大模型也有像人类一样的智能,“仿生”是最好的办法。

接下来,我们先简单梳理一下人脑的结构和人脑的工作机理,然后将大模型的结构、工作机理与人脑进行对比。

先来看看人类大脑的结构。

人的大脑是由数百亿个神经元组成的一个神经网络系统,神经元是神经网络的基本单元。每个神经元之间通过突触相互连接,这些突触是神经元之间传递信息的基本通道。

神经元的核心功能是接收、处理和传递信息。一个神经元通常由三部分组成:细胞体、树突和轴突。神经元接收来自其他神经元的信号通过树突传入细胞体,细胞体对这些信号进行处理,并产生输出信号,输出信号通过轴突传递给其他神经元。

神经元之间的连接通常是通过突触来实现的。突触分为化学突触和电突触两种。化学突触是通过神经递质来传递信号的,电突触则是直接通过电信号来传递信息。

人的大脑由大量神经元和突触组成,这些神经元和突触按照特定的规律连接在一起,形成不同的神经回路和神经网络。这些神经回路和神经网络共同协作,完成人体各种复杂的认知、感知、情感和行为等活动。

通过上面的分析,我们可以将人脑与大模型的各个元素来做个类比,如下表:

b322ea524643901e3f7c569068bfb429.png

大模型中的层可以类比于人脑中的皮层。大模型的层是由若干个神经元组成的,每个神经元接收上一层的输出作为输入,并通过激活函数进行计算,产生本层的输出。而人脑皮层则是由神经元和突触组成的复杂网络,其中每个神经元也接收其他神经元的输出作为输入,并通过化学信号在突触处进行信息传递和处理。

大模型的神经元可以类比于人脑中的神经元,它们是网络中的基本计算单元,接收输入信号,并通过激活函数对其进行处理,产生输出信号。人脑神经元则是生物体中的基本计算单元,通过突触连接其他神经元,接收来自其他神经元的化学信号,并通过电信号产生输出信号。

大模型的参数可以类比于人脑中的突触权重,它们决定了神经元之间信息传递的强度和方式。人脑中的突触权重也起到类似的作用,它们决定了神经元之间的连接强度和突触处的信号传递方式。

大模型与人脑的定量对比

上面只是从定性角度,搞清楚的大模型、人脑的工作机理,并对他们核心元素做了类比。

量变引起质变,即使是结构上类似,但数量的差异,往往会导致巨大的不同。

接下来,我们来从数量角度,来对大模型和人脑进行对比。

下面是GPT-1到GPT-3.5模型的神经层总数、参数总量的近似值(没有披露神经元数量,GPT-4没有披露相关数据):

6824fdb71498ae390d788c7907e1ead0.png

然后,我们来看看人类大脑的神经元和突触数量。为了让结果更有参考性,除了人类,我们还选取了猴子、海豚、猫、蚂蚁。具体结果如下表:

2ab0ce28b1d6c629cfbf5247f082acce.png

通过上面的分析我们知道,大模型的神经元可以类别人类的神经元,大模型的参数类别人脑的突触。但可惜业界的大模型很少披露神经元数量,一般披露参数规模。因此,我们将GPT系列大模型的参数规模,与人类、猴子、海豚、猫大脑的突触规模来进行比较:

0a59e36bb2757301f240233210cdba63.png

从上表可知,单从数量规模来看,GPT-3.5的“智能”水平已经落在猴子的智力区间,离人类的智力水平还差285.7-2857倍。

另一方面,从GPT本身的演进速度来看,其前两次迭代过程,每次参数规模都能提升两个数量级,但GPT-3之后,参数规模提升的速度大幅度降低。假设以后每次迭代,GPT的参数规模增加5倍,那么迭代5次之后(5的5次方是3125),即到GPT-9,其“智力水平”也许可以赶上人类。

当然,以上的推论只是一个简单的模型,并有一个假设前提——智力水平跟突触(参数)规模正相关。但这个假设能否成立是需要打一个大大的问号的。

相对于突触,神经元才是度量智力水平更好的指标。从目前情况来看,大模型的激活函数,其信息处理能力是要远远弱于人脑神经元的。大模型神经元的激活函数较为简单,例如,Sigmoid激活函数的神经元在输出范围上具有较平滑的S形曲线,可以实现二元分类等任务,ReLU激活函数的神经元具有非线性的修正线性性质等。相对而言,人脑的神经元却是一个生物细胞,其信息处理能力肯定要远远超出一个简单的数学函数的。因此,即使大模型的神经元在数量上赶上人脑水平,达到上千亿规模(对应的参数规模超过1000万亿),其智力水平也无法跟人脑相比。

此外,大模型的神经网络可以类比于人脑的神经网络,但是它们的实现方式完全不同。大模型的神经网络是通过数学模型来模拟神经元之间的连接和信息传递,而人脑神经网络则是由神经元、突触等生物元素组成的复杂结构。另外,人脑神经网络中神经元之间的连接是非常复杂的,它们可以自由地建立、拆除和调整连接,而大模型的神经网络则是事先设定好的。

目前来看,人类还是比较“安全的”。但是,我们不要忘了,人脑的神经元规模几乎是不变的,而大模型的神经元、参数规模却在指数级的递增。按照这样的趋势,大模型的智能水平追上人类可能只是一个时间问题。

人工智能领域的大神级人物Hinton就表示,“通用人工智能的发展比人们想象的要快得多。直到不久前,我还以为大概需要20-50年,我们才能实现通用人工智能。而现在,通用人工智能的实现可能需要20年或更短的时间。”

面对通用人工智能甚至超级人工智能,人类的心理是复杂的。一方面,希望有更智能的系统来帮助人类完成更多的工作,解放生产力;另一方面,又怕打开了潘多拉魔盒,放出一个比核武器还恐怖的怪物。

但愿,即使我们造出了一个“神”,也是充满爱的神,而不是一个将人类视为蝼蚁的神!

文:一蓑烟雨 / 数据猿

e9d0e76ef5c868eff17bac5db90465dd.jpeg

70d994a3697dfa52626b27403ad8b51e.png

023dc443acc99bcbfa5b4d099328372a.png

5f3994f1263a4af72bed3202b8ece5d9.png

883cf3cfb073cdd697041220a573c703.png

相关文章:

360周鸿祎又“开炮”:GPT 6-8就将产生自主意识!我们来测算一下对错

‍数据智能产业创新服务媒体——聚焦数智 改变商业近日,360的周鸿祎放言“GPT6到GPT8人工智能将会产生意识,变成新的物种。未来,人工智能大语言模型有可能实现自我进化,自动更新系统和自我升级,或者指数级进化能力&am…...

python——飞机大战小游戏

目录 1、导入模块 2、窗口操作 3、事件操作 4、长按事件 5、添加游戏背景 6、添加英雄飞机 7、获取飞机的图片矩形 8、基本游戏窗口 9、添加游戏窗口图片 10、英雄飞机登场 11、英雄飞机装备子弹并发射 1、enemy_plane 2、game_main 3、game_map 4、game_score …...

数组(完全二叉树)向下建堆法与堆排序O(N*logN)

TIPS AdjustUp & AdjustDown向上调整AdjustUp与向下调整AdjustDown的参数是一个数组(完全二叉树)需要进行调整操作的数值的下标/一个数组(完全二叉树)堆元素个数需要调整操作的数值的下标。实际上就是对完全二叉树当中的某一点…...

Lua require 函数使用

从 Lua 的用户文档中我们知道 require("modName") 函数是用来加载模块的,而如果这个modName已经用require 加载过的,再调用require时,将直接返回模块的值。因为函数首先查找 package.loaded 表, 检测 modName 是否被加载…...

【面试】如何定位线上问题?

这个面试题我在两年社招的时候遇到过,前几天面试也遇到了。我觉得我每一次都答得中规中矩,今天来梳理复盘下,下次又被问到的时候希望可以答得更好。 下一次我应该会按照这个思路去答: 1、如果线上出现了问题,我们更多…...

字节二面,原来我对自动化测试的理解太浅了

如果你入职一家新的公司,领导让你开展自动化测试,作为一个新人,你肯定会手忙脚乱,你会如何落地自动化测试呢? 01 什么是自动化 有很多人做了很长时间的自动化但却连自动化的概念都不清楚,这样的人也是很悲…...

Android11.0 应用升级成功后立即断电重启,版本恢复

问题:客户反馈内置的应用升级成功后立刻断电重启,应用的版本被恢复。 使用adb命令升级客户应用,查看版本显示已更新,/data/system目录下packages.xml和packages.xml中应用版本信息均已更新 C:\Users\dell>adb shell dumpsys …...

关于python常用软件用法:Pycharm 常用功能

人生苦短,我用python 一.Pycharm的基本使用 1.在Pycharm下为你的Python项目配置Python解释器 (1).Setting>Project Interpreter>源码资料电子书:点击此处跳转文末名片获取 二.在Pycharm下创建Python文件、Python模块 1.File>New&g…...

SOLIDWORKS你不知道的小技巧

◉ SOLIDWORKS圆弧长度标注点智能标注,再选中该圆弧,然后分别点圆弧的两个端点,点击左键可以标注圆弧长度。◉ SOLIDWORKS强力裁剪剪裁实体中的强劲剪裁,除了可以裁剪实体外,还可以任意延伸实体。◉ SOLIDWORKS转折线转…...

有了HTTP,为啥还要用RPC

既然有 HTTP 请求,为什么还要用 RPC 调用? 一直以来都没有深究过RPC和HTTP的区别,不都是写一个服务然后在客户端调用么? HTTP和RPC最本质的区别,就是 RPC 主要是基于 TCP/IP 协议的,而 HTTP 服务主要是基…...

[leetcode] 动态规划

背包 先啃懂 背包九讲 01背包,即物品有限。 for 物品for 容量(倒序)P1048 [NOIP2005 普及组] 采药 [ 原题 | 题解 ] P1049 [NOIP2001 普及组] 装箱问题 [ 原题 | 题解 ] P1507 NASA的食物计划 [ 原题 | 题解 ] P1510 精卫填海 [ 原题 | 题…...

科大奥瑞物理实验——热电偶特性及其应用研究

实验名称:热电偶特性及其应用研究 1. 实验目的: 掌握电位差计的工作原理和结构特点;了解温差电偶测温的原理和方法;学会电位差计的使用及注意事项。 2. 实验器材: 电位差计 标准电池 光电检流计 稳压电源 温差电偶…...

Eclips快捷键大全(超详细)

Eclips快捷键大全(超详细)前言一、常用快捷键二、编辑快捷键三、导航快捷键四、运行和调试快捷键五、重构快捷键六、代码生成快捷键七、项目导航快捷键八、帮助快捷键九、搜索快捷键十、标记快捷键十一、版本控制快捷键十二、其它快捷键前言 本博主将用C…...

整懵了,蚂蚁金服4面成功拿下测开offer,涨薪10k,突然觉得跳槽也不是那么难

蚂蚁的面试挺独特的,每轮面试都没有HR约时间,一般是晚上8点左右面试官来一个电话,问是否能面试,能的话开始面,不能就约一个其他时间。 全程4面,前四面技术面,电话面试,最后一面是HR面…...

C++内存分布malloc-free-new-delete的区别和联系

目录 一、内存分布 1.1内存分布图: 1.2 为什么要将bss和data区分开呢? 1.3 堆和栈有什么区别 二、malloc、free;new、delete 2.1 new和delete是如何实现的,new与malloc的异同处 2.2既然有了malloc/free,C为什么还…...

【华为OD机试 2023最新 】 最多颜色的车辆(C++ 100%)

文章目录 题目描述输入描述输出描述用例题目解析C++题目描述 在一个狭小的路口,每秒只能通过一辆车,假设车辆的颜色只有 3 种,找出 N 秒内经过的最多颜色的车辆数量。 三种颜色编号为0 ,1 ,2 输入描述 第一行输入的是通过的车辆颜色信息 [0,1,1,2] 代表4 秒钟通过的车…...

Linux安全加固

一、重要文件 /etc/passwd #记录本地用户的属性信息,如UID、GID /etc/shadow #存放用户的口令信息 只有系统管理员能查看 /etc/pam.d/system-auth #账户安全配置文件 /etc/login.defs #修改登录的配置文件 /etc/profile …...

Java基础学习(6)

Java基础学习一 字符串1.1 API 与 API文档1.1.1 如何使用帮助文档查找想要导用的方法1.2 String 概述1.3 创建String对象的两种方式第一种第二种1.4 Java常用字符串方法1.4.1 比较1.4.2 字符串通过索引取出1.4.3 取出字符串中的单个字符1.4.4 替换出字符串当中的字符1.4.5 取出…...

【LeetCode】链表练习 9 道题

第一题&#xff1a;移除链表元素 题目描述&#xff1a; 给你一个链表的头节点head和一个整数val&#xff0c;请你删除链表中所有满足Node.val val的节点&#xff0c;并返回新的头节点 。 列表中的节点数目在范围 [0, 10^4] 内1 < Node.val < 500 < val < 50 /…...

轴承远程监控系统解决方案

一、项目背景 随着现代机械设备朝着高集成、高精密度、系统化、自动化的方向发展&#xff0c;在工业生产中一旦机器发生故障&#xff0c;即使局部失灵&#xff0c;都可能导致设备工作失效&#xff0c;甚至造成整个自动化车间停产&#xff0c;从而给工业生产带来巨大的损失。轴承…...

阿里云轻量服务器Workbench root远程连接和一键连接的区别

阿里云轻量应用服务器远程连接支持Workbench root用户连接和Workbench一键连接&#xff0c;Workbench root需要输入root密码&#xff0c;一键连接不需要输入密码&#xff0c;但是也无法获得root权限&#xff0c;阿里云百科来详细说下阿里云轻量应用服务器远程连接说明&#xff…...

带你用纯C实现一个内存池(图文结合)

为什么要用内存池 为什么要用内存池&#xff1f;首先&#xff0c;在7 * 24h的服务器中如果不使用内存池&#xff0c;而使用malloc和free&#xff0c;那么就非常容易产生内存碎片&#xff0c;早晚都会申请内存失败&#xff1b;并且在比较复杂的代码或者继承的屎山中&#xff0c…...

ChatGPT使用案例之图像生成

ChatGPT使用案例之图像生成 这里一节我们介绍一下ChatGPT的图像生成&#xff0c;这里我们使用代码来完成&#xff0c;也就是通过API 来完成&#xff0c;因为ChatGPT 本身是不能生成图片的&#xff0c;言外之意我们图片生成是ChatGPT通过其他方式生成的 Images API提供了三种与…...

蚁群算法优化旅行问题

%%%%%%%%%%%%蚁群算法解决 TSP 问题%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%%%初始化%%%%%%%%%%%%%%%%%%% clear all; %清除所有变量 close all; %清图 clc; %清屏 m 50; %蚂蚁个数 Alpha 1; %信息素重要程度参数 Beta 5; %启发式因子重要程度参数 Rho 0.1; %信息素蒸发系数 G 20…...

树数据结构

什么是树数据结构&#xff1f; 树数据结构是一种层次结构&#xff0c;用于以易于导航和搜索的方式表示和组织数据。它是由边连接的节点集合&#xff0c;节点之间具有层次关系。树的最顶端的节点称为根&#xff0c;它下面的节点称为子节点。每个节点可以有多个子节点&#xff0c…...

Spring Boot整合Redis并提供多种实际场景的应用

Spring Boot整合Redis并提供多种实际场景的应用1. 整合Redis2. 场景应用2.1 缓存2.2 分布式锁2.3 计数器2.4 发布/订阅3. 总结Spring Boot是一个快速构建基于Spring框架的应用程序的工具&#xff0c;它提供了大量的自动化配置选项&#xff0c;可以轻松地集成各种不同的技术。Re…...

VR全景图片,助力VR全景制作,720全景效果图

VR全景图片是指通过全景相机或多相机组合拍摄全景画面&#xff0c;并进行拼接处理生成全景图像的过程。VR全景图片的应用范围广泛&#xff0c;包括旅游和景区、房地产、汽车、艺术和文化、电影和娱乐等领域。本文将详细介绍VR全景图片的类型、应用场景、市场前景和发展趋势。 一…...

Kali Linux20款重要软件

Kali Linux 是一个流行的网络安全测试平台&#xff0c;它包含了大量的工具和应用程序&#xff0c;以下是其中20款最常用的软件和工具&#xff1a; Metasploit&#xff1a;Metasploit 是一个广泛使用的漏洞评估工具&#xff0c;可以帮助安全专业人员测试系统中的漏洞。Aircrack…...

C语言测试五

windows是什么类型的系统&#xff08;实时还是分时&#xff09;&#xff1f;有什么区别&#xff1f; 分时操作系统。如果在单核的情况下&#xff0c;分时操作系统多个进程共用一个单核&#xff0c;该单核会将其执行时间分成相应的时间片&#xff0c;每个进程占用一定的时间片&a…...

【微服务~原始真解】Spring Cloud —— 访问数据库整合Druid数据源

&#x1f50e;这里是【秒懂云原生】&#xff0c;关注我学习云原生不迷路 &#x1f44d;如果对你有帮助&#xff0c;给博主一个免费的点赞以示鼓励 欢迎各位&#x1f50e;点赞&#x1f44d;评论收藏⭐️ &#x1f440;专栏介绍 【秒懂云原生】 目前主要更新微服务&#xff0c;…...

独立网站推广公司/郑州网站建设公司哪家好

文章目录1 Docker容器1.1 安装Docker1.1.2 设置仓库1.1.3 配置加速1.1.4 如何修改Docker的存储位置1.2 使用Docker帮助文档2 Docker容器操作2.1 Docker容器启动2.1.1 基于镜像新建容器并启动2.1.2 启动终止状态的容器2.1.3 Docker 重启容器2.2 查看容器2.3 Docker 进入容器2.3.…...

网站建设制作多少钱/西安百度竞价托管代运营

标题&作者 1、标题 \title{} “Line breaks (\\) may be used to equalize the length of the title lines. Do not use math or other special symbols in the title.” 2、作者信息 \author{} \author{}内先列作者&#xff0c;后写\thanks{}&#xff0c;最后一个作者…...

做个公司网站多少钱/百度网站大全

我们在表单验证的时候&#xff0c;使用表单验证是很常见的场景 if (!this.form.name) {this.utils.toast(姓名不能为空);return}if (!this.form.cardId) {this.utils.toast(身份证号码不能为空);return}if (!this.form.phone) {this.utils.toast(手机号码不能为空);return}if (…...

网站滚动条/关键词优化的价格查询

sql怎么把查询出的记录插入到另一张表中 数据库专业回答古舟蓑笠翁2014-11-23 17:43如果是插入到一个新表中&#xff1a;SELECT 目标列INTO 新表FROM 表名WHERE <条件>如果是插入到一个已存在的表中&#xff1a;INSERT INTO 插入的表名SELECT 目标列 FROM 表名 WHERE <…...

武汉 网站建设公司哪家好/电商网站模板

扩容机制 什么时候需要扩容&#xff1a; 当hashmap中的元素个数超过数组大小 * loadFactor&#xff08;负载因子&#xff09;时&#xff0c;就会进行数组扩容&#xff0c;loadFactor的默认值&#xff08;DEFAULT_LOAD_FACTOR&#xff09;是0.75这是一个折中的取值&#xff0c…...

门户网站开发需求文档/关键词优化有哪些作用

SDNE (Structure Deep Network Embedding) 是一种用于网络嵌入的方法。在计算网络嵌入的同时&#xff0c;SDNE 还可以计算并评估网络嵌入的质量。其中一种常用的评估指标是平均准确率 (MAP, Mean Average Precision)。 MAP 用于衡量在给定的查询集合中&#xff0c;给定查询所返…...