当前位置: 首页 > news >正文

实用版ChatBing论文阅读助手教程+新测评

实用版ChatBing论文阅读助手新测评

AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了!

这次是我刷B站看到热门推荐,有一个up主,分享了一个教程:新版Bing——科研人的终极解决方案

他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。

他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。

另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。

教程:

  1. newbing排队,点击www.bing.com/new,加入waitlist,把它推荐的那两个优先操作做了,否则时间再长都不行!
  2. 如果你已经排上队了,会给发一个邮件提醒你。听说最近排队周期变长了,之前是四天左右。
  3. 下载dev版本的edge浏览器!网址是:https://www.microsoftedgeinsider.com/zh-cn/download?ch
  4. 安装后,登录你排上队的邮箱

可以网页版本聊天,但这次我们测试的是侧边栏的功能。
5. 用Edge dev浏览器打开本地PDF格式的论文,会看到右上角有一个bing的案件,点开,会看到下面的图片:在这里插入图片描述

  1. 接下来就可以让chatbing来帮你总结文章了。

重现测评:

  1. 根据这篇文章的内容,帮我回答下面的问题:Q1论文试图解决什么问题?Q2这是否是一个新的问题?Q3这篇文章要验证一个什么科学假设?Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?Q5论文中提到的解决方案之关键是什么?
  2. 根据这篇文章的内容,再帮我总结一下下面的问题:Q6论文中的实验是如何设计的?Q7用于定量评估的数据集是什么?代码有没有开源?Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?Q9这篇论文到底有什么贡献?Q10下一步呢?有什么工作可以继续深入?

这两段文字输入进去,它并不能回答:
在这里插入图片描述
我将问题翻译成英文就可以了。

在这里插入图片描述

然后出现了诡异的问答场景:
在这里插入图片描述

我怀疑这次版本更新对中文数据的处理大大削弱了。

下面的提问,我换了一种prompt方式:

用中文回答下面几个问题:“Q5论文中提到的解决方案之关键是什么? Q6论文中的实验是如何设计的?
Q7用于定量评估的数据集是什么?代码有没有开源? Q8论文中的实验及结果有没有很好地支持需要验证的科学假设? Q9这篇论文到底有什么贡献?
Q10下一步呢?有什么工作可以继续深入?”

这次可以正常的回复了:

根据网页和搜索结果,我尝试用中文回答下面几个问题:

Q5论文中提到的解决方案之关键是什么?
A5论文中提到的解决方案之关键是情景自我模仿学习(ESIL),它是一种新颖的自我模仿算法,它结合了轨迹选择模块和自适应损失函数,可以加速强化学习。与原始的自我模仿学习算法不同,它利用了整个情景(无论成功与否)并根据**事后经验重放(HER)**将它们转化为“专家”轨迹。–没什么问题

Q6论文中的实验是如何设计的? A6论文中的实验是基于OpenAI
Fetch环境中的四个机器人操纵任务设计的。这些任务都是目标条件的,并且只提供稀疏奖励。论文将ESIL与PPO结合,并与其他几种基线算法进行比较,包括PPO、SIL+PPO、HER+DDPG、GAIL等。论文还测试了不同的轨迹选择方法对ESIL性能的影响。–没什么问题

Q7用于定量评估的数据集是什么?代码有没有开源? A7用于定量评估的数据集就是OpenAI
Fetch环境中提供的四个任务:FetchReach-v1、FetchPush-v1、FetchSlide-v1和FetchPickAndPlace-v1。这些任务都有一个目标位置和一个抓取物体,机器人需要通过移动物体来达到目标位置。论文在第五节给出了详细的实验设置和评估指标。代码已经开源在这里:https://github.com/TianhongDai/esil-hindsight. --除了Reach任务没有抓取物体之外,其他的比较正常,尤其是链接。

Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
A8论文中的实验及结果有很好地支持需要验证的科学假设。科学假设是ESIL可以解决连续控制问题,并且在稀疏奖励环境下优于其他算法。从图3和表2可以看出,ESIL在所有四个任务上都达到了最高或接近最高的成功率,并且收敛速度也很快。此外,从图4可以看出,轨迹选择模块对ESIL性能有显著影响,而自适应损失函数也有一定作用。---------其他的没什么问题,我特意去看了图4,轨迹选择模块确实重要。但是图4只是展示了自适应损失函数的变化趋势,没有讨论作用,所以这段表述有待商榷。

Q9这篇论文到底有什么贡献? A9这篇论文主要有以下三个贡献:

提出了一种新颖的情景自我模仿学习(ESIL)算法,它可以利用整个情景进行事后经验重放,并结合轨迹选择模块和自适应损失函数加速强化学习。
实证地回答了[20]提出的一个开放问题:是否可以将SIL应用于连续控制问题,并且在稀疏奖励环境下有效。-----introduction里面的内容,属于重新表述
在四个复杂度不同但具有挑战性和代表性的机器人操纵任务上取得了最佳或接近最佳性能。
Q10下一步呢?有什么工作可以继续深入?
A10根据第六节给出

A10后面没有输出了,这段回答比较长,断掉了。

这段表述还是比较理想的,我把上次的问题重新再问一下:
在这里插入图片描述
这次回答正常了,但偶尔还会出现它把你的中文,翻译成英文的情况,非常诡异。

再次分析这段回答的正确性:

Q1: 论文试图解决的问题是如何用自我模仿学习(SIL)来加速强化学习(RL),并解决连续控制任务中稀疏奖励的挑战。
没问题,但信息量低
Q2: 这不是一个全新的问题,但是现有的自我模仿学习算法在处理连续控制环境和稀疏奖励时表现不佳,因此论文提出了一种新的自我模仿学习算法:情节自我模仿学习(ESIL)。
没问题,但信息量低
Q3:
这篇文章要验证的科学假设是情节自我模仿学习可以利用整个情节中的后见之明(HER)来改进自我模仿学习,并通过引入一个轨迹选择模块来过滤不相关或不良的样本,从而提高在目标导向、稀疏奖励和连续控制任务中的性能。
没问题,信息量稍微高点。

再测试一下论文细节:
在这里插入图片描述

直接提问,会报错,因为新版本,连续对话能力也被削弱了~~~

在这里插入图片描述
看来有点问题,没有结合文章内容回答,我继续尝试用英文直接提问:

在这里插入图片描述

看来也有问题,不知道是不是我提问的方式不对。

探讨是根据pdf内容,还是重新进行网页搜索:

实验设置,我将这个pdf只保留第一页,其他的用别的文章的内容替换掉,我想看看,它会按照谁的来。
第一页是上面那篇文章,第二页到之后都是DHER算法:
在这里插入图片描述

我尝试了几次,获得了下面的截图:
在这里插入图片描述

有点诡异,所以它是有读取PDF的功能,但是提问会经常出问题,也许是用多了,现在直接不给我回复了~~~

放弃测评~~~

相关文章:

实用版ChatBing论文阅读助手教程+新测评

实用版ChatBing论文阅读助手新测评 AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了! 这次是我刷B站看到热门推荐&…...

Linux生产者消费模型

1.生产者消费者模型 1.1 为何要使用生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接…...

动态网站开发讲课笔记01:网页开发基础

文章目录零、本讲学习目标一、HTML基础&#xff08;一&#xff09;HTML简介1、HTML2、HTML语言的基本格式3、<!DOCTYPE>声明4、html标签5、head标签6、body标签7、编写第一个网页8、关于编写HTML文件的工具9、HTML标签概述&#xff08;1&#xff09;单标签&#xff08;2&…...

互联网新时代要到来了(三)什么是ChatGPT?

什么是ChatGPT? tips&#xff1a;资料来自百度百科、openAi、CSDN博主「琦在江湖飘」、Info写作社区、CSDN博主「夕小瑶」等网页资料。 1.什么是ChatGPT&#xff1f; ChatGPT&#xff08;全名&#xff1a;Chat Generative Pre-trained Transformer&#xff09;&#xff0c;…...

华为OD机试 - 环中最长子串(Python)

环中最长子串 题目 给你一个字符串s,首尾相连成一个环形, 请你在环中找出o字符出现了偶数次最长子字符串的长度. 备注: 1 <= s.lenth <= 5x10^5 s只包含小写英文字母 输入 输入是一个小写字母组成的字符串 输出描述 输出是一个整数 示例一 输入 alolobo输出 6说…...

安全—08day

ApabilitiesapabilitiesLinux Capabilities线程的 capabilitiesPermitted 允许Effective 有效InheritableBoundingAmbient文件的 capabilitiesPermittedInheritableEffective运行 execve() 后 capabilities 的变化案例分析方法一、依次执行如下命令方法二、iptables端口转发方案…...

【看表情包学Linux】进程地址空间 | 区域和页表 | 虚拟地址空间 | 初识写时拷贝

&#x1f923; 爆笑教程 &#x1f449; 《看表情包学Linux》&#x1f448; 猛戳订阅 &#x1f525; &#x1f4ad; 写在前面&#xff1a;本章核心主题为 "进程地址空间"&#xff0c;会通过验证 Linux 进程的地址空间来开头&#xff0c;抛出 "同一个值能有不同内…...

响应式编程(Reactive Programming)介绍

什么是响应式编程? 在互联网上有着一大堆糟糕的解释与定义。Wikipedia 一如既往的空泛与理论化。Stackoverflow 的权威答案明显不适合初学者。Reactive Manifesto 看起来是你展示给你公司的项目经理或者老板们看的东西。微软的 Rx terminology"Rx Observables LINQ S…...

你不知道的美化列表的两种方案-<ul/><ol/>

大家好,我是半夏👴,一个励志更文1000篇沙雕程序员.如果喜欢我的文章,可以关注➕ 点赞 一起学习交流前端,成为更优秀的工程师~ CSS为什么这么难学?一定是你方法不对!!! 只要一杯奶茶,CSS任你学。学透CSS,拒绝切图仔!!! 学透CSS传送门 文章目录 学透CSS传送门前言li…...

2023年浙江理工大学MBA招生考试初试成绩查询及复查的通知

根据往年的情况&#xff0c;2023浙江理工大学MBA考试初试成绩可能将于2月21日下午两点公布&#xff0c;为了广大考生可以及时查询到自己的分数&#xff0c;杭州达立易考教育为大家汇总了信息。 一、成绩查询考生可登录中国研究生招生信息网“全国硕士研究生招生考试初试成绩查询…...

SVNH数据(.mat格式)转为图像(.png)matlab代码

一、获取SVNH数据数据集集地址-http://ufldl.stanford.edu/housenumbers/提供两种格式的数据&#xff1a;1.Format 1&#xff0c;图像形式&#xff0c;压缩包2.Format 2&#xff0c; .mat格式的数据10 classes, 1 for each digit. Digit 1 has label 1, 9 has label 9 and 0 ha…...

【总结】vim教程与详细命令总结,该来的躲不掉啊晕

B站|公众号&#xff1a;啥都会一点的研究生 目录写在前面vim的工作模式普通模式编辑模式命令模式命令大全&#xff0c;最详细&#xff08;建议收藏&#xff09;光标的移动插入模式 - 插入/追加文本编辑文本选择文本&#xff08;可视化模式&#xff09;可视化模式命令剪切, 复制…...

git基础使用

Git安装 去安装>> 正式开始 进入要管理的目录&#xff0c;执行命令 git init 查看管理目录下的状态 git status 注&#xff1a;新增文件和修改过后的文件都是红色 管理指定文件&#xff08;红变绿&#xff09; 指定文件&#xff1a;git add 文件名 当前目录下所有&…...

基于 RANSAC 的地面分割与聚类算法

文章目录 前言 一、算法原理 参考文献 二、代码实现 1.头文件 2.源文件...

JVM内存模型深度剖析与优化

1. Java语言的跨平台特性 2. JVM整体结构及内存模型 堆存放着对象信息每个线程都会分配一块属于自己的内存空间&#xff08;栈空间&#xff09; 每个方法都会分配一块内存空间&#xff08;栈桢&#xff09;&#xff0c;上图 compute()方法 和 main()方法 都会分配到各自的栈桢空…...

软件性能测试定义中文

From Wiki软件性能测试在软件质量保证中&#xff0c;性能测试通常是一种测试实践&#xff0c;用于确定系统在特定工作负载下的响应能力和稳定性方面的表现。它还可以用于调查、测量、验证或验证系统的其他质量 属性&#xff0c;例如可扩展性、可靠性和资源使用。性能测试是性能…...

2023情人节正经性生活调研报告

省时查报告-专业、及时、全面的行研报告库省时查方案-专业、及时、全面的营销策划方案库【免费下载】2023年1月份热门报告合集ChatGPT的发展历程、原理、技术架构及未来方向2023年&#xff0c;如何科学制定年度规划&#xff1f;《底层逻辑》高清配图今天给大家带来丁香医生最新…...

22- 隐马尔科夫HMM (NLP自然语言算法) (算法)

HMM模型 : from hmmlearn.hmm import GaussianHMM model GaussianHMM(n_components3,n_iter100000, covariance_type diag) model.fit(X) 1、马尔科夫链 有向图模型&#xff08;贝叶斯网络&#xff09;&#xff1a;用有向图表示变量间的依赖关系&#xff1b; 无向图模型&…...

gRPC是什么,怎么用

RPC是什么 RPC是指远程过程调用&#xff0c;也就是说两台服务器A&#xff0c;B&#xff0c;一个应用部署在A服务器上&#xff0c;想要调用B服务器上应用提供的函数/方法&#xff0c;由于不在一个内存空间&#xff0c;不能直接调用&#xff0c;需要通过网络来表达调用的语义和传…...

linux基本功系列之fdisk命令实战

文章目录前言一. fdisk命令介绍二. 语法格式及常用选项三. 参考案例3.1 列出每个分区的大小3.2 分区操作3.2.1 添加硬盘3.2.2 开启虚拟机并分区3.3.3 分区完成后进行格式化挂载四 . 设置分区自动挂载前言 大家好&#xff0c;又见面了&#xff0c;我是沐风晓月&#xff0c;本文…...

Mysql UDF提权复现Raven2

Raven2通关过程 主要通过Raven2靶机进行复现Mysql UDF提权&#xff0c;以下为通关过程。 靶机镜像&#xff1a;https://www.vulnhub.com/entry/raven-2,269/ 信息收集 拿到靶机ip&#xff1a;192.168.112.129 nmap -sP 192.168.112.0/24探测开放端口&#xff0c;nmap用烂了…...

枚举类(enum)

定义&#xff1a;在某些情况下&#xff0c;一个类的实例对象是有限且固定的&#xff0c;可将该类称为“枚举类”。枚举类是JDK 1.5 之后提出来的。例如&#xff1a;四季只有春夏秋冬4个季节&#xff0c;性别只有男女2个&#xff0c;故四季类和性别类均可称为“枚举类”。 在自…...

腾讯云架构师亲码“redis深度笔记”,从入门到精通,面面俱到

前言 作为这个时代码代码的秃头人员&#xff0c;对Redis肯定是不陌生的&#xff0c;如果连Redis都没用过&#xff0c;还真不好意思出去面试&#xff0c;指不定被面试官吊打多少次。 毕竟现在互联网公司和一些创业公司都要用到Redis&#xff0c;像亚马逊、谷歌、阿里、腾讯都要…...

萌新应该如何开始学习走向自动化测试高薪岗位?

对于测试人员来说&#xff0c;不管进行功能测试还是自动化测试&#xff0c;还是性能测试&#xff0c;都是需要编写测试用例&#xff0c;所以我们必须先要了解清楚手工测试用例与自动化测试用例的一些特点&#xff0c;才能更好的开展自动化测试工作。1.1手工测试用例和自动化测试…...

-bash: pip: command not found

背景 这个错误的原因就是&#xff0c;我们的服务器上没有安装pip&#xff0c;装上就可以了&#xff0c;下面我们看一下centos中的解决方案 下载 wget https://bootstrap.pypa.io/get-pip.py 下载完成后如下图&#xff1a; 安装 安装的时候首先需要看一下自己的python是什…...

使用HTTP隧道代理,请求超过频率要怎么办?

在网上&#xff0c;经常会看到有人说使用隧道代理经常遇到429错误&#xff08;请求超过频率&#xff09;&#xff0c;我们要如何解决这一问题呢&#xff1f;通常情况&#xff0c;优质的HTTP代理厂商隧道代理服务器采用的是高性能主机构建的动态IP代理服务器&#xff0c;是可以支…...

paddle 49 ODConv的可部署调整

ODConv是一种适用于轻量化模型的conv结构,可以在较少的参数下训练出多参数模型才能达到的精度,在相同的flop下可以稳定的涨2-3%个点。但是在paddle下部署ODConv动态卷积模型时会报出各种异常,导致模型无法转静态图或onnx格式(可能在pytorch下也是无法转换的)。为此研究ODC…...

C++ STL 学习之【string】

✨个人主页&#xff1a; Yohifo &#x1f389;所属专栏&#xff1a; C修行之路 &#x1f38a;每篇一句&#xff1a; 图片来源 The key is to keep company only with people who uplift you, whose presence calls forth your best. 关键是只与那些提升你的人在一起&#xff0c…...

使用开源 MaxKey 与 APISIX 网关保护你的 API

1. Apache APISIX介绍 Apache APISIX 是 Apache 软件基金会下的云原生 API 网关&#xff0c;它兼具动态、实时、高性能等特点&#xff0c;提供了负载均衡、动态上游、灰度发布&#xff08;金丝雀发布&#xff09;、服务熔断、身份认证、可观测性等丰富的流量管理功能。我们可以…...

Linux之Xshell工具使用

shell简介Xshell是一个远程工具&#xff0c;可以远程连接linux系统 &#xff0c;SSH&#xff0c;远程管理 Xshell来远程访问Linux系统的终端 。shell的英文含义是“壳”&#xff1b;它是相对于内核来说的&#xff0c;因为它是建立在内核的基础上&#xff0c;面向于用户的一种表…...

网站制作教程一般地建网络/百度账号管理中心

2019独角兽企业重金招聘Python工程师标准>>> FileAudit允许用户从审计访问事件中排除掉某些特定事件&#xff0c;用户可以把对于自身来说不敏感的文件审计访问事件设定在这些派出范围之类&#xff0c;这样一来就FileAudit就会自动过滤掉这些不明感时间&#xff0c;以…...

给企业做网站的平台/广州优化疫情防控举措

【IAR工程】STM8S基于ST标准库读取DS1302数据✨申明&#xff1a;本文章仅发表在CSDN网站&#xff0c;任何其他网站&#xff0c;未注明来源&#xff0c;见此内容均为盗链和爬取&#xff0c;请多多尊重和支持原创!&#x1f341;对于文中所提供的相关资源链接将作不定期更换。&…...

品牌产品网站怎么做/app拉新平台

关于单元测试的一些问题 当我们Javaweb项目中编写单元测试的时候&#xff0c;通常会面临一个普遍的问题&#xff1a;需要测试的类会有很多依赖&#xff0c;而这些依赖的类或者对象又会有很多别的依赖&#xff0c;导致我们在写单元测试的时候几乎需要把完整的业务体系代码编写出…...

游戏交易类网站seo怎么做/官网排名优化

/* * 提取URL的收索字符串中的参数 * 这个函数用来解析来自URL的查询串中的namevalue参数对 * 它将namevalue对存储在一个对象的属性中&#xff0c;并返回该对象 * 这样来用它 * var args urlArgs();//从URL中解析参数 * var q args.q || "";//如果有参数就使用参数…...

东营建设信息网站/安卓优化大师app下载

青海是中国西北部的一个省份 Qinghai is a province in Northwest China 平均海拔3000米以上 The average height above sea level is more than 3000 meters 大部分地区为高山和高原。 Most areas are high mountains and highland 青海湖得名于全世界最大的咸水湖青海湖…...

徐州 网站制作/企业管理培训课程费用

此时&#xff0c;Bigquery只允许按日期进行分区。在让我们假设我有1亿个表行带有inserted_timestamp字段。让我们来看看这个领域有一年前的日期。在将现有数据移动到新分区表的正确方法是什么&#xff1f;在已编辑但我错过了2.x beam项目中的BigQueryIO.Write&#xff0c;也没有…...