Datawhale AI冬令营(第一期)--零基础定制你的专属大模型
本文主要简述如何快速完成和一些小细节
第一步下载嬛嬛数据集
数据来源:self-llm/dataset/huanhuan.json at master · datawhalechina/self-llm · GitHub
注意:1.一定是数据集下载完成一定是.json结尾的
2.这个是github的网址,可能会遇到打不开的情况
如果打不开这个网址直接点击下载这个压缩包,记得下载完要解压缩并且解压缩的位置要记住
(如果这一步不会可以联系助教,或者学习群里的同学)
第二步打开星火大模型平台
废话不多说直接上链接:星火大模型精调平台
这里有很多种方式登入,手机快捷是最简单的方式之一。
登入成功你将看到下面这个界面
如果到这一步,那么你已经迈出成功的第二步了。可能会问怎么是第二步,因为下载数据集被我放到上面跟学习手册顺序不一样。
第三步定制专属嬛嬛大模型
下面只需要按图片的步骤来,如果遇到不懂的截图问助教(ps:截多一点)
这里是推荐这个模型也可以换别的,别的可能再后面会遇到一些小问题小白请按照图上的来
这时候就会有同学问”怎么找不到这个界面“是下面这个界面。我当时也卡了一下,发现往下拉一下就好了。(因为我真的很粗心的)
这里可以直接拖进去,如果拖不进去看看是不是哪里没做好。为了节省时间选择文件也是OK的。
下面两个图其实是可以调整的,新手宝宝真的不建议动,直接默认就好。
这里可以看见是免费的,不需要担心收费的问题。点击提交即可开始我们的炼丹之旅。
Q:这样就结束了吗?
A:肯定不是的,学习手册还有那么长。趁现在还在训练,我们需要创建一个应用。具体有什么用后面你就知道了。
第四步创建应用
点击这个链接:控制台-讯飞开放平台
可以到讯飞的另外一个平台,之前那个不要关掉一会儿还要用到!!!
如果之前有用过的,就不要关这个了。完成就回到刚刚那个界面,一般是10分钟左右,明显还要一会儿。
等这个跑满了就可以开始发布的工作
有时候看不到这个体验,就点击服务管理,下面我举个例子:
可以看见还在发布中,稍微等一下就是下面这个界面就可以开始体验了
(这里不是说internlm2.5 7b chat不好,是举个发布中的例子)
第五步体验AI嬛嬛
下面我们开启体验之旅:
这里我们要感谢一下晏助教大大提供的思路,给大家展示一下:
如果有细心的小伙伴就会发现这个八个瑞士卷的问题(还没看直播的快去看看回放)
如果出现bug请及时联系助教,下面展示几种BUG:
可以试一下重新训练,或者退出重新登入
打卡
然后就到了我们最重要的打卡环节了(这里想必看过群公告和学习手册的小伙伴都懂)
对学习手册的问题这里简单的回答一下(仅代表个人观点)
对于这个练习题,关于'嬛嬛数据集'采用的Alpaca格式,我们可以逐一分析选项:
-
数据集中instruction字段可以为空,因为有些任务不需要指令
这个说法是正确的。在Alpaca格式的数据集中,instruction
字段通常包含一个简短的任务说明或指令。然而,并不是所有的任务都需要明确的指令,因此在某些任务中,instruction
字段是可以为空的。 -
input字段必须包含具体的输入内容,否则数据集无效
这个说法是错误的。Alpaca格式并没有强制要求input
字段必须包含具体内容。有些任务可能没有输入,或者input
字段可以为空,特别是在开放式任务中。 -
output字段是可选的,不是所有样本都需要标准答案
这个说法是正确的。Alpaca格式允许output
字段是可选的。对于一些任务,输出可能是开放的,或者在某些情况下没有标准答案。 -
input字段在开放式任务中可以为空字符串,这是格式允许的
这个说法是正确的。对于开放式任务(如生成文本的任务),input
字段可以为空字符串,因为开放式任务通常不依赖于特定的输入内容。
综上所述,正确的选项是:
- instruction字段可以为空,因为有些任务不需要指令
- output字段是可选的,不是所有样本都需要标准答案
- input字段在开放式任务中可以为空字符串,这是格式允许的
思考题:
Q:AI是什么?
A:AI(人工智能)是指通过模拟人类的思维、学习、决策等过程,使计算机或机器能够执行通常需要人类智能的任务。AI的目标是让机器具备感知、理解、学习、推理、问题解决等能力,从而在不同的领域(如语音识别、图像处理、自然语言处理等)中自动化执行任务。
最后感谢12的小伙伴一起的努力,感谢Datawhale AI冬令营和讯飞提供宝贵的学习机会,以及Datawhale团队。
感觉无代码训练大模型还是很轻松的,希望大家都能得到想要的收获!
最后晒一下12班的优秀成绩,如果有什么不对的希望指正,谢谢!
相关文章:
Datawhale AI冬令营(第一期)--零基础定制你的专属大模型
本文主要简述如何快速完成和一些小细节 第一步下载嬛嬛数据集 数据来源:self-llm/dataset/huanhuan.json at master datawhalechina/self-llm GitHub 注意:1.一定是数据集下载完成一定是.json结尾的 2.这个是github的网址,可能会遇到打不开的情况 …...
LLMs之APE:基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略
LLMs之APE:基于Claude的Prompt Improver的简介、使用方法、案例应用之详细攻略 目录 Prompt Improver的简介 0、背景痛点 1、优势 2、实现思路 Prompt优化 示例管理 提示词评估 Prompt Improver的使用方法 1、使用方法 Prompt Improver的案例应用 1、Kap…...
【Unity人形布娃娃插件】Ragdoll Animator
Ragdoll Animator 是一款为 Unity 引擎开发的插件,专注于让角色在运行时动态地切换到布娃娃物理系统(Ragdoll Physics)。该插件帮助开发者轻松创建逼真的角色动画过渡效果,尤其适用于需要角色碰撞、摔倒、受击或其他物理反应的场景…...
跨团队协作中目标一致性至关重要
在团队协作的复杂拼图里,目标一致性是那根贯穿始终的主线,缺之则拼图难成,团队亦难达预期之效。 且看这样一个实例:部门承接了业务方一项紧急的数据处理需求,此任务犹如一座亟待攀登的险峰,落在了 A 团队…...
Excel的文件导入遇到大文件时
Excel的文件导入向导如何把已导入数据排除 入起始行,选择从哪一行开始导入。 比如,前两行已经导入了,第二次导入的时候排除前两行,从第三行开始,就将导入起始行设置为3即可,且不勾选含标题行。 但遇到大文…...
使用字典进行动态编程
在你的程序中,你想要执行各种计算,例如计算卫星的总数。 此外,当你进行更高级的编程时,你可能会发现你需要从文件或数据库中加载此类信息,而不是直接编码到 Python 中。 为了帮助支持这些场景,Python 使你…...
机器学习02-发展历史补充
机器学习02-发展历史补充 文章目录 机器学习02-发展历史补充1-机器学习个人理解1-初始阶段:统计学习和模式识别(20世纪50年代至80年代)2-第二阶段【集成时代】【核方法】(20世纪90年代至2000年代初期)3-第三阶段【特征…...
全国青少年信息学奥林匹克竞赛(信奥赛)备考实战之计数器与累加器(一)
学习背景: 在现实生活中一些需要计数的场景下我们会用到计数器,如空姐手里记录乘客的计数器,跳绳手柄上的计数器等。累加器是累加器求和,以得到最后的结果。计数器和累加器它们虽然是基础知识,但是应用广泛࿰…...
Android的SurfaceView和TextureView介绍
文章目录 前言一、什么是SurfaceView ?1.1 SurfaceView 使用示例1.2 SurfaceView 源码概述1.3 SurfaceView 的构造与初始化1.4 SurfaceHolder.Callback 回调接口1.5 SurfaceView 渲染机制 二、什么是TextureView?2.1 TextureView 使用示例2.2 TextureVie…...
Scala的集合
1 集合简介 1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable 特质。 2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两 个包 不可变集合&am…...
1. Flink自定义Source
一. Source 简介 DataStream是Flink的低级API,用于进行数据的实时处理,Flink编程模型分为Source、Transformation、Sink三个部分,如下图所示。 默认Flink提供了大量的内置Source,常见的Source如下: 基于文件的Sour…...
关于LinuxWindows双系统在八月更新后出现的问题
问题描述类似于:Verifying shim SBAT data failed: If you are, this is caused by a reported problem in the August update if you can get into Windows, either uninstall the August update, or open Command Prompt as administrator and run this command,…...
VMware:如何在CentOS7上开启22端口
打开虚拟机:【编辑】【虚拟机网络设置】 其中填入的虚拟机IP地址是虚拟机中centos的IP地址,虚拟机端口为需要映射的centos端口 配置好之后保存,打开宿主机 win cmd telnet 192.168.1.26 22 如果出现上述窗口,则说明已经成功开放…...
ubuntu远程桌面开启opengl渲染权限
背景 最近用windows的【远程桌面连接】登录ubuntu后(xrdp协议),发现gl环境是集显的,但是本地登录ubuntu桌面后是独显(英伟达),想要在远程桌面上也用独显渲染环境。 一、查看是独显还是集显环境…...
从小学题到技术选型哲学:以智能客服系统为例,解读相关AI技术栈20241211
🧠💡从小学题到技术选型哲学:以智能客服系统为例,解读相关AI技术栈 引言:从小学数学题到技术智慧 📚✨ 在小学数学题中,有这样一道问题: “一个长方形变成平行四边形后,…...
【C语言练习(5)—回文数判断】
C语言练习(5) 文章目录 C语言练习(5)前言问题问题解析结果总结 前言 通过回文数练习,巩固数字取余和取商如何写代码 问题 输入一个五位数判断是否为回文数? 问题解析 回文数是指正读反读都一样的整数。…...
【Rust 学习笔记】Rust 基础数据类型介绍——数组、向量和切片
博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 博客内容主要围绕: 5G/6G协议讲解 高级C语言讲解 Rust语言讲解 文章目录 Rust 基础数据类型介绍——数组、向量和切片一、数组、向量和…...
2024年特别报告,「十大生活方式」研究数据报告
“一朵花成轻奢品、一只玩偶掀抢购狂潮、一片荒地变文旅圣地…” 近年爆火的野兽派、Jellycat、阿那亚等诸多品牌,与消费者选择的生活方式息息相关。 今年小红书的内容种草、直播电商,也都依循着“生活方式”的轨迹。生活方式的价值所向,可…...
R中单细胞RNA-seq分析教程 (5)
引言 本系列开启R中单细胞RNA-seq数据分析教程[1],持续更新,欢迎关注,转发! 10. 伪时间细胞排序 如前所述,在 UMAP 嵌入中看到的背侧端脑细胞形成的类似轨迹的结构,很可能代表了背侧端脑兴奋性神经元的分化…...
openpnp - Too many misdetects - retry and verify fiducial/nozzle tip detection
文章目录 openpnp - Too many misdetects - retry and verify fiducial/nozzle tip detection概述笔记环境光最好弱一些在设备标定时,吸嘴上不要装绿色屏蔽片如果吸嘴不在底部相机中间,先检查设置底部相机坐标调整底部相机坐标 吸嘴校验的细节底部相机坐…...
不与最大数相同的数字之和
不与最大数相同的数字之和 C语言代码C 语言代码Java语言代码Python语言代码 💐The Begin💐点点关注,收藏不迷路💐 输出一个整数数列中不与最大数相同的数字之和。 输入 输入分为两行: 第一行为N(N为接下来数的个数&…...
CSS学习记录11
CSS布局 - display属性 display属性是用于控制布局的最终要的CSS属性。display 属性规定是否/如何显示元素。每个HTML元素都有一个默认的display值,具体取决于它的元素类型。大多数元素的默认display值为block 或 inline。 块级元素(block element&…...
D95【python 接口自动化学习】- pytest进阶之fixture用法
day95 pytest的fixture详解(二) 学习日期:20241210 学习目标:pytest基础用法 -- pytest的fixture详解(二) 学习笔记: fixture(autouseTrue) func的autouse是TRUE时,所有函数方法…...
Abaqus断层扫描三维重建插件CT2Model 3D V1.1版本更新
更新说明 Abaqus AbyssFish CT2Model3D V1.1版本更新新增对TIF、TIFF图像文件格式的支持。本插件用户可免费获取升级服务。 插件介绍 插件说明: Abaqus基于CT断层扫描的三维重建插件CT2Model 3D 应用案例: ABAQUS基于CT断层扫描的细观混凝土三维重建…...
隐式对象和泛型
implicit object 作用: case class DatabaseConfig(driver:String,url:String)//作为函数的隐士参数的默认值implicit object MySqlDefault extends DatabaseConfig("mysql","localhost:443")def getConn(implicit config: DatabaseConfig):Uni…...
CSS的颜色表示方式
以下介绍几种常见的CSS颜色表示方式: 颜色名称 html和css规范中定义了147种可用的颜色名用的相对较少 16进制表示 css三原色:红、绿、蓝16进制的颜色值: #rrggbb16进制整数规定颜色成分,所有的值均介于 00 - ff 之间ÿ…...
单链表常见面试题 —— LeetCode
一.删除链表中与val相等的所有节点 1.题目描述 ----- 203. 移除链表元素 - 力扣(LeetCode) 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 列表中的节点数目在范…...
Pydantic中的discriminator:优雅地处理联合类型详解
Pydantic中的discriminator:优雅地处理联合类型详解 引言1. 什么是discriminator?2. 基本使用示例3. discriminator的工作原理4. 更复杂的实际应用场景5. 使用建议6. 潜在陷阱和注意事项结论最佳实践 引言 在Python的类型系统中,有时我们需要…...
pgloader SQLSERVER -> PostgreSQL 配置文件样例
pgloader 是什么?安装和基本用户法可以去其他同道的blog上去看,这里不占用网络空间了。刚开始用官方的文档读起还是很费劲的,所以把常用的配置例子放在这里。 官方文档:https://pgloader.readthedocs.io/en/latest/index.html 迁…...
APP、小程序对接聚合广告平台,有哪些广告变现策略?
开发者对接聚合广告平台,可以让自身流量价值最大化,获得更多的广告曝光机会,对接单一的广告联盟容易造成广告填充不足,收益不稳定的问题。#APP广告变现# APP开发者根据应用的生命周期、用户特征和产品定位,选择最适合…...
城市门户网站/刷赞网站推广空间免费
1. 一般用vue框架,在组件中为了不相互影响各自的样式,都会在 style 标签上加上 scoped , scoped 的作用是限制了样式的作用范围,只在本页有效。 2. 要更改组件的样式,比如element, iview 组件 , 就必须去掉scoped 。然后找到要更改…...
惠州网站建设 鑫/上海百度seo牛巨微
static int count_list0; //定义全局变量,记录添加的记录个数;void Main_OnCommand(HWND hwnd, int id, HWND hwndCtl, UINT codeNotify){ switch(id) { case IDC_ADD://增加记录功能; { HWND hwndcomb1 Get…...
陕西省建设银行分行网站/搜索引擎优化是指
一:spring组件扫描 可以使用注解的方式,代替在xml配置文件配置bean,可以减少配置文件的书写,只需要在spring容器配置 文件中配置<context:component-scan base-package"com.hlcui.*"/> 但是不是只有扫描ÿ…...
芙蓉网站制作/石家庄网站建设方案推广
java中文件上传下载原理 学习内容 文件上传下载原理 底层代码实现文件上传下载 SmartUpload组件 Struts2实现文件上传下载 富文本编辑器文件上传下载 扩展及延伸 学习本门课程需要掌握的基础知识:JSP、JQuery、Struts2、Servlet 文件上传下载原理 文件上传原理 在TC…...
宣威做网站建设的公司/临沂做网络优化的公司
前言:今天用css3实现正方体。通过此案例,可以对css3在实现3D效果方面的属性有一定了解。 案例效果 HTML分析 最外层的.container触发3d效果,#cube保留父元素的3d空间同时包裹正方体的6个面,给每个面设置对应的class属性。HTML代码…...
个人网站搭建模拟感想/王通seo
第1章 数据库 1.1 数据库概述 l 什么是数据库数据库就是存储数据的仓库,其本质是一个文件系统,数据按照特定的格式将数据存储起来,用户可以对数据库中的数据进行增加,修改,删除及查询操作。l 什么是数据库管理系统数据…...