当前位置: 首页 > news >正文

大语言模型在构建UNSPSC 分类数据中的应用

        UNSPSC 是联合国标准产品和服务代码。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP。

        本文主要研究如何使用mongoDB数据库,nodeJS的javascript程序,大语言模型(chatGPT)生产UNSPSC 分类系统的数据。

下载unspsc 文档

        首先下载 unspsc  分类EXCEL 文档,unspsc 官网(https://www.unspsc.org/)上无法下载,大概要成为unspsc 的subscriber  之后才可以,但是我不知道如何能够成为unspsc 的订阅者。

        国内的道客巴巴上有个中文翻译文档,结果下载下来才发现编码与描述不对版,也许是早期的东西吧,白瞎了34元。我是在康奈尔大学的网站上下载了一个英文的unspsc 文档,在联合国全球市场网下载了一个中文的文档。

     有读者告诉我正确的方法,请在评论区留言。

下载unspsc 分类

从康奈尔大学的网站上下载了一个unspsc 文档,包含的商品大约149851个.

https://finance.cornell.edu/procurement/buyers/unspsc

文档格式

Segment,Family,Class,Commodities 是分成三个表。

下载 中文文档

        我们希望下载一个中文的unspsc 文档,最终在联合国全球采购市场网站上下载了中文unspsc 文档,但是在中国联合国全球采购网站上却没有。这个·文档中只有13000多种商品,部分标题没有被翻译

https://www.ungm.org/Public/UNSPSC

文档格式

转储

        下一步将unspsc 到mongoDB 数据库中。

第一种方法(以unspsc 为基础)

        unspsc.xlsx 文档另存为cvs 文件,Segment.cvs,Family.cvs,Class.cvs,Commodity.cvs 几个文件,我们通过一个javascript 程序unspscStore.js 将cvs 文档存储到mongoDB 中。成为4 个collection。

第二种方法(以unspsc_chinese 为基础)

   将unspsc中文文档(删除前11行,A,B 列)转储到mongodb 中。由此生成Segment,Family,Class,Commodity 四个Collection。

最后,我们决定先使用中文的数据构建项目的内容。

构建产品的特性模型

       对所有Commodity 的商品,构建商品的Properties ,存储在Property Collection。

    基本方法是采用chatGPT 自动生成商品的特征。

实验(KIMI)

商品定义

商品特征

 KIMI提问:

请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]

 KIMI 回答:

{"Property": [{"Name": "类型","Value": "动态随机存取存储器"},{"Name": "容量","Value": "多种容量选项,如1GB, 2GB, 4GB等"},{"Name": "速度","Value": "以兆赫兹(MHz)为单位的速度等级"},{"Name": "时钟周期","Value": "存储器的时钟周期时间"},{"Name": "刷新周期","Value": "必需的刷新间隔时间"},{"Name": "数据访问时间","Value": "CAS延迟时间"},{"Name": "模块类型","Value": "如DIMM, SODIMM, RDIMM等"},{"Name": "电压","Value": "操作电压,如1.5V, 1.35V等"},{"Name": "接口类型","Value": "如DDR, DDR2, DDR3, DDR4等"},{"Name": "散热解决方案","Value": "如散热片安装或无散热片"},{"Name": "端到端可靠性","Value": "如奇偶校验或ECC支持"}]
}

文心一言

提问(商品定义):

请用一句话给出如下商品的定义 “腹膜透析仪和腹膜循环仪”

回答

腹膜透析仪和腹膜循环仪是用于辅助腹膜透析过程,通过机械方式促进腹膜透析液在腹腔内循环与交换,以清除体内代谢废物和多余水分的医疗设备。

 提问(商品特征):

请给出如下商品的特征参数: “动态随机存取储存器DRAM”,JSON格式输出,格式为 {Property:[{Name:"属性的名称",Value:"属性的值”}]

回答

{  "Property": [  {  "Name": "类型",  "Value": "动态随机存取储存器(DRAM)"  },  {  "Name": "数据存储方式",  "Value": "动态存储,需要定期刷新数据以保持信息不丢失"  },  {  "Name": "访问速度",  "Value": "相对较快,适合作为计算机的主存储器"  },  {  "Name": "容量范围",  "Value": "从几兆字节到数百吉字节不等,具体取决于型号和技术"  },  {  "Name": "电压需求",  "Value": "低电压设计,通常在1.2V至1.5V之间"  },  {  "Name": "接口类型",  "Value": "包括DDR, DDR2, DDR3, DDR4, LPDDR等,每种类型具有不同的数据传输速率和功耗"  },  {  "Name": "封装类型",  "Value": "如BGA, TSOP, FBGA等,影响安装和散热性能"  },  {  "Name": "延迟时间",  "Value": "用CAS延迟(CL)等指标衡量,影响数据访问的响应时间"  },  {  "Name": "工作频率",  "Value": "通常以MHz或GHz为单位,影响数据传输速率"  },  {  "Name": "错误检测和纠正",  "Value": "部分DRAM支持ECC(错误纠正码)功能,提高数据完整性和可靠性"  }  ]  
}

 总的来看,使用大语言模型生成商品的描述换比较好,但是产品的特征输出的质量并不高。

源代码(待补充)

浏览

编写一个nodeJS 程序unspscServer.mjs 能够浏览unspsc 的分类和商品Commodity 的特征。

界面
源代码

结束语

       该项目主要研究如何将chatGPT作为一种生产力工具,提高生成结构化数据的生产力方式。

    第一步使用chatGPT 生成商品的描述和数据特征(Properties)。这项工作如果人工完成是非常巨大的工程。

相关文章:

大语言模型在构建UNSPSC 分类数据中的应用

UNSPSC 是联合国标准产品和服务代码。UNSPSC由联合国开发计划署(UNDP)和Dun & Bradstreet公司(D & B)于1998年联合制定,自2003年以来一直由GS1 US管理。GS1 US 将在 2024 年底前将 UNSPSC 的管理权移交给 UNDP…...

C++初阶:STL详解(十)——priority_queue的介绍,使用以及模拟实现

✨✨小新课堂开课了,欢迎欢迎~✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C:由浅入深篇 小新的主页:编程版小新-CSDN博客 一.priority_queue的介绍 优先级队列被实现…...

Qt | Linux+QFileSystemWatcher文件夹和文件监视(例如监视U盘挂载目录)

点击上方"蓝字"关注我们 01、QFileSystemWatcher >>> QFileSystemWatcher 是 Qt 提供的一个类,用于监视文件和目录的变化。它允许应用程序监控一个或多个文件和目录,并在这些文件或目录内容发生变化时收到通知。这使得 Qt 应用程序能够动态响应文件系统的…...

【Linux进程间通信】Linux匿名管道详解:构建进程间通信的隐形桥梁

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:Linux “ 登神长阶 ” 🌹🌹期待您的关注 🌹🌹 ❀Linux进程间通信 📒1. 进程间通信介绍📚2. 什么是管道📜3…...

【力扣 | SQL题 | 每日三题】力扣1148, 1327, 1211, 1174

1. 力扣1148:文章浏览1 1.1 题目: Views 表: ------------------------ | Column Name | Type | ------------------------ | article_id | int | | author_id | int | | viewer_id | int | | view_date …...

【鸿蒙开发】详解GridRowSizeOption的尺寸属性

文章目录 1. 尺寸属性的含义2. 为什么要有这几个属性3. 具体作用4. 如何使用总结 在鸿蒙(HarmonyOS)开发中,布局的灵活性和适应性对于构建高质量的应用至关重要。 GridRowSizeOption是鸿蒙开发框架提供的一个布局属性,用于定义网…...

Sping源码:三级缓存

目录 一、概念1、三级缓存的作用2、循环依赖的含义 二、代码1、代码下载2、文件功能介绍3、源码分析3.1、找到获取A对象的位置,打断点进行debug操作3.2、一步步找到在A对象中注入B对象的位置3.3、一步步找到B对象注入A对象的位置3.4、往下找到通过三级缓存解决循环依…...

latex有哪些颜色中文叫什么,Python绘制出来

latex有哪些颜色中文叫什么,Python绘制出来 为了展示xcolor包预定义的颜色及其对应的中文名称,并使用Python打印出来,我们可以先列出常见的预定义颜色名称,然后将它们翻译成中文,并最后用Python打印出来。 步骤 列出…...

C语言进程

什么是进程 什么是程序 一组可以被计算机直接识别的 有序 指令 的集合。 通俗讲:C语言编译后生成的可执行文件就是一个程序。 那么程序是静态还是动态的? 程序是可以被存储在磁盘上的,所以程序是静态的。 那什么是进程 进程是程序的执行过…...

C#基础(4)封装——成员方法

前言 我们在上一节学习了关于类的成员变量的使用,甚至也看到了相应的成员方法,我们可以将二者理解为类里面的变量和函数。 如果我这样说你肯定就能很快理解成员方法是什么作用了。 C#中设计成员方法的目的是为了将相关的功能代码组织在一起&#xff0…...

springbot,JWT令牌的使用。实现http请求拦截校验。

JWT 由三部分组成,用点(.)分隔 Header(头部) Payload(负载)Signature(签名) 一、原理 Jwt原理其实很简单,在后端首先要有个拦截器,他会拦截所有http请求&…...

【SQL】DDL语句

文章目录 1.SQL通用语法2.SQL的分类3.DDL3.1数据库操作3.2 表操作3.2.1 表操作--数据类型3.2.2 表操作--修改3.2.3 表操作--删除 SQL 全称 Structured Query Language,结构化查询语言。操作关系型数据库的编程语言,定义了一套操作关系型数据库统一标准 。…...

【分页】Spring Boot 列表分页 + javaScript前台展示

后端: 准备好查询实体与分页实体 1、分页工具实体 package com.ruoyi.dms.config;import com.alibaba.nacos.api.model.v2.Result; import lombok.Data;import java.io.Serializable; import java.util.List;/*** author 宁兴星* description: 列表返回结果集*/ …...

「安装」 Windows下安装CUDA和Pytorch

「安装」 Windows下安装CUDA和Pytorch 文章目录 「安装」 Windows下安装CUDA和PytorchMac、Linux、云端Windows安装CUDA安装miniconda安装PyTorch测试总结 其他 Mac、Linux、云端 Mac、Linux、云端安装Miniconda和Pytorch的方法参考其他资料。 Windows 下面进行Windows下安装…...

c语言基础作业

选择题 1.1、以下选项中,不能作为合法常量的是 __________ A)1.234e04 B)1.234e0.4C)1.234e4 D)1.234e0 1.2、以下定义变量并初始化错误的是_____________。 A) char c1 ‘H’ ; B) char c1 9…...

uniapp view增加删除线

推荐学习文档 golang应用级os框架,欢迎stargolang应用级os框架使用案例,欢迎star案例:基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识,这里有免费的golang学习笔…...

[Day 83] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

區塊鏈在物聯網中的應用 區塊鏈技術與物聯網(IoT)結合,為許多領域提供了強大的解決方案。傳統的IoT架構常面臨數據隱私和安全問題,而區塊鏈的去中心化和加密技術則能有效增強IoT系統的安全性、透明性和效率。本文將探討區塊鏈如何…...

Java ReentrantLock

目录 1 互斥性 2 公平性 3 可重入性 4 获取和释放锁 5 尝试获取锁 6 可中断的锁定 7 条件变量 8 性能 9 使用场景 ReentrantLock 是 Java 提供的一种可重入的互斥锁,位于 java.util.concurrent.locks 包中,它实现了 Lock 接口。这个锁提供了与内…...

【Linux系统编程】第二十六弹---彻底掌握文件I/O:C/C++文件接口与Linux系统调用实践

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、回顾C语言文件接口 1.1、以写的方式打开文件 1.2、以追加的方式打开文件 2、初步理解文件 2.1、C文件接口 3、进一步理…...

数据分析-29-基于pandas的窗口操作和对JSON格式数据的处理

文章目录 1 窗口操作1.1 滑动窗口思想1.2 函数df.rolling2 JSON格式数据2.1 处理简单JSON对象和JSON列表2.1.1 处理简单的JSON结构2.1.2 处理空字段2.1.3 获取部分字段2.2 处理多级json2.2.1 展开所有级别(默认)2.2.2 自定义展开层级2.3 处理嵌套列表JSON3 参考附录1 窗口操作 …...

Python爬虫实战:研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage)&#xff1a…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

React Native 导航系统实战(React Navigation)

导航系统实战(React Navigation) React Navigation 是 React Native 应用中最常用的导航库之一,它提供了多种导航模式,如堆栈导航(Stack Navigator)、标签导航(Tab Navigator)和抽屉…...

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:

在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

Cesium1.95中高性能加载1500个点

一、基本方式&#xff1a; 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP

编辑-虚拟网络编辑器-更改设置 选择桥接模式&#xff0c;然后找到相应的网卡&#xff08;可以查看自己本机的网络连接&#xff09; windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置&#xff0c;选择刚才配置的桥接模式 静态ip设置&#xff1a; 我用的ubuntu24桌…...

人工智能(大型语言模型 LLMs)对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验&#xff0c;我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性 人工智能正在深刻地改变教育&#xff0c;这并非炒作&#xff0c;而是已经发生的巨大变革。教育机构和教育者不能忽视它&#xff0c;试图简单地禁止学生使…...

打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用

一、方案背景​ 在现代生产与生活场景中&#xff0c;如工厂高危作业区、医院手术室、公共场景等&#xff0c;人员违规打手机的行为潜藏着巨大风险。传统依靠人工巡查的监管方式&#xff0c;存在效率低、覆盖面不足、判断主观性强等问题&#xff0c;难以满足对人员打手机行为精…...