当前位置: 首页 > news >正文

数据工程流程

** 数据工程流程图**

API调用 / 爬取数据
处理缺失值 / 异常值
生成统计报告 / 可视化
标注任务与审核
特征工程 / 数据增强
数据采集
数据清洗
数据分析
人工标注
数据构造
输出数据集

各步骤详解与具体实现

1. 数据采集

数据采集是获取数据的第一步。以下是常见的采集方式及其实现示例:

具体实现:
  1. 通过 API 采集数据

    • 示例:从公开 API 获取天气数据。
    import requestsapi_url = "http://api.weatherapi.com/v1/current.json"
    params = {"key": "your_api_key","q": "London"
    }
    response = requests.get(api_url, params=params)
    if response.status_code == 200:data = response.json()print(data)
    else:print("Failed to fetch data")
    
  2. 爬取网页数据

    • 示例:使用 BeautifulSoup 抓取新闻标题。
    import requests
    from bs4 import BeautifulSoupurl = "https://news.ycombinator.com/"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')titles = [title.get_text() for title in soup.find_all('a', class_='storylink')]
    print(titles)
    
注意事项:
  • 确保数据来源合法,遵守隐私和数据采集政策。
  • 针对大规模数据采集,考虑使用并发工具如 aiohttpscrapy

2. 数据清洗

数据清洗是数据工程中的关键环节,用于提升数据质量,便于后续分析。

具体实现:
  1. 去重与填充缺失值

    import pandas as pddata = pd.DataFrame({'Name': ['Alice', 'Bob', 'Alice', None],'Age': [25, 30, 25, 29],'Score': [90, None, 90, 85]
    })# 去除重复值
    data = data.drop_duplicates()# 填充缺失值
    data['Score'] = data['Score'].fillna(data['Score'].mean())
    data['Name'] = data['Name'].fillna("Unknown")print(data)
    
  2. 格式转换与异常值处理

    # 转换日期格式
    data['Date'] = pd.to_datetime(data['Date'], errors='coerce')# 检测异常值
    z_scores = (data['Score'] - data['Score'].mean()) / data['Score'].std()
    data = data[z_scores.abs() < 3]  # 去除 Z-score 超过 3 的异常值
    
注意事项:
  • 缺失值的填充策略应根据业务需求选择(如均值、插值、特定值填充)。
  • 异常值检测可以使用统计方法(如箱型图或 Z-score)。

3. 数据分析

数据分析包括探索性数据分析(EDA)和统计建模,目的是挖掘数据特征,为决策提供依据。

具体实现:
  1. 生成数据统计报告

    import pandas as pddata = pd.read_csv('data.csv')
    print(data.describe())  # 生成统计摘要
    
  2. 可视化分析

    • 示例:使用 Seaborn 绘制数据分布图。
    import seaborn as sns
    import matplotlib.pyplot as pltsns.histplot(data['Score'], bins=30, kde=True)
    plt.show()
    
  3. 相关性分析

    correlation = data.corr()
    sns.heatmap(correlation, annot=True)
    plt.show()
    
注意事项:
  • 分析应紧密围绕业务目标,避免冗余或无关分析。
  • 数据可视化可以提高结果的直观性。

4. 人工标注

人工标注用于生成有监督学习所需的数据集。高质量标注是构建模型的重要基础。

具体实现:
  1. 使用 Label Studio 配置标注任务

    • 安装与启动:
      pip install label-studio
      label-studio start
      
  2. 示例:文本分类标注

    • 在 Label Studio 中上传数据集,设置分类任务(如情感分类)。
注意事项:
  • 确保标注人员对任务有清晰的理解,提供标注标准。
  • 对复杂任务,建议进行多轮校对以提高标注一致性。

5. 数据构造

数据构造包括特征工程、数据增强和数据集划分。

具体实现:
  1. 数据划分

    from sklearn.model_selection import train_test_splittrain, test = train_test_split(data, test_size=0.2, random_state=42)
    print("训练集大小:", len(train))
    print("测试集大小:", len(test))
    
  2. 数据增强

    • 示例:图像翻转与旋转。
    from torchvision import transformstransform = transforms.Compose([transforms.RandomHorizontalFlip(),transforms.RandomRotation(10)
    ])
    augmented_image = transform(image)
    
  3. 特征工程

    • 示例:提取日期特征。
    data['Year'] = data['Date'].dt.year
    data['Month'] = data['Date'].dt.month
    
注意事项:
  • 数据增强适用于深度学习任务,需避免引入噪声。
  • 特征构造应基于业务逻辑,确保对模型有正向贡献。

流程关键点总结

步骤核心任务工具与技术
数据采集从数据源获取原始数据requestsScrapy
数据清洗提高数据质量,处理缺失与异常值PandasNumpy
数据分析挖掘数据特征,生成统计与可视化SeabornMatplotlib
人工标注标注数据,为模型提供训练集Label Studio
数据构造特征工程、数据增强、划分数据集sklearntorchvision

以上流程不仅涵盖了每个阶段的理论与实践,还为具体实现提供了代码示例,便于理解和应用!

相关文章:

数据工程流程

** 数据工程流程图** #mermaid-svg-ArT55xCISSfZImy3 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ArT55xCISSfZImy3 .error-icon{fill:#552222;}#mermaid-svg-ArT55xCISSfZImy3 .error-text{fill:#552222;stroke…...

Linux宝塔部署wordpress网站更换服务器IP后无法访问管理后台和打开网站页面显示错乱

一、背景&#xff1a; wordpress网站搬家&#xff0c;更换服务器IP后&#xff0c;如果没有域名时&#xff0c;使用服务器IP地址无法访问管理后台和打开网站页面显示错乱。 二、解决方法如下&#xff1a; 1.wordpress搬家后&#xff0c;在新服务器上&#xff0c;新建站点时&am…...

区块链知识体系

1. 区块链基础知识 Q: 什么是区块链&#xff1f; A: 区块链是一种去中心化的分布式账本技术&#xff0c;通过加密算法保证数据的不可篡改性和透明性。它由一系列按时间顺序链接的区块组成&#xff0c;每个区块包含一批交易记录。 Q: 区块链的主要特点是什么&#xff1f; 去…...

力扣第 66 题 “加一”

题目描述 给定一个由 非负整数组成的非空数组&#xff0c;表示一个整数。在该整数的基础上加一。 最高位数字在数组的首位&#xff0c;数组中每个元素只存储单个数字。 你可以假设除了整数 0 之外&#xff0c;这个整数不会以零开头。 示例 1: 输入: digits [1,2,3] 输出:…...

C语言数据结构与算法--简单实现队列的入队和出队

&#xff08;一&#xff09;队列的基本概念 和栈相反&#xff0c;队列(Queue)是一种先进先出&#xff08;First In First Out&#xff09;的线性表。只 允许在表的一端进行插入&#xff0c;而在另一端删除元素&#xff0c;如日常生活中的排队现象。队列中 允许插入的一端叫队尾…...

代码美学:MATLAB制作渐变色

输入颜色个数n&#xff0c;颜色类型&#xff1a; n 2; % 输入颜色个数 colors {[1, 0, 0], [0, 0, 1]}; createGradientHeatmap(n, colors); 调用函数&#xff1a; function createGradientHeatmap(n, colors)% 输入检查if length(colors) ~ nerror(输入的颜色数量与n不一…...

排序算法之冒泡排序篇

冒泡排序的思想&#xff1a; 是一个把元素从小到大排的一个算法思想 相邻的两个元素两两比较&#xff0c;大的那一个元素向后移&#xff0c;小的那个元素向前移 核心逻辑&#xff1a; 比较所有相邻的两个项&#xff0c;如果第一个比第二个大&#xff0c;就交换它们 从头开始…...

WPF ItemsControl控件

ItemsControl 是 WPF 中一个非常灵活的控件&#xff0c;用于显示一组数据项。它是一个基类&#xff0c;许多其他控件&#xff08;如 ListBox, ListView, ComboBox 等&#xff09;都是从 ItemsControl 继承而来。ItemsControl 的主要特点是它可以自定义数据项的显示方式&#xf…...

CentOS 上安装各种应用的命令行总结

在 CentOS 上安装各种应用的命令行方法可以通过不同的软件包管理工具完成&#xff0c;最常用的是 yum&#xff08;CentOS 7及以前版本&#xff09;和 dnf&#xff08;CentOS 8及以上版本&#xff09;。以下是一些常见应用的安装命令总结。 目录 1. 基本的包管理命令 2. 安装…...

Java中的JSONObject详解

文章目录 Java中的JSONObject详解一、引言二、JSONObject的创建与基本操作1、创建JSONObject2、添加键值对3、获取值 三、JSONObject的高级特性1、遍历JSONObject2、从字符串创建JSONObject3、JSONObject与JSONArray的结合使用4、更新和删除键值对 四、错误处理1. 键值存在性检…...

音视频流媒体直播/点播系统EasyDSS互联网视频云平台介绍

随着互联网技术的飞速发展&#xff0c;音视频流媒体直播已成为现代社会信息传递与娱乐消费的重要组成部分。在这样的背景下&#xff0c;EasyDSS互联网视频云平台应运而生&#xff0c;它以高效、稳定、便捷的特性&#xff0c;为音视频流媒体直播领域带来了全新的解决方案。 1、产…...

shell编程3,参数传递+算术运算

声明&#xff01; 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&#…...

自动泊车“哐哐撞大墙”,小米SU7智驾功能bug缠身?

文/王俣祺 导语&#xff1a;小米SU7&#xff0c;自带热度与科技光环的“流量神车”&#xff0c;近日却以一种极为“狼狈”的方式闯入大众视野。多达70余辆小米SU7陷入“泊车魔咒”&#xff0c;瞬间在网络上炸开了锅。从“科技控”到“惹祸精”的背后&#xff0c;究竟藏着怎样的…...

RAG 与 HyDE

传统 RAG 与 HyDE&#xff0c;直观解释&#xff01; 传统 RAG 系统的一个关键问题是问题在语义上与答案不相似。 考虑以下示例&#xff0c;您想要找到类似于“什么是 ML&#xff1f;”的句子。 “什么是 AI&#xff1f;” 可能看起来比“机器学习很有趣”更相似。 这种语义差…...

在WPF程序中实现PropertyGrid功能

使用C#开发过Windows Forms的都知道&#xff0c;在Windows Forms程序中&#xff0c;有一个PropertyGrid控件&#xff0c;可以用于显示对象的属性&#xff0c;在WPF中并没有默认提供此功能的控件&#xff0c;今天以一个简单的小例子&#xff0c;简述在WPF中借助WinForm的Propert…...

【R语言管理】Pycharm配置R语言及使用Anaconda管理R语言虚拟环境

目录 使用Anaconda创建R语言虚拟环境1. 安装Anaconda2. 创建R语言虚拟环境 Pycharm配置R语言1. 安装Pycharm2. R Language for IntelliJ插件 参考 使用Anaconda创建R语言虚拟环境 1. 安装Anaconda Anaconda的安装可参见另一博客-【Python环境管理工具】Anaconda安装及使用教程…...

.Net与C#

.NET 与 C# 的关系 .NET 是一个由微软开发的软件框架&#xff0c;它提供了一套用于开发、运行和部署应用程序的工具和库。C# 是一种面向对象的编程语言&#xff0c;它是专门为.NET平台设计的。以下是.NET与C#之间关系的详细说明&#xff1a; 目标平台&#xff1a;C# 是.NET平…...

使用ElementUI中的el-table制作可编辑的表格

在前端开发时&#xff0c;可能会需要用到可编辑的表格控件。一些原生的UI框架并不支持Table控件的可编辑功能&#xff0c;所以只能自己实现。 以下用Vue3Element-Plus进行示例开发。 一、实现可编辑的单元格 我想要实现的效果是&#xff0c;鼠标移动到el-table的某行时&…...

开放性技术的面试题该如何应对?

1. 上线出现问题如何解决&#xff1f; 步骤&#xff1a; 立即响应&#xff1a;迅速确认问题的存在和影响范围。回滚&#xff1a;如果问题严重影响用户&#xff0c;考虑立即回滚到上一个稳定版本。日志分析&#xff1a;查看服务器日志、应用日志和前端日志&#xff0c;定位问题…...

Leetcode 面试150题 88.合并两个有序数组 简单

系列博客目录 文章目录 系列博客目录88. 合并两个有序数组 简单示例 1:示例 2:示例 3:提示:问题: 88. 合并两个有序数组 简单 给你两个按 非递减顺序 排列的整数数组 nums1 和 nums2&#xff0c;另有两个整数 m 和 n&#xff0c;分别表示 nums1 和 nums2 中的元素数目。 请你…...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段&#xff1a; 构建阶段&#xff08;Build Stage&#xff09;&#xff1a…...

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令&#xff1a; return <value>;在收到客户端连接后&#xff0c;立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量&#xff08;如 $time_iso8601、$remote_addr 等&#xff09;&a…...

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中&#xff0c;选择 环境 -> 常规 &#xff0c;将其中的颜色主题改成深色 点击确定&#xff0c;更改完成...

ESP32读取DHT11温湿度数据

芯片&#xff1a;ESP32 环境&#xff1a;Arduino 一、安装DHT11传感器库 红框的库&#xff0c;别安装错了 二、代码 注意&#xff0c;DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

剑指offer20_链表中环的入口节点

链表中环的入口节点 给定一个链表&#xff0c;若其中包含环&#xff0c;则输出环的入口节点。 若其中不包含环&#xff0c;则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

Robots.txt 文件

什么是robots.txt&#xff1f; robots.txt 是一个位于网站根目录下的文本文件&#xff08;如&#xff1a;https://example.com/robots.txt&#xff09;&#xff0c;它用于指导网络爬虫&#xff08;如搜索引擎的蜘蛛程序&#xff09;如何抓取该网站的内容。这个文件遵循 Robots…...

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

LLM基础1_语言模型如何处理文本

基于GitHub项目&#xff1a;https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken&#xff1a;OpenAI开发的专业"分词器" torch&#xff1a;Facebook开发的强力计算引擎&#xff0c;相当于超级计算器 理解词嵌入&#xff1a;给词语画"…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法&#xff0c;当前调用一个医疗行业的AI识别算法后返回…...

DingDing机器人群消息推送

文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人 点击群设置 下滑到群管理的机器人&#xff0c;点击进入 添加机器人 选择自定义Webhook服务 点击添加 设置安全设置&#xff0c;详见说明文档 成功后&#xff0c;记录Webhook 2 API文档说明 点击设置说明 查看自…...