当前位置：首页 > news >正文

RAG数据拆分之PDF

news 2026/6/1 12:42:46

引言
RAG数据简介
PDF解析方法及工具
代码实现
总结

二、正文内容

引言

本文将介绍如何将RAG数据拆分至PDF格式，并探讨PDF解析的方法和工具，最后提供代码示例。

RAG数据简介

RAG（关系型属性图）是一种用于表示实体及其关系的图数据结构。在RAG中，节点表示实体，边表示实体之间的关系，属性则用于描述实体和边的特征。

PDF解析方法及工具

（1）PDF解析方法

DOM解析：将PDF文档转换为树形结构，便于操作和遍历。
SAX解析：基于事件驱动，适用于处理大型PDF文档。

（2）PDF解析工具

PyPDF2：一个Python库，用于读取、分割、合并PDF文件。
PDFMiner：一个强大的PDF解析库，支持提取文本、图片等元素。
pdfplumber：一个专注于文本提取的PDF解析库。

代码实现

以下是一个使用PyPDF2将RAG数据拆分至PDF的示例代码：

import PyPDF2# 读取PDF文件
with open('source.pdf', 'rb') as file:reader = PyPDF2.PdfFileReader(file)num_pages = reader.numPages# 遍历每一页for page_num in range(num_pages):page = reader.getPage(page_num)text = page.extractText()# 拆分RAG数据# 假设RAG数据以特定格式存储，例如：实体1-关系-实体2entities = text.split('-')# 创建新的PDF文件pdf_writer = PyPDF2.PdfFileWriter()pdf_writer.addPage(page)with open(f'output/page_{page_num + 1}.pdf', 'wb') as output_file:pdf_writer.write(output_file)print('PDF文件拆分完成！')

解析表格：

def extract_continuous_tables(pdf, start_page_num):"""从指定页开始提取连续的表格内容:param pdf: PDF文档对象:param start_page_num: 开始页码:return: 包含处理页码和表格文本的字典"""continuous_tables = []  # 存储连续表格内容processed_pages = []  # 存储处理过的页码current_page_num = start_page_num# 添加起始页processed_pages.append(current_page_num)while current_page_num < len(pdf.pages):current_page = pdf.pages[current_page_num]current_page = remove_header_footer(current_page)# 提取当前页的表格current_tables = current_page.extract_tables()if current_tables:# 将当前页的表格添加到结果中continuous_tables.extend(current_tables)# 检查是否还有下一页if current_page_num + 1 >= len(pdf.pages):break# 获取下一页内容next_page = pdf.pages[current_page_num + 1]next_page = remove_header_footer(next_page)# 提取下一页的内容next_page_tables = next_page.extract_tables()next_page_words = next_page.extract_words(keep_blank_chars=True, extra_attrs=['fontname', 'size'])# 过滤页眉页脚header_height = 50footer_height = 50def is_header_content(word):text = word['text'].lower()# 位置检查if word['top'] <= header_height or word['top'] >= (next_page.height - footer_height):return True# 电话号码模式phone_patterns = [r'tel[\s:]*[\d\-/]+',r'电话[\s:]*[\d\-/]+',r'传真[\s:]*[\d\-/]+',r'fax[\s:]*[\d\-/]+',r'\d{2,4}[\-/]\d{4,8}',  # 匹配常见电话号码格式]# 使用正则表达式匹配import reif any(re.search(pattern, text, re.IGNORECASE) for pattern in phone_patterns):return True# 页眉特征检查header_features = [# 位置特征word['top'] < header_height * 1.2,  # 稍微放宽高度限制word['size'] < 10,  # 字体较小# 内容特征any(pattern in text for pattern in ['页码', '第', '页', 'page','copyright', '版权所有','机密', '保密','草稿', 'draft','文档编号', 'doc','日期', 'date']),# 格式特征bool(re.match(r'.*\d+.*页', text)),  # 包含页码bool(re.match(r'.*\d{4}[-/]\d{1,2}[-/]\d{1,2}', text)),  # 日期格式]return any(header_features)# 过滤词filtered_words = [word for word in next_page_wordsif not is_header_content(word)]# 如果需要，还可以按垂直位置排序filtered_words.sort(key=lambda x: x['top'])# 判断下一页是否以表格开始starts_with_table = Falseif filtered_words and next_page_tables:  # 确保有文字和表格try:if next_page_tables[0] and next_page_tables[0][0]:  # 确保表格有内容# 获取第一个表格的位置first_table = next_page.find_tables()[0]if first_table:first_table_top = first_table.bbox[1]# 获取第一个文字的位置first_word_top = filtered_words[0]['top']# 如果表格在文字之前，则认为页面以表格开始if first_table_top < first_word_top:starts_with_table = Trueexcept (IndexError, AttributeError):starts_with_table = Falseif not starts_with_table:# 如果下一页不是以表格开始，则结束提取break# 继续处理下一页current_page_num += 1processed_pages.append(current_page_num)# 将表格转换为文本table_texts = []for table in continuous_tables:if table:table_text = []for row in table:# 过滤None和空字符串，并确保所有值都转换为字符串row_text = []for cell in row:if cell is not None and str(cell).strip():cell_str = str(cell).strip().replace("\n", "    ")# if cell_str:  # 只添加非空字符串row_text.append(cell_str)else:row_text.append(" ")  # 将None转换为空字符串if row_text:  # 只添加非空行table_text.append('##'.join(row_text))filtered_table_text = [row for row in table_text if '##' in row]if filtered_table_text:table_texts.append('\n'.join(filtered_table_text))# 返回包含页码列表和表格文本的字典result = {'processed_pages': processed_pages,'table_text': '\n\n'.join(table_texts) if table_texts else ""}return result

1.pdfplumber
https://blog.csdn.net/fuhanghang/article/details/122579548
1
pdfplumber的主要类和方法

pdfplumber对于表格的提取
参考https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-ca-warn-report.ipynb
1
代码：

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")
p0=pdf.pages[0]
im = p0.to_image()  #display 第一页
table = p0.extract_table() 抽取其中最大的表格import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
for column in ["Effective", "Received"]:df[column] = df[column].str.replace(" ", "")  使用panda来吧table抽取到的数据转成dataFrame格式

总结

本文介绍了RAG数据拆分至PDF的方法和工具，并通过代码示例展示了如何使用PyPDF2进行PDF文件拆分。在实际应用中，可根据需求选择合适的解析方法和工具。

希望这个分享笔记大纲和代码示例能帮助你完成你的分享笔记。在实际编写过程中，可以根据具体需求进行调整和优化。

RAG数据拆分之PDF

引言RAG数据简介PDF解析方法及工具代码实现总结二、正文内容引言本文将介绍如何将RAG数据拆分至PDF格式，并探讨PDF解析的方法和工具，最后提供代码示例。 RAG数据简介 RAG（关系型属性图）是一种用于表示实体及其关系的图数据…...

编程日记 2024/12/3 3:03:02

【算法day1】数组：双指针算法

题目引用这里以 1、LeetCode704.二分查找 2、LeetCode27.移除元素 3、LeetCode977.有序数组的平方这三道题举例来说明数组中双指针的妙用。 1、二分查找给定一个 n 个元素有序的（升序）整型数组 nums 和一个目标值 target ，写一个函数搜…...

编程日记 2024/12/3 3:01:59

Ubuntu 22.04 离线安装软件包

在使用最小化安装时，默认是不带有vim 或者nano编辑器的，如果你的环境不能上外网就需要离线安装。首先你需要先找一台可以上网的ubuntu系统（虚拟机搭建也行），下载所有的依赖包，然后上传到需要安装的服务器…...

编程日记 2024/12/3 2:59:56

网络安全——浅谈HTTP协议

HTTP请求 HTTP请求是客户端往服务端发送请求动作，告知服务器自己的要求。 HTTP请求由状态行、请求头、请求正文三部分组成： 状态行：包括请求方式Method、资源路径URL、协议版本Version；请求头：包括一些访问的域名、…...

编程日记 2024/12/3 2:55:52

鸿蒙开发-在ArkTS中制作音乐播放器

音频播放功能实现导入音频播放相关模块首先需要从ohos.multimedia.audio模块中导入必要的类和接口用于音频播放。例如： import audio from ohos.multimedia.audio;创建音频播放器实例并设置播放源可以通过audio.createAudioPlayer()方法创建一个音频播放器实…...

编程日记 2024/12/3 2:54:51

Rust学习笔记_03——元组

Rust学习笔记_01——基础 Rust学习笔记_02——数组 Rust学习笔记_03——元组文章目录 Rust学习笔记_03——元组元组1. 定义元祖2. 访问元组中的元素3. 元组的解构4. 元组不可遍历和切片5. 元组作为函数返回值6. 单元元组7. 代码演示元组在Rust编程语言中，元组&a…...

编程日记 2024/12/3 2:53:50

LabVIEW内燃机气道试验台测控系统

基于LabVIEW软件开发的内燃机气道试验台测控系统主要应用于内燃机气道的性能测试和数据分析，通过高精度的测控技术，有效提升内燃机的测试精度和数据处理能力。项目背景随着内燃机技术的发展，对其气道性能的精准测量需求日益增加。该系统通…...

编程日记 2024/12/3 2:46:43

git 本地同步远端分支

一、关联远程仓库本地仓库关联远端仓库 git remote add origin https://github.com/user/repository.git 二、获取远程分支信息获取远程仓库的最新分支信息 git fetch origin 三、创建或切换到本地分支以跟踪远程分支 1. 创建分支创建分支并关联到远端分支 git bra…...

编程日记 2024/12/3 2:44:41

用Pycharm安装manim

由于版本和工具的差异，manim的安装方式不尽相同。本文用Pycharm来安装manim. 一、准备工作：安装相应版本的python、pycharm和ffmpeg. 此处提供一种安装ffmpeg的方式下载地址：FFmpeg 下载后，解压到指定目录。配置环境变量&am…...

编程日记 2024/12/3 2:40:37

#渗透测试#红蓝攻防#HW#漏洞挖掘#漏洞复现01-笑脸漏洞（vsftpd）

免责声明本教程仅为合法的教学目的而准备，严禁用于任何形式的违法犯罪活动及其他商业行为，在使用本教程前，您应确保该行为符合当地的法律法规，继续阅读即表示您需自行承担所有操作的后果，如有异议，请立即停…...

编程日记 2024/12/3 2:37:35

vue3项目中使用星火API

在node环境epxress中使用讯飞ai接口进行二次封装，通过ai对话回复提取，获得ai提取的文章摘要本文章只是简单使用，更复杂功能比如调用星火API制作对话机器人可以查看文档，对于初次使用星火AI接口或许有帮助讯飞星火大模型API-大模…...

编程日记 2024/12/3 2:30:30

digit_eye开发记录(3): C语言读取MNIST数据集

在前两篇，我们解读了 MNIST 数据集的 IDX 文件格式，并分别用 C 和 Python 做了读取 MNIST 数据集的实现。基于 C 的代码稍长，基于 Python 的代码则明显更短，然而它们的共同特点是：依赖了外部库： 基于 C …...

编程日记 2024/12/3 2:29:29

【linux】（23）对象存储服务-MinIo

MinIO 是一个高性能的对象存储服务，兼容 Amazon S3 API。 Docker安装MinIo 前提条件确保您的系统已经安装了 Docker。如果还没有安装 Docker，可以参考 Docker 官方文档进行安装。 1. 拉取 MinIO Docker 镜像首先，从 Docker Hub 拉取 Mi…...

编程日记 2024/12/3 2:24:24

如何使用Python解析从淘宝API接口获取到的JSON数据？

基本的 JSON 解析当从淘宝 API 接口获取到数据后（假设数据存储在变量response_data中），首先要判断数据类型是否为 JSON。如果是，就可以使用 Python 内置的json模块进行解析。示例代码如下： import json # 假设respon…...

编程日记 2024/12/3 2:23:22

C# 2024年Visual Studio实用插件集合

在2024年，Visual Studio作为.NET开发者的首选IDE，其插件生态不断壮大，为开发者提供了更高效、便捷的开发体验。本文将介绍一些实用的Visual Studio插件，特别是针对C#开发者，帮助提升开发效率和代码质量。 1. GitHub C…...

编程日记 2024/12/3 2:15:14

Matlab Simulink HDL Coder开发流程（一）— 创建HDL兼容的Simulink模型

创建HDL兼容的Simulink模型一、使用Balnk DUT模板二、从HDL Coder库中选择模块三、为DUT开发算法/功能四、为设计创建Testbench五、仿真验证设计功能六、Simulink模型生成HDL代码这个例子说明了如何创建一个用于生成HDL代码的Simulink模型。要创建兼容HDL代码生成的MATLAB算法…...

编程日记 2024/12/3 2:11:11

详解Qt pdf 之QPdfSelection 选择文本类

文章目录 QPdfSelection 类详解前言详细说明公共函数说明1. 构造函数2. text3. boundingRect4. isEmpty5. startPage6. endPage 使用场景示例代码代码说明总结 QPdfSelection 类详解前言 QPdfSelection 是 Qt PDF 模块中的一个类，用于表示在 PDF 文档中被选中的…...

编程日记 2024/12/3 2:01:55

docker中redis查看key、删除key

查看docker启动的进程 docker ps这个命令会列出所有正在运行的容器，包括容器的 ID、镜像名称、创建时间、状态、端口映射和名称 CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 1a2b3c4d5e6…...

编程日记 2024/12/3 1:58:46

【MySQL — 数据库基础】MySQL的安装与配置＆数据库简单介绍

数据库基础本节目标掌握关系型数据库，数据库的作用掌握在Windows和Linux系统下安装MySQL数据库了解客户端工具的基本使用和SQL分类了解MySQL架构和存储引擎 1. 数据库的安装与配置 1.1 确认MYSQL版本处理无法在 cmd 中使用 mysql 命令的情况&a…...

编程日记 2024/12/3 1:56:45

ehr系统建设方案，人力资源功能模块主要分为哪些，hrm平台实际案例源码，springboot人力资源系统，vue，JAVA语言hr系统（源码）

eHR人力资源管理系统：功能强大的人力资源管理工具随着企业规模的不断扩大和业务需求的多样化，传统的人力资源管理模式已无法满足现代企业的需求。eHR人力资源管理系统作为一种先进的管理工具，能够为企业提供高效、准确、实时的人力资源管理。…...

编程日记 2024/12/3 1:53:42

CVPR 2023反无人机数据集实战：用ModelScope上的开源模型快速上手目标检测

CVPR 2023反无人机数据集实战：用ModelScope上的开源模型快速上手目标检测无人机技术的普及带来了新的安全挑战，从隐私侵犯到关键设施威胁，反无人机技术正成为计算机视觉领域的热点。CVPR 2023反无人机竞赛提供的开源数据集和基线模型&#xf…...

编程新知 2026/5/26 3:38:09

自制射频功率计：基于AD8317芯片，成本43欧元实现1MHz-10GHz测量

1. 项目概述：为什么我要亲手打造一台射频功率计在无人机和模型飞行器的圈子里，尤其是在我们荷兰FMS Spaarnwoude俱乐部，合规飞行是头等大事。我给我的八轴飞行器加装了云台相机和图传系统，工作在5.8GHz频段。根据本地法规&#xf…...

编程新知 2026/5/26 2:11:22

终极鼠标连点器使用指南：3分钟掌握高效自动化技巧

终极鼠标连点器使用指南：3分钟掌握高效自动化技巧【免费下载链接】MouseClick 🖱️ MouseClick 🖱️ 是一款功能强大的鼠标连点器和管理工具，采用 QT Widget 开发 ，具备跨平台兼容性。软件界面美观 ，操作…...

编程新知 2026/5/26 1:06:50

【DeepSeek开源协议识别权威指南】：20年合规专家亲授3大协议陷阱与5步精准识别法

更多请点击： https://intelliparadigm.com 第一章：DeepSeek开源协议识别的底层逻辑与合规价值 DeepSeek系列模型（如DeepSeek-V2、DeepSeek-Coder）虽以“开源”名义发布，但其实际许可状态需通过结构化协议解析才能准确…...

编程新知 2026/5/26 1:04:50

智能体所有权与版权：AI Agent Harness Engineering 创造的作品归谁所有？

1. 标题选项《AI Agent创作版权迷局破解：从Harness工程原理到所有权划分的完整指南》《智能体作品归谁？AI Agent Harness Engineering场景下的版权规则深度拆解》《告别权属纠纷：一文搞懂AI Agent生成内容的所有权、版权与收益分配规则》《Harness工程视角下的AI创作权：…...

编程新知 2026/5/26 0:18:08

终极Node.js Mock工具：Mockery入门到精通实战教程

终极Node.js Mock工具：Mockery入门到精通实战教程【免费下载链接】mockery Simplifying the use of mocks with Node.js 项目地址: https://gitcode.com/gh_mirrors/mock/mockery Mockery是Node.js生态中简化Mock使用的终极工具，它为开发者提供了…...

编程新知 2026/5/25 22:04:16

ZTE光猫工厂模式解锁：5分钟开启隐藏功能的终极指南

ZTE光猫工厂模式解锁：5分钟开启隐藏功能的终极指南【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 核心关键词：ZTE光猫工厂模式解锁长尾关键词： ZT…...

编程新知 2026/5/25 21:39:56

全球无障碍宣传日：iOS 26 辅助功能大升级，这些实用小功能你用过吗？

辅助功能发展与升级很多人对辅助功能的印象还停留在 "小白点"，但随着 iPhone 进入全面屏时代，它逐渐变得陌生。实际上，Apple 每年都会为其增添功能，方便身体有障人士使用 iPhone。而且，这些功能不仅惠及有障…...

编程新知 2026/5/25 21:07:31

圈复杂度＞12=技术债炸弹？DeepSeek静态分析实战：从17.8→3.2的重构路径全披露

更多请点击： https://codechina.net 第一章：圈复杂度＞12技术债炸弹？DeepSeek静态分析实战：从17.8→3.2的重构路径全披露当函数圈复杂度（Cyclomatic Complexity）持续高于12，它不再是…...

编程新知 2026/5/25 19:57:30

OpenCore Legacy Patcher完整指南：让老旧Mac焕发新生，运行最新macOS

OpenCore Legacy Patcher完整指南：让老旧Mac焕发新生，运行最新macOS 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否有一台被苹…...

编程新知 2026/5/25 16:06:36

相关文章：