当前位置: 首页 > news >正文

csv文件完整操作总结

csv文件完整操作总结

1.概述

csv 模块主要用于处理从电子数据表格Excel或数据库中导入到文本文件的数据,通常简称为 comma-separated value (CSV)格式因为逗号用于分离每条记录的各个字段。

2.读写操作

2.1.测试数据

创建一个test.csv文件,复制下面内容到文件中

"Title 1","Title 2","Title 3","Title 4"
1,"a",08/18/07,"å"
2,"b",08/19/07,"∫"
3,"c",08/20/07,"ç"

2.2.读取

从 CSV 文件中读取数据,可以使用 reader() 函数来创建一个读取对象。 这个读取对象顺序处理文件的每一行,可以把它当成迭代器使用, 例如:

import csvwith open('test.csv', 'rt') as f:reader = csv.reader(f)for row in reader:print(row)

reader() 的第一个参数指源文本,在这个例子中,是一个文件,但它可以是任何可迭代对象( StringIO 实例,list 等)。第二个参数是可选的,可用于控制输入的数据如何被解析。

['Title 1', 'Title 2', 'Title 3', 'Title 4']
['1', 'a', '08/18/07', 'å']
['2', 'b', '08/19/07', '∫']
['3', 'c', '08/20/07', 'ç']

2.3.写入

写入 CSV 文件和读取它们一样简单。使用 writer() 方法创建一个写入对象,然后使用 writerow() 去输出每一行。

import csvunicode_chars = 'å∫ç'with open('testout.csv', 'wt') as f:writer = csv.writer(f)writer.writerow(('Title 1', 'Title 2', 'Title 3', 'Title 4'))for i in range(3):row = (i + 1,chr(ord('a') + i),'08/{:02d}/07'.format(i + 1),unicode_chars[i],)writer.writerow(row)print(open('testout.csv', 'rt').read())

这个例子的输出和上面读取的例子看起来有些不同,是因为这里有的值没有加引号

Title 1,Title 2,Title 3,Title 4
1,a,08/01/07,å
2,b,08/02/07,3,c,08/03/07,ç

2.4.引号

写入时,默认的引用行为不同,所以之前示例中的第二和第三个字段未被引用。 要添加引号,请将 quoting 参数设置为其他引用模式。

writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)

在这个例子中, QUOTE_NONNUMERIC 会给所有字段值不是数字的值添加引号


"Title 1","Title 2","Title 3","Title 4"
1,"a","08/01/07","å"
2,"b","08/02/07","∫"
3,"c","08/03/07","ç"

有四种不同的引用选项,在 csv 模块中被定义为常量。

  • QUOTE_ALL :无论什么类型的字段都会被引用。
  • QUOTE_MINIMAL:这是默认的选项,使用指定的字符引用各字段(如果解析器被配置为相同的 dialect 和选项时,可能会让解析器在解析时产生混淆)。
  • QUOTE_NONNUMERIC:引用那些不是整数或浮点数的字段。当使用读取对象时,如果输入的字段是没有引号的,那么它们会被转换成浮点数。
  • QUOTE_NONE:对所有的输出内容都不加引用,当使用读取对象时,引用字符看作是包含在每个字段的值里(但在正常情况下,它们被当成定界符而被去掉)。

3.编码风格

其实没有一个标准定义这类逗号分隔值的文件,所以解析器需要很灵活,通过很多参数去控制如何解析 csv 或给其写入数据。但这并不是每个参数在写入或读取 csv 时分别传入,而是统一分组为一个 编码风格 对象。

3.1.查看编码风格

Dialect 类可以通过名字注册,因此 csv 模块调用它时不必预先知道相关的参数设置。所有注册过的编码风格列表可以通过 list_dialects() 方法查看。

import csvprint(csv.list_dialects())

标准库提供了三种编码风格,分别为: excel, excel-tabs 和 unix。 excel 编码风格用来处理默认来自 Microsoft Excel 格式的数据的,同样可用于处理来自 LibreOffice 格式的。 unix 编码风格将所有字段通过双引号引用,并用 \n 做为每条记录的分隔符。

['excel', 'excel-tab', 'unix']

3.2.创建一个编码风格

如果不使用逗号分隔字段,输入文件使用竖杠( | ),新建一个testdata.pipes文件,复制下面内容到文件中作为测试数据。

"Title 1"|"Title 2"|"Title 3"
1|"first line
second line"|08/18/07

使用「竖杠」的编码风格,可以像使用逗号一样读取文件

import csvcsv.register_dialect('pipes', delimiter='|')with open('testdata.pipes', 'rt') as f:reader = csv.reader(f, dialect='pipes')for row in reader:print(row)

运行结果

['Title 1', 'Title 2', 'Title 3']
['1', 'first line\nsecond line', '08/18/07']

3.3.编码风格参数

编码风格指定解析或写入数据文件时使用的所有标记。下表列出了可以设定的属性,从字段的分隔方式到用于转义标记的字符。

属性默认含义
delimiter,字段分隔符(单字符)
doublequoteTrue控制 quotechar 实例是否翻倍
escapecharNone用于表示转义序列的字符
lineterminator\r\n写入时用来换行的字符
quotechar"引用含特殊值字段的字符(一个字符)
quotingQUOTE_MINIMAL控制前面表述的引用行为
skipinitialspaceFalse是否在字段分隔符后忽略空格

这段程序演示了当使用几种不同的编码风格格式化时,相同的数据如何展示。

import csv
import syscsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE,)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL,)quoting_modes = {getattr(csv, n): nfor n in dir(csv)if n.startswith('QUOTE_')
}TEMPLATE = '''\
Dialect: "{name}"delimiter   = {dl!r:<6}    skipinitialspace = {si!r}doublequote = {dq!r:<6}    quoting          = {qu}quotechar   = {qc!r:<6}    lineterminator   = {lt!r}escapechar  = {ec!r:<6}
'''for name in sorted(csv.list_dialects()):dialect = csv.get_dialect(name)print(TEMPLATE.format(name=name,dl=dialect.delimiter,si=dialect.skipinitialspace,dq=dialect.doublequote,qu=quoting_modes[dialect.quoting],qc=dialect.quotechar,lt=dialect.lineterminator,ec=dialect.escapechar,))writer = csv.writer(sys.stdout, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars: " \' {} to parse'.format(dialect.delimiter)))print()

运行结果


Dialect: "escaped"delimiter   = ','       skipinitialspace = 0doublequote = 0         quoting          = QUOTE_NONEquotechar   = '"'       lineterminator   = '\r\n'escapechar  = '\\'col1,1,10/01/2010,Special chars: \" ' \, to parseDialect: "excel"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_MINIMALquotechar   = '"'       lineterminator   = '\r\n'escapechar  = Nonecol1,1,10/01/2010,"Special chars: "" ' , to parse"Dialect: "excel-tab"delimiter   = '\t'      skipinitialspace = 0doublequote = 1         quoting          = QUOTE_MINIMALquotechar   = '"'       lineterminator   = '\r\n'escapechar  = Nonecol1    1       10/01/2010      "Special chars: "" '     to parse"Dialect: "singlequote"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_ALLquotechar   = "'"       lineterminator   = '\r\n'escapechar  = None'col1','1','10/01/2010','Special chars: " '' , to parse'Dialect: "unix"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_ALLquotechar   = '"'       lineterminator   = '\n'escapechar  = None"col1","1","10/01/2010","Special chars: "" ' , to parse"

3.4.自动检测编码风格

配置一个输入文件的编码风格的最好的办法是提前知道哪种编码风格是正确的。对于那些编码风格未知的参数, Sniffer 类可用于做有效的猜测。 sniff() 方法会获取输入数据的一个样本和一个可选参数,给出可能的分隔符。

import csv
from io import StringIO
import textwrapcsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL)# 为所有已知的编码风格生成样本数据
samples = []
for name in sorted(csv.list_dialects()):buffer = StringIO()dialect = csv.get_dialect(name)writer = csv.writer(buffer, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars " \' {} to parse'.format(dialect.delimiter)))samples.append((name, dialect, buffer.getvalue()))# 猜测样本的编码风格,然后用猜测结果来解析数据。
sniffer = csv.Sniffer()
for name, expected, sample in samples:print('Dialect: "{}"'.format(name))print('In: {}'.format(sample.rstrip()))dialect = sniffer.sniff(sample, delimiters=',\t')reader = csv.reader(StringIO(sample), dialect=dialect)print('Parsed:\n  {}\n'.format('\n  '.join(repr(r) for r in next(reader))))

sniff() 方法返回一个包含了解析数据的参数的 Dialect 实例。结果并不一定是正确的,例如这个例子中的「escaped」。

python3 csv_dialect_sniffer.pyDialect: "escaped"
In: col1,1,10/01/2010,Special chars \" ' \, to parse
Parsed:'col1''1''10/01/2010''Special chars \\" \' \\'' to parse'Dialect: "excel"
In: col1,1,10/01/2010,"Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "excel-tab"
In: col1        1       10/01/2010      "Special chars "" '      to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' \t to parse'Dialect: "singlequote"
In: 'col1','1','10/01/2010','Special chars " '' , to parse'
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "unix"
In: "col1","1","10/01/2010","Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'

相关文章:

csv文件完整操作总结

csv文件完整操作总结 1.概述 csv 模块主要用于处理从电子数据表格Excel或数据库中导入到文本文件的数据&#xff0c;通常简称为 comma-separated value &#xff08;CSV&#xff09;格式因为逗号用于分离每条记录的各个字段。 2.读写操作 2.1.测试数据 创建一个test.csv文…...

时间序列预测--基于CNN的股价预测(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 时间序列预测有很多方法&#xff0c;如传统的时序建模方法ARIMA、周期因子法、深度学习网络等&#xff0c;本次实验采用最简单的…...

Dubbo与Spring Cloud优缺点分析(文档学习个人理解)

文章目录核心部件1、总体框架1.1 Dubbo 核心部件如下1.2 Spring Cloud 总体架构2、微服务架构核心要素3、通讯协议3.1 Dubbo3.2 Spring Cloud3.3 性能比较4、服务依赖方式4.1 Dubbo4.2 Spring Cloud5、组件运行流程5.1 Dubbo5.2 Dubbo 运行组件5.3 Spring Cloud5.4 Spring Clou…...

单元测试工具——JUnit的使用

⭐️前言⭐️ 本篇文章主要介绍单元测试工具JUnit的使用。 &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f4dd;私信必回哟&#x1f601; &#x1f349;博主将持续更新学习记录收获&#xff0c;友友们有任何问题可以在评论区留言 &#x1f349;博客中涉及源码…...

Linux_基本权限

Linux入门第二篇已送达&#xff01; Linux_基本权限shell外壳权限Linux的用户分类角色划分Linux的文件文件类型查看权限目录的权限默认权限粘滞位shell外壳 为了保护操作系统&#xff0c;用户的指令不能由操作系统直接进行执行&#xff0c;需要一个中间者&#xff0c;比如Linu…...

3、JavaScript面试题

1, Js数据类型有哪些&#xff1f;数值、字符串、布尔、undefined、null、数组、对象、函数2, 引用类型和值类型的区别- 值类型存在于栈中, 存取速度快 引用类型存在于堆,存取速度慢- 值类型复制的是值本身 引用类型复制的是指向对象的指针- 值类型结构简单只包含基本数据, 引用…...

YUV图像

YUV的存储方式UV格式有两大类&#xff1a;planar和packed。对于planar的YUV格式&#xff0c;先连续存储所有像素点的Y&#xff0c;紧接着存储所有像素点的U&#xff0c;随后是所有像素点的V。对于packed的YUV格式&#xff0c;每个像素点的Y,U,V是连续交替存储的。YUV的采样主流…...

.net6API使用AutoMapper和DTO

AutoMapper&#xff0c;是一个转换工具&#xff0c;说到AutoMapper时&#xff0c;就不得不先说DTO&#xff0c;它叫做数据传输对象(Data Transfer Object)。 通俗的来说&#xff0c;DTO就是前端界面需要用的数据结构和类型&#xff0c;而我们经常使用的数据实体&#xff0c;是数…...

IO知识整理

IO 面向系统IO page cache 程序虚拟内存到物理内存的转换依靠cpu中的mmu映射 物理内存以page&#xff08;4k&#xff09;为单位做分配 多个程序访问磁盘上同一个文件&#xff0c;步骤 kernel将文件内容加载到pagecache多个程序读取同一份文件指向的同一个pagecache多个程…...

【正点原子FPGA连载】第十三章QSPI Flash读写测试实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

1&#xff09;实验平台&#xff1a;正点原子MPSoC开发板 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id692450874670 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/thread-340252-1-1.html 第十三章QSPI Fl…...

深入理解mysql的内核查询成本计算

MySql系列整体栏目 内容链接地址【一】深入理解mysql索引本质https://blog.csdn.net/zhenghuishengq/article/details/121027025【二】深入理解mysql索引优化以及explain关键字https://blog.csdn.net/zhenghuishengq/article/details/124552080【三】深入理解mysql的索引分类&a…...

LeetCode 141. 环形链表

原题链接 难度&#xff1a;easy\color{Green}{easy}easy 题目描述 给你一个链表的头节点 headheadhead &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 nextnextnext 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的…...

git提交

文章目录关于数据库&#xff1a;桌面/vue-admin/vue_shop_api 的 git 输入 打开 phpStudy ->mySQL管理器 导入文件同时输入密码&#xff0c;和文件名 node app.js 错误区&#xff1a; $ git branch // git branch 查看分支 只有一个main分支不见master解决&#xff1a; gi…...

Java中常见的编码集问题

收录于热门专栏Java基础教程系列&#xff08;进阶篇&#xff09; 一、遇到一个问题 1、读取CSV文件 package com.guor.demo.charset;import java.io.BufferedReader; import java.io.FileReader; import java.util.ArrayList; import java.util.HashMap; import java.util.L…...

数据结构与算法(Java版) | 就让我们来看看几个实际编程中遇到的问题吧!

上一讲&#xff0c;我给大家简单介绍了一下数据结构&#xff0c;以及数据结构与算法之间的关系&#xff0c;照理来说&#xff0c;接下来我就应该要给大家详细介绍线性结构和非线性结构了&#xff0c;但是在此之前&#xff0c;我决定还是先带着大家看几个实际编程中遇到的问题&a…...

【C++算法】dfs深度优先搜索(上) ——【全面深度剖析+经典例题展示】

&#x1f483;&#x1f3fc; 本人简介&#xff1a;男 &#x1f476;&#x1f3fc; 年龄&#xff1a;18 &#x1f4d5; ps:七八天没更新了欸&#xff0c;这几天刚搞完元宇宙&#xff0c;上午一直练&#x1f697;&#xff0c;下午背四级单词和刷题来着&#xff0c;还在忙一些学弟…...

总结高频率Vue面试题

目录 什么是三次握手&#xff1f; 什么是四次挥手&#xff1f;&#xff08;close触发&#xff09; 什么是VUEX&#xff1f; 什么是同源----跨域&#xff1f; 什么是Promise&#xff1f; 什么是fexl布局&#xff1f; 数据类型 什么是深浅拷贝&#xff1f; 什么是懒加载&…...

IP协议详解

目录 前言&#xff1a; IP协议 提出问题 解决方案 地址管理 子网掩码 路由选择 小结&#xff1a; 前言&#xff1a; IP协议作为网络层知名协议。当数据经过传输层使用TCP或者UDP对数据进行封装&#xff0c;然后当数据到达网络层&#xff0c;基于TCP或UDP数据包继续进行…...

webpack5 基础配置

在开发中&#xff0c;我们会使用 vue、react、less、scss等语法进行开发项目&#xff0c;但是浏览器只能识别 js、css&#xff0c;或者说在js中使用了es6中的import 导入 这时候也需要打包工具去转换成浏览器可以识别的语句。 一、使用webpack 1.初始化package.json npm i…...

IDEA入门安装使用教程

一、背景 作为一个Java开发者&#xff0c;有非常多编辑工具供我们选择&#xff0c;比如Eclipse、IntelliJ IDEA、NetBeans、Visual Studio Code、Sublime Text等等&#xff0c;这些有免费也有收费的&#xff0c;但是就目前市场占比来说普遍使用Eclipse和IntelliJ IDEA这两款主…...

Appium+python自动化(十六)- ADB命令

简介 Android 调试桥(adb)是多种用途的工具&#xff0c;该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具&#xff0c;其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利&#xff0c;如安装和调试…...

ETLCloud可能遇到的问题有哪些?常见坑位解析

数据集成平台ETLCloud&#xff0c;主要用于支持数据的抽取&#xff08;Extract&#xff09;、转换&#xff08;Transform&#xff09;和加载&#xff08;Load&#xff09;过程。提供了一个简洁直观的界面&#xff0c;以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式&#xff08;Python 实现&#xff09; 在 Python 中&#xff0c;你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是&#xff0c;.doc 是旧的 Word 格式&#xff0c;而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

linux 下常用变更-8

1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行&#xff0c;YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID&#xff1a; YW3…...

Matlab | matlab常用命令总结

常用命令 一、 基础操作与环境二、 矩阵与数组操作(核心)三、 绘图与可视化四、 编程与控制流五、 符号计算 (Symbolic Math Toolbox)六、 文件与数据 I/O七、 常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结,涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…...

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路 在Android中&#xff0c;可以通过监听键盘的显示和隐藏事件&#xff0c;动态调整弹窗的位置。关键点在于获取键盘高度&#xff0c;并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

es6+和css3新增的特性有哪些

一&#xff1a;ECMAScript 新特性&#xff08;ES6&#xff09; ES6 (2015) - 革命性更新 1&#xff0c;记住的方法&#xff0c;从一个方法里面用到了哪些技术 1&#xff0c;let /const块级作用域声明2&#xff0c;**默认参数**&#xff1a;函数参数可以设置默认值。3&#x…...

医疗AI模型可解释性编程研究:基于SHAP、LIME与Anchor

1 医疗树模型与可解释人工智能基础 医疗领域的人工智能应用正迅速从理论研究转向临床实践,在这一过程中,模型可解释性已成为确保AI系统被医疗专业人员接受和信任的关键因素。基于树模型的集成算法(如RandomForest、XGBoost、LightGBM)因其卓越的预测性能和相对良好的解释性…...

Redis上篇--知识点总结

Redis上篇–解析 本文大部分知识整理自网上&#xff0c;在正文结束后都会附上参考地址。如果想要深入或者详细学习可以通过文末链接跳转学习。 1. 基本介绍 Redis 是一个开源的、高性能的 内存键值数据库&#xff0c;Redis 的键值对中的 key 就是字符串对象&#xff0c;而 val…...