当前位置: 首页 > news >正文

csv文件完整操作总结

csv文件完整操作总结

1.概述

csv 模块主要用于处理从电子数据表格Excel或数据库中导入到文本文件的数据,通常简称为 comma-separated value (CSV)格式因为逗号用于分离每条记录的各个字段。

2.读写操作

2.1.测试数据

创建一个test.csv文件,复制下面内容到文件中

"Title 1","Title 2","Title 3","Title 4"
1,"a",08/18/07,"å"
2,"b",08/19/07,"∫"
3,"c",08/20/07,"ç"

2.2.读取

从 CSV 文件中读取数据,可以使用 reader() 函数来创建一个读取对象。 这个读取对象顺序处理文件的每一行,可以把它当成迭代器使用, 例如:

import csvwith open('test.csv', 'rt') as f:reader = csv.reader(f)for row in reader:print(row)

reader() 的第一个参数指源文本,在这个例子中,是一个文件,但它可以是任何可迭代对象( StringIO 实例,list 等)。第二个参数是可选的,可用于控制输入的数据如何被解析。

['Title 1', 'Title 2', 'Title 3', 'Title 4']
['1', 'a', '08/18/07', 'å']
['2', 'b', '08/19/07', '∫']
['3', 'c', '08/20/07', 'ç']

2.3.写入

写入 CSV 文件和读取它们一样简单。使用 writer() 方法创建一个写入对象,然后使用 writerow() 去输出每一行。

import csvunicode_chars = 'å∫ç'with open('testout.csv', 'wt') as f:writer = csv.writer(f)writer.writerow(('Title 1', 'Title 2', 'Title 3', 'Title 4'))for i in range(3):row = (i + 1,chr(ord('a') + i),'08/{:02d}/07'.format(i + 1),unicode_chars[i],)writer.writerow(row)print(open('testout.csv', 'rt').read())

这个例子的输出和上面读取的例子看起来有些不同,是因为这里有的值没有加引号

Title 1,Title 2,Title 3,Title 4
1,a,08/01/07,å
2,b,08/02/07,3,c,08/03/07,ç

2.4.引号

写入时,默认的引用行为不同,所以之前示例中的第二和第三个字段未被引用。 要添加引号,请将 quoting 参数设置为其他引用模式。

writer = csv.writer(f, quoting=csv.QUOTE_NONNUMERIC)

在这个例子中, QUOTE_NONNUMERIC 会给所有字段值不是数字的值添加引号


"Title 1","Title 2","Title 3","Title 4"
1,"a","08/01/07","å"
2,"b","08/02/07","∫"
3,"c","08/03/07","ç"

有四种不同的引用选项,在 csv 模块中被定义为常量。

  • QUOTE_ALL :无论什么类型的字段都会被引用。
  • QUOTE_MINIMAL:这是默认的选项,使用指定的字符引用各字段(如果解析器被配置为相同的 dialect 和选项时,可能会让解析器在解析时产生混淆)。
  • QUOTE_NONNUMERIC:引用那些不是整数或浮点数的字段。当使用读取对象时,如果输入的字段是没有引号的,那么它们会被转换成浮点数。
  • QUOTE_NONE:对所有的输出内容都不加引用,当使用读取对象时,引用字符看作是包含在每个字段的值里(但在正常情况下,它们被当成定界符而被去掉)。

3.编码风格

其实没有一个标准定义这类逗号分隔值的文件,所以解析器需要很灵活,通过很多参数去控制如何解析 csv 或给其写入数据。但这并不是每个参数在写入或读取 csv 时分别传入,而是统一分组为一个 编码风格 对象。

3.1.查看编码风格

Dialect 类可以通过名字注册,因此 csv 模块调用它时不必预先知道相关的参数设置。所有注册过的编码风格列表可以通过 list_dialects() 方法查看。

import csvprint(csv.list_dialects())

标准库提供了三种编码风格,分别为: excel, excel-tabs 和 unix。 excel 编码风格用来处理默认来自 Microsoft Excel 格式的数据的,同样可用于处理来自 LibreOffice 格式的。 unix 编码风格将所有字段通过双引号引用,并用 \n 做为每条记录的分隔符。

['excel', 'excel-tab', 'unix']

3.2.创建一个编码风格

如果不使用逗号分隔字段,输入文件使用竖杠( | ),新建一个testdata.pipes文件,复制下面内容到文件中作为测试数据。

"Title 1"|"Title 2"|"Title 3"
1|"first line
second line"|08/18/07

使用「竖杠」的编码风格,可以像使用逗号一样读取文件

import csvcsv.register_dialect('pipes', delimiter='|')with open('testdata.pipes', 'rt') as f:reader = csv.reader(f, dialect='pipes')for row in reader:print(row)

运行结果

['Title 1', 'Title 2', 'Title 3']
['1', 'first line\nsecond line', '08/18/07']

3.3.编码风格参数

编码风格指定解析或写入数据文件时使用的所有标记。下表列出了可以设定的属性,从字段的分隔方式到用于转义标记的字符。

属性默认含义
delimiter,字段分隔符(单字符)
doublequoteTrue控制 quotechar 实例是否翻倍
escapecharNone用于表示转义序列的字符
lineterminator\r\n写入时用来换行的字符
quotechar"引用含特殊值字段的字符(一个字符)
quotingQUOTE_MINIMAL控制前面表述的引用行为
skipinitialspaceFalse是否在字段分隔符后忽略空格

这段程序演示了当使用几种不同的编码风格格式化时,相同的数据如何展示。

import csv
import syscsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE,)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL,)quoting_modes = {getattr(csv, n): nfor n in dir(csv)if n.startswith('QUOTE_')
}TEMPLATE = '''\
Dialect: "{name}"delimiter   = {dl!r:<6}    skipinitialspace = {si!r}doublequote = {dq!r:<6}    quoting          = {qu}quotechar   = {qc!r:<6}    lineterminator   = {lt!r}escapechar  = {ec!r:<6}
'''for name in sorted(csv.list_dialects()):dialect = csv.get_dialect(name)print(TEMPLATE.format(name=name,dl=dialect.delimiter,si=dialect.skipinitialspace,dq=dialect.doublequote,qu=quoting_modes[dialect.quoting],qc=dialect.quotechar,lt=dialect.lineterminator,ec=dialect.escapechar,))writer = csv.writer(sys.stdout, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars: " \' {} to parse'.format(dialect.delimiter)))print()

运行结果


Dialect: "escaped"delimiter   = ','       skipinitialspace = 0doublequote = 0         quoting          = QUOTE_NONEquotechar   = '"'       lineterminator   = '\r\n'escapechar  = '\\'col1,1,10/01/2010,Special chars: \" ' \, to parseDialect: "excel"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_MINIMALquotechar   = '"'       lineterminator   = '\r\n'escapechar  = Nonecol1,1,10/01/2010,"Special chars: "" ' , to parse"Dialect: "excel-tab"delimiter   = '\t'      skipinitialspace = 0doublequote = 1         quoting          = QUOTE_MINIMALquotechar   = '"'       lineterminator   = '\r\n'escapechar  = Nonecol1    1       10/01/2010      "Special chars: "" '     to parse"Dialect: "singlequote"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_ALLquotechar   = "'"       lineterminator   = '\r\n'escapechar  = None'col1','1','10/01/2010','Special chars: " '' , to parse'Dialect: "unix"delimiter   = ','       skipinitialspace = 0doublequote = 1         quoting          = QUOTE_ALLquotechar   = '"'       lineterminator   = '\n'escapechar  = None"col1","1","10/01/2010","Special chars: "" ' , to parse"

3.4.自动检测编码风格

配置一个输入文件的编码风格的最好的办法是提前知道哪种编码风格是正确的。对于那些编码风格未知的参数, Sniffer 类可用于做有效的猜测。 sniff() 方法会获取输入数据的一个样本和一个可选参数,给出可能的分隔符。

import csv
from io import StringIO
import textwrapcsv.register_dialect('escaped',escapechar='\\',doublequote=False,quoting=csv.QUOTE_NONE)
csv.register_dialect('singlequote',quotechar="'",quoting=csv.QUOTE_ALL)# 为所有已知的编码风格生成样本数据
samples = []
for name in sorted(csv.list_dialects()):buffer = StringIO()dialect = csv.get_dialect(name)writer = csv.writer(buffer, dialect=dialect)writer.writerow(('col1', 1, '10/01/2010','Special chars " \' {} to parse'.format(dialect.delimiter)))samples.append((name, dialect, buffer.getvalue()))# 猜测样本的编码风格,然后用猜测结果来解析数据。
sniffer = csv.Sniffer()
for name, expected, sample in samples:print('Dialect: "{}"'.format(name))print('In: {}'.format(sample.rstrip()))dialect = sniffer.sniff(sample, delimiters=',\t')reader = csv.reader(StringIO(sample), dialect=dialect)print('Parsed:\n  {}\n'.format('\n  '.join(repr(r) for r in next(reader))))

sniff() 方法返回一个包含了解析数据的参数的 Dialect 实例。结果并不一定是正确的,例如这个例子中的「escaped」。

python3 csv_dialect_sniffer.pyDialect: "escaped"
In: col1,1,10/01/2010,Special chars \" ' \, to parse
Parsed:'col1''1''10/01/2010''Special chars \\" \' \\'' to parse'Dialect: "excel"
In: col1,1,10/01/2010,"Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "excel-tab"
In: col1        1       10/01/2010      "Special chars "" '      to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' \t to parse'Dialect: "singlequote"
In: 'col1','1','10/01/2010','Special chars " '' , to parse'
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'Dialect: "unix"
In: "col1","1","10/01/2010","Special chars "" ' , to parse"
Parsed:'col1''1''10/01/2010''Special chars " \' , to parse'

相关文章:

csv文件完整操作总结

csv文件完整操作总结 1.概述 csv 模块主要用于处理从电子数据表格Excel或数据库中导入到文本文件的数据&#xff0c;通常简称为 comma-separated value &#xff08;CSV&#xff09;格式因为逗号用于分离每条记录的各个字段。 2.读写操作 2.1.测试数据 创建一个test.csv文…...

时间序列预测--基于CNN的股价预测(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 时间序列预测有很多方法&#xff0c;如传统的时序建模方法ARIMA、周期因子法、深度学习网络等&#xff0c;本次实验采用最简单的…...

Dubbo与Spring Cloud优缺点分析(文档学习个人理解)

文章目录核心部件1、总体框架1.1 Dubbo 核心部件如下1.2 Spring Cloud 总体架构2、微服务架构核心要素3、通讯协议3.1 Dubbo3.2 Spring Cloud3.3 性能比较4、服务依赖方式4.1 Dubbo4.2 Spring Cloud5、组件运行流程5.1 Dubbo5.2 Dubbo 运行组件5.3 Spring Cloud5.4 Spring Clou…...

单元测试工具——JUnit的使用

⭐️前言⭐️ 本篇文章主要介绍单元测试工具JUnit的使用。 &#x1f349;欢迎点赞 &#x1f44d; 收藏 ⭐留言评论 &#x1f4dd;私信必回哟&#x1f601; &#x1f349;博主将持续更新学习记录收获&#xff0c;友友们有任何问题可以在评论区留言 &#x1f349;博客中涉及源码…...

Linux_基本权限

Linux入门第二篇已送达&#xff01; Linux_基本权限shell外壳权限Linux的用户分类角色划分Linux的文件文件类型查看权限目录的权限默认权限粘滞位shell外壳 为了保护操作系统&#xff0c;用户的指令不能由操作系统直接进行执行&#xff0c;需要一个中间者&#xff0c;比如Linu…...

3、JavaScript面试题

1, Js数据类型有哪些&#xff1f;数值、字符串、布尔、undefined、null、数组、对象、函数2, 引用类型和值类型的区别- 值类型存在于栈中, 存取速度快 引用类型存在于堆,存取速度慢- 值类型复制的是值本身 引用类型复制的是指向对象的指针- 值类型结构简单只包含基本数据, 引用…...

YUV图像

YUV的存储方式UV格式有两大类&#xff1a;planar和packed。对于planar的YUV格式&#xff0c;先连续存储所有像素点的Y&#xff0c;紧接着存储所有像素点的U&#xff0c;随后是所有像素点的V。对于packed的YUV格式&#xff0c;每个像素点的Y,U,V是连续交替存储的。YUV的采样主流…...

.net6API使用AutoMapper和DTO

AutoMapper&#xff0c;是一个转换工具&#xff0c;说到AutoMapper时&#xff0c;就不得不先说DTO&#xff0c;它叫做数据传输对象(Data Transfer Object)。 通俗的来说&#xff0c;DTO就是前端界面需要用的数据结构和类型&#xff0c;而我们经常使用的数据实体&#xff0c;是数…...

IO知识整理

IO 面向系统IO page cache 程序虚拟内存到物理内存的转换依靠cpu中的mmu映射 物理内存以page&#xff08;4k&#xff09;为单位做分配 多个程序访问磁盘上同一个文件&#xff0c;步骤 kernel将文件内容加载到pagecache多个程序读取同一份文件指向的同一个pagecache多个程…...

【正点原子FPGA连载】第十三章QSPI Flash读写测试实验 摘自【正点原子】DFZU2EG_4EV MPSoC之嵌入式Vitis开发指南

1&#xff09;实验平台&#xff1a;正点原子MPSoC开发板 2&#xff09;平台购买地址&#xff1a;https://detail.tmall.com/item.htm?id692450874670 3&#xff09;全套实验源码手册视频下载地址&#xff1a; http://www.openedv.com/thread-340252-1-1.html 第十三章QSPI Fl…...

深入理解mysql的内核查询成本计算

MySql系列整体栏目 内容链接地址【一】深入理解mysql索引本质https://blog.csdn.net/zhenghuishengq/article/details/121027025【二】深入理解mysql索引优化以及explain关键字https://blog.csdn.net/zhenghuishengq/article/details/124552080【三】深入理解mysql的索引分类&a…...

LeetCode 141. 环形链表

原题链接 难度&#xff1a;easy\color{Green}{easy}easy 题目描述 给你一个链表的头节点 headheadhead &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 nextnextnext 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的…...

git提交

文章目录关于数据库&#xff1a;桌面/vue-admin/vue_shop_api 的 git 输入 打开 phpStudy ->mySQL管理器 导入文件同时输入密码&#xff0c;和文件名 node app.js 错误区&#xff1a; $ git branch // git branch 查看分支 只有一个main分支不见master解决&#xff1a; gi…...

Java中常见的编码集问题

收录于热门专栏Java基础教程系列&#xff08;进阶篇&#xff09; 一、遇到一个问题 1、读取CSV文件 package com.guor.demo.charset;import java.io.BufferedReader; import java.io.FileReader; import java.util.ArrayList; import java.util.HashMap; import java.util.L…...

数据结构与算法(Java版) | 就让我们来看看几个实际编程中遇到的问题吧!

上一讲&#xff0c;我给大家简单介绍了一下数据结构&#xff0c;以及数据结构与算法之间的关系&#xff0c;照理来说&#xff0c;接下来我就应该要给大家详细介绍线性结构和非线性结构了&#xff0c;但是在此之前&#xff0c;我决定还是先带着大家看几个实际编程中遇到的问题&a…...

【C++算法】dfs深度优先搜索(上) ——【全面深度剖析+经典例题展示】

&#x1f483;&#x1f3fc; 本人简介&#xff1a;男 &#x1f476;&#x1f3fc; 年龄&#xff1a;18 &#x1f4d5; ps:七八天没更新了欸&#xff0c;这几天刚搞完元宇宙&#xff0c;上午一直练&#x1f697;&#xff0c;下午背四级单词和刷题来着&#xff0c;还在忙一些学弟…...

总结高频率Vue面试题

目录 什么是三次握手&#xff1f; 什么是四次挥手&#xff1f;&#xff08;close触发&#xff09; 什么是VUEX&#xff1f; 什么是同源----跨域&#xff1f; 什么是Promise&#xff1f; 什么是fexl布局&#xff1f; 数据类型 什么是深浅拷贝&#xff1f; 什么是懒加载&…...

IP协议详解

目录 前言&#xff1a; IP协议 提出问题 解决方案 地址管理 子网掩码 路由选择 小结&#xff1a; 前言&#xff1a; IP协议作为网络层知名协议。当数据经过传输层使用TCP或者UDP对数据进行封装&#xff0c;然后当数据到达网络层&#xff0c;基于TCP或UDP数据包继续进行…...

webpack5 基础配置

在开发中&#xff0c;我们会使用 vue、react、less、scss等语法进行开发项目&#xff0c;但是浏览器只能识别 js、css&#xff0c;或者说在js中使用了es6中的import 导入 这时候也需要打包工具去转换成浏览器可以识别的语句。 一、使用webpack 1.初始化package.json npm i…...

IDEA入门安装使用教程

一、背景 作为一个Java开发者&#xff0c;有非常多编辑工具供我们选择&#xff0c;比如Eclipse、IntelliJ IDEA、NetBeans、Visual Studio Code、Sublime Text等等&#xff0c;这些有免费也有收费的&#xff0c;但是就目前市场占比来说普遍使用Eclipse和IntelliJ IDEA这两款主…...

Lambda表达式使用及详解

一 Lambda表达式的简介 Lambda表达式&#xff08;闭包&#xff09;&#xff1a;java8的新特性&#xff0c;lambda运行将函数作为一个方法的参数&#xff0c;也就是函数作为参数传递到方法中。使用lambda表达式可以让代码更加简洁。 Lambda表达式的使用场景&#xff1a;用以简…...

JAVA练习52-打家劫舍

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、题目-打家劫舍 1.题目描述 2.思路与代码 2.1 思路 2.2 代码 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 2月16日练习内容 提…...

简单谈一谈幂等测试

1、什么是幂等测试 幂等是一个抽象的概念&#xff0c;在编程中一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同&#xff0c;即多次调用方法或者接口不会改变业务状态&#xff0c;可以保证重复调用的结果和单次调用的结果一致。幂等测试&#xff0c;则主…...

typescript复习笔记

数组类型-限定每一项的类型 //写法一 const arrNumber: number[] [1, 2, 3] const arrString: string[] [a, b, c] //写法二 const arrNumber2: Array<number> [1, 2, 3] const arrString2: Array<string> [a, b, c]联合类型 符号是 | //数组可以存放字符串或…...

webstorm开发electron,调试主进程方案

官网教程地址&#xff1a;https://www.electronjs.org/zh/docs/latest/tutorial/debugging-main-process 我只能说官网太看得起人了&#xff0c;整这么简易的教程…… 命令行开关 第一步还是要按要求在我们的package.json里加上端口监听&#xff1a;–inspect5858 我的命令…...

2W字正则表达式基础知识总结,这一篇就够了!!(含前端常用案例,建议收藏)

正则表达式 (Regular Expression&#xff0c;简称 RE 或 regexp ) 是一种文本模式&#xff0c;包括普通字符&#xff08;例如&#xff0c;a 到 z 之间的字母&#xff09;和特殊字符&#xff08;称为"元字符"&#xff09;正则表达式使用单个字符串来描述、匹配一系列匹…...

自学web前端觉得好难,可能你遇到了这些困境

好多人跟我说上学的时候也学过前端&#xff0c;毕业了想从事web前端开发的工作&#xff0c;但自学起来好难&#xff0c;快要放弃了&#xff0c;所以我总结了一些大家遇到的困境&#xff0c;希望对你会有所帮助。 目录 1. 意志是否坚定 2. 没有找到合适自己的老师 3. 为了找…...

ASEMI中低压MOS管18N20参数,18N20封装,18N20尺寸

编辑-Z ASEMI中低压MOS管18N20参数&#xff1a; 型号&#xff1a;18N20 漏极-源极电压&#xff08;VDS&#xff09;&#xff1a;200V 栅源电压&#xff08;VGS&#xff09;&#xff1a;30V 漏极电流&#xff08;ID&#xff09;&#xff1a;18A 功耗&#xff08;PD&#x…...

[NetBackup]客户端安装后server无法连通client

client name处填写客户端主机名&#xff0c;server to use for backups and restores处填写server端名字&#xff0c;与hosts文件内保持一致&#xff1b;source client for restores处填写client主机名&#xff0c;与server端hosts文件中保持一致&#xff0c;与主机实际名称保持…...

黑马Java后端项目实战--在线聊天交友

【课程简介】 越来越多的系统都有消息推送的功能&#xff0c;如聊天室、邮件推送、系统消息推送等&#xff1b; 要实现消息推送就需要服务端在数据有变化时主动推送消息给客户端&#xff0c;本次课程将带大家使用websocket实现消息推送。 【主讲内容】 1.方法&#xff1a;如…...

福田商城网站建设/世界足球排名

linux下的打包压缩打包和压缩gzip 压缩gzip -[1-9] filename 指定压缩等级gzip -c filename 输出压缩结果到标准输出gzip -d filename 解压缩gzip -k filename 保留原文件gzip -f filename 强制覆盖同名文件gzip -l filename 打印压缩信息gzip -n/N filename 保留源文件信息gzi…...

大连seo外包公司/品牌推广百度seo

1.软件的前期准备分为“需求准备”和“构建准备”&#xff0c;两者都有系统的规范。code complete中对这两者都提出了详细的确认方法。这里的确认方法并非戒律&#xff0c;而更像备忘。 2.在构建活动中的设计部分&#xff0c;书中提出了几大范围&#xff0c;我个人觉得划分得非…...

做网站时的尺寸/seo的中文是什么

[讨论] 这几天来封装Win7用户配置文件丢失的解决方法个人心得 prerouting 发表于 2010-5-9 16:50:46 https://www.itsk.com/thread-36634-1-4.html [讨论] 这几天来封装Win7用户配置文件丢失的解决方法个人心得 前几日发帖&#xff08;http://sky123.org/thread-36378-1-1.html…...

苏州专业网站建设的公司/企业qq

测试套件&#xff08;Test Suite&#xff09;是测试用例、测试套件或两者的集合&#xff0c;用于组装一组要运行的测试&#xff08;多个测试用例集合在一起&#xff09;。 &#xff08;1&#xff09;创建一个测试套件&#xff1a; import unittest suite unittest.TestSuite…...

自己做网站服务器要多少钱/淘宝搜索关键词排名查询工具

前言作为后端程序员的我们&#xff0c;通常我们要构建API服务&#xff0c;要写服务端接口&#xff0c;自然少不了写接口文档&#xff0c;否则就要口述&#xff0c;但口述的痛点也很多。一般情况下&#xff0c;我们的接口文档要写两份&#xff1a;1.给前端团队看的word接口文档。…...

微信公众号网站建设/2345纯净版推广包

原文出处&#xff1a;https://wiki.ubuntu.com/IptablesHowTo 原文作者&#xff1a;UbuntuWiki 授权许可&#xff1a;创作共享协议 GNU FDL 翻译人员&#xff1a;denven 校对人员&#xff1a;5451vs5451 贡献者&#xff1a; 适用版本&#xff1a; 文章状态&#xff1a;翻译完成…...