用 Python 将数据写到 CSV 文件

内容安全与风控智能应用

picture.image

-- Illustrations by Romain Trystram --

作者 : 极客猴,热衷于 Python,目前擅长利用 Python 制作网络爬虫以及 Django 框架。

我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会选择存储到数据库,而是选择存储到文件中,例如文本文件、CSV 文件、xls 文件等。因为文件具备携带方便、查阅直观。

Python 作为胶水语言,搞定这些当然不在话下。但在写数据过程中,经常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。

我先说下编码相关的知识。编码方式有很多种:UTF-8, GBK, ASCII 等。

ASCII 码是美国在上个世纪 60 年代制定的一套字符编码。主要是规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。使用一个字节就能表示一个字母符号。外加各种符号,使用 128 个字符就满足编码要求。

不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完全统计,汉字的数量大约将近 10 万个,日常所使用的汉字有 3000 个。显然,ASCII 编码无法满足需求。所以汉字采用 GBK 编码,使用两个字节表示一个汉字。简体中文的编码方式是 GBK2312。

那 UTF-8 又是什么编码?这要先说 Unicode 了。Unicode 目的是为了统一各种编码。因为各国都各自的编码方式。如果使用一种编码编码,使用另一种编码解码。这会造成出现乱码的情况。但 Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。

因此,如果我们要写数据到文件中,最好指定编码形式为 UTF-8。

Python 标准库中,有个名为 csv 的库,专门处理 csv 的读写操作。具体使用实例如下:


          
import csv  
import codecs  
# codecs 是自然语言编码转换模块  
  
fileName = 'PythonBook.csv'  
  
# 指定编码为 utf-8, 避免写 csv 文件出现中文乱码  
with codecs.open(fileName, 'w', 'utf-8') as csvfile:  
    # 指定 csv 文件的头部显示项  
    filednames = ['书名', '作者']  
    writer = csv.DictWriter(csvfile, fieldnames=filednames)  
  
    books = []  
    book = {  
        'title': '笑傲江湖',  
        'author': '金庸',  
    }  
    books.append(book)  
  
    writer.writeheader()  
    for book in books:  
        try:  
            writer.writerow({'书名':book['title'], '作者':book['author']})  
        except UnicodeEncodeError:  
            print("编码错误, 该数据无法写到文件中, 直接忽略该数据")  

      

这种方式是逐行往 CSV 文件中写数据, 所以效率会比较低。如果想批量将数据写到 CSV 文件中,需要用到 pandas 库。

pandas 是第三方库,所以使用之前需要安装。通过 pip 方式安装是最简单、最方便的。

pip install pandas

使用 pandas 批量写数据的用法如下:


          
import pandas as pd  
  
fileName = 'PythonBook.csv'  
number = 1  
  
books = []  
book = {  
    'title': '笑傲江湖',  
    'author': '金庸',  
}  
# 如果 book 条数足够多的话,pandas 会每次往文件中写 50 条数据。  
books.append(book)  
  
data = pd.DataFrame(books)  
# 写入csv文件,'a+'是追加模式  
try:  
    if number == 1:  
        csv_headers = ['书名', '作者']  
        data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8')  
    else:  
        data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8')  
        number = number + 1  
except UnicodeEncodeError:  
    print("编码错误, 该数据无法写到文件中, 直接忽略该数据")  

      

picture.image

Python中文社区

全球Python中文开发者的

精神部落

picture.image.jpg")

赞赏作者

picture.image

最近热门文章

Python中被忽略的else

用Python更加了解微信好友

高阶爬虫实战:破解极验滑动验证码

最新实用Python异步爬虫代理池(开源)

Python中文社区开源项目计划:ImagePy

我爬取豆瓣影评,告诉你《复仇者联盟3》在讲什么?(内附源码)

picture.image

点击下方 阅读原文 免费成为 社区会员

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论