第10章 文件和异常

发布于 2022-03-30  484 次阅读


学习处理文件,让程序可以快速分析大量数据;学习错误处理。避免程序在面对意外情形时崩溃;学习异常,它们是Python创建的特殊对象,用于管理程序运行时出现的错误;学习json模块,它能够保存用户数据,以免在程序停止运行后丢失。
学习处理文件和保存数据可让程序使用起来更容易。用户将能够选择输入什么样的数据,以及在什么时候输入;用户用你的程序做一些工作后,可将程序关闭,以后再接着往下做,学习处理异常可以帮助应对文件不存在的情形,以及处理其他可能导致程序奔溃的问题。这让程序在面对错误的数据时更健壮,不管这些错误数据源于无意的错误,还是源自于破坏程序的恶意企图。
提高程序适用性、可用性和稳定性。

10.1 从文件中读取数据

文本文件可存储数据量很多。每当需要分析或修改存储在文件中的信息时,读取文件都很有用,对数据分析应用程序来说尤其如此。
例如:编写一个程序,读取一个文本文件的内容,重新设置这些数据的格式并将其写入文件,让浏览器能够显示这些内容。
要使用文本文件中的信息,首先需要将信息读取到内存中。为此,可以一次性读取全部内容,也可以以每次一行的方式逐步读取。

10.1.1 读取整个文件

要读取文件,需要一个包含几行文本的文件。下面先创建一个文件,它包含一个到小数点后30位的圆周率值,并且在小数点后每10位处换行:

3.1415926535
  8979323846
  2643383279
# file_reader.py
with open('pi_digits.txt') as file_object:
    contents = file_object.read()
print(contents)

file
在这个程序中,第一行代码做了大量的工作。函数open(),要以任何方式使用文件,哪怕仅仅是打印起内容,都得先打开文件,才能访问它,函数open()接受一个参数:要打开的文件的名称,Python在当前执行的文件所在的目录中查找指定的文件。函数open()返回一个表示文件的对象,在这里open('pi_disgits.txt')返回一个表示文件pi_digits.txt的对象,Python将该对象赋给file_object供以后使用。
关键字with在不需要访问文件后将其关闭,在这个程序中,调用了open(),但没有调用close()。也可以调用open()和close()来打开和关闭文件,但这样做,如果程序导致bug导致方法close()未执行,文件将不会关闭,看似微不足道,但未妥善关闭文件可能导致数据丢失或受损。如果在程序中过早的调用close(),会发现需要使用文件时它以关闭(无法访问),这会导致更多的错误。并非在任何情况下都能轻松确定关闭文件的恰当时机,但通过使用前面所示的结构,可让Python去确定,我们只需打开文件,并在需要的时候使用它,Python自会在何使的时候自动将其关闭。
方法read()读取这个文件的全部内容,并将其作为一个常常的字符串赋给变量contents。
相比于原始文件,该输出唯一不同的地方是末尾多了一个空行。因为read()到达文件末尾返回一个空字符串,而将这个空字符串显示出来时就是一个空行,要删除多出来的空行,可在函数调用print()中使用rstrip().
rstrip()删除字符串末尾的空白。

10.1.2 文件路径

将类似于pi_digits.txt的简单文件名传递给函数open()时,Python将在当前只需的文件所在的目录中查找。
根据文件的组织方式,有时候可能需要打开不在程序所属目录中的文件。

with open('text_files/filename.txt') as file_object:

绝对路径通常比相对路径长,因此将其赋给一个变量,再将该变量传递给open()会有所帮助:

file_path = '/home/data/other_file/xx/xx.txt'
with open(file_path) as file_object:

通过使用绝对路径,可读取系统中的任何地方的文件。

注意:如果再文件路径中直接使用反斜杠,将引发错误。因为反斜杠用于对字符串中的字符进行转义。例如,对于路径"C:\PATH\to\file.txt",其中的\t被解读为制表符。如果一定要使用反斜杠,可对路径中的每个反斜杠都进行转义.
"C:\\PATH\\TO\\FILE.TXT"

10.1.3 逐行读取

读取文件时,常常需要检查其中的每一行:可能要在文件中查找特定的信息,或者以某种方式修改文件中的文本。例如,你可能要遍历一个包含天气数据的文件,并使用天气描述中包含sunny字符的行。在新闻报道中,你可能会查找包含标签\<headline>的行,并按照特定的格式设定它。
要以每次一行的方式检查文件,可对文件对象使用for循环:

file_name = 'pi_digits.txt'
with open(file_name) as file_object:
#    contents = file_object.read()
#print(contents.rstrip())
    for line in file_object:
        print(line.rstrip())

file
print()自带一个换行,且每行末尾都带一个换行符。

10.1.4 创建一个包含文件各行内容的列表

使用关键字with时,open()返回的文件多谢只在with代码块内用。如果要在with代码块之外访问文件的内容,可在with代码块内将文件的各行存储在一个列表内。并且在with代码块之外使用该列表:可以立即处理文件的各个部分,也可以推迟到程序后面再处理。

file_name = 'pi_digits.txt'
with open(file_name) as file_object:
    lines = file_object.readlines()
for line in lines:
    print(line.strip())

file
readlines()从文件中读取每一行,并且将其存储在一个列表中。接下来,该列表被赋给变量lines。在with代码块外面,依然可以使用这个变量。

10.1.5 使用文件的内容

将文件读取到内存后,就能以任何方式使用这些数据了。首先,创建一个字符串,它包含文件中存储的所有数字,且没有任何空格:

file_name = 'pi_digits.txt'
with open(file_name) as file_object:
    lines = file_object.readlines()
pi_string = ''
for line in lines:
    pi_string += line.rstrip()
print(pi_string)
print(len(pi_string))

file
变量pi_string指向的字符串包含原来位于每行左边的空格,为删除可以使用strip()而非rstrip():
file
字符串长度32,包含了整数部分3和小数点.。

注意:读取文本文件时,Python将其中的所有文本都解读为字符串。如果读取的是数,并要将其作为数值使用,就必须使用int()将其转换为整数或者使用函数float()将其转换为浮点数。

10.1.6 包含一百万位的大型文件

只需要将这个文件传递给它即可,只打印小数点后50位。

file_name = 'pi_million_digits.txt'
with open(file_name) as file_object:
    lines = file_object.readlines()
pi_string = ''
for line in lines:
    pi_string += line.strip()
print(f"{pi_string[:52]}...")
print(len(pi_string))

file
对可以处理的数据量,Python没有任何限制。只要系统的内存足够多,要处理多少数据都可以。

10.1.7 圆周率知道你的生日吗?

file_name = 'pi_million_digits.txt'
with open(file_name) as file_object:
    lines = file_object.readlines()
pi_string = ''
for line in lines:
    pi_string += line.strip()
birthday = input("Enter your birthday:")
if birthday in pi_string:
    print("Yes!")
else:
    print("No~!")

file

10.2 写入文件

保存数据的最简单方式之一是将其写入文件。通过输出写入文件,即便关闭包含程序输出的终端窗口,这些输出也依然存在;可以在程序运行后查看这些输出,可以与别人分享输出文件,还可以编写程序来将这些输出读取到内存中并进行处理。

10.2.1 写入空文件

要将文本写入文件,在调用open()时候提供另外一个实参,告诉Python你要写入打开的文件。为明白其中的工作原理,来将一条简单的消息存储到文件中。

filename = 'programming.txt'

with open(filename,'w') as file_object:
    file_object.write("I love programming")

file
在本例中,调用open()时提供两个实参。第一个实参也是要打开的文件的名称,第二个实参('w')告诉Python,要以写入模式打开这个文件。打开文件时,可指定读取模式('r'),写入模式('w'),附加模式('a')或读写模式('r+')。如果省略了模式参数,Python将以只读模式打开文件。
如果要写入的文件不存在,函数open()将自动创建它,然而,以写入('w')打开文件时,千万要小心,因为如果指定的文件已经存在,Python将在返回文件对象前清空该文件的内容。

Python只能将字符串写入文本文件。要将数值数据存储到文本文件中,必须先使用函数str()将其转换为字符串格式.

10.2.2 写入多行

函数write()不会在写入的文本末尾添加换行符,因此如果写入多行时候没有指定换行符:

filename = 'programming.txt'

with open(filename,'w') as file_object:
    file_object.write("I love programming")
    file_object.write("Hei~GuoAn")

file
加入换行符
file
还可以使用空格,制表符和空行来设置这些输出的格式。

10.2.3 附加到文件

如果要给文件添加内容,而不是覆盖原有的内容,可以使用附加模式打开文件。以附加模式打开文件时,Python不会在返回文件对象前清空文件的内容,而是将写入文件的行添加到文件末尾。如果指定文件不存在,Python将创建空文件。

filename = 'programming.txt'

with open(filename,'a') as file_object:
    file_object.write("I love programming\n")
    file_object.write("Hei~GuoAn\n")

file

10.3 异常

Python使用称为异常的特殊对象来管理程序指向期间发生的错误。每当发生让Python不知所措的错误时,它都创建一个异常对象,如果编写了处理该异常的代码,程序将继续运行:如果未对异常进行处理,程序将停止并显示traceback,其中包含有关异常的报告。
异常是使用try-except代码块处理的。try-except代码让Python指向指定的操作,同时告诉Python发生异常时候该怎么办。使用try-except代码块时,即使出现异常,程序也将继续运行,显示编写的友好的错误消息,而不是令用户迷惑的traceback。

10.3.1 处理ZeroDivisionError异常

当一个数除以0时候:
file
错误ZeroDivisionError是个异常对象,Python无法按照要求做时,就会创建这样的对象。在这种情况下,Python将会停止运行,并指出发生了什么异常。

10.3.2 使用try-except代码块

当你认为可能会发生错误时,可以编写一个try-except代码块来处理可能引发的异常,让Python尝试运行一些代码,并告诉它如果这些代码引发了指定的异常该怎么办。
处理ZeroDivisionError异常的代码类似于:

try:
    print(5/0)
except ZeroDivisionError:
    print("You can't divide by zero!")

将导致错误的代码行print(5/0)放在一个try代码块中,如果try代码块中的代码运行起来没有问题,Python将跳过except代码块;如果try代码块中的代码导致了错误,Python将查找与之匹配的except代码块并运行其中的代码。
如果try-except代码块后面还有其他代码,程序将接着运行,因为已经告诉了Python如何处理这种错误。

10.3.3 使用异常避免奔溃

发生错误时候,如果程序还有其他工作尚未完成,妥善处理错误就尤其重要。这种情况经常会出现在要求用户提供输入的程序;如果程序能够妥善地处理无效输入,就能再提示用户提供的有效输入,而不至于奔溃。

print("Give me two numbers,and I'will divide them.")
print("Enter 'q' to quit.")

while True:
    first_number = input("\nFirst number:")
    if first_number == 'q':
        break
    second_number = input("\nSecond number:")
    if first_number == 'q':
        break
    answer = int(first_number) / int(second_number)
    print(answer)

file

露出这样的信息可能会被攻击。

10.3.4 else代码块

print("Give me two numbers,and I'will divide them.")
print("Enter 'q' to quit.")

while True:
    first_number = input("\nFirst number:")
    if first_number == 'q':
        break
    second_number = input("\nSecond number:")
    if first_number == 'q':
        break
    try:
        answer = int(first_number) / int(second_number)
    except ZeroDivisionError:
        print("You can't divide by 0!")
    else:
        print(answer)

file
依赖try代码块成功执行的代码都应放到else代码块中。
try-except-else代码块的工作原理大致如下:Python代码尝试执行try代码块中的代码,只有可能引发异常的代码才需要放在try语句中。有时候,有一些仅在代码块成功执行时才需要允运行的代码,这些代码应该放在else代码块中,except代码块告诉Python,如果尝试运行try代码块中的代码时引发了指定的异常该怎么办。
通过预测可能发生错误的代码、可编写健壮的程序。它们即使面对无效数据或缺少资源,也能继续运行,从而抵御无意的用户错误和恶意攻击。

10.3.5 处理FileNotFoundError异常

使用文件时,一种常见的问题是找不到文件:查找的文件可能在其他地方,文件名可能不正确,或者这个文件根本就不存在。对于所有这些情形,都可以使用try-except代码块以直观的方式处理。
我们来尝试读取一个不存在的文件夹。下面的程序尝试读取文件alice.txt的内容,但该文件没有存储在alice.py所在的目录

filename = 'alice.txt'

with open(filename,encoding='utf-8') as f:
    contents = f.read()

file
与前面相比有两个不同:一是使用变量f来表示文件对象,这是一种常见的做法。二是给参数encoding值制定了值,在系统默认编码与要读取的文件使用的编码不一致时,必须这样做。
这个错误是由open()导致的。因此,要处理这个错误,必须将try语句放在包含open()的代码行之前:

filename = 'alice.txt'

try:
    with open(filename,encoding='utf-8') as f:
        contents = f.read()
except FileNotFoundError:
    print(f"Sorry,the file {filename} does not exist.")

file
如果文件不存在,这个程序就什么都做不了。错误处理代码也意义不大,下面来拓展这个示例,使用多文件时,异常处理可以提供什么样的帮助。

10.3.6 分析文本

可以分析包含整本书的文本文件,很多经典文学作品都是简单以文本文件的形式提供的,因为它们不受版权限制。
下面来提取arr = [] title = "Alice in Wonderland"
arr = title.split()
print(arr)的文本,并尝试计算它包含多少个单词。
使用方法split(),它能根据一个字符串创建一个单词列表。
例如:

arr = []
title = "Alice in Wonderland"
arr = title.split()
print(arr)

file
方法split()以空格为分隔符将字符串拆分成多个部分,并将这些部分存储到一个列表中,结果是一个包含字符串中所有单词的列表。虽然有些单词可能包含标点,为计算这本书包含多少个单词,将对整篇小说调用split(),再计算得到的列表包含多少个元素,从而确定整篇童话大致包含多少个单词:

filename = 'alice.txt'

try:
    with open(filename,encoding='utf-8') as f:
        contents = f.read()
except FileNotFoundError:
    print(f"Sorry,the file {filename} does not exist.")
else:
    # 计算该文件大致包含多少个单词
    words = contents.split()
    num_words = len(words)
    print(f"The file {filename} has about {num_words} words.")

file

10.3.7 使用多个文件

下面多分析几本书。再此之前,先将这个程序的大部分代码移动到一个名为count_words()的函数中。

def count_words(filename):
    """计算一个文件大致包含多少个单词"""
    try:
        with open(filename, encoding='utf-8') as f:
            contents = f.read()
    except FileNotFoundError:
        print(f"Sorry,the file {filename} does not exist.")
    else:
        # 计算该文件大致包含多少个单词
        words = contents.split()
        num_words = len(words)
        print(f"The file {filename} has about {num_words} words.")
filenames = ['alice.txt','siddhartha.txt','moby_dic.txt','little_women.txt']
for filename in filenames:
    count_words(filename)

file
避免因为没有找到一个而停止,避免用户看到traceback。

10.3.8 静默失败

前面一个示例,告诉用户有一个文件找不到,但并非每次捕获异常都需要告诉用户,有时候希望程序在常时保持静默,就像什么都没发生一样继续运行。要让程序静默失败,可像通常那样编写try代码块,而在except代码块中明确地告诉Python什么都不要做。Python有一个pass语句,可用于让Python在代码块中什么都不要做。

def count_words(filename):
    """计算一个文件大致包含多少个单词"""
    try:
        with open(filename, encoding='utf-8') as f:
            contents = f.read()
    except FileNotFoundError:
        # print(f"Sorry,the file {filename} does not exist.")
        pass
    else:
        # 计算该文件大致包含多少个单词
        words = contents.split()
        num_words = len(words)
        print(f"The file {filename} has about {num_words} words.")
filenames = ['alice.txt','siddhartha.txt','moby_dic.txt','little_women.txt']
for filename in filenames:
    count_words(filename)

file
pass语句还冲到了占位符,提醒你在程序的某个地方什么都没有做,并且以后也许要在这里做些什么,例如,在这个程序中,我们可能决定将找不到的文件的名称写入missing_files.txt中,用户看不到这个文件,但我们可以继续读取它,进而处理所有找不到文件的问题。

10.3.9 决定报告那些错误

该在什么情况下向用户报告错误?又该在什么情况下静默失败?如果用户知道要分析那些文件,他们可能希望在又文件却没分析时出现一条消息告诉原因。
如果用户只想看到结果,并不知道要分析那些文件,可能无需再有问些文件不存在时告知他们。向用户显示它们不想看到的信息可能会降低程序的可用性。Python的错误处理结构让你能够细致地控制与用户分享错误信息的程度,要分享多少信息由你决定。
编写得很好且经过详尽测试的代码不容易出现内部错误,如语法或逻辑错误,但只要程序依赖于外部因素,如用户输入、存在指定的文件、有网络的链接,就有可能出现异常,凭借经验可以判断再程序的什么地方包含异常处理快,以及出现错误时,该向用户提供多少相关信息。

10.4 存储数据

很多程序都要求用户输入某种信息,如让用户存储游戏首选项或提供要可视化的数据。不管关注点是什么,程序都把用户提供的信息存储在列表和字典等数据结构中。用户关闭程序时,几乎总要总是要保存他们提供的信息。一种简单的方式是使用json来存储数据。
模块json能够将简单的Python数据结构转存到文件中,并在程序再此运行时加载该文件中的数据,还可以使用json在Python程序之间分享数据。更重要的是,JSON数据格式并非Python专用的,这让能够以JSON格式存储的数据与使用其他编程语言的人分享,这是一种轻便而有用的格式,也易于学习。

JSON(JavaScript Object Notation)格式最初是为JavaScript开发的。但随后成了一种常见格式。

10.4.1 使用json.dump()和json.load()

编写一个存储一组数的简短程序,再编写一个将这些数读到内存中的程序。
使用json.dump()来存储这组数。
函数json.dump()接受两个参数:要存储的数据,以及可用于存储数据的文件对象。
下面是如何存储数字列表:

import json

numbers = [2,3,5,7,11,13]

filename = 'numbers.json'
with open(filename,'w') as f:
    json.dump(numbers,f)

file
下面再编写json.load()将列表读取到内存之中:

import json

filename = 'numbers.json'
with open(filename) as f:
    numbers = json.load(f)

print(numbers)

file
这是一种在程序间共享数据的简单方式。

10.4.2 保存和读取用户生成的数据

使用json保存用户生成的数据大有裨益,因为如果不以某种方式存储,用户的信息会在程序停止运行时丢失。
例:提示用户首次运行程序时输入自己的名字,并在再次运行程序时记住他,

import json

username = input("What's your name? ")

filename = 'username.json'
with open(filename,'w') as f:
    json.dump(username,f)
    print(f"We'll remeber you when you comeback,{username}")

现在在编写一个程序,向已经存储了名字的用户发出问候:

import json

filename = 'username.json'

with open(filename) as f:
    username = json.load(f)
    print(f"Welcome back,{username}")

需要将这两个程序合并到一个程序中,这个程序运行时,将尝试从json文件中获取用户名。首先编写一个尝试恢复用户名的try代码块,如果这个文件不存在,就在except代码块中提示用户输入用户名,并将其存储到username.json中,以便程序再此运行时候能够获取。

import json

# 如果以前存储了用户名,就加载它
# 否则,提示用户输入用户名并存储它
filename = 'username.json'
try:
    with open(filename) as f:
        username = json.load(f)
except FileNotFoundError:
    username = input("What your's name?")
    with open(filename,'w') as f:
        json.dump(username,f)
        print(f"We'll remeber you when you comeback,{username}")
else:
    print(f"Welcome back {username}")

10.4.3 重构

我们经常会遇到这样的问题,代码能够正常运行,但通过将其划分为一系列完成具体工作的函数,还可以改进,这样的过程称为重构。重构让代码更清晰,更易于理解、更容易扩展。
要重构remeber_me.py,可将其大部分逻辑放到一个或多个函数中。remember_me.py的重点是问候用户,因此将所有代码放到一个名为greet_user()的函数中:

import json

def greet_user():
    """问候用户,并指出其名字"""
    filename = 'username.json'
    try:
        with open(filename) as f:
            username = json.load(f)
    except FileNotFoundError:
        username = input("What your's name?")
        with open(filename, 'w') as f:
            json.dump(username, f)
            print(f"We'll remeber you when you comeback,{username}")
    else:
        print(f"Welcome back {username}")

greet_user()

下面来重构greet_user(),减少其任务,为此,首先将获取已存储用户名的代码移到另一个函数:

import json

def get_stored_username():
    """如果存储了用户名,就获取它"""
    filename = 'username.json'
    try:
        with open(filename) as f:
            username = json.load(f)
    except FileNotFoundError:
        return None
    else:
        return username
def greet_user():
    """问候用户,并指出其名字"""
    username = get_stored_username()
    if username:
        print(f"Welcome back {username}")
    else:
        username = input("What your's name?")
        filename = 'username.json'
        with open(filename, 'w') as f:
            json.dump(username, f)
            print(f"We'll remeber you when you comeback,{username}")

greet_user()

新增的函数get_stored_username()目标明确。
这是一种不错的做法:函数要么返回预期的值,要么返回None。这让我们可以使用函数的返回值做简单的测试。
还需要重构greet_user()中的另外一个代码块,将没有存储用户名时提醒用户输入的代码放在一个独立的函数中:

import json

def get_stored_username():
    """如果存储了用户名,就获取它"""
    filename = 'username.json'
    try:
        with open(filename) as f:
            username = json.load(f)
    except FileNotFoundError:
        return None
    else:
        return username

def get_new_username():
    """提示用户输入用户名"""
    username = get_stored_username()
    filename = 'username.json'
    with open(filename,'w') as f:
        json.dump(username,f)
    return username

def greet_user():
    """问候用户,并指出其名字"""
    username = get_stored_username()
    if username:
        print(f"Welcome back {username}")
    else:
        username = get_new_username()
        print(f"We'll remeber you when you comeback,{username}")

greet_user()

要编写出清晰而易于维护和拓展的代码,这种划分必不可少。

10.5 小结

如何使用文件。
如何一次性读取整个文件。
如何以每次一行的方式读取文件的内容;
如何写入文件,以及如何将文本附加到文件末尾。
什么是异常以及如何处理程序可能引发的异常;
如何存储Python数据结构。


擦肩而过的概率