第13章 文件输入/输出

发布于 2021-09-18  474 次阅读


13.1 与文件进行通信

文件是当计算机系统不可或缺的部分。
文件用于存储程序、文档、数据、书信、表格、图形、照片、视频和许多其他种类的信息。
有时,需要程序从文件中读取信息或把信息写入文件。这种程序与文件交互的形式就是文件重定向。这种方法很简单,但是有一定的限制。例如:假设要编写一个交互程序,询问用户书名并把完整的书名保存在文件中。如果使用重定向,应该类似于:
books > bklist
用户的输入被重定向到bklist中。这样做不仅会把不符合要求的文本写入bklist,而且用户也看不到要回答什么问题。
C提供了更强大的文件通信方法,可以在程序中打开文件,然后使用特殊的I/O函数读取文件中的信息或把信息写入文件。

13.1.1 文件是什么?

文件(file)通常是在磁盘或固态硬盘上的一段已命名的存储区。对我们而言,stdio.h就是一个文件的名称。该文件包含一些有用的信息。然而,对操作系统而言,文件更复杂一些。例如,大型文件会被分开存储,火鹤包含一些额外的数据,方便操作系统确定文件的种类。然而,这都是操作系统所关心的,程序员更关心的是C程序如何处理文件。
C把文件看作是一系列连续的字节,每个字节都能被单独读取。这与UNIX环境中的文件结构相对应。由于其他环境中可能无法完全对应这个米星,C提供两种文件模式:文本模式和二进制模式。

13.1.2 文本模式和二进制模式

首先,要区分文本内容和二进制内容、文本文件格式和二进制文件格式,以及文件的文本模式和二进制模式。
所有的文件的内容都都以二进制形式(0或1)存储。但是,如果文件最初使用二进制编码的字符表表示文本,该文件就是文本文件,其中包含文本内容。如果文件中的二进制值代表及其语言代码或数值数据(使用相同的内部表示,假设,用于long或double类型的值)或图片或音乐编码,该文件就是二进制文件,其中包含二进制内容。
UNIX用同一种文件格式处理文本文件和二进制文件的内容。不奇怪,因为C是作为开发UNIX的工具而创建的,C和UNIX在文本中都是用\n表示换行。UNIX目录中还有一个统计文件大小的计数,程序可使用该计数确定是否督导文件结尾。然而,其他系统再此之前已经有其他方法处理文本文件,专门用于保存文本。也就是说,其他系统已经有了一种与UNIX模型不同的格式处理文本文件。
为了规范文本文件的处理,C提供两种访问文件的途径:二进制模式和文本模式。在二进制模式中,程序可以访问文件的每个字节。在文本模式中。程序所见的内容和文件的实际内容不同。程序以文本模式读取文件时,把本地环境表示的行末尾或文件结尾映射为C模式。
除了以文本模式读写文本文件,还能以二进制模式读写文本文件。如果写了一个旧式MS-DOS文本文件,程序会看见文件中的\r和\n字符,不会发生映射。如果要编写旧式Mac格式,MS-DOS格式或者UNIX/Linux格式的文件模式程序,应该使用二进制模式,这样程序才能确定实际的文件内容并执行相应的动作。

file

虽然C提供了二进制模式和文本模式,但是这两种模式的实现可以相同,因为UNIX使用一种文件格式,这两种模式对UNIX实现而言完全相同。Linux也是如此。

13.1.3 I/O的级别

除了选择文件的模式外,大多数情况下,还可以选择I/O两个级别(即处理文件访问的两个级别)。底层I/O(low-level I/O)使用操作系统提供的基本I/O服务。标准高级I/O(standard high-level I/O)使用C库的标准包和stdio.h 头文件定义。因为无法保证所有的操作系统都是用相同底层I/O模型。C标准只指出保准I/O包。有些实现会提供底层库,但是C标准建立了可移植的I/0模型。

13.1.4 标准文件

C会自动打开3个文件,它们被称为输入标准(standard input)、标准输出(standard output)和标准错误输出(standard error output)。在默认情况下,标准输入是系统的普通输入设备,通常为家农安;标准输出和标准错误输出是系统的普通设备,通常为显示屏。
通常,标准输入为程序提供输入,它是getchar()和scanf()使用的文件。程序通常输出到标准或标准输出。标准错误输出提供了一个逻辑上不同的地方发送错误消息。例如,如果使用重定向把输出发送给文件而不是屏幕,那么发送至标准错误输出的内容仍然会被发送到屏幕上。这样很好,因为如果把错误消息发送至文件,那只能打开文件才能看到。

13.2 标准I/O

与底层I/O相比,标准I/O包除了可移植以外还有两个好处。
第1,标准I/O有许多专门的函数简化了处理不同I/O的问题。例如:printf()把不同形式的数据转换成与中断相适应的字符串输出。
第2,输入和输出都是缓冲的。也就是说,依次转移一大块信息而不是一节信息(通常至少是512字节)。例如:当程序读取文件时,一块数据被拷贝到缓冲区(一块中介存储区域)。这种缓冲极大地提高了数据传输速率。程序可以检查缓冲区中的字节。
缓冲区在后台处理,所有让人有种逐字符访问的错觉(如果使用底层I/O,要自己完成大部分工作)。
下述程序清单演示了如何用标准I/O读取文件和统计文件中的字符数。
//count.c       --使用标准I/O函数 
#include<stdio.h>
#include<stdlib.h>    //--提供exit()的原型

int main(int argc,char *argv[])
{
    int ch;     //读取文件时,储存每个字符的地方
    FILE *fp;   //"文件指针"
    unsigned long count = 0;
    if(argc !=2) 
    {
        printf("Usage: %s filename\n",argv[0]);

        exit(EXIT_FAILURE);
    }
    if((fp = fopen(argv[1],"r")) == NULL)
    {
        printf("Can't open %s\n",argv[1]);
        exit(EXIT_FAILURE);
    }
    while((ch = getc(fp)) != EOF)
    {
        putc(ch,stdout);    //与putchar(ch);相同
        count++; 
    }
    fclose(fp);
    printf("File %s has %lu characters\n",argv[1],count);

    return 0;
 } 

file

file

13.2.1 检查命令行参数

首先,该程序中的程序检查argc的值,查看是否有命令行参数。如果没有,程序将打印出一条消息并退出程序。字符串argv[0]是该程序的名称。显示使用argv[0]而不是程序名字,错误消息的描述会随可执行文件名的改变的改变而自动改变。这一特性像在UNIX种允许单个文件具有多个文件名的环境中也很方便。但是一些操作系统可能不识别argv[0],所以这种方法并非完全可移植。
 exit()函数关闭所有打开的文件并结束程序。exit ()的参数被传递给一些操作系统,包括UNIX、linux、windows和MS-DOS,以供其他程序使用。通常的惯例是:正常结束的程序传递0,一场结束的程序传递非0值。不同的退出值可用以区分程序失败的不同原因,这也是UNIX和DOS编程的通常做法。但是,并不是所有的操作系统都能识别相同范围内的返回值。因此,C标准规定了一个最小的限制范围。尤其是,标准要求0或宏EXIT_SUCCESS用于表示成功结束程序,宏EXIT_FALLURE用于表明结束程序失败。这些宏和exit()原型都位于stdlib.h头文件中。
 根据ANSI C的规定,在最初调用main()中使用return与调用exit()的效果相同。因此,在main()中,下面语句:
 return 0;
 和下面这条语句的作用相同:
 exit(0);
 但是要注意,我们说的是最初的调用。如果main()在一个递归程序中,exit()仍然会终止程序。
 但是return只会把控制权交给上一级递归,直至最初的一级。然后return结束程序。return和exit()的另一个区别是,即使在其他函数中(除main())以外,调用exit()也能结束整个程序。

13.2.2 fopen()函数

继续分析程序清单,该程序使用fopen()函数打开文件。该函数声明在stdio.h中,它的第一个参数是带打开文件的名称,更确切的说是一个包含该文件命的字符串地址。第2个参数是一个字符串,指定待打开文件的模式。
模式字符串 含义
"r" 以读模式打开文件
"w" 以写模式打开文件,把现有文件的长度截为0,若文件不存在,则创建一个新的文件
"a" 以写模式打开文件,在现有文件末尾添加内容,如果文件不存在,则创建一个新文件
"r+" 以更新模式打开文件(即可以读写文件)
"w+" 以更新模式打开文件(即读和写),如果文件存在,则将其长度截为0;如果文件不存在,则创建一个新文件
"a+" 以更新模式打开文件(即读和写),在现有文件的末尾添加内容,如果文件不存在则创建一个新文件;可以读取整个文件,但是只能从末尾添加内容
"rb"、"wb"、"ab"、"rb+"、"r+b"、"wb+"、"w+b"、"ab+"、"a+b" 与上一个模式类似,但是以二进制模式而不是文本模式打开文件
"wx"、"wbx"、"w+x"、"wb+x"和"w+bx" (c11)类似非x模式,但是如果文件已存在或以独占模式打开文件,则打开文件失败
像UNIX和Linux这样只有一种文件类型的系统,带b字母和不带b字母的模式相同。
新的C11新增加了带x字母的写模式,与以前的写模式相比有更多的特性。第1,如果以传统的一种模式打开一个现有的文件,fopen()会把该文件的长度截为0,这样就丢失了改文件的内容。但是使用带x字母的写模式打开,即使fopen()操作失败,原文件的内容也不会被删除。第2,如果环境允许,x模式的独特性使得其他程序或线程无法访问正在被打开的文件

警告:
如果使用任何一种"w"模式(不带x字母)打开一个现有文件,该文件的内容会被删除,以便程序在一个空白文件中开始操作。然而,如果使用带x字母的任何一种模式,将无法打开一个现有文件。

程序成功打开后,fopen()将返回文件指针(file pointer),其他I/O函数可以使用这个指针指定该文件。文件指针(该例中是fp)指向FILE的指针,FILE是一个定义在stdio.h中的派生类型。文件指针中的fp并不指向实际的文件,它指向一个包含文件信息的数据对象,其中包含操作文件的I/O函数所用的缓冲信息。因为标准库中的I/O函数使用缓冲区,所以它们不仅要知道缓冲区的位置,还要知道缓冲区被填充的程度以及操作哪一个文件。标准I/O函数根据这些信息在必要时决定再次填充或清空缓冲区。
fp指向的数据对象包含了这些信息。

13.2.3 getc()和putc()函数

getc()和putc()函数与getchar()和putchar()函数类似。所不同的是,要告诉getc()和putc()函数使用哪个二五年间。
下面这条语句的意思是“从标准输入中获取一个字符”:
ch = getchar();
然而,下面这条语句的意思是“从fp指定的文件中获取一个字符”:
ch = getc(fp);
与此类似,下面语句的意思是"把字符ch放入FILE指针fpout指定的文件中":
putc(ch,fpout);
在putc()函数的参数列表中,第一个参数是待写入的字符,第2个参数是文件指针。
stdout作为putc()的第2个参数。stdout作为与标准输出相关联的文件指针,定义在stdio.h中,所以putc(ch,stdout)与putchar(ch),的作用相同。实际上,putchar()函数一般通过puts()来定义。与此类似,getchar()也通过使用标准输入的gets()来定义。

13.2.4 文件结尾

从文件中读取数据的程序在读到文件结尾时要停止。如何告诉程序已经读到文件结尾?如果gerc()函数在读取一个字符时发现是文件结尾,他将返回一个特殊值EOF.所以C程序只有在读到文件末尾时才发现文件的结尾(一些其它语言用一个特殊的函数在读取之前检测文件结尾,C语言不同)。
为了避免读到空文件,应该使用入口条件循环(不是do while循环)进行文件输入。鉴于getc()(和其他C输入函数)的设计,程序应该在进入循环之前先尝试读取。如下面的设计。
//设计范例#1
int ch;     //用int类型的变量存储EOF
FILE *fp;
fp = fopen("wacky.txt","r");
ch = getc(fp);  //获取初始输入值
while(ch != EOF)
{
    putchar(ch);    //处理输入
    ch = getc(fp);  //获取下一个输入
}
//以上代码可以简化为:
//设计范例#2
int ch;
FILE *fp;
fp = fopen("wacky.txt","r");
while((ch = getc(fp)) != EOF)
{
    putchar(ch);    //处理输入
}
由于ch = getc(fp)是while测试条件的一部分,所以程序在进入循环体之前就读取了文件。不要像下面这样设计:
//糟糕的设计
int ch;
FILE *fp;
fp = fopen("wacky.txt,"r");
while(ch != EOF)    //首次使用ch时,它的值尚未确定
{
    ch = getc(fp);
    putchar(ch);    //处理输入
}
第1个问题是,ch首次与EOF比较时,其值尚未确定。第2个问题是,如果getc()返回EOF,该循环会把EOF作为一个有效的字符处理。这些问题都可以解决。例如:把ch初始化为一个哑值(dummy value),再把一个if语句加入到一个循环中,但是,何必这样多次一举呢?
其他输入函数也会用到这种方案,它们在读到文件结尾时也会返回一个错误信号(EOF或NULL指针)。

13.2.5 fclose()函数

fclose(fp)函数关闭fp指定的文件,必要时刷新缓冲区。对于比较正式的程序,应该检查是否成功关闭文件。如果关闭成功fclose()函数返回0,否则返回EOF;
if(fclose(fp)!=0)
    printf("Error in closeing file %s\n",argv[1]);
如果磁盘已满、移动硬盘被溢出或出现I/O错误,都会导致调用fclose()函数失败。

13.2.6 指向标准文件的指针

stdio.h头文件把3个文件指针与3个标准文件相关联,C程序会自动打开这3个标准文件。如下所示:

标准文件和相关联的文件指针

file

这些文件指针都是指向FILE的指针,所以它们可用作标准I/O函数的参数,如,fclose(fp)中的fp.

擦肩而过的概率