深入理解C語(yǔ)言及未定義那些事兒
Dennis Ritchie ?過(guò)世了,他發(fā)明了C語(yǔ)言,一個(gè)影響深遠(yuǎn)并徹底改變世界的計(jì)算機(jī)語(yǔ)言。一門(mén)經(jīng)歷40多年的到今天還長(zhǎng)盛不衰的語(yǔ)言,今天很多語(yǔ)言都受到C的影響,C++,Java,C#,Perl, PHP, Javascript, 等等。但是,你對(duì)C了解嗎?相信你看過(guò)本站的《C語(yǔ)言的謎題》還有《誰(shuí)說(shuō)C語(yǔ)言很簡(jiǎn)單?》,這里,我再寫(xiě)一篇關(guān)于深入理解C語(yǔ)言的文章,一方面是緬懷Dennis,另一方面是告訴大家應(yīng)該如何學(xué)好一門(mén)語(yǔ)言。(順便注明一下,下面的一些例子來(lái)源于這個(gè)slides)
首先,我們先來(lái)看下面這個(gè)經(jīng)典的代碼:
1
2
3
4
5int
main()
{
????
int
a = 42;
????
printf
(“%dn”, a);
}
從這段代碼里你看到了什么問(wèn)題?我們都知道,這段程序里少了一個(gè)#include
不過(guò),讓我們來(lái)深入的學(xué)習(xí)一下,
這段代碼在C++下無(wú)法編譯,因?yàn)镃++需要明確聲明函數(shù)這段代碼在C的編譯器下會(huì)編譯通過(guò),因?yàn)樵诰幾g期,編譯器會(huì)生成一個(gè)printf的函數(shù)定義,并生成.o文件,鏈接時(shí),會(huì)找到標(biāo)準(zhǔn)的鏈接庫(kù),所以能編譯通過(guò)。?但是,你知道這段程序的退出碼嗎?在ANSI-C下,退出碼是一些未定義的垃圾數(shù)。但在C89下,退出碼是3,因?yàn)槠淙×藀rintf的返回值。為什么printf函數(shù)返回3呢?因?yàn)槠漭敵隽恕?′, ’2′,’n’ 三個(gè)字符。而在C99下,其會(huì)返回0,也就是成功地運(yùn)行了這段程序。你可以使用gcc的 -std=c89或是-std=c99來(lái)編譯上面的程序看結(jié)果。另外,我們還要注意main(),在C標(biāo)準(zhǔn)下,如果一個(gè)函數(shù)不要參數(shù),應(yīng)該聲明成main(void),而main()其實(shí)相當(dāng)于main(…),也就是說(shuō)其可以有任意多的參數(shù)。
我們?cè)賮?lái)看一段代碼:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17#include
void
f(
void
)
{
???
static
int
a = 3;
???
static
int
b;
???
int
c;
???
++a; ++b; ++c;
???
printf
(
"a=%dn"
, a);
???
printf
(
"b=%dn"
, b);
???
printf
(
"c=%dn"
, c);
}
int
main(
void
)
{
???
f();
???
f();
???
f();
}
這個(gè)程序會(huì)輸出什么?
我相信你對(duì)a的輸出相當(dāng)有把握,就分別是4,5,6,因?yàn)槟莻€(gè)靜態(tài)變量。對(duì)于c呢,你應(yīng)該也比較肯定,那是一堆亂數(shù)。但是你可能不知道b的輸出會(huì)是什么?答案是1,2,3。為什么和c不一樣呢?因?yàn)?,如果要初始化,每次調(diào)用函數(shù)里,編譯器都要初始化函數(shù)??臻g,這太費(fèi)性能了。但是c的編譯器會(huì)初始化靜態(tài)變量為0,因?yàn)檫@只是在啟動(dòng)程序時(shí)的動(dòng)作。全局變量同樣會(huì)被初始化。
說(shuō)到全局變量,你知道 靜態(tài)全局變量和一般全局變量的差別嗎?是的,對(duì)于static 的全局變量,其對(duì)鏈接器不可以見(jiàn),也就是說(shuō),這個(gè)變量只能在當(dāng)前文件中使用。
我們?cè)賮?lái)看一個(gè)例子:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15#include
void
foo(
void
)
{
????
int
a;
????
printf
(
"%dn"
, a);
}
void
bar(
void
)
{
????
int
a = 42;
}
int
main(
void
)
{
????
bar();
????
foo();
}
你知道這段代碼會(huì)輸出什么嗎?A) 一個(gè)隨機(jī)值,B) 42。A 和 B都對(duì)(在“在函數(shù)外存取局部變量的一個(gè)比喻”文中的最后給過(guò)這個(gè)例子),不過(guò),你知道為什么嗎?
如果你使用一般的編譯,會(huì)輸出42,因?yàn)槲覀兊木幾g器優(yōu)化了函數(shù)的調(diào)用棧(重用了之前的棧),為的是更快,這沒(méi)有什么副作用。反正你不初始化,他就是隨機(jī)值,既然是隨機(jī)值,什么都無(wú)所謂。但是,如果你的編譯打開(kāi)了代碼優(yōu)化的開(kāi)關(guān),-O,這意味著,foo()函數(shù)的代碼會(huì)被優(yōu)化成main()里的一個(gè)inline函數(shù),也就是說(shuō)沒(méi)有函數(shù)調(diào)用,就像宏定義一樣。于是你會(huì)看到一個(gè)隨機(jī)的垃圾數(shù)。
下面,我們?cè)賮?lái)看一個(gè)示例:
1
2
3
4
5
6
7
8#include
int
b(
void
) {
printf
(“3”);
return
3; }
int
c(
void
) {
printf
(“4”);
return
4; }
int
main(
void
)
{
???
int
a = b() + c();
???
printf
(“%dn”, a);
}
這段程序會(huì)輸出什么?,你會(huì)說(shuō)是,3,4,7。但是我想告訴你,這也有可能輸出,4,3,7。為什么呢? 這是因?yàn)椋贑/C++中,表達(dá)的評(píng)估次序是沒(méi)有標(biāo)準(zhǔn)定義的。編譯器可以正著來(lái),也可以反著來(lái),所以,不同的編譯器會(huì)有不同的輸出。你知道這個(gè)特性以后,你就知道這樣的程序是沒(méi)有可移植性的。
我們?cè)賮?lái)看看下面的這堆代碼,他們分別輸出什么呢?
1int
a=41; a++;
printf
(
"%dn"
, a);
1int
a=41; a++ &
printf
(
"%dn"
, a);
1int
a=41; a++ &&
printf
(
"%dn"
, a);
1int
a=41;
if
(a++ < 42)
printf
(
"%dn"
, a);
1int
a=41; a = a++;
printf
(
"%dn"
, a);
只有示例一,示例三,示例四輸出42,而示例二和五的行為則是未定義的。關(guān)于這種未定義的東西是因?yàn)镾equence Points的影響(Sequence Points是一種規(guī)則,也就是程序執(zhí)行的序列點(diǎn),在兩點(diǎn)之間的表達(dá)式只能對(duì)變量有一次修改),因?yàn)檫@會(huì)讓編譯器不知道在一個(gè)表達(dá)式順列上如何存取變量的值。比如a = a++,a + a++,不過(guò),在C中,這樣的情況很少。
下面,再看一段代碼:(假設(shè)int為4字節(jié),char為1字節(jié))
1
2
3
4struct
X {
int
a;
char
b;
int
c; };
printf
(
"%d,"
,
sizeof
(
struct
X));
struct
Y {
int
a;
char
b;
int
c;
char
d};
printf
(
"%dn"
,
sizeof
(
struct
Y));
這個(gè)代碼會(huì)輸出什么?
a) 9,10
b)12, 12
c)12, 16
答案是C,我想,你一定知道字節(jié)對(duì)齊,是向4的倍數(shù)對(duì)齊。
但是,你知道為什么要字節(jié)對(duì)齊嗎?還是因?yàn)樾阅?。因?yàn)檫@些東西都在內(nèi)存里,如果不對(duì)齊的話,我們的編譯器就要向內(nèi)存一個(gè)字節(jié)一個(gè)字節(jié)的取,這樣一來(lái),struct X,就需要取9次,太浪費(fèi)性能了,而如果我一次取4個(gè)字節(jié),那么我三次就搞定了。所以,這是為了性能的原因。但是,為什么struct Y不向12 對(duì)齊,卻要向16對(duì)齊,因?yàn)閏har d; 被加在了最后,當(dāng)編譯器計(jì)算一個(gè)結(jié)構(gòu)體的尺寸時(shí),是邊計(jì)算,邊對(duì)齊的。也就是說(shuō),編譯器先看到了int,很好,4字節(jié),然后是 char,一個(gè)字節(jié),而后面的int又不能填上還剩的3個(gè)字節(jié),不爽,把char b對(duì)齊成4,于是計(jì)算到d時(shí),就是13 個(gè)字節(jié),于是就是16啦。但是如果換一下d和c的聲明位置,就是12了。
另外,再提一下,上述程序的printf中的%d并不好,因?yàn)?,?4位下,sizeof的size_t是unsigned long,而32位下是 unsigned int,所以,C99引入了一個(gè)專(zhuān)門(mén)給size_t用的%zu。這點(diǎn)需要注意。在64位平臺(tái)下,C/C++ 的編譯需要注意很多事。你可以參看《64位平臺(tái)C/C++開(kāi)發(fā)注意事項(xiàng)》。
下面,我們?cè)僬f(shuō)說(shuō)編譯器的Warning,請(qǐng)看代碼:
1
2
3
4
5
6#include
int
main(
void
)
{
????
int
a;
????
printf
(
"%dn"
, a);
}
考慮下面兩種編譯代碼的方式 :
cc -Wall a.ccc -Wall -O a.c
前一種是不會(huì)編譯出a未初化的警告信息的,而只有在-O的情況下,才會(huì)有未初始化的警告信息。這點(diǎn)就是為什么我們?cè)趍akefile里的CFLAGS上總是需要-Wall和 -O。
最后,我們?cè)賮?lái)看一個(gè)指針問(wèn)題,你看下面的代碼:
1
2
3
4
5
6
7
8
9#include
int
main(
void
)
{
????
int
a[5];
????
printf
(
"%xn"
, a);
????
printf
(
"%xn"
, a+1);
????
printf
(
"%xn"
, &a);
????
printf
(
"%xn"
, &a+1);
}
假如我們的a的地址是:0Xbfe2e100, 而且是32位機(jī),那么這個(gè)程序會(huì)輸出什么?
第一條printf語(yǔ)句應(yīng)該沒(méi)有問(wèn)題,就是 bfe2e100第二條printf語(yǔ)句你可能會(huì)以為是bfe2e101。那就錯(cuò)了,a+1,編譯器會(huì)編譯成 a+ 1*sizeof(int),int在32位下是4字節(jié),所以是加4,也就是bfe2e104第三條printf語(yǔ)句可能是你最頭疼的,我們?cè)趺粗繿的地址?我不知道嗎?可不就是bfe2e100。那豈不成了a==&a啦?這怎么可能?自己存自己的?也許很多人會(huì)覺(jué)得指針和數(shù)組是一回事,那么你就錯(cuò)了。如果是 int *a,那么沒(méi)有問(wèn)題,因?yàn)閍是指針,所以 &a 是指針的地址,a 和 &a不一樣。但是這是數(shù)組啊a[],所以&a其實(shí)是被編譯成了 &a[0]。第四條printf語(yǔ)句就很自然了,就是bfe2e104。還是不對(duì),因?yàn)槭?amp;a是數(shù)組,被看成int(*)[5],所以sizeof(a)是5,也就是5*sizeof(int),也就是bfe2e114。
看過(guò)這么多,你可能會(huì)覺(jué)得C語(yǔ)言設(shè)計(jì)得真扯淡啊。不過(guò)我要告訴下面幾點(diǎn)Dennis當(dāng)初設(shè)計(jì)C語(yǔ)言的初衷:
1)相信程序員,不阻止程序員做他們想做的事。
2)保持語(yǔ)言的簡(jiǎn)潔,以及概念上的簡(jiǎn)單。
3)保證性能,就算犧牲移植性。
今天很多語(yǔ)言進(jìn)化得很高級(jí)了,語(yǔ)法也越來(lái)越復(fù)雜和強(qiáng)大,但是C語(yǔ)言依然光芒四射,Dennis離世了,但是C語(yǔ)言的這些設(shè)計(jì)思路將永遠(yuǎn)不朽。
(請(qǐng)勿用于商業(yè)用途,轉(zhuǎn)載時(shí)請(qǐng)注明作者和出處)