C 语言等大多数编程语言的数组从 0 开始而不从 1 开始,有两个原因:
第一:地址计算更方便
C 语言从 0 开始的话,array[i] 的地址就正好是:
text
(array + i)
如果是从 1 开始的话,就是
text
(array + i - 1)
多一次计算,性能受影响,再扩展到二维数组的话 array[i][j] 从 0 开始的地址是:
text
(array + i * N + j)
多整洁,而从 1 开始要变成
text
(array + (i - 1) * N + (j - 1))
更繁琐。并且用 1 开始的话,同一个地址用 "指针+偏移"寻址和用 "数组+下标" 寻址还不能统一,经常要换算,何必呢?
第二:计算机硬件系统就是从 0 开始寻址的
物理内存地址寻址,端口寻址都是从 0 开始的,比如 32 位电脑的内存,地址范围就是:
text
[0, 2 ^ 32 - 1]
刚好用一个 32 位整数就能表达,而如果内存从 1 开始寻址,那么 32 位电脑的地址范围就会变成:
text
[1, 2 ^ 32]
那么最高地址 2 ^ 32 就需要一个 33 位的整数才能表达了,纯粹浪费资源。
其他的端口地址,DMA 通道等也都遵从这个从 0 开始的原则,那么用 3 比特表示 DMA 通道的话,更好可以表达 8 个通道 (0 - 7),而从 1 开始的话,同样 3 比特就只能表达 7 个通道了(1 - 7),一样是在浪费资源。
所以贴近系统的语言自然选择遵从硬件设定,除了第一条说的寻址计算更简单外,也能和计算机系统保持一致性,同时还能统一指针寻址和数组寻址的用户体验。
Dijkstra 解释过编程语言这么做的原因只是遵从硬件设计:
The decision taken by the language specification & compiler-designers is based on the decision made by computer system-designers to start count at 0.
所以 C 语言数组从零开始,目的在于:1)性能更好;2)统一数组和指针寻址;3)遵从硬件寻址法。
除此之外还有一些理论上的原因。
第三:数学上的原因
除去数组索引外,Dijkstra 主张一切计数应该从 0 开始,并且写了一篇文章解释:
(点击 more/continue 继续)
Dijkstra: Why numbering should start at zero
他明确的批过 Fortran 和 Pascal 等从 1 开始的早期语言考虑不周:
他给出了无懈可击的理由,大概论点是,对于 2,3,4,...,12 的整数序列,有几种表述:
text
a)2 <= i < 13
b)1 < i <= 12
c)2 <= i <= 12
d)1 < i < 13
然后说明:
- 对于左边 a <= x 比 a < x 的表述法更好,因为如果用 a < x 表示一个序列,你总要提供一个比第一个元素小一号的数字,不但恶心,往往不可能(存在最小的有理数,不存在最大有理数),所以 a <= x 的表述更好;
- 对于右边 x < b 的表述比 x <= b 的表述更好,因为当 a = b 时,a <= x < b 可以表示一个空集,而 a <= x <= b 无法表示一个空集
- 方案 a) 和方案 b) 可以一眼看出序列的长度。
- 方案 a) 和方案 d) 更容易表述邻接的序列。
如此证明左闭右开的方案 a) a <= x < b 更适合表述表述一个序列。
Dijkstra 论证完 a <= x < b 更是更好的选择后,给出结论,长度为 N 的数组从 0 开始更好,因为 0 <= x < N 的表述比 1 <= x < N+1 更清晰。
--
扩展阅读: