干货 | 新手经常忽略的嵌入式基础知识点
为解决各种问题,人们发明了不计其数的机器。嵌入式设备种类繁多,从嵌入火星漫游机器人的计算机到为操纵核潜艇导航系统的系统,不一而足。
冯• 诺伊曼在1945 年提出第一种计算模型,无论笔记本电脑还是电话,几乎所有计算机都遵循与这种模型相同的工作原理。
那么你们了解计算机是如何工作的吗?本文将讨论这些内容:
◎ 理解计算机体系结构的基础知识
◎ 选择编译器将代码转换为计算机可以执行的指令
◎ 根据存储器层次结构提高数据的存储速度
毕竟,在非程序员看来,编程要像魔法一样神奇,我们程序员不会这么看。
体系结构
计算机是一种根据指令操作数据的机器,主要由处理器与存储器两部分组成。存储器又称RAM(随机存取存储器),用于存储指令以及需要操作的数据。处理器又称CPU(中央处理器),它从存储器获取指令与数据,并执行相应的计算。接下来,我们将讨论这两部分的工作原理。
存储器
存储器被划分为许多单元,每个单元存储少量数据,通过一个数字地址加以标识。在存储器中读取或写入数据时,每次对一个单元进行操作。
为读写特定的存储单元,必须找到该单元的数字地址。
由于存储器是一种电气元件,单元地址作为二进制数通过信号线传输。
二进制数以 2 为基数表示,其工作原理如下:
每条信号线传输一个比特,以高电压表示信号“1”,低电压表示信号“0”,如图7-1 所示。
对于某个给定的单元地址,存储器可以进行两种操作:获取其值或存储新值,如图7-2 所示。存储器包括一条用于设置操作模式的特殊信号线。
每个存储单元通常存储一个 8 位二进制数,它称为字节。设置为“读”模式时,存储器检索保存在单元中的字节,并通过8 条数据传输线输出,如图7-3 所示。
设置为“写”模式时,存储器从数据传输线获取一个字节,并将其写入相应的单元,如图7-4 所示。
传输相同数据的一组信号线称为总线。用于传输地址的8 条信号线构成地址总线,用于在存储单元之间传输数据的另外8 条信号线构成数据总线。地址总线是单向的(仅用于接收数据),而数据总线是双向的(用于发送和接收数据)。
在所有计算机中,CPU 与RAM 无时无刻不在交换数据:CPU 不断从RAM 获取指令与数据,偶尔也会将输出与部分计算存储在RAM 中,如图7-5 所示。
CPU
CPU 包括若干称为寄存器的内部存储单元,它能对存储在这些寄存器中的数字执行简单的数学运算,也能在RAM 与寄存器之间传输数据。可以指示CPU 执行以下典型的操作:
◎ 将数据从存储位置 220 复制到寄存器 3;
◎ 将寄存器 3 与寄存器 1 中的数字相加。
CPU 可以执行的所有操作的集合称为指令集,指令集中的每项操作被分配一个数字。计算机代码本质上是表示CPU 操作的数字序列,这些操作以数字的形式存储在RAM 中。输入/ 输出数据、部分计算以及计算机代码都存储在RAM 中。
通过在RAM 中包含重写部分代码的指令,代码甚至可以对自身修改,这是计算机病毒逃避反病毒软件检测的惯用手法。与之类似,生物病毒通过改变自身的DNA以躲避宿主免疫系统的打击。
图7-6 取自Intel 4004 操作手册,显示了部分CPU 指令映射为数字的方法。随着制造工艺的发展,CPU 支持的操作越来越多。现代CPU 的指令集极为庞大,但最重要的指令在几十年前就已存在。
CPU 的运行永无休止,它不断从存储器获取并执行指令。这个周期的核心是PC 寄存器,PC (program counter)是“程序计数器”的简称。PC 是一种特殊的寄存器,用于保存下一条待执行指令的存储地址。CPU 的工作流程如下:
(1) 从PC 指定的存储地址获取指令;
(2) PC 自增;
(3) 执行指令;
(4) 返回步骤1。
PC 在CPU 上电时复位为默认值,它是计算机中第一条待执行指令的地址。这条指令通常是一种不可变的内置程序,用于加载计算机的基本功能。
在许多个人计算机中,这种程序称为BIOS(基本输入输出系统)。
CPU 上电后将继续执行这种“获取- 执行”周期直至关机。然而,如果CPU 只能遵循有序、顺序的操作列表,那么它与一个花哨的计算器并无二致。CPU 的神奇之处在于可以指示它向PC 中写入新值,从而实现执行过程的分支,或“跳转”到存储器的其他位置。这种分支可以是有条件的。以下面这条CPU 指令为例:“如果寄存器1 等于0,将PC设置为地址200”。该指令相当于:
if x = 0
compute_this()
else
compute_that()
仅此而已。无论是打开网站、玩计算机游戏抑或编辑电子表格,所涉及的计算并无区别,都是一系列只能对存储器中的数据求和、比较或移动的简单操作。
大量简单的操作组合在一起,就能表达复杂的过程。以经典的《太空侵略者》游戏为例,其代码包括大约3000 条机器指令。
CPU 时钟 早在20 世纪80 年代,《太空侵略者》就已风靡一时。这个游戏在配备2 MHz CPU 的街机上运行。“2 MHz”表示CPU 的时钟,即CPU 每秒可以执行的基本操作数。时钟频率为200 万赫兹(2 MHz)的CPU 每秒大约可以执行200 万次基本操作。完成一条机器指令需要5到10 次基本操作,因此老式街机每秒能运行数十万条机器指令。
随着现代科技的进步,普通的台式计算机与智能手机通常配备2 GHzCPU,每秒可以执行数亿条机器指令。时至今日,多核CPU 已投入大规模应用,如四核2 GHz CPU 每秒能执行近10 亿条机器指令。展望未来,CPU 配备的核心数量或许会越来越多。
CPU 体系结构 读者是否思考过,PlayStation 的游戏CD 为何无法在台式计算机中运行?iPhone 应用为何无法在Mac 中运行?原因很简单,因为它们的CPU 体系结构不同。
x86 体系结构如今已成为行业标准,因此相同的代码可以在大部分个人计算机中执行。但考虑到节电的要求,手机采用的CPU 体系结构有所不同。不同的CPU 体系结构意味着不同的CPU 指令集,也意味着将指令编码为数字的方式各不相同。台式计算机CPU 的指令并非手机CPU的有效指令,反之亦然。
32 位与64 位体系结构 第一种CPU 是Intel 4004,它采用4 位体系架构。换言之,这种CPU 在一条机器指令中可以对最多4 位二进制数执行求和、比较与移动操作。Intel 4004 的数据总线与地址总线均只有4 条。
不久之后,8 位CPU 开始广为流行,这种CPU 用于运行DOS 的早期个人计算机。20 世纪八九十年代,著名的便携式游戏机Game Boy 就采用8 位处理器。这种CPU 可以在一条指令中对8 位二进制数进行操作。
技术的快速发展使16 位以及之后的32 位体系结构成为主导。CPU 寄存器随之增大,以容纳32 位数字。更大的寄存器自然催生出更大的数据总线与地址总线:具有32 条信号线的地址总线可以对232 字节(4 GB)的内存进行寻址。
人们对计算能力的渴求从未停止。计算机程序越来越复杂,消耗的内存越来越多,4 GB 内存已无法满足需要。使用适合32 位寄存器的数字地址对超过4 GB 内存进行寻址颇为棘手,这成为64 位体系结构兴起的动因,这种体系结构如今占据主导地位。64 位CPU 可以在一条指令中对极大的数字进行操作,而64 位寄存器将地址存储在海量的存储空间中:264 字节相当于超过170 亿吉字节(GB)。
大端序与小端序 一些计算机设计师认为,应按从左至右的顺序在RAM 与CPU 中存储数字,这种模式称为小端序。另一些计算机设计师则倾向于按从右至左的顺序在存储器中写入数据,这种模式称为大端序。因此,根据“字节序”的不同,二进制序列1-0-0-0-0-0-1-1 表示的数字也有所不同。
◎ 大端序:27 + 21 + 20 = 131
◎ 小端序:20 + 26 + 27 = 193
目前的大部分CPU 采用小端序模式,但同样存在许多采用大端序模式的计算机。如果大端序CPU 需要解释由小端序CPU 产生的数据,则必须采取措施以免出现字节序不匹配。程序员直接对二进制数进行操作,在解析来自网络交换机的数据时尤其需要注意这个问题。虽然目前多数计算机采用小端序模式,但由于大部分早期的网络路由器使用大端序CPU,所以因特网流量仍然以大端序为基础进行标准化。以小端序模式读取大端序数据时将出现乱码,反之亦然。
模拟器 某些情况下,需要在计算机上运行某些为不同CPU 设计的代码,以便在没有iPhone 的情况下测试iPhone 应用,或玩脍炙人口的老式超级任天堂游戏。这是通过称为模拟器的软件来实现的。
模拟器用于模仿目标机器,它假定与其拥有相同的CPU、RAM 以及其他硬件。模拟器程序对指令进行解码,并在模拟机器中执行。可以想见,如果两台机器的体系结构不同,那么在一台机器内部模拟另一台机器绝非易事。好在现代计算机的速度远远超过之前的机器,因此模拟并非无法实现。我们可以利用Game Boy 模拟器在计算机中创建一个虚拟的Game Boy,然后就能像使用实际的Game Boy 那样玩游戏。
编译器
通过对计算机进行编程,可以完成核磁共振成像、声音识别、行星探索以及其他许多复杂的任务。值得注意的是,计算机执行的所有操作最终都要通过简单的CPU 指令完成,即归结为对数字的求和与比较。而Web 浏览器等复杂的计算机程序需要数百万乃至数十亿条这样的机器指令。
但我们很少会直接使用CPU 指令来编写程序,也无法采用这种方式开发一个逼真的三维计算机游戏。为了以一种更“自然”且更紧凑的方式表达命令,人们创造了编程语言。我们使用这些语言编写代码,然后通过一种称为编译器的程序将命令转换为CPU 可以执行的机器指令。
我们用一个简单的数学类比来解释编译器的用途。假设我们向某人提问,要求他计算5 的阶乘。
5! = ?
但如果回答者不了解什么是阶乘,则这样提问并无意义。我们必须采用更简单的操作来重新表述问题。
5×4×3×2×1 = ?
不过,如果回答者只会做加法怎么办?我们必须进一步简化问题的表述。
5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 +5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 + 5 = ?
可以看到,表达计算的形式越简单,所需的操作数量越多。计算机代码同样如此。编译器将编程语言中的复杂指令转换为等效的CPU 指令。结合功能强大的外部库,就能通过相对较少的几行代码表示包含数十亿条CPU 指令的复杂程序,而这些代码易于理解和修改。
计算机之父艾伦• 图灵发现,简单的机器有能力计算任何可计算的事物。如果机器具有通用的计算能力,那么它必须能遵循包含指令的程序,以便:
◎ 对存储器中的数据进行读写;
◎ 执行条件分支:如果存储地址具有给定的值,则跳转到程序的另一个点。
我们称具有这种通用计算能力的机器是图灵完备的。无论计算的复杂性或难度如何,都可以采用简单的读取/ 写入/ 分支指令来表达。只要分配足够的时间与存储空间,这些指令就能计算任何事物。
人们最近发现,一种称为MOV(数据传送)的CPU 指令是图灵完备的。这意味着仅能执行MOV 指令的CPU 与完整的CPU 在功能上并无不同:换言之,通过MOV 指令可以严格地表达任何类型的代码。
这个重要概念在于,无论简单与否,如果程序能采用编程语言进行编码,就可以重写后在任何图灵完备的机器中运行。编译器是一种神奇的程序,能自动将代码从复杂的语言转换为简单的语言。
操作系统
从本质上讲,编译后的计算机程序是CPU 指令的序列。如前所述,为台式计算机编译的代码无法在智能手机中运行,因为二者采用不同的CPU体系结构。不过,由于程序必须与计算机的操作系统通信才能运行,编译后的程序也可能无法在共享相同CPU 架构的两台计算机中使用。
为实现与外界的通信,程序必须进行输入与输出操作,如打开文件、在屏幕上显示消息、打开网络连接等。但不同的计算机采用不同的硬件,因此程序不可能直接支持所有不同类型的屏幕、声卡或网卡。
这就是程序依赖于操作系统执行的原因所在。借助操作系统的帮助,程序可以毫不费力地使用不同的硬件。程序创建特殊的系统调用,请求操作系统执行所需的输入/ 输出操作。编译器负责将输入/ 输出命令转换为合适的系统调用。
然而,不同的操作系统往往使用互不兼容的系统调用。例如,与macOS或Linux 相比,Windows 在屏幕上打印信息所用的系统调用有所不同。
因此,在使用x86 处理器的Windows 中编译的程序,无法在使用x86处理器的Mac 中运行。除针对特定的CPU 体系结构外,编译后的代码还会针对特定的操作系统。
编译优化
优秀的编译器致力于优化它们生成的机器码。如果编译器认为可以通过修改部分代码来提高执行效率,则会处理。在生成二进制输出之前,编译器可能尝试应用数百条优化规则。
因此,应使代码易于阅读以利于进行微优化。编译器最终将完成所有细微的优化。例如,一些人对以下代码颇有微词。
function factorial(n)if n > 1return factorial(n - 1) * nelsereturn 1
他们认为应该进行以下修改:
function factorial(n)result ← 1while n > 1result ← result * nn ← n - 1return result
i ← x + y + 1j ← x + y
t1 ← x + yi ← t1 + 1j ← t1
对于时钟频率为1 GHz 的CPU,一个周期的持续时间约为十亿分之一秒,这是光线从本书进入读者眼中所需的时间。
在两个面对面的人之间,声波传播需要大约10 微秒。
标准照片在大约4 毫秒内捕捉光线。
本文来自:电子工程世界