2027年
计算机组成原理考研复习指导
王道论坛	组编
购买王道书，就上
王道官方考研书店
wangdao.taobao.com
電子工業出版社
Publishing House of Electronics Industry
北京·BEIJING
官方开源，高清带书签PDF
最新配套视频请上bilibili.com 搜索“王道”
内容简介
本书是计算机专业硕士研究生入学考试“计算机组成原理”课程的复习用书，内容包括计算机系统概述、数据的表示和运算、存储系统、指令系统、中央处理器、总线、输入/输出系统等。全书严格按照最新计算机考研大纲计算机组成原理部分的要求，集中梳理了大纲所涉及的知识点，力求内容精练、重点突出、深入浅出。本书精选多所名校的历年考研真题，给出详细的解题思路，力求实现讲练结合、灵活掌握、举一反三的功效。
本书可作为考生参加计算机专业硕士研究生入学考试的复习用书，也可作为计算机专业学生学习“计算机组成原理”课程的辅导用书。
未经许可，不得以任何方式复制或抄袭本书之部分或全部内容。
版权所有，侵权必究。
图书在版编目（CIP）数据
2027年计算机组成原理考研复习指导/王道论坛组
编.--北京：电子工业出版社,2026.1.--ISBN 978-7-121-51794-5
Ⅰ. TP301
中国国家版本馆CIP数据核字第2026H59L24号
责任编辑：谭海平
印刷：
装订：
出版发行：电子工业出版社
北京市海淀区万寿路173信箱	邮编：100036
开本：787×1092 1/16 印张：21.25 字数：598.4千字
版次：2026年1月第1版
印次：2026年1月第1次印刷
定价：71.00元
凡所购买电子工业出版社图书有缺损问题，请向购买书店调换。若书店售缺，请与本社发行部联系，联系及邮购电话：（010）88254888，88258888。
质量投诉请发邮件至zltm@phei.com.cn，盗版侵权举报请发邮件至dbqq@phei.com.cn。
本书咨询联系方式：（010）88254552，tan02@phei.com.cn。
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
1 B站搜索“王道计算机教育”
本书配套资源介绍
2 扫码关注“王道在线”
进入菜单“兑换中心”
兑换配套课件等资源
王道计算机考研题库3
开通题库小程序
VIP权限
【关于配套视频的说明】
1.配套的考点精讲视频与习题视频均为最新版本，已免费发布在B站，无须兑换，内容持续更新，可放心使用！
2.【王道计算机刷题库】小程序面向所有读者免费开放，它将纸质习题数字化，可智能刷题，靶向提分，高效备考！
3.兑换码用于获取课件资源，以及开通小程序VIP权限。
4.兑换码位于封面右下角，区分大小写，不含空格，且一经兑换即失效。
盗版书无兑换码请勿购买
配套视频不包含答疑服务
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
前	言
“王道考研系列”的定位是考试类辅导书。本书主要分为考点讲解部分和习题讲解部分，前者的篇幅约占35%，后者的篇幅约占65%。考点讲解部分按照统考大纲梳理考点，主要参考了一些权威教材，如唐朔飞老师的《计算机组成原理》、袁春风老师的《计算机系统基础》等，并且融合了作者的总结与理解，在此对这些老师表示致敬和感谢！习题讲解部分主要精选自多所名校的自命题考研真题、教材配套习题册、同类辅导书，或者改编自统考真题。
由于篇幅限制，考点讲解部分较为精炼，对学科基础较为薄弱的读者来说，可能难以理解。为此，我们提供了配套的考点精讲视频和习题讲解视频。考点精讲视频有形象丰富的动画演示、由浅入深的考点分析，相信能打通读者复习过程中的“任督二脉”。往年有不少读者反馈视频和王道书不太匹配，这是因为王道书的出版时间远早于课程制作时间，而咸鱼老师录制课程时会参考众多的优秀教材（不限于王道书）；后面，我们将逐步解决这个问题。此外，早期的习题讲解视频主要由高分学长录制，因为质量参差不齐，现已全部下架。目前，仅提供由王道老师重新录制的最新版本，该版本已覆盖全部选择题；综合题的重新录制工作会适时启动并及时发布。
考点精讲视频和习题讲解视频免费发布在B站账号“王道计算机教育”上。
“王道考研系列”是计算机考研学子口碑相传的辅导书，自2011版首次推出以来，就始终占据同类书销量的榜首位置，这就是口碑的力量。有这么多学长的成功经验，相信读者只要合理地利用本套书，并采用科学的复习方法，就一定能收获属于自己的那份回报。
针对考研学子的需求，我们还开发了除本书配套视频外的一系列计算机考研课程，包括C语言督学课、408基础课、408暑期强化课、408冲刺课、机试课、模拟面试、调剂，以及复习规划、伴学督学、一对一指导、全程实时答疑和择校服务等。王道的课程同样是市面上领先的计算机考研课程，对学科基础较为薄弱的读者来说，相信这些课程和服务定能助你一臂之力。
“不包就业、不包推荐，培养有态度的码农。”王道训练营是王道团队打造的线下魔鬼式编程训练营。打好编程功底，增强项目经验，彻底转行入行，不再迷茫，期待有梦想的你！
参与本书编写的人员主要有赵霖、罗乐、徐秀瑛、赵淑芬、范佳玉、严汉、喻云珍、余勇、赵淑芳、刘政学、罗庆学、赵晓宇等。予人玫瑰，手有余香，王道论坛伴你一路同行！
对本书的任何建议，或发现有错误，欢迎扫码与我们联系，以便及时优化或纠错。
风华漫舞
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
致	读	者——关于王道单科辅导书使用方法的道友建议
我是“二战考生”，2012 年第一次考研成绩为333分（专业代码408，成绩为81分），痛定思痛后决心再战。潜心复习了半年后终于以392分（专业代码408，成绩为124分）考入上海交通大学计算机科学与技术专业，这半年里我的专业课成绩提高了43分，成了提分主力。从未达到录取线到考出比较满意的成绩，从蒙头乱撞到有了自己明确的复习思路，我想这也是风华哥从诸多高分选手中选择我给大家介绍经验的一个原因吧。
整个专业课的复习是围绕王道辅导书展开的，从一遍、两遍、三遍看单科辅导书的积累提升，到做8套模拟题时的强化巩固，再到看思路分析时的醍醐灌顶。王道辅导书能两次押中算法原题固然有运气成分，但这也从侧面说明编者的编写思路和选题方向与真题很接近。
下面说一说我的具体复习过程。
每天划给专业课的时间是 3~4小时。第一遍仔细看课本，看完一章做一章单科辅导书上的习题（红笔标注错题），这一遍共持续2个月。第二遍主攻单科辅导书（红笔标注重难点），辅看课本。第二遍看单科辅导书和课本的速度快了很多，但感觉收获更多，常有温故知新的感觉，理解更深刻。（风华注：建议这里再速看第三遍，特别针对错题和重难点。模拟题做完后再跳看第四遍。）
以上是打基础阶段，注意：我仔细精读了两遍单科辅导书和课本，以便尽量弄懂每个知识点和习题。大概 11 月上旬开始做模拟题和思路分析，其间遇到不熟悉的地方不断回头查阅单科辅导书和课本。8套模拟题的考点覆盖得很全面，所以大家做题时如果忘记了某个知识点，千万不要慌张，赶紧回去看这个知识点，最后的模拟就是查漏补缺。模拟题一定要严格按考试时间（3小时）去做，注意应试技巧，做完试题后再回头研究错题。算法题的最优解法不太好想，如果实在没思路，建议直接“暴力”解决，结果正确也能有10分，总比苦拼出15分来而将后面比较好拿分的题耽误了好（这是我第一次考研的切身教训）。最后剩了几天看标注的错题，第三遍跳看单科辅导书，考前一夜浏览完网络，踏实地睡着了······
考完专业课，走出考场终于长舒一口气，考试情况也心中有数。回想这半年的复习，耐住了寂寞和诱惑，雨雪风霜从未间断地跑去自习，考研这人生一站终归没有辜负我的良苦用心。佛教徒说世间万物生来平等，都要落入春华秋实的代谢中去；辩证唯物主义认为事物作为过程存在，凡是存在的终归要结束。你不去为活得多姿多彩而拼搏，真到了和青春说再见时，你是否会可惜虚度了青春？风华哥说过，我们都是有梦想的青年，我们正在逆袭，你呢？
感谢风华哥的信任，给我这个机会为大家分享专业课复习经验，作为一个铁杆道友在王道受益匪浅，也借此机会回报王道论坛。祝大家金榜题名！
ccg1990@SJTU
王道训练营
王道是道友考研路上值得信赖的伙伴。十多年来，我们陪伴了数百万计算机考研学子，从考研图书，到辅导课程、编程训练，始终助力大家提升真实能力。
我们都清楚，计算机是个靠实力说话的专业。王道团队中的许多人，也曾和你一样：本科迷茫、基础薄弱，把考研当作改变命运的出路。但后来明白学历只是入场券。同样是名校硕士，有人早就拿下了心仪的 Offer，也有人毕业即失业，再次陷入焦虑。
如今，虽然 AI 让编写代码变得简单了，但却抬高了能力门槛：会写语法已远远不够，系统设计与工程落地才是核心竞争力。如果你只会调 API，但无法思考架构、解决实际问题，那么读研可能只是把竞争往后推迟了几年。我们真心希望，王道能帮你少走弯路。我们教的不只是“怎么用 AI”，更有“怎么用好 AI”——成为能主导项目、把控技术方向的人。
考研结束后的空档期，是你补编程、练实战的黄金窗口。趁生活尚未被新任务填满，抓紧补齐本科阶段落下的核心能力，别等到入学或入职才惊觉差距。参加王道训练营，说到底，就是对自己的一次认真投资，而投资自己永远最值得。
王道训练营简介
1. 面向就业
适合希望转行但编程基础薄弱的你。
考研不是人生的唯一出路。无论结果如何，这段拼搏都值得铭记，但不必让它成为遗憾的终点。不少在考研路上暂时受挫的道友，在王道找到了技术成长的新起点。我们始终相信：肯努力、肯坚持的人，终会走出属于自己的路。
在高度竞争的技术领域，你当下的编程能力决定了你能拿到什么 Offer；而你的学习态度与潜力，才决定你能走多远。再不行动，机会只会悄然溜走。
王道训练营，为有梦想、敢奋斗的你铺就通往高质量就业的坚实通道。
2. 面向硕士
适合刚上岸的准硕士，希望赢在研一起跑线。
考上研究生是重要转折，但硕士学历早已不是“保险箱”。考研高分不等于高薪 Offer，同是名校硕士，有人手握字节跳动、腾讯等大厂的 Offer，有人却“屡面屡败”——差距，往往在入学前就已拉开。
王道训练营相当于“硕士先修班”：开学前啃下企业级代码，带着完整项目进组。当同门还在熟悉环境，你已用“大模型+微服务”跑通实验室课题；导师自然更愿意把核心项目、论文一作等机会优先给你。抓住这个隐形的转折点，三年后你的简历上不止有学历，更有扎实的工程能力、可落地的项目和发表的文章——高薪 Offer，水到渠成。
3. 报名要求
·具有本科学历，愿以“高三式”的专注全力投入。
·须认真完成开课前的作业——不看基础，只看态度，合格方可入营，宁缺毋滥。
作业是最重要的筛选标准。我们从不看轻跨专业或双非背景的你——坚定转行者往往更
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
王道训练营	VII
拼、更踏实。学校和专业是过去的标签，能力靠持续努力重塑。一段高强度训练，完全可能让你逆袭，这已被无数的往期学员用结果证明。
4. 学习成效
我们以“动手编程+实战项目”为核心，帮你补齐当下的能力短板，指明后续的学习方向。你收获的不只是方法，更是工程师的思维方式——真正推开职场大门。
自 2020 年起，王道坚持公开每期真实就业数据，承诺 100%真实！学员从零起步，成长为能解决问题的开发者。部分学员成功入职字节跳动、腾讯、阿里、拼多多、京东、华为、百度、小米等互联网大厂；也有不少学员进入东方财富交易组、大疆飞控、比亚迪车规芯片、深信服防火墙引擎、招商银行风控等部门，岗位覆盖后端、算法、嵌入式、金融量化、信息安全等方向。我们不信“神秘高薪”，只信真实结果。
王道训练营优势
这里聚集的都是道友——彼此信任，乐于分享，氛围纯粹而温暖。经历过考研的你，深知转行路上的孤独与压力，因此更容易成为并肩作战的战友：互相答疑、一起 debug、共同成长。在技术转型的路上，这样的圈子是最宝贵的资源。正如一位学员所说：“来了你就发现，这里无关学历、背景或过往，只关乎一件事——对自己认真，对自己负责。”
我们的授课老师平均拥有8年以上的开发与教学经验，编程功底扎实，教学经验丰富。上课时，授课老师不会照本宣科地念 PPT，而会展示真正上线运行过的代码，分享实际工作中遇到的“坑”、提升系统性能的方法，以及处理突发线上问题的经验。用真实的实战经验引导大家，以严谨的技术态度陪伴每位学员——既是对道友信任的回应，又是我们坚守的责任。
王道训练营课程
王道训练营目前开设5种班型：
·复试冲刺/春招 (Python/Linux C/Java/C++) 项目班(40~45天，初试结束后开班)
·AI应用开发(Java)方向(四个半月，武汉校区，掌握AI应用开发，抢占技术高地)
·微服务开发C++方向(四个半月，武汉校区，深入后端架构，进入核心开发岗)
·嵌入式开发C++方向(四个半月，武汉校区，紧跟硬科技趋势，切入芯片/物联网)
·Python大模型方向(三个半月，直播授课或深圳校区，紧跟前沿算法，AI算法工程师)项目班的作用是利用初试后的时间和寒假期间，快速提升编程能力和项目经验，为复试和春招面试加分。其余4种班型既适合想就业的你，又适合已上岸想提升能力或计划继续考研的你。
想了解课程、获取就业数据或就业咨询吗？扫码添加王道老师的微信，一对一为你解答。
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
目	录
第1章	计算机系统概述·································································1
*1.1	计算机发展历程^{\enclose{circle}{1}}····························································1
1.1.1	计算机硬件的发展········································································1
1.1.2	计算机软件的发展········································································2
1.2	计算机系统层次结构········································································2
1.2.1	计算机系统的组成········································································2
1.2.2	计算机硬件········································································2
1.2.3	计算机软件········································································2
1.2.4	计算机系统的层次结构····································································4
1.2.5	计算机系统的不同用户····································································6
1.2.6	计算机系统的工作原理····································································7
1.2.7	本节习题精选········································································8
1.2.8	答案与解析········································································9
1.3	计算机的性能指标········································································11
1.3.1	计算机的主要性能指标···································································11
1.3.2	本节习题精选········································································13
1.3.3	答案与解析········································································15
1.4	本章小结············································································18
1.5	常见问题和易混淆知识点····································································18
第2章	数据的表示和运算········································································20
2.1	数制与编码····················································································20
2.1.1	进位计数制及其相互转换··································································20
2.1.2	定点数的编码表示········································································22
2.1.3	整数的表示············································································25
2.1.4	C语言中的整数类型及类型转换························································25
2.1.5	本节习题精选········································································27
2.1.6	答案与解析········································································29
2.2	运算方法和运算电路········································································32
2.2.1	基本运算部件········································································32
2.2.2	定点数的移位运算········································································35
2.2.3	定点数的加减运算········································································35
2.2.4	定点数的乘除运算········································································39
2.2.5	本节习题精选········································································44
2.2.6	答案与解析········································································48
① 加“*”的章节表示已从最新统考大纲中删除，仅供学习参考。
打印店
目	录	IX
2.3	浮点数的表示与运算⋯53
2.3.1	IEEE 754标准的浮点数⋯54
2.3.2	浮点数的加减运算⋯56
2.3.3	C语言中的浮点数类型⋯58
2.3.4	数据的宽度和存储⋯59
2.3.5	本节习题精选⋯61
2.3.6	答案与解析⋯66
2.4	本章小结⋯75
2.5	常见问题和易混淆知识点⋯75
第3章	存储系统⋯77
3.1	存储器概述⋯77
3.1.1	存储器的分类⋯77
3.1.2	主存储器的组成和基本操作⋯78
3.1.3	存储器的层次化结构⋯79
3.1.4	存储器的主要性能指标⋯79
3.1.5	本节习题精选⋯80
3.1.6	答案与解析⋯81
3.2	主存储器⋯82
3.2.1	半导体随机存取存储器⋯82
3.2.2	非易失性存储器⋯85
3.2.3	多模块存储器⋯85
3.2.4	本节习题精选⋯87
3.2.5	答案与解析⋯92
3.3	主存储器与CPU的连接⋯97
3.3.1	连接原理⋯97
3.3.2	主存容量的扩展⋯97
3.3.3	本节习题精选⋯99
3.3.4	答案与解析⋯100
3.4	外部存储器⋯102
3.4.1	磁盘存储器⋯102
3.4.2	固态硬盘⋯104
3.4.3	本节习题精选⋯105
3.4.4	答案与解析⋯107
3.5	高速缓冲存储器⋯109
3.5.1	程序访问的局部性原理⋯109
3.5.2	Cache的基本工作原理⋯110
3.5.3	Cache和主存的映射方式⋯111
3.5.4	Cache中主存块的替换算法⋯114
3.5.5	Cache的一致性问题⋯115
3.5.6	Cache容量的计算举例⋯115
3.5.7	Cache的应用⋯116
3.5.8	本节习题精选⋯117
官方开源，高清带书签PDF
最新配套视频请上bilibili.com	搜索“王道”
× 2027年计算机组成原理考研复习指导
3.5.9 答案与解析⋯122
3.6 虚拟存储器⋯130
3.6.1 虚拟存储器的基本概念⋯130
3.6.2 页式虚拟存储器⋯130
3.6.3 段式虚拟存储器⋯134
3.6.4 段页式虚拟存储器⋯134
3.6.5 虚拟存储器与 Cache 的比较⋯134
3.6.6 本节习题精选⋯135
3.6.7 答案与解析⋯141
3.7 本章小结⋯146
3.8 常见问题和易混淆知识点⋯147
第 4 章 指令系统⋯148
4.1 指令系统⋯148
4.1.1 指令集体系结构⋯148
4.1.2 指令的基本格式⋯149
4.1.3 定长操作码指令格式⋯150
4.1.4 扩展操作码指令格式⋯150
4.1.5 指令的类型⋯151
4.1.6 本节习题精选⋯151
4.1.7 答案与解析⋯153
4.2 寻址方式⋯156
4.2.1 指令寻址和数据寻址⋯156
4.2.2 常见的数据寻址方式⋯157
4.2.3 本节习题精选⋯160
4.2.4 答案与解析⋯166
4.3 程序的机器级代码表示⋯171
4.3.1 常用汇编指令介绍⋯172
4.3.2 选择语句的机器级表示⋯176
4.3.3 循环语句的机器级表示⋯177
4.3.4 过程调用的机器级表示⋯179
4.3.5 本节习题精选⋯181
4.3.6 答案与解析⋯187
4.4 CISC 和 RISC 的基本概念⋯190
4.4.1 复杂指令系统计算机 (CISC) ⋯191
4.4.2 精简指令系统计算机 (RISC) ⋯191
4.4.3 CISC 和 RISC 的比较⋯191
4.4.4 本节习题精选⋯192
4.4.5 答案与解析⋯193
4.5 本章小结⋯193
4.6 常见问题和易混淆知识点⋯194
第 5 章 中央处理器⋯195
5.1 CPU 的功能和基本结构⋯195
官方开源，高清带书签PDF
最新配套视频请上bilibili.com搜索“王道”
目	录	XI
5.1.1	CPU的功能	⋯195
5.1.2	CPU的基本结构	⋯196
5.1.3	CPU中的寄存器	⋯197
5.1.4	本节习题精选	⋯197
5.1.5	答案与解析	⋯199
5.2	指令执行过程	⋯201
5.2.1	指令执行的一般流程	⋯201
5.2.2	CPU的时序控制	⋯202
5.2.3	指令周期的基本概念	⋯202
5.2.4	处理器指令执行模型	⋯203
5.2.5	本节习题精选	⋯204
5.2.6	答案与解析	⋯205
5.3	数据通路的功能和基本结构	⋯206
5.3.1	数据通路的功能	⋯206
5.3.2	数据通路的组成	⋯206
5.3.3	数据通路的组织与分类	⋯207
5.3.4	单总线结构的数据通路	⋯208
5.3.4	专用结构的数据通路	⋯210
5.3.5	本节习题精选	⋯213
5.3.6	答案与解析	⋯221
5.4	控制器的功能和工作原理	⋯228
5.4.1	控制器的结构和功能	⋯228
5.4.2	硬布线控制器	⋯229
5.4.3	微程序控制器	⋯229
5.4.4	本节习题精选	⋯234
5.4.5	答案与解析	⋯238
5.5	异常和中断机制	⋯242
5.5.1	异常和中断的基本概念	⋯242
5.5.2	异常和中断的分类	⋯242
5.5.3	异常和中断响应过程	⋯243
5.5.4	本节习题精选	⋯244
5.5.5	答案与解析	⋯245
5.6	指令流水线	⋯247
5.6.1	指令流水线的基本概念	⋯247
5.6.2	流水线的基本实现	⋯248
5.6.3	MIPS指令集的流水段分析	⋯249
5.6.4	流水线的冒险与处理	⋯251
5.6.5	高级流水线技术	⋯254
5.6.6	本节习题精选	⋯255
5.6.7	答案与解析	⋯260
5.7	多处理器的基本概念	⋯267
5.7.1	SISD、SIMD、MIMD的基本概念	⋯267
5.7.2	硬件多线程的基本概念	⋯268
官方开源，高清带书签PDF
最新配套视频请上bilibili.com	搜索“王道”
XII	2027年计算机组成原理考研复习指导
5.7.3	多核处理器的基本概念	269
5.7.4	共享内存多处理器的基本概念	269
5.7.5	本节习题精选	270
5.7.6	答案与解析	271
5.8	本章小结	272
5.9	常见问题和易混淆知识点	273
第6章	总线	274
6.1	总线概述	274
6.1.1	总线的分类	274
*6.1.2	常见的总线标准	275
6.1.3	总线的性能指标	276
6.1.4	总线的结构	276
6.1.5	本节习题精选	278
6.1.6	答案与解析	280
6.2	总线事务和定时	283
6.2.1	总线事务	283
6.2.2	总线定时	284
6.2.3	本节习题精选	286
6.2.4	答案与解析	288
6.3	本章小结	290
6.4	常见问题和易混淆知识点	290
第7章	输入/输出系统	291
*7.1	I/O系统基本概念	291
*7.1.1	输入/输出系统	291
*7.1.2	外部设备	292
*7.1.3	本节习题精选	293
*7.1.4	答案与解析	293
7.2	I/O接口	293
7.2.1	I/O接口的功能	294
7.2.2	I/O接口的基本结构	294
7.2.3	I/O接口的类型	295
7.2.4	I/O端口及其编址	295
7.2.5	本节习题精选	295
7.2.6	答案与解析	297
7.3	I/O方式	299
7.3.1	程序查询方式	299
7.3.2	程序中断方式	300
7.3.3	DMA方式	305
7.3.4	本节习题精选	309
7.3.5	答案与解析	317
7.4	本章小结	326
7.5	常见问题和易混淆知识点	326
参考文献	328
第1章
计算机系统概述
【考纲内容】
（一）计算机系统层次结构
计算机系统的基本组成
计算机硬件的基本组成
计算机软件和硬件的关系
计算机系统的工作原理：“存储程序”的方式；高级语言程序与机器语言程序的转换；程序和指令的执行过程
（二）计算机性能指标
吞吐量；响应时间；CPU时钟周期；主频；CPI；CPU执行时间；
MIPS; MFLOPS; GFLOPS; TFLOPS; PFLOPS; EFLOPS; ZFLOPS
【复习提示】
本章作为计算机组成原理的概述，旨在建立对计算机系统整体结构与核心概念的初步认识。其中涉及的基本原理与性能指标，是理解后续章节的基础。初学时若对某些概念理解尚浅，无须过度担忧；随着课程的深入，这些知识将在具体上下文中逐渐明晰。
在学习本章时，建议读者思考以下问题：
1)主频高的CPU一定比主频低的CPU性能更高吗？为什么？
2)翻译程序、汇编程序、编译程序与解释程序有何区别？各自的特征是什么？
3)不同级别的编程语言所编写的程序有何差异？哪一类语言可被硬件直接执行？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
1.1计算机发展历程
1.1.1计算机硬件的发展
1.计算机的四代变化
从1946年世界上第一台电子数字计算机(Electronic Numerical Integrator And Computer, ENIAC)问世以来，计算机的发展已经历了四代。
1)第一代计算机(1946—1957年)——电子管时代。特点：逻辑元件采用电子管；使用机器语言编程；主存储器采用延迟线或磁鼓，容量极小；体积庞大，成本高昂；运算速度较低，一般仅为每秒几千次至几万次。
①加“*”章节表示非统考大纲要求内容或已从统考大纲中删除的内容，仅供学习参考。
2	2027年计算机组成原理考研复习指导
2) 第二代计算机 (1958—1964年) ——晶体管时代。特点：逻辑元件采用晶体管；运算速度提升至每秒几万次至几十万次；主存储器使用磁芯存储器；计算机软件开始发展，出现了高级语言及其编译程序，并形成了操作系统的雏形。
3) 第三代计算机 (1965—1971年) ——中小规模集成电路时代。特点：逻辑元件采用中小规模集成电路；半导体存储器逐步取代磁芯存储器；高级语言迅速普及，操作系统进一步成熟，出现了分时操作系统。
4) 第四代计算机 (1972年至今) ——超大规模集成电路时代。特点：逻辑元件采用大规模和超大规模集成电路，微处理器由此诞生；并行处理、流水线、高速缓存和虚拟存储器等关键技术被广泛应用于该代计算机。
2. 计算机元件的更新换代
1) 摩尔定律。在价格不变的前提下，集成电路上可容纳的晶体管数量约每18个月翻一番，从而推动性能显著提升。这意味着，18个月后以相同价格购买的处理器，其理论性能潜力约为当前产品的两倍。这一定律深刻揭示了信息技术的快速发展节奏。
2) 半导体存储器的发展。1970年，美国仙童半导体公司研制出首个较大容量的半导体存储器。此后，单芯片存储容量从1KB、4KB、16KB、64KB、256KB，逐步发展到1MB、4MB、16MB、64MB、256MB、1GB, 并已进入TB级别。
3) 微处理器的发展。自1971年Intel公司推出首款微处理器Intel 4004以来，微处理器不断演进，包括Intel 8008(8位)、Intel 8086(16位)、Pentium(32位)、Core i7(64位)等。其中，32位、64位指的是机器字长（简称字长），即CPU通用寄存器的宽度，它决定了单次整数运算可以处理的数据位数以及可直接寻址的内存空间大小。
1.1.2 计算机软件的发展
计算机软件技术的蓬勃发展，为计算机系统的发展做出了重要贡献。
计算机语言的演进经历了面向机器的机器语言和汇编语言，逐步发展到更接近人类表达方式的高级语言。高级语言极大地推动了软件产业的进步，其中包括用于科学与工程计算的FORTRAN，支持结构化程序设计的Pascal，面向对象的C++，以及具有跨平台特性的Java等。
与此同时，各类系统软件也取得了长足进展，对计算机系统的功能完善与高效运行起到了关键作用，其中尤以操作系统为代表，如Windows、UNIX、Linux等。
1.2 计算机系统层次结构
1.2.1 计算机系统的组成
一个完整的计算机系统由硬件与软件组成。硬件指有形的物理装置，即计算机系统中的各类物理部件；软件则是在硬件上运行的程序及其相关的数据与文档。
计算机系统的实际性能，在很大程度上取决于软件对硬件资源的利用效率，而该效率的实现依赖于硬件所提供的能力。因此，计算机系统设计必须合理划分软硬件的功能边界。一般而言，对于使用频繁且硬件实现成本较低的功能，宜由硬件实现，以显著提升整体效率。
第1章	计算机系统概述	3
1.2.2 计算机硬件
1.冯·诺依曼机的基本思想
考点追踪	冯·诺依曼机的特点 (2019)
冯·诺依曼在研究EDVAC 机时首次提出了“存储程序”的思想，奠定了现代计算机的基本结构。基于这一思想的计算机统称为冯·诺依曼机，其主要特点如下：
1)采用“存储程序”的工作方式：将编制好的程序和初始数据预先存入主存储器，计算机启动后能自动、连续地取指并执行，直至程序结束，无须人工干预。
2)硬件系统由运算器、控制器、存储器、输入设备和输出设备五大部件组成。
3)指令和数据在存储器中以相同形式存放，仅凭内容无法区分，但计算机应能识别它们。
4)指令和数据均采用二进制编码表示。
5)指令由操作码和地址码组成，其中操作码指明操作类型，地址码指出操作数的地址。
2.计算机的功能部件
现代计算机将运算器、控制器和各类寄存器高度集成，形成一块称为中央处理器 (Central Processing Unit，CPU)的芯片。完整的计算机硬件系统主要包含以下部件：中央处理器、存储器、输入/输出控制器、外部设备，以及用于协调这些部件协同工作的总线。
(1) 中央处理器
中央处理器(CPU)是计算机系统中负责指令执行的核心部件。其传统基本组成部分为运算器和控制器；在现代处理器架构中，这两部分被系统地组织为数据通路与控制单元。
数据通路是执行实际运算的硬件通路，其核心包括算术逻辑单元(ALU)和通用寄存器组。ALU 负责完成所有算术与逻辑运算；通用寄存器组则为 ALU 提供操作数并暂存运算结果，是实现高速数据访问的关键。此外，数据通路还包含多路选择器、内部互连通路等组件，用于在各个部件间高效传送数据。控制单元负责协调整个 CPU 的工作。它从存储器中取出指令并译码，随后根据指令语义生成一系列精确的控制信号，指挥数据通路中的各部件（例如，选择源寄存器、配置ALU 功能、启动运算并在正确时序下完成结果写回），从而确保指令有序、高效地执行。
(2) 存储器
按访问特性，存储器通常分为内存与外存。现代内存由主存和高速缓存(Cache)组成；但由于 Cache是后期引入的，传统上“内存”仅指主存。在冯·诺依曼结构中，主存作为核心的工作存储器，用于存放待执行的程序和数据。外存则包括两类：一是可与主存交换数据的磁盘、固态硬盘等，二是用于长期备份的海量存储设备（如磁带、光盘等）。
(3)外部设备和设备控制器
外部设备简称外设，也称I/O 设备(I/O 是 Input/ Output 的缩写)。外设通常由物理功能部件（如打印头、鼠标滚轮或按键等）和设备控制器组成，二者在功能或物理实现上往往相互分离；前者负责实际的输入/输出操作，后者则负责与主机通信并控制前者的工作。
外设通过设备控制器连接到主机上，各种设备控制器统称I/O 控制器或I/O接口。例如，键盘接口、显示控制器（简称显卡）、网络控制器（简称网卡）等都是设备控制器。
(4) 总线
总线是计算机中用于在各个部件之间传输信息的公共通路。CPU、主存和I/O接口通过总线互连；其中，CPU 和I/O 接口内部均包含寄存器，部分还集成了高速缓存。
图1.1展示了一个典型的多总线计算机硬件系统。CPU 作为核心，内含控制器、ALU、寄存
4	2027年计算机组成原理考研复习指导
器堆和总线接口部件。CPU通过处理器总线，并经由I/O桥接器与主存和I/O设备通信；主存通过存储器总线，并经由I/O桥接器与CPU和I/O设备相连；各类I/O设备则通过其控制器（如USB控制器、显示适配器）接入I/O总线。按功能划分，ALU属于数据处理部件，负责对寄存器中的数据进行运算；主存和磁盘属于存储部件，分别承担临时存储与长期存储任务；而所有总线、桥接器、接口及控制器共同构成系统的互连结构，负责全系统的数据传输与协调。
CPU
寄存器堆
控制器
ALU
处理器总线
存储器总线
总线接口部件
北桥芯片
I/O桥接器
主存储器
I/O总线
USB控制器
显卡适配器
磁盘控制器
鼠标	键盘
显示器
磁盘
图1.1一个典型的多总线计算机硬件系统
1.2.3 计算机软件
1.系统软件和应用软件
软件按其功能可分为系统软件和应用软件。
系统软件是一组保障计算机系统高效、正确运行的基础软件，用于管理和调度系统资源，为用户及应用程序提供基础服务。典型的系统软件包括：操作系统(OS)、数据库管理系统(DBMS)、语言处理程序、网络与分布式软件系统、标准库程序、服务性程序等。
应用软件是指用户为解决特定应用领域问题而开发的程序，例如科学计算、工程设计、数据统计与信息处理等领域的专用软件。
2.软件和硬件的逻辑功能等价性
在计算机中，最基本的操作（如算术与逻辑运算）通常由硬件直接实现，而更复杂的功能则可由软件完成。对于某一特定功能，既可采用硬件实现，又可通过软件实现；从用户视角看，在相同规范下，二者在逻辑功能上是等价的。这一性质称为软/硬件逻辑功能的等价性。例如，浮点运算既可由专用浮点运算器硬件实现，又可通过软件子程序模拟；在相同输入和数值规范(如IEEE 754)下，二者产生一致的数值结果，但硬件实现的效率通常远高于软件。
软/硬件逻辑功能的等价性是计算机系统设计的重要依据。如何合理划分软/硬件的功能边界，是计算机体系结构研究的核心问题之一。在系统设计过程中，必须综合考虑设计目标、成本效益与技术可行性等因素，明确哪些功能由硬件承担，哪些功能由软件实现。
1.2.4计算机系统的层次结构
如图1.2所示，计算机系统采用多级层次结构，通过逐层抽象隔离复杂的硬件实现与高层应用需求。从用户的应用问题到物理器件，每层都向上提供简洁的接口，向下依赖更底层的功能实现。这种分层设计不仅明确了软/硬件的职责边界，还使系统开发和维护得以并行高效进行。
第1章	计算机系统概述
应用（问题）
最终用户
软件
算法与编程
程序员
操作系统/虚拟机
指令集体系结构（ISA）
硬件
微体系结构
架构师
功能部件/RTL
电路与器件
电子工程师
图1.2计算机系统的层次结构示意图
1.算法和编程
解决应用问题需要先将其抽象为一个正确的算法描述。随后，程序员将该算法用编程语言编写成程序。与自然语言不同，编程语言语法严谨、无二义性，能够精确描述计算机的执行顺序。
(1) 编程语言
编程语言可分为高级语言与低级语言。高级语言独立于计算机底层硬件结构，是主流软件开发语言；低级语言则紧密依赖机器结构，特指机器语言及其符号化形式——汇编语言。
考点追踪	三种编程语言的特点（2015、2024）
1)机器语言。又称二进制代码语言，由0和1组成的指令序列构成。程序员需要熟记每条指令的二进制编码。它是计算机唯一能直接识别和执行的语言。
2)汇编语言。采用英文助记符(如 mov、add)或其缩写代替二进制指令，显著提升了可读性与记忆性。但汇编程序不能被硬件直接执行，必须通过一个称为汇编程序的系统软件的翻译，将其转换为机器语言程序后，才能在计算机上运行。
3) 高级语言。如C、C++、 Java等，允许程序员以接近自然语言的方式描述问题求解过程，极大提高了开发效率。高级语言程序通常需经编译程序处理：或先编译为汇编语言，再经汇编生成机器语言；或直接编译为目标机器的机器语言程序。
(2) 翻译程序
考点追踪	各种翻译程序的概念（2016）
高级语言源程序必须转换为机器语言程序才能被计算机直接执行，用于完成该转换的系统软件称为翻译程序，转换后生成的程序称为目标程序。翻译程序主要分为以下三类：
1)汇编程序(汇编器)：将汇编语言源程序翻译为机器语言目标程序。
2)解释程序(解释器)：逐条翻译并立即执行高级语言源程序语句，不生成独立的目标程序。
3)编译程序(编译器)：将高级语言源程序一次性翻译为汇编语言或机器语言目标程序。
2.操作系统
所有的语言处理系统都必须在操作系统提供的运行环境中执行；操作系统通过对计算机硬件及其底层结构的抽象，构建出一台可供程序员使用的虚拟机。
3.指令集体系结构
指令集体系结构(Instruction Set Architecture,ISA) 是计算机软/硬件之间的关键接口，它从程序员和编译器的视角，完整地定义了软件可直接使用的硬件功能。主要包括：指令格式、操作类型、寻址方式，以及可访问的寄存器等硬件资源。
因此，ISA 构成了软件所能“感知”到的计算机功能视图，也被称为软件可见部分。我们编写的机器语言程序，本质上就是一串严格遵循该ISA 规范的指令序列；而硬件执行程序的过程，就是逐条解释并完成这些指令所规定操作的过程。
6	2027年计算机组成原理考研复习指导
4.微体系结构
微体系结构(又称微架构)是处理器内部的硬件组织方式，用于实现ISA定义的功能。如果说ISA定义了“做什么”，那么微架构则决定了“怎么做”。其核心设计包括数据通路组织、控制单元实现、流水线级数、缓存层次结构以及分支预测机制等。
例如，加法操作可能通过串行进位加法器、超前进位加法器，甚至专用的SIMD单元来实现，这些都属于微体系结构的范畴。相同的ISA可对应多种不同的微构架。以Intel x86为例，不同代际的处理器(如 Core、Skylake、Alder Lake)均遵循同一套ISA规范，但内部组织方式差异显著，体现了微架构的多样性与演进性。
1.2.5计算机系统的不同用户
根据用户使用计算机完成任务的性质，可将用户划分为以下四类角色。
最终用户：直接操作应用程序完成特定任务的人员，如使用办公软件、浏览网页等的人员。他们通过操作系统提供的界面与计算机交互，无须了解底层技术细节。
系统管理员：负责配置、管理和维护计算机系统，确保其稳定高效运行的人员。主要职责包括安装软/硬件、管理用户账户、数据备份与系统升级等。
应用程序员：使用高级语言开发应用软件，以满足最终用户在办公、娱乐等领域的特定需求的人员。
系统程序员：设计并开发操作系统、编译器、数据库管理系统等核心系统软件的人员。
在实际使用中，同一用户可能在不同场景下承担多种角色。例如，一名计算机专业的学生：网上购物时是最终用户，管理磁盘、备份数据时是系统管理员，编写应用程序作业时是应用程序员，而参与操作系统开发时则是系统程序员。计算机系统采用层次化结构构建，不同用户正是依据其角色，工作在系统相应的抽象层级上的。
如图1.3所示，指令集体系结构(ISA)位于计算机软/硬件的交界处，是硬件功能的集中体现，也是软件执行的基础。ISA以下为硬件层，包括CPU、主存和I/O设备等物理组件；ISA以上为软件层，涵盖系统软件与应用软件。不同用户工作在以ISA为基础逐层构建的抽象层次上。
最终用户
应用程序	应用程序员
系统管理员
系统程序员
编译程序	操作系统
汇编程序
指令集体系结构(ISA)
CPU	主存	I/O
数字逻辑及电路设计
图1.3计算机系统的层次与各层用户
系统程序员工作在机器语言层面，直接面向ISA；系统管理员工作在操作系统层面；应用程序员(高级语言程序员)工作在高级语言层面；最终用户则通过应用程序完成任务，处于最上层。在计算机系统中，下层机器的结构特性对上层用户通常是“透明”的。例如，ISA之下的硬件实现细节对高级语言程序员是透明的，他们无须了解底层机制即可进行开发。
第1章	计算机系统概述	7
1.2.6	计算机系统的工作原理
1.“存储程序”工作方式
“存储程序”工作方式规定：在程序执行前，需将其包含的指令和数据预先加载到主存储器中；一旦启动，计算机便无须人工干预，自动逐条取出并执行指令。如图1.4所示，程序的执行是一个周而复始的指令执行过程。每条指令的执行通常包括以下步骤：从主存储器中取指令（地址由程序计数器PC提供）、对指令译码、取操作数、执行操作，并将结果写回存储器。
2.从源程序到可执行文件
考点追踪	翻译过程的四个阶段（2022）
在计算机中编写的C语言程序，必须经过编译与链接过程，转换为一系列低级机器指令，并按特定格式封装为可执行目标文件，最终以二进制形式存储于磁盘。以UNIX系统中的GCC编译器为例，给定源程序文件hello.c，系统通过四个阶段生成可执行文件hello，如图1.5所示。
1）预处理阶段：预处理器（cpp）处理源文件中以#开头的预处理指令，如将#include <stdio.h>替换为对应头文件的完整内容，生成预处理后的C文件hello.i。
2）编译阶段：编译器（cc1）将hello.i翻译为汇编程序hello.s，其中每条语句以文本形式描述一条低级机器指令。
3）汇编阶段：汇编器（as）将hello.s转换为机器语言指令，生成可重定位目标文件hello.o。
8	2027年计算机组成原理考研复习指导
该文件为二进制格式，包含代码、数据及符号信息。
4) 链接阶段：链接器(ld)将hello.o与标准C库中所需的函数(例如printf)进行链接，解析外部符号引用，最终生成完整的可执行文件hello，并保存至磁盘。
3. 指令执行过程的简要描述
可执行文件中的代码段由一条条机器指令构成。每条指令是一串二进制编码，用于指示CPU完成一个特定的基本操作。指令的执行可被建模为经典的“取指—译码—执行”三阶段循环。掌握这一抽象模型，对于理解软件如何驱动硬件至关重要。读者可能会自然地追问：“这个循环在硬件上究竟是如何一步步实现的？”这正是“计算机组成原理”课程要回答的核心问题之一。为保障初学阶段概念的清晰性，避免过早陷入复杂的硬件细节，控制器的工作原理、数据通路的结构、时序信号的控制等具体实现技术，已系统性地安排在第5章“中央处理器”中。届时，我们将基于前述抽象模型，深入硬件内部，揭示其底层工作原理。
1.2.7 本节习题精选
单项选择题
01. 完整的计算机系统应包括（	）。
A. 运算器、存储器、控制器	B. 外部设备和主机
C. 主机和应用程序	D. 配套的硬件设备和软件系统
02. 冯·诺依曼机的基本工作方式是（	）。
A. 控制流驱动方式	B. 多指令多数据流方式
C. 微程序控制方式	D. 数据流驱动方式
03. 冯·诺依曼机工作方式的基本特点是（	）。
A. 程序一边被输入计算机一边被执行
B. 程序直接从磁盘读到CPU执行
C. 按地址访问指令并自动按序执行程序
D. 程序自动执行而数据手工输入
04. 以下关于计算机各部件功能的叙述中，错误的是（	）。
A. 运算器(ALU)仅用来完成算术运算
B. 存储器用来存放指令和数据
C. 控制器负责指挥和协调计算机各部件
D. 输入/输出设备用来完成用户和计算机之间的信息交换
05. 计算机系统采用层次化结构，从最上层的应用程序到最底层的硬件，其典型层次自上而下依次为（	）。
A. 高级语言虚拟机→操作系统虚拟机→汇编语言虚拟机→机器语言机器
B. 高级语言虚拟机→汇编语言虚拟机→机器语言机器→操作系统虚拟机
C. 高级语言虚拟机→汇编语言虚拟机→操作系统虚拟机→机器语言机器
D. 操作系统虚拟机→高级语言虚拟机→汇编语言虚拟机→机器语言机器
06. 下列关于计算机系统层次结构的说法中，正确的是（	）。
A. 高级语言程序经编译生成汇编语言后，可直接在机器上执行
B. ISA仅定义指令功能，不涉及硬件实现细节
C. 同一ISA可由不同微体系结构实现，软件无须修改即可兼容
第1章计算机系统概述
D.高级语言中的每条语句与ISA的机器指令一一对应
07.关于编译程序和解释程序，下列说法中错误的是（）。
A.编译程序和解释程序的作用都是将高级语言程序转换为机器语言程序
B.编译程序编译时间较长，运行速度较快
C.解释程序方法较简单，运行速度也较快
D.解释程序将源程序翻译成机器语言，并且翻译一条以后，立即执行这条语句
08.只有当程序执行时才将源程序翻译成机器语言，并且一次只能翻译一行语句，边翻译边执行的是（）程序，把汇编语言源程序转换为机器语言程序的过程是（）。
I.编译Ⅱ.目标Ⅲ.汇编Ⅳ.解释
A.Ⅰ、ⅡB.Ⅳ、ⅡC.Ⅳ、ⅠD.Ⅳ、Ⅲ
09.下列关于各种级别语言的描述中，错误的是（）。
A.可用高级语言和低级语言编写出功能等价的程序
B.低级语言的执行效率一般情况下高于高级语言
C.机器语言源程序可在机器上直接执行，而高级语言和汇编语言源程序不可以
D.汇编语言与机器结构无关
10.下列关于机器指令和汇编指令的叙述中，错误的是（）。
A.可以直接用机器语言（机器指令）编写程序
B.汇编指令和机器指令都能被计算机直接执行
C.汇编语言和机器语言都与计算机系统结构相关
D.汇编指令和机器指令一一对应，功能相同
11.【2015统考真题】计算机硬件能够直接执行的是（	）。
I.机器语言程序Ⅱ.汇编语言程序Ⅲ.硬件描述语言程序
A.仅ⅠB.仅Ⅰ、ⅡC.仅Ⅰ、ⅢD.Ⅰ、Ⅱ、Ⅲ
12.【2016统考真题】将高级语言源程序转换为机器级目标代码文件的程序是（	）。
A.汇编程序B.链接程序C.编译程序D.解释程序
13.【2019统考真题】下列关于冯·诺依曼机基本思想的叙述中，错误的是（	）。
A.程序的功能都通过中央处理器执行指令实现
B.指令和数据都用二进制数表示，形式上无差别
C.指令按地址访问，数据都在指令中直接给出
D.程序执行前，指令和数据需预先存放在存储器中
14.【2022统考真题】将高级语言源程序转换为可执行目标文件的主要过程是（	）。
A.预处理→编译→汇编→链接B.预处理→汇编→编译→链接
C.预处理→编译→链接→汇编D.预处理→汇编→链接→编译
1.2.8答案与解析
单项选择题
01.D
选项A是计算机主机的组成部分，而选项B、C只涉及计算机系统的部分内容，都不完整。
02.A
冯·诺依曼机的基本工作方式是控制流驱动方式，也就是按照指令的执行序列，依次读取指令，然后根据指令所含的控制信息，调用数据信息进行处理。因此，在执行程序的过程中，始终
10	2027年计算机组成原理考研复习指导
以控制流为驱动工作的因素，而数据流则是被动地被调用处理。
03. C
冯·诺依曼机的核心特征包括“存储程序”、程序和数据统一存储、按地址访问，以及指令的自动顺序执行。其基本工作方式是：程序以二进制形式预先存入主存储器，CPU依据程序计数器 (PC)提供的地址逐条取出指令，并自动按序执行，无须人工干预。
04. A
运算器 (ALU)不仅负责算术运算，还承担逻辑运算(如与、或、非、移位等)，因此选项A限定为“算术运算”是片面的，表述错误。选项B、C和D的描述明显正确。
05. C
计算机系统通常被抽象为多层虚拟机结构。用户程序以高级语言编写，在高级语言虚拟机上运行；经编译后生成汇编代码，在汇编语言虚拟机上抽象执行；但实际指令需要由操作系统加载、调度并管理资源，因此操作系统构成操作系统虚拟机层；最终，所有操作由机器语言机器执行。该层次自上而下为“高级语言虚拟机→汇编语言虚拟机→操作系统虚拟机→机器语言机器”。
06. C
汇编语言仍需汇编为机器码才能执行。ISA 是软/硬件的抽象接口，定义了软件可见的处理器行为(如指令、寄存器、寻址方式等)，而非仅描述功能。同一ISA 可由不同微体系结构(如流水线、缓存设计等)实现，软件无须修改即可兼容，选项C正确。高级语言高度抽象，与机器指令无直接对应关系，仅汇编语言与ISA 指令基本一一对应。
07. C
编译程序是先完整编译后运行的程序，如C、C++等；解释程序是逐句翻译且边翻译边执行的程序，如JavaScript、Python等。解释程序要边翻译成机器语言边执行，因此一般速度较编译程序慢。为增加对该过程的理解，附C语言编译链接的过程：
源程序(c)→C编译器→汇编语言源程序→汇编程序→可重定位目标文件→链接程序→可执行文件
08. D
解释程序的特点是翻译一句执行一句，边翻译边执行；由高级语言转化为汇编语言的过程称为编译，把汇编语言源程序翻译成机器语言程序的过程称为汇编。
09. D
在不同的设备中，汇编语言对应着不同的机器语言指令集，通过汇编程序转换为机器指令。特定的汇编语言与特定的机器语言指令集是一一对应的，不同平台之间不可直接移植。
10. B
计算机只能直接执行机器指令，而汇编指令需要通过汇编程序转换为机器指令才能被计算机直接执行。
11. A
硬件能直接执行的只能是机器语言(二进制编码)，汇编语言是增强机器语言的可读性和记忆性的语言，经过汇编后才能被执行。
12. C
翻译程序是指把高级语言源程序转换为机器语言程序的软件。翻译程序有两种：一种是编译程序，它将源程序一次全部翻译成目标程序，并且会生成目标代码文件。另一种是解释程序，它将源程序的一条语句翻译成对应的机器目标代码，并立即执行，翻译一句执行一句，并且不会生成目标代码文件。汇编程序也是一种翻译程序，它把汇编语言源程序翻译为机器语言程序。
第1章	计算机系统概述 11
13. C
冯·诺依曼机的功能部件包括输入设备、输出设备、存储器、运算器和控制器，程序的功能都通过中央处理器（运算器和控制器）执行指令，选项A正确。指令和数据以同等地位存放于存储器内，形式上无差别，只在程序执行时具有不同的含义，选项B正确。指令按地址访问，数据由指令的地址码指出，除立即寻址外，数据均存放在存储器内，选项C错误。在程序执行前，指令和数据需预先存放在存储器中，中央处理器可以从存储器存取代码，选项D正确。
14. A
将源程序转换为可执行目标文件的过程分为预处理、编译、汇编、链接四个阶段。
1.3	计算机的性能指标
1.3.1计算机的主要性能指标
1.运算速度
考点追踪	提高系统性能的综合措施(2010)
(1)吞吐量和响应时间
●吞吐量。指系统在单位时间内处理请求的数量。它受多个环节影响，包括信息输入内存的速度、CPU取指令的速度、数据在内存中读写的速率，以及结果输出到外部设备的效率。由于主存储器在这些环节中扮演关键角色，其存取性能对系统吞吐量有显著影响。
● 响应时间。指从用户发出请求到系统返回所需结果的总等待时间，通常包括CPU 时间（程序实际运行时间）和等待时间（如磁盘访问、内存访问、I/O操作等所花费的时间）。
(2)主频和CPU时钟周期
考点追踪时钟脉冲信号和时钟周期的相关概念 (2019)
• CPU时钟周期。机器内部主时钟脉冲的宽度，是CPU工作的最小时间单位。
时钟脉冲由机器脉冲源产生，经整形和分频后形成。
时钟周期通常以相邻状态单元间组合逻辑电路的最大延迟时间为基准确定；在流水线结构中，则以指令流水线的每个流水段的最大延迟时间为准。
考点追踪	主频和时钟周期的转换计算 (2013)
• 主频（CPU 时钟频率）。机器内部主时钟的频率，即时钟周期的倒数，是衡量处理器速度的重要参数。对于同一个型号的计算机，主频越高，执行指令的每个步骤所需时间越短，运算速度越快。直观理解，主频表示每秒包含的时钟周期数。
注	意
CPU时钟周期 =1/主频。主频单位为赫兹(Hz)，如10Hz表示每秒10个时钟周期。
(3) CPI (Cycles Per Instruction) ,执行一条指令所需的时钟周期数
考点追踪	IPS的相关计算 (2023)
不同指令所需的时钟周期数可能不同，因此对于一个程序或一台机器来说，其CPI是指该程序或该机器指令集中的所有指令执行所需的平均时钟周期数，即平均CPI.
12 2027年计算机组成原理考研复习指导
• IPS (Instructions Per Second) ,即每秒执行多少条指令,IPS= 主频/平均CPI.
(4)CPU执行时间，运行一个程序所花费的时间
考点追踪  CPU执行时间的相关计算(2012、2013、2014、2017、2022、2023)
CPU执行时间 =CPU时钟周期数/主频 =（指令条数×CPI）÷主频
上式表明，CPU 性能（以执行时间衡量）取决于三个要素：指令条数、CPI和主频，三者之间存在制约关系。例如，采用更复杂的指令集 (如CISC)可能会减少程序所需的指令条数，但往往会导致CPU控制逻辑更复杂，从而延长时钟周期，限制主频的提升；反之，精简指令集(如RISC)虽然可能会增加程序所需的指令条数，但有助于缩短时钟周期、提高主频。
【例1.1】假定计算机M1和M2具有相同的指令集体系结构，M1的主频为2GHz，程序P在M1上的运行时间为10s.M2采用新技术可使主频大幅提升，但其平均CPI也增加到M1 的1.5倍。则M2的主频至少需提升到多少，才能使程序P在M2上的运行时间缩短为6s?
解：
程序P在M1上的时钟周期数=指令条数×平均CPI=CPU执行时间×主频=10s×2GHz=2×10¹⁰.
M2的平均CPI为M1的1.5倍，因此程序P在 M2上的时钟周期数= 1 . 5 × 2 × 1 0^{1 0} = 3 × 1 0^{1 0}。
要使程序P在M2上的运行时间缩短至6s，则M2所需的主频至少为
程序P在M2上的时钟周期数÷CPU执行时间= 3 × 1 0^{1 0} ÷ 6 s = 5 G H z
由此可见，M2的主频是M1的2.5倍，但其实际性能仅提升至M1的1.67倍。
(5) MIPS(Million Instructions Per Second) ,每秒执行多少百万条指令
考点追踪  MIPS相关的计算(2012、2013)
MIPS= 指令条数÷(CPU执行时间×10⁶)= 主频÷(CPI×10⁶).
MIPS用于不同机器间的性能比较存在明显缺陷：不同机器的指令集架构各异，指令的功能强度往往不等。例如，M1中一条指令完成的操作在M2上可能需多条指令实现；同时，各机器的CPI与时钟周期也不同，导致同一条指令的实际执行时间差异显著。
(6) FLOPS(Floating-point Operations Per Second) ,每秒执行的浮点运算次数
考点追踪浮点运算指标的概念(2011、2021)
MFLOPS (Million FLOPS) : 百万(10⁶) 次浮点运算/秒。
GFLOPS (Giga FLOPS) : 十亿 (10⁹) 次浮点运算/秒。
TFLOPS (Tera FLOPS) : 万亿 (10¹²) 次浮点运算/秒。
PFLOPS (Peta FLOPS) : 千万亿 (10¹⁵) 次浮点运算/秒。
·EFLOPS (Exa FLOPS) : 百亿亿 (10¹⁸) 次浮点运算/秒。
●ZFLOPS (Zetta FLOPS): 十万亿亿 (10²¹) 次浮点运算/秒。
注	意
在描述存储容量、文件大小等时，K、M、G、T通常基于2的幂次（如1 K b = 2^{1 0}b);而在描述速率、频率等时，k、M、G、T通常基于10的幂次（如11 k b / s = 1 0^{3}b / s)。习惯上，前者用大写K，后者用小写k,但其他前缀(M、G等)均为大写，具体含义需结合上下文判断。
2.基准程序
基准程序(Benchmarks)是一组专门用于性能评测的典型程序，旨在模拟真实应用场景下的负载，从而较为准确地反映系统在实际使用中的运行效率。通过在不同机器上运行相同的基准程
第1章计算机系统概述
序，并比较其执行时间，可以客观地评估和对比各系统的性能。
基准程序测评的局限性：其性能常依赖于某些关键代码片段。硬件或编译器开发者可能对此进行针对性优化，使这些片段执行极快，却无法代表系统处理一般负载的能力，导致评测结果失真。因此，应结合具体应用领域选择合适的基准程序，并辅以多种评测手段综合判断。
1.3.2本节习题精选
一、单项选择题
01.关于CPU主频、CPI、MIPS、MFLOPS,说法正确的是()。
A.CPU主频是指CPU执行指令的频率，CPI是执行一条指令平均使用的频率
B.CPI是执行一条指令平均使用CPU时钟的个数，MIPS描述一条CPU指令平均使用的CPU时钟周期数
C.MIPS是描述CPU执行指令的频率，MFLOPS是计算机系统的浮点数指令
D.CPU主频是CPU使用的时钟频率，CPI是执行一条指令平均使用的CPU时钟周期数
02.在用于科学计算的计算机中，标志系统性能的最有用的参数是()。
A.主时钟频率 B.主存容量 C.MFLOPS D.MIPS
03.在计算机M1和计算机M2上分别运行功能完全相同的高级语言程序，程序在M1和M2上的平均CPI相等，则对于该类程序而言()。
A.M1和M2执行速度相等
B.M1和M2中主频高的计算机执行速度快
C.M1和M2中主频低的计算机执行速度快
D.无法确定哪台机器的执行速度快
04.计算机中，CPU的CPI与下列()因素无关。
A.时钟频率 B.系统结构 C.指令集 D.计算机组织
05.某基准程序在机器A上运行的时间是20s，而在机器B上运行的时间是16s，那么相对来说，下列给出的结论中，()是正确的。
A.所有程序在机器A上都比在机器B上运行速度慢
B.机器B的速度是机器A的1.25倍
C.机器A的速度是机器B的1.25倍
D.机器A比机器B慢1.25倍
06.机器A的主频为800MHz，某程序在机器A上运行需要12s。现在硬件设计人员想设计机器B，希望该程序在机器B上的运行时间能缩短为8s，使用新技术后可使机器B的主频大幅度提高，但在机器B上运行该程序所需的时钟周期数为在机器A上的1.5倍，则机器B的主频至少应为()。
A.800MHz B.1.2GHz C.1.5GHz D.1.8GHz
07.下列可用于评价计算机系统性能的指标是()。
I.MIPS II.IPC III.CPI IV.字长
A. I、III B. I、III和IV C. I、II和III D.全部
08.计算机的机器字长与下列()指标最密切相关。
A.运算速度 B.存取速度 C.内存容量 D.运算精度
09.假定编译器对高级语言的某条语句可以编译生成两种不同的指令序列，A、B和C三类指令的CPI和两种不同序列所含的三类指令条数如下表所示，两个指令序列都在时钟周
14 2027年计算机组成原理考研复习指导
期为2ns的机器上运行，则下列结论中正确的是（	）。
指令类型	CPI	序列一的指令条数	序列二的指令条数
A	1	1	2
B	2	1	1
C	3	4	2
A.序列一的MIPS数比序列二多50，序列一的执行速度比序列二快10ns
B.序列一的MIPS数比序列二多50，序列二的执行速度比序列一快 10ns
C.序列二的MIPS数比序列一多50，序列一的执行速度比序列二快10ns
D.序列二的MIPS数比序列一多50，序列二的执行速度比序列一快10ns
10.用一台40MHz的CPU执行标准测试程序，共包含100条指令，它所包含的指令混合比和不同指令的CPI见下表。该段程序的平均CPI和程序的执行时间分别为（	）。
指令类型	CPI	指令混合比	指令类型	CPI	指令混合比
算术和逻辑	1	60%	转移	4	12%
高速缓存命中的访存	2	18%	高速缓存失效的访存	8	10%
A. 2.26,5.6×10⁻⁸s	B. 2.26,5.6×10⁻⁶s
C. 2.24,5.6×10⁻⁶s	D. 2.24,5.6×10⁻⁸s
11.下列给出了改善计算机性能的4种措施：
I.用更快的处理器来替换原来的慢速处理器
Ⅱ.增加同类处理器个数，使得不同的处理器同时执行程序
Ⅲ.优化编译生成的代码，使得程序执行的总时钟周期数减少
IV.减少指令执行过程中的访存时间
对于某个特定的程序，在以上措施中，能缩短其执行时间的措施是（	）。
A. I、Ⅱ和Ⅲ	B. I、Ⅱ和Ⅳ	C. I、Ⅲ和Ⅳ	D.全部
12.【2010统考真题】下列选项中，能缩短程序执行时间的措施是（	）。
I.提高CPU时钟频率Ⅱ。优化数据通路结构Ⅲ。对程序进行编译优化
A. 仅I和Ⅱ	B. 仅I和III	C. 仅Ⅱ和Ⅲ	D. I、II、III
13.【2011统考真题】下列选项中，描述浮点数操作速度指标的是（	）。
A. MIPS	B. CPI	C. IPC	D. MFLOPS
14.【2012统考真题】假定基准程序A在某计算机上的运行时间为 100s，其中90s为CPU时间，其余为I/O时间。若CPU速度提高50%,I/O速度不变，则运行基准程序A所耗费的时间是（	）。
A. 55s	B. 60s	C. 65s	D. 70s
15.【2013统考真题】某计算机的主频为1.2GHz，其指令分为4类，它们在基准程序中所占比例及CPI如下表所示。
指令类型	所占比例	CPI	指令类型	所占比例	CPI
A	50%	2	C	10%	4
B	20%	3	D	20%	5
该机的MIPS数是（	）。
A. 100	B. 200	C. 400	D. 600
16.【2014统考真题】程序P在机器M上的执行时间是20s，编译优化后，P执行的指令数减少到原来的70%，而CPI增加到原来的1.2倍，则P在M上的执行时间是（	）。
第1章	计算机系统概述 15
A. 8.4s	B. 11.7s	C. 14s	D. 16.8s
17.【2017统考真题】假定计算机M1和M2具有相同的指令集体系结构(ISA)，主频分别为1.5GHz和1.2GHz.在M1和M2上运行某基准程序P,平均CPI分别为2和1,则程序P在M1和M2上运行时间的比值是（	）。
A. 0.4	B. 0.625	C. 1.6	D. 2.5
18.【2021统考真题】2017年公布的全球超级计算机TOP 500排名中，我国“神威·太湖之光”超级计算机蝉联第一，其浮点运算速度为93.0146 PFLOPS，说明该计算机每秒完成的浮点操作次数约为（	）。
A . 9 . 3 × 1 0^{1 3}次	B . 9 . 3 × 1 0^{1 5}次	C. 9.3千万亿次	D. 9.3亿亿次
19.【2022统考真题】某计算机主频为1GHz，程序P运行过程中，共执行了10000条指令，其中，80%的指令执行平均需1个时钟周期，20%的指令执行平均需 10个时钟周期。程序P的平均CPI和CPU执行时间分别是（	）。
A. 2.8,28μs	B. 28,28μs	C. 2.8,28ms	D. 28,28ms
20.【2023统考真题】若机器M的主频为1.5GHz,在M上执行程序P的指令条数为5×10⁵,P的平均CPI为1.2，则P在M上的指令执行速度和用户CPU时间分别为（	）。
A. 0.8GIPS,0.4ms B.0.8GIPS,0.4μs C. 1.25GIPS,0.4m s D. 1.25GIPS,0.4μs
二、综合应用题
01.微机A和B是采用不同主频的CPU芯片，片内逻辑电路完全相同。
1）微机A的CPU主频为8MHz,微机B为12MHz,则微机A的CPU时钟周期为多少？
2）微机A的平均指令执行速度为0.4MIPS，微机A的平均指令周期为多少？
3）微机B的平均指令执行速度为多少？
02.某台计算机只有LOAD/STORE指令能对存储器进行读/写操作，其他指令只对寄存器进行操作。根据程序跟踪试验结果，已知每条指令所占的比例及CPI数如下表所示。
指令类型	指令所占比例	CPI	指令类型	指令所占比例	CPI
算术逻辑指令	43%	1	STORE指令	12%	2
LOAD指令	21%	2	转移指令	24%	2
求上述情况下的平均CPI.
假设程序由 M条指令组成。算术逻辑运算中 25%的指令的两个操作数中的一个已在寄存器中，另一个必须在算术逻辑指令执行前用LOAD指令从存储器中取到寄存器中。因此有人建议增加另一种算术逻辑指令，其特点是一个操作数取自寄存器，另一个操作数取自存储器，即寄存器-存储器类型，假设这种指令的 CPI 等于 2。同时，转移指令的CPI变为3.求新指令系统的平均CPI.
1.3.3 答案与解析
一、单项选择题
01. D
CPU主频是指CPU使用的时钟频率，CPI是执行一条指令平均使用的CPU时钟周期数。
02. C
MFLOPS是指每秒执行多少百万次浮点运算，该参数用来描述计算机的浮点运算性能，而用于科学计算的计算机主要评估浮点运算的性能。
16	2027年计算机组成原理考研复习指导
03.D
CPU执行时间=指令条数×CPI×时钟周期，程序在M1和M2上的平均CPI相等，但影响CPU执行时间的因素还有指令条数和时钟周期，此外相同的高级语言程序在不同计算机上编译生成的机器指令条数可能不同，因此无法确定哪台机器执行该类程序的速度快。
04.A
CPI是执行一条指令所需的时钟周期数，系统结构、指令集、计算机组织都会影响CPI，而时钟频率并不会影响CPI，但可加快指令的执行速度。例如，执行一条指令需要10个时钟周期，则一台主频为1GHz的CPU，执行这条指令要比一台主频为100MHz的CPU快。
05.B
机器的速度与基准程序在该机器上的运行时间呈相反关系，因此可知：机器B的速度/机器A的速度=基准程序在机器A上的运行时间/基准程序在机器B上的运行时间=20s÷16s=1.25。因此，可以说，机器B的速度是机器A的1.25倍，或者机器A的速度是机器B的0.8倍。
06.D
该程序在机器A上需要的时钟周期数为12×800M=9600M，因为在机器B上运行该程序需的时钟周期数为在机器A上的1.5倍，故在机器B上需要的时钟周期数为9600M×1.5=14400M=14.4G，要求运行时间为8s，故机器B的时钟频率为14.4G÷8=1.8GHz。
07.D
显然，MIPS、CPI、字长都是评价计算机系统性能的指标。IPC表示每个时钟周期运行多少条指令，它是CPI的倒数。
08.D
机器字长越长，数据的位数越多，定点数或浮点数所表示及运算的精度就越高，选项D正确。机器字长与运算速度的关系不大，机器字长与存取速度和内存容量基本没有关系。
09.D
MIPS=主频÷(CPI×10⁶),主频=1/时钟周期=1/2ns=500MHz,序列一的CPI=(1×1+1×2+4×3)÷6=15÷6=2.5,序列二的CPI=(2×1+1×2+2×3)÷5=10÷5=2,故序列一的MIPS=500×10⁶÷(2.5×10⁶)=200,序列二的MIPS=500×10⁶÷(2×10⁶)=250。CPU执行时间=指令条数×CPI×时钟周期=程序的时钟周期数×时钟周期，序列一所需的时钟周期数是15，序列二所需的时钟周期数是10，所以序列一的执行时间为15×2ns=30ns,序列二的执行时间为10×2ns=20ns。
10.C
标准测试程序共包含4种指令，CPI是这4种指令的数学期望，平均CPI=1×60%+2×18%+4×12%+8×10%=2.24。程序的执行时间T=CPI×T_IC×I,其中T_IC是一个时钟周期(它是主频f的倒数)，I是指令条数，因此T=CPI×T_IC×I=CPI×(1/f)×I=5.6×10⁶s。
11.D
采用更快的处理器，可以减少单条指令的执行时间；增加处理器的个数，可以增加程序执行的并行性，缩短程序的执行时间；优化编译代码，可以减少指令之间的各种冲突；访存时间占指令执行的大部分时间，减少访存时间同样可以大大加快指令的执行时间。
12.D
CPU时钟频率(主频)越高，完成指令的一个执行步骤所用的时间就越短，执行指令的速度就越快，说法I正确。数据通路的功能是实现CPU内部的运算器和寄存器及寄存器之间的数据交换，优化数据通路结构，可以有效提高计算机系统的吞吐量，从而加快程序的执行，说法II正确。计算机程序需要先转化成机器指令序列才能最终得到执行，通过对程序进行编译优化可以得到更优的指令序列，从而使得程序的执行时间也越短，说法III正确。
第1章	计算机系统概述	17
13.D
MIPS是每秒执行多少百万条指令，适用于衡量标量机的性能。CPI是平均每条指令的时钟周期数。IPC是CPI的倒数，即每个时钟周期执行的指令数。MFLOPS是每秒执行多少百万条浮点数运算，用来描述浮点数运算速度，适用于衡量向量机的性能。
14.D
程序A的运行时间为100s，减去CPU时间90s，剩余10s为I/O时间。CPU提速50%后运行基准程序A所耗费的时间是T=90÷1.5+10=70s。
误区
CPU速度提高50%，而误认为CPU时间减少一半，从而误选选项A。
15.C
基准程序的CPI=2×0.5+3×0.2+4×0.1+5×0.2=3。计算机的主频为1.2GHz，即1200MHz，因此该机器的MIPS=1200÷3=400。
16.D
假设原来的指令条数为x，则原CPI为20fx（f为CPU的时钟频率），经过编译优化后，指令条数减少到原来的70%，即指令条数为0.7x，而CPI增加到原来的1.2倍，即24fx，则现在程序P在机器M上的执行时间就为：（指令条数×CPI）/f=（0.7x×24×fx）/f=24×0.7=16.8s。
17.C
运行时间=指令数×CPI/主频。M1的时间=指令数×2/1.5，M2的时间=指令数×1/1.2，两者之比为（2/1.5）：（1/1.2）=1.6。
18.D
PFLOPS=每秒千万亿（10¹⁵）次浮点运算。故93.0146PFLOPS≈每秒9.3×10^{16}次浮点运算，即每秒9.3亿亿次浮点运算。
19.A
CPI指平均每条指令的执行需要多少个时钟周期。80%的指令执行平均需要1个时钟周期，20%的指令执行平均需要10个时钟周期，因此CPI=80%×1+20%×10=2.8。计算机主频为1GHz，程序P共执行10000条指令，平均每条指令需要2.8个时钟周期，因此，CPU执行时间=(10000×2.8)÷10^{9}=2.8×10^{-5}s=28\mu s。
20.C
程序P的指令条数为5×10^{5}，平均CPI为1.2，程序P的总时钟周期数为5×10^{5}×1.2=6×10^{5}，主频1.5GHz说明1s有1.5G=1.5×10^{9}个时钟周期，故指令执行速度=主频/平均CPI=1.5×10^{9}÷1.2=1.25GIPS，用户CPU时间=6×10^{5}÷(1.5×10^{9})s=4×10^{-4}s=0.4ms。
二、综合应用题
01.【解答】
1）微机A的CPU主频为8MHz，所以微机A的CPU时钟周期=1÷8MHz=0.125μs。
2）微机A的平均指令周期=1÷0.4MIPS=2.5μs。
3）微机A平均每条指令的时钟周期数=2.5μs÷0.125μs=20。
因微机A和B的片内逻辑电路完全相同，所以微机B平均每条指令的时钟周期数也为20。
因为微机B的CPU主频为12MHz，所以微机B的CPU时钟周期=1÷12MHz=1/12μs。
微机B的平均指令周期=20×(1/12)=5/3μs。
微机B的平均指令执行速度=1÷(5/3)μs=0.6MIPS。
18 2027年计算机组成原理考研复习指导
【另解】微机B的平均指令执行速度=微机A的平均指令执行速度×(12/8)=0.4MIPS×(12/8)=0.6MIPS.
02.【解答】
①	本计算机共包含4种指令，则CPI就是这4种指令的数学期望，即
CPI=1×43%+2×21%+2×12%+2×24%=1.57
②	设原指令总数为M，因为新增的算术操作有取操作数的功能，替代了LOAD的功能，所以新指令总数为
M+(0.25×0.43M)-(0.25×0.43M)-(0.25×0.43M)=0.8925M
增加另一种算术逻辑指令后，每种指令所占的比例及CPI如下表所示：
指令类型	指令所占比例	CPI
算术逻辑指令	(0.43M-0.43M×0.25)/0.8925M=0.3613	1
算术逻辑指令（新）	(0.43M×0.25)/0.8925M=0.1204	2
LOAD指令	(0.21M-0.43M×0.25)/0.8925M=0.1149	2
STORE指令	0.12M/0.8925M=0.1345	2
转移指令	0.24M/0.8925M=0.2689	3
所以CPI'=1×0.3613+2×0.1204+2×0.1149+2×0.1345+3×0.2689=1.9076.
1.4	本章小结__
本章开头提出的问题的参考答案如下。
1）主频高的CPU一定比主频低的CPU性能更高吗？为什么？
不一定。CPU性能受多种因素影响，不能仅凭主频高低判断优劣。主频表示CPU内部时钟信号的振荡频率，反映指令执行的节奏快慢，但并不直接等同于实际运算速度。实际性能还取决于微架构设计、流水线深度、缓存容量与层级、指令集效率、位宽、并行能力等。例如，一个主频较低但架构先进的CPU，可能因更高的每周期指令数(IPC)而超越主频更高但架构陈旧的处理器。因此，在特定场景下，主频较高的CPU实际性能反而可能更低。
2）翻译程序、汇编程序、编译程序与解释程序有何区别？各自的特征是什么？
详见本章常见问题和易混淆知识点1.
3）不同级别的语言所编写的程序有何差异？哪一类语言可被硬件直接执行？
机器语言由二进制指令构成，与硬件指令一一对应，可被CPU直接执行；汇编语言使用助记符，需要汇编后执行；高级语言更抽象，需要编译或解释转换。只有机器语言能被硬件直接执行。
1.5	常见问题和易混淆知识点 -
1.翻译程序、解释程序、汇编程序、编译程序的区别和联系是什么？
翻译程序是将一种编程语言转换为另一种语言的程序，主要包括编译程序、解释程序和汇编
第1章	计算机系统概述
程序。编译程序将高级语言源程序一次性全部翻译为目标程序(如机器码或汇编代码)，生成可独立执行的文件；源程序不变时，无须重复编译。解释程序逐条读取源程序语句，翻译成机器指令并立即执行，通常不生成可存储的目标程序，执行过程为“边翻译边执行”。汇编程序是一种特殊的翻译程序，将汇编语言源程序翻译为机器语言程序。编译程序与汇编程序的区别：若源语言为高级语言(如C、Java)，目标语言为低级语言(如汇编语言或机器语言)，则称为编译程序；若源语言为汇编语言，目标语言为机器语言，则称为汇编程序。
2.什么是透明性？透明是指什么都能看见吗？
在计算机领域，透明性指从某类用户的视角无法感知某一事物或属性的存在，这与日常生活中“透明=可见”的含义恰好相反。例如，对高级语言程序员而言，指令的格式、机器结构、数据格式等均是透明的；而对汇编或机器语言程序员，这些细节则不是透明的。CPU中的指令寄存器(IR)、存储器地址寄存器(MAR)和存储器数据寄存器(MDR)，对所有程序员均透明。
3.计算机体系结构和计算机组成的区别与联系是什么？
计算机体系结构是指程序员可见的机器属性，包括指令集、数据类型、寻址方式等，属于抽象层面的定义。计算机组成则是体系结构的具体实现，涉及硬件如何完成取指、译码、执行等操作，包含大量对程序员透明的细节。例如，是否提供乘法指令属于体系结构问题，而采用何种电路(如阵列乘法器或移位相加)实现该指令，则属于组成问题。因此，两台机器可具有相同体系结构，但组成方式迥异，从而在性能与成本上呈现显著差异。
4.基准程序执行得越快说明机器的性能越好吗？
一般而言，基准程序的执行速度可反映机器性能，但单一程序通常只覆盖特定工作负载，难以全面代表系统整体性能，因其对计算、访存、I/O等资源的需求各异。
购买王道书，就上
王道官方考研书店
wangdao.taobao.com
淘
第2章
数据的表示和运算
【考纲内容】
（一）数制与编码
进位计数制及其相互转换；定点数的编码表示
（二）运算方法和运算电路
基本运算部件：加法器；算术逻辑单元(ALU)
加减运算：补码加减运算器；标志位的生成
乘除运算：乘除运算的基本原理；乘法电路和除法电路的基本结构
（三）整数的表示和运算
无符号整数的表示和运算；有符号整数的表示和运算
（四）浮点数的表示和运算
浮点数的表示：IEEE 754标准；浮点数的加减运算
【复习提示】
本章内容较为繁杂，由于计算机采用二进制表示数据，其表示与运算机制不同于日常使用的十进制，理解起来有一定的难度。纵观历年统考真题，C语言中 unsigned、 short、 int、 long、 float、 double等基本数据类型的表示范围、运算规则、溢出判断，以及类型转换，IEEE754浮点数的表示、特点与加减运算，均为考查重点，需要牢固掌握。
在学习本章时，建议读者思考以下问题：
1)在计算机中，为什么要采用二进制来表示数据？
2)计算机在字长足够的情况下能够精确地表示每个数吗？若不能，请举例说明。
3)字长相同的情况下，浮点数和定点数的表示范围与精度有什么区别？
4)用移码表示浮点数的阶码有什么好处？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
2.1 数制与编码
2.1.1 进位计数制及其相互转换
考点追踪	采用二进制编码的原因(2018)
在计算机系统内部，所有信息均采用二进制进行编码，主要原因如下。
1)二进制只有两个状态，只需使用具有两种稳定物理状态的器件即可表示每一位，硬件实现成本较低。例如，可用高电平和低电平分别表示1和0。
2)二进制的1和0恰好对应逻辑值“真”与“假”，为计算机实现逻辑运算和程序中的条件判断提供了直接支持。
第2章 数据的表示和运算 21
3）二进制的运算规则极为简单，可通过基本的逻辑门电路高效实现各类算术与逻辑操作。
1.进位计数制
常用的进位计数制包括十进制、二进制、八进制和十六进制。十进制是日常生活中最常用的计数制，而计算机内部主要使用二进制，并常借助八进制和十六进制来简化表示。
在进位计数制中，基数是指每个数位所能使用的不同数码的个数。例如，十进制的基数为10（数码为0~9），计数时遵循“逢十进一”的规则。以十进制数101为例，百位的1表示100，个位的1表示1，二者数值不同，是因为每一位的实际值等于该数码乘以其所在位置的位权。一个进位制数的数值，等于各位数码与其位权的乘积之和。
一个r进制数(K_{n}K_{n-1}\dotsc K_{0}K_{-1}\dotsc K_{-m})的数值可表示为 
K_{n}r^{n}+K_{n-1}r^{n-1}+\cdots +K_{0}r^{0}+K_{-1}r^{-1}+\cdots +K_{-m}r^{-m}=\sum_{i=n}^{m}K_{i}r^{i}
式中，r是基数；r是第i位的位权；K_{i}是第i位的数码，取值范围为0,1,\cdots ,r-1。
1）二进制。基数为2，数码为0和1，计数“逢二进一”。第i位的位权为2^{i}。
2）八进制。基数为8，数码为0~7，计数“逢八进一”。由于8=2^{3}，每3位二进制数恰好对应1位八进制数，两者转换十分便捷。
3）十六进制。基数为16，数码为0~9和A~F（A~F分别代表10~15），计数“逢十六进一”。由于16=2^{4}，每4位二进制数对应1位十六进制数，转换同样便捷。
为便于区分，常在数字后添加后缀字母来标识进制：B表示二进制数，O表示八进制数，D表示十进制数（通常省略），H表示十六进制数；此外，也常用前缀0x表示十六进制数。
2.不同进制数之间的相互转换
（1）二进制数转换为八进制数和十六进制数
对于一个既有整数部分又有小数部分的二进制数，转换时以小数点为界分别处理：整数部分，从小数点向左，每3位（八进制）或每4位（十六进制）分为一组，若最左侧不足3位或4位，则在高位补0；小数部分，从小数点向右，同样每3位或4位分为一组，若最右侧不足，则在低位补0。分组完成后，将每组直接替换为对应的八进制或十六进制数码即可。
【例2.1】将二进制数1111000010.01101转换为八进制数和十六进制数。
解：
\begin{array}{ccc}\text{高位补}0，\text{凑足}3\text{位}&\text{分界点}&\text{低位补}0，\text{凑足}3\text{位} \\ \downarrow &\downarrow &\downarrow \\ \frac{001}{1}&\frac{111}{7}&\frac{000}{0}\quad\frac{010}{2}\quad\quad\frac{011}{3}\quad\frac{010}{2}& \\ \text{所以，对应的八进制数为}(1702.32)_{8}。&\end{array}
\begin{array}{ccc}\text{高位补}0，\text{凑足}4\text{位}&\text{分界点}&\text{低位补}0，\text{凑足}4\text{位} \\ \downarrow &\downarrow &\downarrow \\ \frac{0011}{3}&\frac{1100}{C}&\frac{0010}{2}\quad\quad\frac{0110}{6}\quad\frac{1000}{8} \\ \text{所以，对应的十六进制数为}(3C2.68)_{16}。&\end{array}
反之，将八进制数或十六进制数转换为二进制数时，只需将每位数码分别替换为对应的3位或4位二进制数（必要时去掉整数最高位或小数最低位的0）。八进制数与十六进制数之间的转换，通常先转换为二进制数，再转为目标进制，这是最直接且不易出错的方式。
（2）任意进制数转换为十进制数
采用按权展开相加法：将各位数码与其对应位权（基数的幂次）相乘，再求和。
例如，(11011.1)_{2}=1×2^{4}+1×2^{3}+0×2^{2}+1×2^{1}+1×2^{0}+1×2^{-1}=27.5。
22 2027年计算机组成原理考研复习指导
(3)十进制数转换为任意进制数
考点追踪	十进制小数转换为二进制小数(2021、2022)
通常采用基数乘除法，对整数部分和小数部分分别处理：
1）整数部分使用除基取余法：不断除以目标进制的基数，记录余数，直至商为0；最先得到的余数为最低位，最后得到的为最高位。
2）小数部分使用乘基取整法：不断乘以基数，记录整数部分，直至小数部分为0或达到所需精度。最先得到的整数为最高位，最后得到的为最低位。
最终将两部分的转换结果拼接，即得到目标进制数。
【例2.2】将十进制数123.6875转换为二进制数。
解：
整数部分（除2取余）：
除基
取余
2
12 3
1
最低位
2
61
、
2
3 0
0
ˇ
1 5
、
2
7
1
2日1
最高位
所以，整数部分123=(1111011)₂.
小数部分（乘2取整）：
取整
1	最高位
0
1
\frac{0 . 5 0 0 0 0}{1 . 0 0 0 0}	1	最低位
所以，小数部分0.6875=(0.1011)₂, 因此，123.6875=(1111011.1011)₂.
注	意
关于除基取余法和乘基取整法的原理，建议结合r进制数的数值定义公式理解，避免死记硬背。并非所有十进制小数都能用有限位二进制小数精确表示。一个十进制小数能被有限位二进制精确表示，当且仅当它可以表示成形如k/2"的分数。例如，0.3=3/10，而10不是2的幂（其质因数包含5），因此无法用有限位二进制精确表示。相反，任何有限位二进制小数都对应一个分母为 2 的幂的分数，因此总能精确地转换为十进制小数。这一特性在浮点数的表示与运算中尤为重要，需特别注意。
2.1.2定点数的编码表示
1.真值和机器数
在日常生活中，数通常用“+”或“-”号表示正负（正号常省略），如+15、-8.这类带有符号的数称为真值，即机器数所代表的实际数值。在计算机中，数的符号与数值部分一同编码：通常用“0”表示正，“1”表示负。这种将符号数字化的表示形式称为机器数。
例如，机器数0，101（逗号仅用于分隔符号位与数值位）表示真值+5.
第2章 数据的表示和运算 23
2.机器数的定点表示
根据小数点位置是否固定，计算机中的数值表示分为定点表示和浮点表示。定点表示用于表示定点小数和定点整数。
1)定点小数。表示纯小数，约定小数点位于符号位之后、数值部分最高位之前。若数据 X=x_{0}.x_{1}x_{2}\dotsc x_{n}（其中 x_{0} 为符号位，x_{1}\sim x_{n} 为数值位，x_{1} 为最高有效位），其在计算机中的表示形式如图 2.1 所示。
2)定点整数。表示纯整数，约定小数点位于数值部分最低位之后。若数据 X=x_{0}x_{1}x_{2}\dotsc x_{n}（其中 x_{0}为符号位，x_{1}\sim x_{n} 为数值位，x_{n} 为最低有效位），其表示形式如图 2.2 所示。
事实上，在机器内部并没有小数点，只是人为约定了小数点的位置。因此，在定点数的编码和运算中，无须区分该数表示的是小数还是整数，而只需关心符号位和数值位即可。
定点数的编码表示法主要有四种：原码、补码、反码和移码。
3.原码、补码、反码、移码
(1) 原码表示法
用机器数的最高位表示数的符号，其余各位表示数的绝对值。原码的定义如下。
[x]_{\text{原}}=\begin{cases}0,x,&0⩽x < 2^{n} \\ 2^{n}-x=2^{n}+|x|,&-2^{n} < x⩽0\end{cases} (x 是真值，字长为 n+1)
例如，若字长为 8 位，x_{1}=+1110，x_{2}=-1110，则其原码表示分别为 [x_{1}]_{\text{原}}=0,0001110，[x_{2}]_{\text{原}}=2^{7}+1110=1,0001110。
对于 n+1 位原码整数，其表示范围为 -(2^{n}-1)⩽x⩽2^{n}-1（关于原点对称）。
注意
零的原码表示有正零和负零两种形式，即 [+0]_{\text{原}}=0,0000000 和 [-0]_{\text{原}}=1,0000000。
原码表示的优点：① 与真值的对应关系简单、直观，转换简便；② 用原码实现乘除运算比较简便。缺点：① 零的表示不唯一，存在 ±0 两种编码；② 用原码实现加减运算比较复杂。
(2) 补码表示法
补码表示法的加法和减法运算均可通过加法器统一实现。正数的补码与原码相同，负数的补码等于模 (n+1) 位补码的模为 2^{n+1} 与该负数绝对值之差。补码的定义如下。
[x]_{\text{补}}=\begin{cases}0,x,&0⩽x < 2^{n} \\ 2^{n+1}+x=2^{n+1}-|x|,&-2^{n}⩽x < 0\end{cases}\quad(\mod2^{n+1})
等价地，无论是正数还是负数，[x]_{\text{补}}=2^{n+1}+x-( -2^{n}⩽x < 2^{n}\mod2^{n+1})\)。
例如，若字长为 8 位，x_{1}=+1010，x_{2}=-1101，则其补码表示分别为 [x_{1}]_{\text{补}}=0,0001010，[x_{2}]_{\text{补}}=2^{8}-|x_{2}|=1,1110011。
考点追踪 补码的表示范围 (2010、2013、2014、2022)
对于 n+1 位补码整数，其表示范围为 -2^{n}⩽x⩽2^{n}-1（比原码多表示一个负数，即 -2^{n}）。
• 几个特殊值的补码 (n+1 位)：
24 2027年计算机组成原理考研复习指导
1）[+0]*=[-0]*=0,00... 0（全0），零的补码表示是唯一的。
（全1）.
3）最大正整数：[2^{n} - 1]_{\ast} = 0 ， 1 1 \dotsc 1（符号位为0，数值位全1）.
4）最小负整数：[ - 2^{n}]_{\ast} = 1 ， 0 0 \dotsc 0（符号位为1，数值位全0）.
●模运算（了解）
在模运算中，一个数与它除以“模”后得到的余数是等价的。如A、B、M满足A=B+K×M（K为整数），记为A≡B(mod M)，即A、B各除以M后的余数相同。在补码运算中，[A]*-[B]*=[A]*+M-[B]*, 而M-[B]*=[-B]*,因此补码能够借助加法运算实现减法运算。
●补码与真值之间的转换
考点追踪	补码和真值的相互转换(2020、2023)
真值转换为补码：对于正数，与原码的方式一样。对于负数，符号位取1，其余各位由其绝对值“按位取反，末位加1”得到。补码转换为真值：若符号位为0，则直接读作正数。若符号位为1，则真值为负数，其绝对值由补码数值部分“按位取反，末位加1”得到。
·变形补码
为便于溢出检测，可采用双符号位的补码表示（又称变形补码），双符号位00表示正数，11表示负数。若总位数为n+2（高2位为符号位，其余为数值位），则变形补码定义为
在双符号位中，左符表示真正的符号位，右符用于判断“溢出”。
(3)反码表示法（了解即可）
反码可视为从原码转换为补码的中间表示形式。
正数的反码与其原码相同。负数的反码由其原码的数值部分按位取反（末位不加1）得到。
反码表示存在明显不足：①零的表示不唯一（存在±0两种编码）；②表示范围与相同字长的原码相同，比补码少一个最小负数(-2")。因此，反码在计算机中极少使用。
(4)移码表示法
移码主要用于表示浮点数的阶码，且用于表示整数。其核心思想是将真值x加上一个固定偏置值，实现数轴整体右移。设字长为n+1位，偏置值通常取2"，则移码定义为
[x]+ =2"+x(-2"≤x<2")
注	意
在IEEE754标准的浮点数中，k位阶码的偏置值为2^{k - 1} - 1 ，如8位阶码的偏置值为127.
例如，若字长为8位，偏置值为2^{7} ， x_{1} = + 1 0 1 0 1 ， x_{2} = - 1 0 1 0 1 ，则其移码表示分别为[[x_{1}]_{稀} = 2^{7} +1 0 1 0 1 = 1 ， 0 0 1 0 1 0 1 ; [ x_{2} ]_{\circled{B}} = 2^{7} + ( - 1 0 1 0 1 ) = 0 , 1 0 1 0 1 1 0
移码（设字长为n+1，偏置值为2"）的主要特点如下：
①零的表示唯一，|[ + 0 ]_{稀} = 2^{n} + 0 = [ - 0 ]_{稀} = 2^{n} - 0 = 1 , 0 0 . . . 0(n个0).
②在相同字长下，移码与补码仅符号位相反（将补码的最高位取反即得移码）。
③移码全0时，对应真值的最小值-2"；移码全1时，对应真值的最大值2"-1.
④移码保持真值的大小顺序：移码值越大，对应真值越大，便于阶码比较。
四种编码表示的总结如下：
考点追踪	补码大小的判断 (2015)
①正数的原码、反码、补码相同；移码则不同。
第2章数据的表示和运算	25
②原码与反码在数轴上关于原点对称，二者都存在+0与-0。
③补码与移码的表示不对称，零的表示唯一，且比原码和反码多表示一个负数(-2")。
④原码可直观的比较大小(因数值部分即绝对值)，而负数的补码和反码不能像原码那样直观判断。不过，在同为负数的前提下，补码或反码的数值部分越大，其真值也越大。
2.1.3整数的表示
1.无符号整数的表示
考点追踪机器码与补码、无符号数之间的转换(2021)
当所有二进制位均用于表示数值(无符号位)时，该编码称为无符号整数，简称无符号数。此时，数值隐含为非负整数。由于无须保留符号位，在相同字长下，无符号整数能表示的最大值大于有符号整数。无符号整数适用于仅涉及非负整数且结果不会产生负值的场景。例如，可用无符号整数进行地址运算，或用它来表示指针。
例如，8位无符号整数的最小值为0000，最大值为11111111(2⁸-1=255)，表示范围为0~255；而8位有符号整数(补码表示)的最小值为10000000(-2⁷=-128)，最大值为01111111(2⁷-1=127)，表示范围为-128~-127。
2.有符号整数的表示
有符号整数通过在数值位前增设一位符号位(0表示正，1表示负)来表示正负。虽然原码、反码和补码均可用于表示有符号整数，但现代计算机统一采用补码，因其具有以下优势：
①零的表示唯一(无+0与-0之分)。
②符号位可与数值位一同参与运算，使加减法统一为加法操作。
③表示范围更大，比原码和反码多表示一个最小负数。
因此，n位有符号整数(补码)的表示范围为-2ⁿ⁻¹~2ⁿ⁻¹-1。
2.1.4C语言中的整数类型及类型转换
统考大纲要求考生具备分析高级程序设计语言(如C语言)中相关问题的能力，其中变量之间的类型转换是高频考点，需要深入掌握。
1.C语言中的整型数据类型
考点追踪int型数据的表示范围(2017、2019、2024)
C语言提供了多种整型类型，其具体长度依赖于编译器和目标平台。常见情况如下：
●短整型：short(或short int)，通常为16位。
●整型：int，通常为32位。
●长整型：long(或long int)，在32位系统中为32位，在64位系统中通常为64位。
在上述类型前添加unsigned关键字，可定义对应的无符号类型(如unsigned int、unsigned short等)。若未显式指定signed或unsigned，则默认为有符号类型。
字符型(char，通常为8位)是一种特殊的整型，通常可按无符号整数解释。
在现代系统中，所有有符号整型均以补码形式存储。无符号整型则将全部位用于表示非负数值。因此，在相同位宽下，两者的取值范围不同。
2.整型数据的类型转换
定点数在类型转换过程中，若涉及字长变化，则会触发两种基本操作：位截断与位扩展。
1)位截断：当长类型转换为短类型时，系统直接丢弃高位，仅保留低位部分。由于目标类型的表示范围较小，截断可能导致数值发生变化，具有较强的隐蔽性。
26 2027年计算机组成原理考研复习指导
考点追踪零扩展和符号扩展的应用 (2012、2021、2024)
2）位扩展：当短类型转换为长类型时，系统通过填充高位来保持数值语义不变。具体扩展的方式取决于源数据的符号性：
● 零扩展：用于无符号数，在高位补0.
● 符号扩展：用于补码表示的有符号数，高位重复填充符号位。
C语言支持通过强制类型转换实现不同类型间的转换，其语法为“TYPEb=(TYPE)a”，转换结果是一个TYPE类型的值。根据源类型与目标类型的字长和符号性，可分为三种情形。
考点追踪	整型类型的相互转换 (2011、2016、2019、2024)
(1)长类型转换为短类型：位截断
转换规则：保留低位，丢弃高位。
考虑如下代码片段：
int x=165537, u=-34991;	∥int型为32位
short y=(short)x, v=(short)u;	// short型为16位
printf("x=%d, y=%d\n", x, y);
printf("u=%d, v=%d\n", u, v);
运行结果如下：
x=165537, y=-31071
u=-34991, v=30545
其中,x,y,u,v的十六进制表示分别为0x000286A1,0x86A1,0xFFFF7751,0x7751.可见，当长类型转换为短类型时，系统直接截断高位，仅保留低位部分。由于目标类型的数值范围较小，这种位截断可能导致结果与原值在语义上不一致。由于x=165537超出了16位有符号整数的最大值(32767)，截断后的位模式被解释为-31071，这并非运算溢出，而是位截断引起的语义变化。需要注意的是，此类转换不会触发任何异常或错误报告，具有很强的隐蔽性。
(2)相同字长的转换：仅改变解释方式
转换规则：二进制位模式保持不变，仅重新解释其含义。
考虑如下代码片段：
short x=-4321;
unsigned short y=(unsigned short)x;
printf("x=%d, y=%u\n", x, y);
运行结果如下：
x=-4321, y=61215
有符号数x为负数，而无符号数y只能表示非负值。从输出结果看，y的值似乎与x毫无关联；但将二者转换为二进制形式后（见表2.1）,可观察到：short型强制转换为unsigned short型后，所有二进制位均保持不变，x按补码规则解释为有符号数，而y则按无符号规则解读。
表2.1 y与x的位级表示对比
变	量	值	二进制位
15	14	13	12	11	10	9	8	7	6	5	4	3	2	1	0
x	-4321	1	1	1	0	1	1	1	1	0	0	0	1	1	1	1	1
y	61215	1	1	1	0	1	1	1	1	0	0	0	1	1	1	1	1
这表明：相同字长的整型类型转换不改变位模式，仅改变对这些位的解释方式。
(3)短类型转换为长类型：位扩展
转换规则：若源数据为有符号数，则执行符号扩展；若源数据为无符号数，则执行零扩展。考虑如下代码片段：
第2章数据的表示和运算	27
short x=-4321;
int y=x;
unsigned short u=(unsigned short)x;
unsigned int v=u;
printf("x=%d, y=%d\n", x, y);
printf("u=%u, v=%u\n", u, v);
运行结果如下：
x=-4321, y=-4321
u=61215, v=61215
其中, x,y,u,v的十六进制表示分别为0xEF1F,0xFFFFEF1F,0xEF1F,0x0000EF1F。可见，短类型转换为长类型时，要对高位部分进行扩展，扩展方式取决于源数据的符号性。可见，x为有符号数，符号位为1，扩展时高16位补1；u为无符号数，扩展时高16位补0。
2.1.5 本节习题精选
单项选择题
01.若十进制数为137.5，则其八进制数为（	）。
A. 89.8	B. 211.4	C. 211.5	D. 1011111.101
02.一个16位无符号二进制数的表示范围是（	）。
A. 0~65536	B. 0~65535
C. -32768~32767	D. -32768~32768
03.下列说法有误的是（	）。
A.任何二进制整数都可以用十进制表示
B.任何二进制小数都可以用十进制表示
C.任何十进制整数都可以用二进制表示
D.任何十进制小数都可以用二进制表示
04.对真值0表示形式唯一的机器数是（	）。
A.原码	B.补码和移码	C.反码	D.以上都不对
05.若[X]补=1.1101010,则[X]原=（	）。
A. 1.0010101	B. 1.0010110	C. 0.0010110	D. 0.1101010
06.若X为负数,则由[X]补求[-X]补是将（	）。
A.[X]补各值保持不变
B.[X]补符号位变反，其他各位不变
C.[X]补除符号位外，各位变反，末位加1
D.[X]补连同符号位一起变反，末位加1
07.8位原码能表示的不同数据有（	）个。
A. 15	B. 16	C. 255	D. 256
08.一个n+1位整数x原码的数值范围是（	）。
A. -2"+1<x<2"-1	B. -2"+1≤x<2"-1
C. -2"+1<x≤2"-1	D. -2"+1≤x≤2"-1
09.若定点整数为64位，含1位符号位，则采用补码表示的绝对值最大的负数为（	）。
A. -2⁶⁴	B. - (2⁶⁴-1)	C. - 2⁶³	D. - (2⁶³-1)
10.下列关于补码和移码关系的叙述中，（	）是不正确的。
A.相同位数的补码和移码表示具有相同的数据表示范围
B.0的补码和移码表示相同
C.同一个数的补码和移码表示，其数值部分相同，而符号位相反
28	2027年计算机组成原理考研复习指导
D. 一般用移码表示浮点数的阶码，而补码表示定点整数
11.若 [x]_\text{补}=1.x_{1}x_{2}x_{3}x_{4}x_{5}x_{6}，其中 x_{i}取 0 或 1，若要x>-32，应当满足（	）。
A. x_{1}为 0，其他各位任意	B. x_{1}为 1，其他各位任意
C. x_{1}为 1，x_{2}\cdots x_{6}中至少有一位为 1	D. x_{1}为 0，x_{2}\cdots x_{6}中至少有一位为 1
12.设 x 为整数，[x]_\text{补}=1.x_{1}x_{2}x_{3}x_{4}x_{5}，若要 x < -16，x_{1}\sim x_{5}应满足的条件是（	）。
A. x_{1}\sim x_{5}至少有一个为 1	B. x_{1}必须为 0，x_{2}\sim x_{5}至少有一个为 1
C. x_{1}必须为 0，x_{2}\sim x_{5}任意	D. x_{1}必须为 1，x_{2}\sim x_{5}任意
13.设 x 为真值，x^*为其绝对值，满足 [-x^*]_\text{补}=[-x]_\text{补}，当且仅当（	）。
A. x 任意	B. x 为正数	C. x 为负数	D. 以上说法都不对
14.假定一个十进制数为 -66，按补码形式存放在一个 8 位寄存器中，该寄存器的内容用十六进制表示为（	）。
A. C2H	B. BEH	C. BDH	D. 42H
15.设机器数采用补码表示（含 1 位符号位），若寄存器内容为 9BH， 则对应的十进制数为（	）。
A. -27	B. -97	C. -101	D. 155
16.若寄存器内容为 10000000，若它等于 -0，则为（	）。
A. 原码	B. 补码	C. 反码	D. 移码
17.若寄存器内容为 11111111，若它等于 +127，则为（	）。
A. 反码	B. 补码	C. 原码	D. 移码
18.若寄存器内容为 11111111，若它等于 -1，则为（	）。
A. 原码	B. 补码	C. 反码	D. 移码
19.若寄存器内容为 00000000，若它等于 -128，则为（	）。
A. 原码	B. 补码	C. 反码	D. 移码
20.若二进制定点小数真值是 -0.1101，机器表示为 1.0010，则为（	）。
A. 原码	B. 补码	C. 反码	D. 移码
21.下列为 8 位移码机器数 [x]_{\text{移}}，求 [-x]_{\text{移}} 时，（	）将会发生溢出。
A. 11111111	B. 00000000	C. 10000000	D. 01111111
22.一个 8 位的二进制整数由 2 个 “0” 和 6 个 “1” 组成，采用补码或者移码表示，则下列说法中正确的是（	）。
A. 若采用移码表示，偏置值为 127，则此整数最小为 -64
B. 若采用移码表示，偏置值为 128，则此整数最大为 123
C. 若采用补码表示，则此整数最小为 -96
D. 若采用补码表示，则此整数最大为 252
23.用 2 个 “1” 和 6 个 “0” 组成的 8 位二进制补码，所能表示的最大整数和最小整数之差为（	）。
A. 223	B. 128	C. 191	D. 159
24.计算机内部的定点数大多用补码表示，以下是一些关于补码特点的叙述：
Ⅰ.零的表示是唯一的	Ⅱ.符号位可以和数值部分一起参加运算
Ⅲ.和其真值的对应关系简单、直观	Ⅳ.减法可用加法来实现
在以上叙述中，（	）是补码表示的特点。
A. I 和 II	B. I 和 III	C. I 和 II 和 III	D. I 和 II 和 IV
25.在计算机中，通常用来表示主存地址的是（	）。
第2章数据的表示和运算	29
A.移码	B.补码	C.原码	D.无符号数
26.16位补码整数0x8FA0扩展为32位应该是（	）。
A.0x00008FA0	B.0xFFFF8FA0	C.0xFFFFFA0	D.0x80008FA0
27.【2012统考真题】假定编译器规定int型和short型长度分别为32位和16位，执行下列C语言语句：
unsigned short x=65530;
unsigned int y=x;
得到y的机器数为（	）。
A.00007FFAH	B.0000FFFAH	C.FFFF 7FFAH	D.FFFF FFFAH
28.【2015统考真题】由3个“1”和5个“0”组成的8位二进制补码，能表示的最小整数是（	）。
A.-126	B.-125	C.-32	D.-3
29.【2016统考真题】有如下C语言程序段：
short si=-32767;
unsigned short usi= si;
执行上述两条语句后，usi的值为（	）。
A.-32767	B.32767	C.32768	D.32769
30.【2018统考真题】冯·诺依曼结构计算机中的数据采用二进制编码表示，其主要原因是（	）。
I.二进制的运算规则简单	II.制造两个稳态的物理器件较容易
III.便于用逻辑门电路实现算术运算
A.仅I、II	B.仅I、III	C.仅II、III	D.I、II和III
31.【2019统考真题】考虑以下C语言代码：
unsigned short usi=65535;
short si= usi;
执行上述程序段后，si的值是（	）。
A.-1	B.-32767	C.-32768	D.-65535
32.【2021统考真题】已知有符号整数用补码表示，变量x，y，z的机器数分别为FFFDH，FFDFH，7FFCH，下列结论中，正确的是（	）。
A.若x，y和z为无符号整数，则z<x<y
B.若x，y和z为无符号整数，则x<y<z
C.若x，y和z为有符号整数，则x<y<z
D.若x，y和z为有符号整数，则y<x<z
33.【2022统考真题】32位补码所能表示的整数范围是（	）。
A.-2³²-2³¹-1	B.-2³¹-2³¹-1	C.-2³²-2³²-1	D.-2³¹-2³²-1
34.【2025统考真题】在32位计算机上执行下列C语言代码段后，ui的值是（	）。
short si=-32767;
unsigned int ui= si;
A.2¹⁵-1	B.2¹⁵+1	C.2³²-2¹⁵-1	D.2³²-2¹⁵+1
2.1.6答案与解析
单项选择题
01.B
十进制数转换为八进制数，整数部分采用除基取余法：将整数除以8，所得余数即为转换后
30 2027年计算机组成原理考研复习指导
的八进制数个位上的数码，再将商除以 8，余数为八进制数十位上的数码，如此反复进行，直到商是 0 为止。小数部分采用乘基取整法：将小数乘以 8，所得积的整数部分即为八进制数十分位上的数码，再将此积的小数部分乘以 8，得到百分位上的数码，如此反复直到积是 1.0 为止。经转换得到的八进制数为 211.40。
02.B
一个 16 位无符号二进制数的表示范围是 0\sim 2^{16}-1，即 0\sim 65535。
03.D
选项 A、B、C 明显正确，二进制整数和十进制整数可以相互转换，仅仅是每位的位权不同而已。而二进制数的小数位只能表示 1/2,1/4,1/8,\cdots ,1/2^{n}，因此无法表示所有的十进制小数，选项 D 错误。
04.B
假设位数为 5 位（含 1 位符号位），[+0]_{\text{原}}=00000，[-0]_{\text{原}}=10000，[+0]_{\text{反}}=00000，[-0]_{\text{反}}=11111，[+0]_{\text{补}}=[-0]_{\text{补}}=00000，[+0]_{\text{移}}=[-0]_{\text{移}}=10000。可知，0 的补码和移码的表示是唯一的。
05.B
若 X 为负数，则其补码转换为原码的规则是“符号位不变，数值位取反，末位加 1”，即 [X]_{\text{原}}=0010101+1=0010110。
06.D
不论 X 是正数还是负数，由 [X]补求 [-X]_{\text{补}} 的方法是连同符号位一起，每位取反，末位加 1。
07.C
8 个二进制位有 2^{8}=256 种不同表示。原码中 0 有两种表示，因此原码能表示的不同数据为 2^{8}-1=255 个。0 在反码中也有两种表示，因此若题目改为反码，答案也为选项 C。0 在补码与移码中只有一种表示，因此题目若改为补码或移码，答案为选项 D。
08.D
n+1 位整数原码的表示范围为 -2^{n}+1⩽x⩽2^{n}-1。
09.C
对于长度为 n+1（含 1 位符号位）定点整数 x，用补码表示时，x\text{绝对值最大负数}=-2^{n}，其中n=63。
10.B
以机器字长 5 位为例，[0]_{\text{补}}=00000，[0]_{\text{移}}=2^{4}+0=10000，[0]_{\text{补}}≠[0]_{\text{移}}，表示不相同，但在补码或移码中的表示形式是唯一的。
11.C
对于此类题型，先写出特定值的机器码表示，然后根据机器数判断大小的规则来推导数值位的特点（若条件允许，也可以取特殊值来推断）。-32 的补码为 1,100000，根据负数补码判断大小的规则：数值位部分越小，其绝对值越大，即负得越多。因此，若要x>-32，数值位 x_{1}x_{2}x_{3}x_{4}x_{5}x_{6}需大于 100000，即 x_{1}必须为 1，而 x_{2}\cdots x_{6}中至少有一位为 1。
【特殊值法】对于选项 A，取 1,000000，真值为 -64，错误。对于选项 B，取 1,100000，真值为 -32，错误。对于选项 C，取 1,100001，真值为 -31，符合。对于选项 D，取 1,000001，真值为 -63，错误。
12.C
解题思路与上题类似（也可采用特殊值解法，请读者自行思考），-16 的补码为 1,10000，根据负数补码判断大小的规则：数值位部分越小，其绝对值越大，即负得越多。因此，若要x < -16，数值位 x_{1}x_{2}x_{3}x_{4}x_{5}需小于 10000，即 x_{1}必为 0，而 x_{2}\sim x_{5}任意。
13.D
当 x 为 0 或为正数时，满足 [-x^*]_{\text{补}}=[-x]_{\text{补}}，B 为充分条件，因此选项 B 错误。而 x 为负数时，-x 为正数，而 -x^* 为负数，补码的表示是唯一的，显然二者不等，因此选项 C 错误。
第2章数据的表示和运算 31
14. B
x=-66用二进制数表示，[x]原=11000010，则有[x]补=10111110=BEH。
15. C
9BH=(10011011)₂,最高位的1表示负数，所以其真值为(11100101)₂=-(64+32+4+1)=-101。
16. A
值等于-0说明只可能是原码或反码的因为补码和移码表示0时是唯一的，没有+0和-0之分)，[-0]原=10000000,[-0]反=11111111。
17. D
这里寄存器长度为8,[+127]原=[+127]反=[+127]补=01111111,又知同一数值的移码和补码除最高位相反外，其他各位相同，则[+127]移=11111111或[+127]移=2⁷+01111111=11111111。
18. B
这里寄存器长度为8，[-1]补=[10000001]补=11111111。
19. D
这里寄存器长度为8，[-128]移=2⁷+(-10000000)=00000000。
20. C
真值-0.1101,对应的原码表示为1.1101,补码表示为1.0011,反码表示为1.0010,移码通常用于表示阶码，不用来表示定点小数。
21. B
选项B对应8位最小的值-128，而-x=128发生溢出，因此无法表示其移码。
22. A
当采用补码表示时，要使得数值最大，就要让符号位为0，且把“1”放在高位，得到的补码为0111110B=126；要使得数值最小，就要让符号位为1，且把“1”放在低位，得到的补码为1001111B=-97。当采用移码表示时，设偏置值为128，要使得数值最大，就要把“1”放在高位，得到的移码为1111100B-1000000B=252-128=124；设偏置值为127，要使得数值最小，则应把“1”放在低位，得到的移码为0011111B-0111111B=11000000B=-64,选项A正确。
23. A
在8位补码中，符号位为最高位。要使数值最大，符号位为0，其余位中将两个“1”尽可能置于高位，最大值为01100000=96。要使数值最小，符号位为1，此时需要将另一个“1”置于最低位(其余为0),得最小补码为10000001=-127。二者之差为96-(-127)=223。
24. D
[+0]和[-0]补是相同的，所以说法Ⅰ正确。在进行补码定点数的加减运算时，符号位作为数的一部分参加运算，说法Ⅱ正确，[A]补-[B]补=[A]补+[-B]补，即将减法采用加法实现，说法Ⅳ正确。实际上，补码和其真值的对应关系远不如原码和其真值的对应关系简单直观，说法Ⅲ错误。
25. D
主存地址都是正数，因此不需要符号位，即直接采用无符号数表示。
26. B
16位扩展为32位，符号位不变，附加位是符号位的扩展。该数是一个负数，需用1来填补。A是一个正数，C的数值位发生变化，D用0来填充附加位，均不正确。
27. B
将一个16位unsigned short型数转换为32位unsigned int型数时，因为都是无符号数，新表示形式的高位用0填充。16位无符号整数所能表示的最大值为65535，其十六进制表示为FFFH，因此x的十六进制表示为FFFH-5H=FFFAH，所以y的十六进制表示为0000FFFAH。
32	2027年计算机组成原理考研复习指导
排除法：先直接排除C、D，然后分析余下选项的特征。A、B的值相差几乎近1倍，因此可以算出00010000H（接近B且好算的数）的值后，再推断出答案。
28.B
原码很容易判断大小。而负数的补码很难直接判断大小，可采用如下规则快速判断：对于负数，数值位部分越小，其绝对值越大，即负得越多。采用补码整数表示时，负数的符号位为1，因此剩下的两个“1”放在末位时其值最小，补码形式为10000011，转换为真值为-125。此外，考虑负数的补码转换为原码的方法，从右向左找到第一个数值为1的位，之后的每位进行取反操作，符号位不变，不难发现，当符号位为1，剩下的两个“1”放在末位时，补码的绝对值最大。
29.D
因C语言中的数据在内存中为补码表示形式，si对应的补码为1000000000000001B，最前面的一位“1”为符号位，表示负数，即-32767。由signed型数转换为等长的unsigned型数时，符号位成为数据的一部分，即负数转换为无符号数（正数）时，其数值将发生变化。usi对应的补码与si的相同，但表示正数，为32769。
30.D
对于说法Ⅰ，二进制只有0和1两种数值，运算规则较简单，都通过ALU转换为加法运算。对于说法Ⅱ，二进制数只需要高电平和低电平两个状态就可表示，这样的物理器件很容易制造。对于说法Ⅲ，二进制数与逻辑量相吻合。二进制的0和1正好与逻辑量的“真”和“假”相对应，因此用二进制数表示二值逻辑显得十分自然，采用逻辑门电路很容易实现运算。
31.A
unsigned short型为无符号短整型，长度为2字节，因此unsigned short usi型转换为二进制代码即1111111111111111。short型为短整型，长度为2字节，在采用补码的机器上，short si的二进制代码为1111111111111111，因此si的值为-1。
32.D
若x，y和z均为无符号整数，则x>y>z，选项A和B错误。若x，y和z均为有符号整数，补码的最高位是符号位，0表示正数，1表示负数，因此z为正数，而x和y为负数。对于x和y的比较，数值位取反加1，可知x=-3，y=-33，所以x>y。选项D正确。
33.B
n位补码整数的最小值是1,00..0(-2..1)；最大值是0,11..1(2..1-1)。n位补码整数所能表示的范围是-2ⁿ-1~2ⁿ-1-1，32位补码整数所能表示的范围是-2³-2³-1。
34.D
在32位系统中，short通常为16位有符号整数。-32767的16位补码为1000000000000001。将其赋值给32位unsigned int时，先按符号扩展转换为32位有符号整数1111111111111100000000000001，再以无符号方式解释，其值为2³²-(2¹⁵-1)=2³²-2¹⁵+1。
2.2运算方法和运算电路
2.2.1基本运算部件
在计算机中，运算器由算术逻辑单元(Arithmetic Logic Unit, ALU)、移位器、状态寄存器(PSW)和通用寄存器组等组成。运算器的基本功能包括加、减、乘、除四则运算，与、或、非、
第2章数据的表示和运算	33
异或等逻辑运算，以及移位、求补等操作。ALU的核心部件是加法器。
1.一位全加器
全加器(FA)是最基本的加法单元，有三个输入：加数Aᵢ、加数Bᵢ与来自低位的进位Cᵢ₋₁，两个输出：本位和Sᵢ及向高位的进位Cᵢ。其逻辑表达式如下。
和表达式：Sᵢ=Aᵢ⊕Bᵢ⊕Cᵢ₋₁（当Aᵢ、Bᵢ、Cᵢ₋₁中有奇数个1时，Sᵢ=1，否则Sᵢ=0）
进位表达式：Cᵢ=AᵢBᵢ+(Aᵢ⊕Bᵢ)Cᵢ₋₁
一位全加器的逻辑结构如图2.3(a)所示，其逻辑符号如图2.3(b)所示。
2.串行进位加法器
将n个全加器级联可构成n位串行进位加法器（又称行波进位加法器），如图2.4所示。其特点是进位信号逐级传递，每一级的进位输出直接作为下一级的进位输入。
图2.3一位全加器
2.串行进位加法器
将n个全加器级联可构成n位串行进位加法器（又称行波进位加法器），如图2.4所示。其特点是进位信号逐级传递，每一级的进位输出直接作为下一级的进位输入。
图2.4 n位串行进位加法器
图2.4中的加法器实现两个n位二进制数A=A_{n}A_{n-1}\cdots A_{1}和B=B_{n}B_{n-1}\cdots B_{1}逐位相加的功能，得到和S=S_{n}S_{n-1}\cdots S_{1}及最终进位C_{n}。例如，当A=1111，B=0001（4位）时，输出S=0000，C_{4}=1。由于位数固定，结果实际为模2^{n}的加法（溢出部分被丢弃）。
在串行进位加法器中，总运算延迟主要由进位信号从最低位传播到最高位的时间决定。位数越多，进位链越长，延迟越大。因此，缩短进位传递路径是提升加法器性能的关键。
*3.并行进位加法器
并行进位（也称先行进位）加法器能够显著提升加法运算速度，因为它能以几乎同时生成所有进位信号的方式工作，而非逐级传递进位。为了实现这一目标，n个一位全加器被连接至一个n位先行进位逻辑部件（CLA部件），以便几乎同时生成所有进位信号。因此，并行进位加法器对于较大位数的数据处理效率要高于串行进位加法器。图2.5展示了一个4位全先行进位加法器的例子。随着加法器位数的增加，电路设计复杂度也会相应提高，此处不再详述。
34	2027年计算机组成原理考研复习指导
4.带标志加法器
对于n位加法器来说，除了得到运算结果外，还要关注加法运算过程中是否发生了溢出、结果的正负性、结果是否为零等，这些信息对于程序的执行控制非常关键。为此，在n位加法器的基础上增加了额外的逻辑电路，不仅支持计算和/差，还能生成以下标志位：OF、CF、SF和ZF，每个标志占1位。图2.6展示了用全加器实现n位带标志加法器的电路示意图。
在图2.6中，溢出标志OF通过检测最高有效位的进位输入C_{n-1}与进位输出C_{n}是否不同决定，即OF=C_{n}\oplus C_{n-1}，用于判断有符号数加法运算是否溢出：OF=1表示溢出，OF=0表示未溢出。符号标志SF等于结果的最高有效位，即SF=F_{n-1}，用于指示有符号数加法运算结果的正负性：SF=0表示结果为正，SF=1表示结果为负。零标志ZF在结果的所有位均为0时设置为1，用于指示加减运算的结果是否为零：ZF=1表示结果为0，ZF=0表示结果非零。进位/借位标志CF用于判断无符号数的加减运算是否发生溢出：CF=1表示溢出，CF=0表示未溢出。
5.算术逻辑单元(ALU)
ALU是一种功能较强的组合逻辑电路，能够执行多种算术与逻辑运算。其中，加法和减法由带标志加法器直接完成；乘法和除法则通常通过ALU配合控制逻辑，以多次加减和移位的方式迭代实现。此外，ALU还能执行与、或、非等基本逻辑运算。其基本结构如图2.7所示：A和B为两个n位操作数输入端，C_{in}为进位输入端，ALUop为操作控制信号，用于选择ALU执行的具体功能。例如，当ALUop选择加法(Add)时，ALU输出A+B+C_{in}。ALUop的位数决定了可支持的操作种类数量。例如，3位ALUop最多可支持8种不同操作。
图2.8展示了一位ALU的结构，可完成“与”“或”“加法”三种操作。其中，加法由一个全加器实现，逻辑运算由专用门电路并行计算，最终通过多路选择器(MUX)根据ALUop选择输出结果。由于有3种操作，ALUop至少需要2位。
第2章	数据的表示和运算	35
2.2.2	定点数的移位运算
当计算机中没有乘/除运算电路时，可以通过加法和移位相结合的方法来实现乘/除运算。对于任意二进制整数，左移一位，若未发生溢出，相当于乘以2（类似于十进制数左移一位相当于乘以10）；右移一位，若忽略因移出而舍去的末位尾数，相当于除以2。
根据操作数的类型不同，移位运算可以分为逻辑移位和算术移位。
1.	逻辑移位
考点追踪	逻辑移位运算（2018）
逻辑移位将操作数视为无符号整数。逻辑移位的规则：左移时，高位移出，低位补0。若高位的1移出，则发生溢出。右移时，低位移出，高位补0。
例如，4位无符号数0001（+1）左移一位变为0010（+2），相当于乘以2，未溢出；0001（+1）右移一位变为0000（0），相当于除以2并舍弃小数部分。又如，1000（+8）左移一位变为0000（0），相当于乘以2，但结果超出了4位无符号数的表示范围，发生溢出。
2.	算术移位
考点追踪	算术移位运算（2012、2017、2018）
算术移位需要考虑符号位的问题，即将操作数视为有符号整数。有符号整数采用补码表示，因此对于有符号整数的移位操作应采用补码算术移位方式。算术移位的规则：左移时，高位移出，低位补0。若移出的高位与原符号位不同（左移后符号位改变），则发生溢出。右移时，低位移出，高位补符号位。若低位的1移出，则影响精度。
例如，4位补码0010（+2）左移一位变为0100（+4），未溢出；1001（-7）左移一位变为0010，符号由负变正，表明发生溢出（因为-14超出了4位补码的表示范围）。又如，1001（-7）右移一位变为1100（-4），保留了符号位，但丢失了最低有效位，影响精度。
2.2.3	定点数的加减运算
1.	补码加减运算
考点追踪	补码的加减运算（2009、2011、2017、2025）
补码加减运算规则简单，易于硬件实现。补码加减运算的公式如下（设字长为n+1）。
[A+B]_{\text{补}}=[A]_{\text{补}}+[B]_{\text{补}}\left(\bmod 2^{n+1}\right)
[A-B]_{\text{补}}=[A]_{\text{补}}+[-B]_{\text{补}}\left(\bmod 2^{n+1}\right)
补码运算具有以下特点：
1）按二进制加法规则运算，逢二进一。
2）若做加法，则两个数的补码直接相加；若做减法，则将被减数与减数的负数补码相加。
36	2027年计算机组成原理考研复习指导
3）符号位与数值位一同参与运算，结果的符号位由运算自然得出。
4）运算结果自动截断为n+1位（模2^{n+1}），高位进位被丢弃，结果仍为补码形式。
【例2.3】设字长为8位（含1位符号位），A=15，B=24，求[A+B]_{\text{补}}和[A-B]_{\text{补}}。
解：A=+0001111，B=+0011000；求得[A]_{\text{补}}=00001111，[B]_{\text{补}}=00011000，[-B]_{\text{补}}=11101000。则：[A+B]_{\text{补}}=[A]_{\text{补}}+[B]_{\text{补}}=00001111+00011000=00100111，符号位为0，真值为+39。
[A-B]_{\text{补}}=[A]_{\text{补}}+[-B]_{\text{补}}=00001111+11101000=11110111，符号位为1，真值为-9。
2.溢出判别方法
考点追踪 补码运算的溢出判断（2010、2011、2014、2018、2021、2025）
补码加减运算仅在同号相加或异号相减时可能发生溢出。例如，两个正数相加结果为负，或一个负数减去一个正数结果为正。常用的溢出判别方法有以下三种。
（1）采用一位符号位
减法运算在机器中是用加法器实现的，因此加法和减法均可统一视为两个补码数相加。溢出仅发生在参与运算的两个数符号相同，而结果符号与之不同的情况下。设参与运算的两个操作数的符号位分别为A_{s}和B_{s}，运算结果的符号为S_{s}，则溢出逻辑表达式为 
V=A_{s}B_{s}\overline{S}_{s}+A_{s}B_{s}S_{s}
（2）采用一位符号位并结合进位情况
设符号位（最高位）产生的进位为C_{n}，最高数值位（次高位）产生的进位为C_{n-1}。若C_{n}与C_{n-1}不同，则表示溢出。溢出逻辑表达式为 
V=C_{n}\oplus C_{n-1}
（3）采用双符号位
使用两个符号位S_{s1}、S_{s2}（S_{s1}为高位符号位），若两个符号位不同，则表示溢出。S_{s1}、S_{s2}的各种情况如下：① S_{s1}S_{s2}=00；表示结果为正数，无溢出。② S_{s1}S_{s2}=01；表示结果正溢出。③ S_{s1}S_{s2}=10；表示结果负溢出。④ S_{s1}S_{s2}=11；表示结果为负数，无溢出。溢出逻辑表达式为 
V=S_{s1}\oplus S_{s2}
在上述三种方法中，若V=0，则表示无溢出；若V=1，则表示有溢出。
3.加减运算电路
考点追踪 补码加法器的实现原理（2011）
在计算机中，无论是无符号数还是有符号数的加减运算，均采用同一套硬件电路实现，即“一套电路，两种语义”。图2.9所示为一个加减运算部件，其输入端包括两个n位操作数X和Y，以及一个控制信号Sub。其中，Y分成两路：一路直接接入二选一多路选择器（MUX），另一路经n位反相器后接入同一选择器。控制信号Sub不仅决定选择哪一路数据进入加法器，还在执行减法时作为最低位的进位输入。输出端包括n位运算结果F以及各类标志位。
第2章	数据的表示和运算 37
(1)加法运算的工作原理
无论是无符号数还是补码表示的有符号数，其加法均通过同一加法器电路完成。当执行加法操作时 (Sub=0)，电路实现过程如下。
输入：X直接接入加法器的一端；Y接入MUX.
控制信号：Sub=0，同时作为加法器的最低位进位输入C_{i n} = 0 。
运算：MUX在Sub=0时选择Y直接通过，加法器执行X + Y + C_{i n}(X + Y) ，输出n位结果F和进位输出Cout，并生成状态标志位。
语义解释：
1）若X、Y被视为无符号数，则结果。F=(X+Y) mod 2"。当X+Y≥2"时，产生进位C_{o u t} = 1 ，表示发生无符号溢出；此时，标志（C F = C_{o u t}反映进位状态。
2）若X、Y被视为有符号数（[X]补、[Y]补），则结果F = [X + Y]_{\f} 。此时，若两个操作数同号而结果异号（如正+正→负），则表示有符号溢出，由溢出标志OF指示。
(2)减法运算的工作原理
无论是无符号数还是补码表示的有符号数，其减法也通过同一加法器电路实现。当执行减法操作时 (Sub=1)，电路实现过程如下：
输入：X直接接入加法器的一端；Y接入MUX.
控制信号：Sub=1，同时作为加法器的最低位进位输入C_{i n} = 1 。
运算：MUX在Sub=1时选择反相后的Y输出，加法器执行X + \overline{Y} + C_{i n}(X + \overline{Y} + 1) ，输出n位结果F和进位输出Cout，并生成状态标志位。
语义解释：
1）若X、Y被视为无符号数，则该运算等价于计算X-Y+2"（模2"运算）①：
●X≥Y时，X - Y + 2^{n}\ge 2^{n} ，有进位C_{o u t} = 1 ，舍去高位后F=X-Y，表示无借位（结果非负）。
●X<Y时，0 < X - Y + 2^{n}< 2^{n} ,无进位C_{o u t} = 0 ，表示有借位（结果为负，超出n位无符号数范围），表示发生无符号溢出。此时，标志（C F = C_{o u t}反映借位状态。
2）若X、Y被视为有符号数（[X]*、[Y]*）, 则该运算等价于[X-Y]*=[X]*+[-Y]*:
• 结果F即为[X-Y]补。
·若运算导致结果超出n位补码表示范围（例如，正减负得负，或负减正得正），则发生有符号溢出，由溢出标志OF指示。
注	意
运算器本身无法识别所处理的二进制串是有符号数还是无符号数。例如，0-1=00...0+11...1=11...1，若解释为有符号数，对应值为-1，结果正确；若解释为无符号数，对应值为2"-1（n位无符号数的最大值），与数学结果不符。此类易混点是统考极易考查的内容。
(3)各类标志位的含义
考点追踪	各类标志位的分析 (2011、2018、2022-2024)
可通过状态标志位来区分有符号数与无符号数的运算结果，各类标志位的含义如下。
零标志ZF：当结果F=0时，ZF=1；否则ZF=0.对无符号数和有符号数均有意义。
溢出标志OF：用于判断有符号数运算是否发生溢出，O F = C_{n}\oplus C_{n - 1}（符号位进位与最高数值
①	无符号减法可表示为X - Y = X + (2^{n} - Y) - 2^{n}。其中，2"-Y可视为Y的无符号补码（模2"意义下的补数）。若用Y表示Y的按位取反，则根据二进制运算性质有：Y + \overline{Y} = 2^{n} - 1（结果为n位全1）。由此可得2^{n} - Y = \overline{Y} + 1 。因此,X-Y可进一步转换为加法形式。X + \overline{Y} + 1 - 2^{n}。其中，X + \overline{Y} + 1是一个纯加法运算，可直接由加法器完成，结果等于X-Y+2".
38 2027年计算机组成原理考研复习指导
位进位的异或）。对无符号数运算无意义。即无法依据OF判断无符号数运算是否溢出。例如，无符号加法010+011=101, 虽然OF=1, 但结果并未溢出。
符号标志SF：等于结果F的最高位（符号位）。仅对有符号数有意义。
考点追踪CF标志位的作用 (2024)
进/借位标志CF：用于表示无符号数运算中的进位/借位情况，判断是否溢出。仅对无符号数有意义。加法(Sub=0)时，CF=1表示有进位，即发生上溢，C F = C_{o u t}。减法(Sub=1)时, CF=1表示有借位，即不够减，CF等于Cout取反。综合得（CF=Sub⊕Cout.例如，无符号数加法110+011产生进位；无符号数减法000-111产生借位，结果均发生溢出 (CF=1).
(4)无符号数大小的比较
在无符号数运算中，零标志ZF和进/借位标志CF是判断大小关系的关键。设A和B为两个无符号数，执行运算A-B后，根据ZF和CF的值可判断A和B的大小。
若A=B.如A-B=011-011=000, 结果为零ZF=1,无借位CF=0.
若A>B.如A-B=010-001=001, 结果非零ZF=0,无借位CF=0.
若A<B.如A-B=000-001=(1)000-001=111, 结果非零ZF=0, 有借位CF=1.
综上，判断规则如下：当ZF=1时（无须检查CF）,说明A=B; 当ZF=0且CF=0时，说明A>B; 当CF =1时（此时ZF必为0,无须额外检查），说明A<B.
(5)有符号数大小的比较
在有符号数运算中，零标志ZF、溢出标志OF和符号标志SF共同用于判断大小关系。设A和B为两个有符号数，执行运算[[A]*-[B]*后，根据ZF、OF、SF的值可判断A和B的大小。
若A=B.如[A]补-[B]* =011-011=011+101=(1)000,得ZF=1, OF=C₃⊕C₂=0,SF=0.
若A>B.无溢出示例：如[A]*-[B]*=010-001=010+111=(1)001, 得ZF=0, OF=0,SF=0; 有溢出示例：[A]*-[B]补=011-101=011+011=110,得ZF=0, OF=1, SF=1.
若A<B.无溢出示例：如[[A]*-[B]补 =000-001=000+111=111,得ZF=0, OF=0,SF=1.有溢出示例：[A]*-[B]* =101-011=101+101=(1)010,得ZF=0, OF=1, SF=0.
综上，判断规则如下：当ZF=1时，说明A=B;当ZF=0且OF=SF(或OF⊕SF=0)时，说明A>B; 当ZF=0且OF≠SF(或OF⊕SF=1)时，说明A<B.
注	意
当ZF=0且未发生溢出时，即OF=0时，若SF=0，则表示结果非负，说明A>B；当发生溢出时，即OF=1时，若SF=1，则必然是正数减去负数发生溢出导致结果为负，说明A>B.
当ZF=0且未发生溢出时，即OF=0时，若SF=1，则表示结果为负，说明A<B；当发生溢出时，即OF=1时，若SF=0，则必然是负数减去正数发生溢出导致结果为正，说明A<B.
*4.原码的加减运算（了解）
在原码加减运算中，需将符号位与数值位分开处理，规则较为复杂，具体如下。
加法规则：遵循“同号求和，异号求差”的原则，先判断两个操作数的符号。具体来说，若符号相同，则数值位相加，结果符号位不变，若数值位相加时最高位产生进位，则发生溢出；若符号不同，则用绝对值较大的数减去绝对值较小的数，结果符号位与绝对值较大的数相同。
减法规则：先将减数的符号取反，再将被减数与符号取反后的减数按原码加法进行运算。
第2章	数据的表示和运算 39
注	意
由于原码加减法需要先比较两数的绝对值大小，再决定是执行加法还是执行减法，控制逻辑复杂，难以用单一加法器高效实现。因此，现代计算机普遍采用补码进行加减运算，以简化硬件设计。
2.2.4定点数的乘除运算
1.乘法运算
(1)原码乘法的运算原理
原码乘法的特点是符号位与数值位分别处理，其运算过程分为两步：①乘积的符号位由两个乘数的符号位异或得到；②乘积的数值位是两个乘数绝对值的乘积。数值位的乘法可归结为两个无符号数的相乘。以下是两个无符号数相乘的手算过程。
被乘数X = x_{4}x_{3}x_{2}x_{1} = 1 1 0 1(1 3)
乘数Y = y_{4}y_{3}y_{2}y_{1} = 1 0 1 1(1 1)
-100⋯⋯⋯⋯⋯⋯⋯⋯
⋯⋯X × y_{1} × 2^{0}	X×1
1 1 0 1⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯-X×y₂×2¹	X×1左移1位
0 0 0 0⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯X × y_{3} × 2^{2}	X×0左移2位
1 1 0⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯X × y_{4} × 2^{3}	X×1左移3位
1000111 1	(143)
上述过程可写成数学推导形式：
X× Y = X × (y_{4} × 2^{3} + y_{3} × 2^{2} + y_{2} × 2^{1} + y_{1} × 2^{0} ) = \{[(X × y_{4} ) × 2 + X × y_{3}] × 2 + X × y_{2} \} × 2 + X × 1y₁
考点追踪  乘法运算的原理及分析(2020、2024)
在硬件实现中，通常采用部分积右移的方式将上述求和过程转换为迭代形式。设乘数Y=yn…y₂y₁（其中y₁为最低位），定义部分积序列P₀,P₁,…, Pn如下：
P_{0} = 0
P_{1} = (P_{0} + X × y_{1})\gg 1
P_{2} = (P_{1} + X × y_{2})\gg 1
P_{n} = (P_{n - 1} + X × y_{n})\gg 1
其中，“≫1”表示逻辑右移一位。需要注意的是，这里的右移是位操作的一部分，而非数学上的除法；所有中间结果均在2n位存储空间中保留完整精度。经过n次迭代后，最终得到的2n位部分积Pn即为乘积X×Y的完整二进制表示。因此，乘法运算可通过加法和移位实现。
为了保证精度，部分积需要使用2n位寄存器存储。原码乘法的过程可归纳如下：
①	被乘数和乘数均取绝对值，作为无符号整数参与运算，结果的符号位为xₛ⊕y₅.
②	初始化部分积P_{0} = 0 ，，从乘数的最低位y₁开始，将当前部分积P₁-₁加上X×y₁，然后逻辑右移1位。重复此步骤n次，最终所得的2n位部分积即为数值乘积。
(2)无符号整数的乘法运算电路
考点追踪	乘法运算电路中控制逻辑的作用 (2020)
图2.10展示了一个32位无符号数乘法运算器的逻辑结构。该电路采用加法与移位相结合的方法来完成乘法运算，其设计思想源自手算乘法的基本原理。
40	2027年计算机组成原理考研复习指导
下面介绍其主要组成部分及其工作原理。
1）初始化
•被乘数寄存器X：存储32位被乘数X，在整个乘法过程中保持不变。
•乘数寄存器Y：初始时存储32位乘数Y。
•乘积寄存器P：初始化为0，用于存放累加的部分积（高32位结果）。
•计数器C_{n}：初始化为n（本例为32），表示需进行n次迭代。
2）执行过程（循环n次）
① 判断：将乘数寄存器Y的最低位，送入控制逻辑。
② 加法操作：若Y的最低位为1，则将当前部分积P加上被乘数X，并将进位存入进位触发器C；若Y的最低位为0，则执行空操作。
③ 移位操作：将C、P和Y视为一个整体，执行一次逻辑右移。具体来说，进位C移入P的最高位；P的最低位移入Y的最高位；Y的最低位被丢弃。
④ 更新计数器：计数器C_{n}减1。若C_{n}≠0，则继续下一轮迭代，否则算法结束。
考点追踪	无符号数乘法指令的溢出判断（2019、2020）
3）结果与溢出判断
•最终结果：64位乘积结果存储在寄存器对[P：Y]中，其中P为高32位，Y为低32位。
•溢出判断：若高32位结果P不为零，则表明乘积超出了32位无符号数的表示范围，发生溢出。此时，处理器将溢出标志OF与进位标志CF同时置1。
4）溢出处理
溢出处理属于软件层面的操作，通过检查CF或OF标志位即可判断是否发生溢出。若检测到溢出，则可在乘法指令后插入一条溢出自陷指令，自动触发异常处理程序，以处理错误（如报告错误、转为高精度计算等）。对于不要求结果精确性的应用，程序员可选择忽略溢出。
（3）有符号整数的乘法运算电路
有符号整数采用补码表示，其乘法需要同时处理符号与数值。A.D.Booth提出的Booth算法让符号位与数值位统一参与运算，直接生成补码形式的乘积，且对正数和负数一视同仁。
图2.11所示为32位补码一位乘法器的逻辑结构，其整体架构与图2.10中的无符号乘法器非常相似，主要区别在于控制逻辑。需要说明的是，Booth
被乘数寄存器X
32
32
32位ALU
32
64位
C
乘积寄存器P
X32
乘数寄存器Y
32
\downarrow\
右移
写使能
时钟
图2.10	一个32位无符号数乘法运算器的逻辑结构
被乘数寄存器X
32
32
32位ALU
32
64位
乘积寄存器P
X32
乘数寄存器Y
32
右移
写使能
时钟
图2.11	32位补码一位乘法器的逻辑结构
第2章数据的表示和运算	41
算法的数学推导较为复杂，通常不在考研考查范围内，因此本书仅介绍其实现结构，不深入讨论其背后的原理。
下面介绍其主要组成部分及其工作原理。
1)初始化
●被乘数寄存器X：存储32位被乘数，在整个乘法过程中保持不变。
●乘积寄存器P：初始化为0，用于存放累加的部分积（高32位结果）。
●乘数寄存器Y：初始时存储32位乘数；在其右侧附加一个辅助位y₁，且初始化为0。
●计数器Cn：初始化为n（本例为32），表示需要进行n次迭代。
2)执行过程（循环n次）
①判断：将Y的最低位y₀与辅助位y₀组合形成两位二进制码，送入控制逻辑。
②加减法：若组合为10，则执行P=P-X（减去被乘数）；若为01，则执行P=P+X（加上被乘数）；若为00或11，则执行空操作（Booth算法的原理请参见教材）。
③移位：将P、Y和辅助位y₀视为一个整体，执行一次算术右移。具体来说，P的最低位移入Y的最高位；Y的最低位移入辅助位y₀；原辅助位y₀被丢弃。
④循环控制：计数器Cn减1。若Cn≠0，则继续下一轮迭代，否则算法结束。
考点追踪	有符号数乘法指令的溢出判断(2021)
3)结果与溢出判断
●最终结果：64位乘积存储在寄存器对[P：Y]中，其中P为高32位，Y为低32位。
●溢出判断：若高32位结果P不是低32位结果Y的符号扩展（P的所有位不等于Y的符号位），则判定为溢出。此时，处理器将溢出标志OF与进位标志CF同时置1。
4)溢出处理
其溢出处理同样由软件完成。执行有符号乘法指令(如imul)后，应检查OF标志位：若发生溢出，则可通过条件跳转进入错误处理程序，或者利用溢出自陷机制由硬件自动触发异常处理程序，以确保程序的健壮性；若已知操作数不会导致溢出，则也可选择忽略该标志。
(4)乘法运算的三种实现方式
1)迭代式乘法器：即前文所述的经典实现结构，由ALU、移位器、寄存器和控制逻辑构成。通过多次迭代完成乘法，每次迭代处理一位乘数，若一次ALU运算和一次移位各需1个时钟周期，则完成n位乘法约需2n个时钟周期。
2)阵列乘法器：一种全并行的快速乘法器。所有部分积同时生成，并以二维阵列形式组织，再通过加法器网络逐级压缩求和，从而直接得到最终乘积。由于整个数据通路为组合逻辑，在时钟周期足够长的前提下，可在单个时钟周期内完成一次乘法运算。
3)移位-加减法：利用移位与加法（或减法）的组合来模拟乘法运算（例如，乘以13可分解为X≤3+X≤2+X）。该方法的硬件成本最低，但运算速度最慢。
2.除法运算
在进行定点数除法运算之前，需要先对被除数和除数的取值进行预判，以识别异常或确定结果是否为零。具体规则如下：
1)若被除数为0、除数不为0，或|被除数|<|除数|，则商为0，余数等于被除数。
2)若被除数不为0、除数为0，则发生“除数为0”异常。
3)若被除数和除数均为0，则发生除法错误异常。
仅当被除数和除数均不为0且|被除数|≥|除数|时，才进入正式的除法计算过程。
42	2027年计算机组成原理考研复习指导
（1）无符号整数的除法运算原理
考点追踪	除法运算的异常及处理（2025）
无符号整数除法与乘法类似，也是一种基于移位与加减的迭代过程，但流程更为复杂。下面以两个无符号数为例，说明手算除法步骤。
商=0111=7
被除数X=15=1111=00001111
除数Y=2=0010
余数=0001=1
在手算二进制除法中，为便于从最高位开始逐位试商，通常按固定位宽书写被除数，并在高位补0（例如将4位的1111写成00001111），这些前导零不改变数值大小。具体步骤如下：
1）取被除数的高n位部分（与除数同宽）作为初始部分被除数，与除数相减。若够减，则上商1，并将差值作为中间余数；若不够减，则上商0，中间余数即为该部分被除数。
2）将被除数的下一位“带下来”，拼接到当前余数末尾，形成新的n位部分被除数；再与除数相减，确定下一位商。如此重复，直到所有位处理完毕。
手算中在被除数前补0主要是为了便于对齐和观察；硬件设计采用类似的策略，将n位被除数高位补0扩展为2n位，以支持统一的迭代过程。
（2）无符号整数的除法运算电路
考点追踪	除法运算器的结构（2025）
图2.12所示为一个32位除法逻辑结构图。为了适应逐位试商的迭代过程，需要将被除数加载到一个64位寄存器中（高32位为0，低32位为实际被除数）。一般而言，n位无符号数除法采用一个2n位的被除数（高位补0）除以一个n位的除数，产生n位的商和n位的余数。
下面介绍其主要组成部分及其工作原理。
1）初始化
•除数寄存器Y：存储n位除数，在整个除法过程中保持不变。
•余数/商寄存器Q：初始时存储n位被除数；在迭代过程中逐步生成n位商。
•余数寄存器R：初始化为0，用于暂存中间余数。
•计数器C_{n}：初始化为n，表示需要执行n轮迭代。
•异常预检：若除数为0，则立即触发“除零错误”异常，停止除法运算；若被除数<除数，则商=0，余数=被除数，无须进入执行过程。
第2章	数据的表示和运算 43
2）执行过程（循环n次）
①	移位：将R与Q视为一个整体，执行一次逻辑左移。具体来说，R的最高位被移出（通常丢弃），Q的最高位移入R的最低位，Q的最低位空出以接收新商位。
②	试商与减法：计算[R]-[Y]；若结果大于或等于0，则当前商位为1，并将结果（差值）写回R；若结果小于0，则当前商位为0，并执行[R]+[Y]以恢复余数（撤销减法）。
③	循环控制：计数器Cn减1。若（C_{n} ≠ 0 ，则继续下一轮迭代，否则算法结束。
3）最终结果
最终的n位商存储在寄存器Q中，n位余数存储在寄存器R中。
4）异常处理
当检测到“除数为0”时，除法器立即停止运算，并置位“除零”异常标志。该异常通常由硬件自动捕获，并通过中断向量表跳转至预设的异常处理程序。
注	意
两个n位无符号数相除不会发生溢出。因为被除数最大为2"-1，最小的非零除数为1，此时商为最大值，即为2ⁿ-1，恰好可用n位无符号数表示。
(3)补码除法运算的工作原理
补码作为有符号整数的标准表示形式，其除法运算需要同时处理符号与数值。补码除法让符号位与数值位统一参与运算，商的符号在运算过程中自然生成。对于两个n位补码数相除，被除数需要先进行符号扩展至2n位；若被除数为2n位，除数为n位，则无须扩展。
由于补码除法涉及有符号数的比较、加减和移位，其试商规则要比无符号除法复杂得多。根据考试大纲要求，仅需掌握其基本实现，底层的原理可参见教材。补码除法的硬件结构与图2.11所示的无符号除法电路基本一致，下面结合该图说明其基本工作过程。
考点追踪	除法运算器的初始化步骤 (2025)
1）初始化：
●除数寄存器Y：存储n位除数，在整个除法过程中保持不变。
●余数/商寄存器Q：初始时存储n位被除数；在迭代过程中逐步生成n位商。
·余数寄存器R：所有位都初始化为被除数的符号位，即完成符号扩展。
·计数器Cn：初始化为n，表示需要执行n轮迭代。
●异常预检：若除数为0，则立即触发“除零错误”异常，停止除法运算；若|被除数|<|除数|，则商 =0，余数 =被除数，无须进入执行过程。
2）执行过程（循环n次）
①	移位：将R与Q视为一个整体，执行一次算术左移。
②	试商与加减：控制逻辑根据[R]与[Y]的关系，发出加法或减法信号以确定当前商位。由于涉及有符号数的恢复机制，具体判定规则较复杂，此处不展开。
③	循环控制：计数器Cn减1。若（C_{n} ≠ 0 ，，则继续下一轮迭代，否则算法结束。
3）最终结果
最终的商存储在Q中，余数（符号与被除数相同）存储在R中。
4）异常处理
当检测到除数为0或发生商溢出时，除法器立即停止运算，并置位相应异常标志，该异常的捕获和处理方式与无符号除法类似。值得注意的是，在两个n位补码除法中，商溢出仅有一种情形：被除数为最大负数-2"⁻¹，且除数为-1，此时结果2"⁻¹无法用n位补码表示。
44	2027年计算机组成原理考研复习指导
2.2.5 本节习题精选
一、单项选择题
01.算术逻辑单元(ALU)的核心部件是（	）。
A.多路选择器	B.移位器	C.加法器	D.寄存器
02.算术逻辑单元(ALU)的功能通常包括（	）。
A.算术运算	B.逻辑运算
C.算术运算和逻辑运算	D.加法运算
03.补码定点整数01010101算术左移两位后的值为（	）。
A.01000111	B.01010100	C.01000110	D.01010101
04.下列四个补码整数存放于8位寄存器中，算术左移不会发生溢出的是（	）。
A.80H	B.90H	C.B0H	D.C0H
05.补码定点整数10010101右移一位后的值为（	）。
A.01001010	B.010010101	C.10001010	D.11001010
06.两个机器数7E5H和4D3H相加，得（	）。
A.BD8H	B.CD8H	C.CB8H	D.CC8H
07.设机器数字长为8位（含1位符号位），若机器数BAH为补码，算术左移1位和算术右移1位分别得（	）。
A.F4H,EDH	B.B4H,6DH	C.74H,DDH	D.B5H,EDH
08.在定点运算器中，无论是采用双符号位还是采用单符号位，必须有（	）。
A.译码电路，它一般用“与非”门来实现
B.编码电路，它一般用“或非”门来实现
C.溢出判断电路，它一般用“异或”门来实现
D.移位电路，它一般用“与或非”门来实现
09.机器运算发生溢出的根本原因是（	）。
A.寄存器的位数有限	B.运算中将符号位的进位丢弃
C.运算中将符号位的借位丢弃	D.数据运算中发生错误
10.假定有两个整数用8位补码分别表示为r₁=F5H，r₂=EEH。若将运算结果存放在一个8位寄存器中，则下列运算会发生溢出的是（	）。
A.r₁+r₂	B.r₁-r₂	C.r₁×r₂	D.r₁/r₂
11.关于模4补码，下列说法正确的是（	）。
A.模4补码和模2补码不同，它不容易检查乘除运算中的溢出问题
B.每个模4补码存储时只需要一个符号位
C.存储每个模4补码需要两个符号位
D.模4补码，在算术与逻辑单元中为一个符号位
12.若采用双符号位，则两个正数相加产生溢出的特征时，双符号位为（	）。
A.00	B.01	C.10	D.11
13.判断加减法溢出时，可采用判断进位的方式，若符号位的进位为C₀，最高位的进位为C₁，则产生溢出的条件是（	）。
Ⅰ.C₀产生进位	Ⅱ.C₁产生进位
Ⅲ.C₀、C₁都产生进位	Ⅳ.C₀、C₁都不产生进位
第2章数据的表示和运算 45
V. C₀产生进位，C₁不产生进位 VI. C₀不产生进位，C₁产生进位
A. I和II B. III C. IV D. V和VI
14.在补码的加减法中，用两位符号位判断溢出，两位符号位S₅₁S₅₂=10时，表示（	）。
A.结果为正数，无溢出 B.结果正溢出
C.结果负溢出 D.结果为负数，无溢出
15.若[X]补=X₀X₁X₂…Xₙ，其中X₀为符号位，X₁为最高数位。若（	），则当补码算术左移时，将会发生溢出。
A. X₀=X₁ B. X₀≠X₁ C. X₁=0 D. X₁=1
16.假设一次ALU运算和一次移位操作各需1个时钟周期，则32位无符号整数乘法电路完成一次乘法运算所需的时钟周期数约为（	）。
A.16 B.64 C.96 D.100
17.下列关于移位运算的说法中，正确的是（	）。
I.补码算术左移时，高位移出，低位补0，若左移前后的符号位不同，则发生溢出
II.无符号数逻辑左移时，若最高位移出的是1，则发生溢出
III.逻辑左移和补码算术左移的结果都一样，都是移出最高位，并在低位补0
A. I、III B.仅II C.只有III D. I、II、III
18.某计算机字长为8位，CPU中有一个8位加法器。已知无符号数x=69，y=38，若在该加法器中计算x-y，则加法器的两个输入端信息和输入的低位进位信息分别为（	）。
A.01000101、00100110、0 B.01000101、11011001、1
C.01000101、11011010、0 D.01000101、11011010、1
19.某计算机中有一个8位加法器，有符号整数x和y的机器数用补码表示，[x]补=F5H，[y]补=7EH，若在该加法器中计算x-y，则加法器的低位进位输入信息和运算后的溢出标志OF分别是（	）。
A.1、1 B.1、0 C.0、1 D.0、0
20.某8位计算机中，x和y是两个有符号整数，用补码表示，[x]补=44H，[y]补=DCH，则x/2+2y的机器数及相应的溢出标志OF分别是（	）。
A. CAH、0 B. CAH、1 C. DAH、0 D. DAH、1
21.某8位计算机中，x和y是两个有符号整数，用补码表示，[x]补=44H，[y]补=DCH，则x-2y的机器数及相应的溢出标志OF分别是（	）。
A.8CH、1 B.8CH、0 C.68H、1 D.68H、0
22.某C语言代码段如下：
int si=65536;
short i=si;
unsigned j=0;
if(i<=j-1) printf("王道");
else printf("计算机教育");
当上述代码段执行到if分支条件的判断时，会根据标志寄存器中的（	）决定执行顺序。最终的输出结果是（	）。
A. CF,王道 B. CF,计算机教育 C. OF,王道 D. OF,计算机教育
23.下图是实现32位补码一位乘法的逻辑结构图，下列说法中正确的是（	）。
46	2027年计算机组成原理考研复习指导
A.32位无符号整数的乘法电路和该图没有区别
B.在执行过程中，ALU要么做加法，要么做减法，不可能执行空操作
C.图中的乘积寄存器P和乘数寄存器Y所执行的右移是算术右移
D.计算完成后，若乘积寄存器P中的值不全为0，则发生溢出
24.某计算机采用下图所示的补码除法器执行32位补码整数除法运算，当除数寄存器Y与余数/商寄存器Q的初始值为（	）时，除法执行时间最短（Y、Q均为补码表示）。
A.Y=FFFF FFFF,Q=8000 0000	B.Y=8000 0000,Q=FFFF FFFF
C.Y=FFFF FFFF,Q=FFFF FFFF	D.Y=8000 0000,Q=8000 0000
25.【2009统考真题】一个C语言程序在一台32位机器上运行。程序中定义了三个变量x，y，z，其中x和z为int型，y为short型。当x=127，y=-9时，执行赋值语句z=x+y后，x，y，z的值分别是（	）。
A.x=0000007FH，y=FFF9H，z=00000076H
B.x=0000007FH，y=FFF9H，z=FFFF0076H
C.x=0000007FH，y=FFF7H，z=FFFF0076H
D.x=0000007FH，y=FFF7H，z=00000076H
26.【2010统考真题】假定有四个整数用8位补码分别表示：r_{1}=FEH，r_{2}=F2H，r_{3}=90H，r_{4}=F8H，若将运算结果存放在一个8位寄存器中，则下列运算会发生溢出的是（	）。
A.r_{1}×r_{2}	B.r_{2}×r_{3}	C.r_{1}×r_{4}	D.r_{2}×r_{4}
27.【2013统考真题】某字长为8位的计算机中，已知整型变量x、y的机器数分别为[x]_{\text{补}}=11110100，[y]_{\text{补}}=10110000。若整型变量z=2x+y/2，则z的机器数为（	）。
A.11000000	B.00100100	C.10101010	D.溢出
28.【2014统考真题】若x=103，y=-25，则下列表达式采用8位定点补码运算实现时，会发生溢出的是（	）。
A.x+y	B.-x+y	C.x-y	D.-x-y
29.【2018统考真题】假定有符号整数采用补码表示，若int型变量x和y的机器数分别是FFFF FFDFH和0000 0041H，则x、y的值及x-y的机器数分别是（	）。
A.x=-65，y=41，x-y的机器数溢出
第2章数据的表示和运算
B. x=-33,y=65,x-y的机器数为FFFF FF9DH
C. x=-33,y=65,x-y的机器数为FFFF FF9EH
D. x=-65,y=41,x-y的机器数为FFFF FF96H
30.【2018统考真题】整数x的机器数为1101 1000，分别对x进行逻辑右移1位和算术右移1位操作，得到的机器数各是()。
A. 1110 1100、1110 1100	B. 0110 1100、1110 1100
C. 1110 1100、0110 1100	D. 0110 1100、0110 1100
31.【2018统考真题】减法指令“sub R1,R2,R3”的功能为“(R1)-(R2)→R3”,该指令执行后将生成进位/借位标志CF 和溢出标志OF。若(R1)=FFFF FFFFH,(R2)=FFFF FFF0H,则该减法指令执行后，CF与OF分别为()。
A. CF=0,OF=0 B. CF=1,OF=0 C. CF=0,OF=1 D. CF=1,OF=1
32.【2023统考真题】已知x,y为int型,当x=100,y=200时,执行“x减y”指令得到的溢出标志OF和借位标志CF分别为0，1，那么当x=10，y=-20时，执行该指令得到的OF和CF分别为()。
A. OF=0,CF=0 B. OF=0,CF=1 C. OF=1,CF=0 D. OF=1,CF=1
33.【2024统考真题】C语言代码段如下，执行该代码段后，j的值是()。
int i=32777;
short si=1;
int j=si;
A. -32777 B. -32759 C. 32759 D. 32777
34.【2024统考真题】下列关于整数乘法运算的叙述中，错误的是()。
A.用阵列乘法器实现的乘运算可以在一个时钟周期内完成
B.用ALU和移位器实现的乘运算无法在一个时钟周期内完成
C.变量与常数的乘运算可编译优化为若干移位及加减运算指令
D.两个变量的乘运算无法编译转换为移位及加法等指令的循环实现
35.【2025统考真题】假设在8位字长的计算机中，两个带符号整数x和y的补码表示分别为[x]*=A3H、[y]*=75H,则通过补码加减运算器得到的x-y的值及OF标志分别为()。
A. 24,0 B. 24,1 C. 46,0 D. 46,1
二、综合应用题
01.已知32位寄存器R1中存放的变量x的机器码为8000 0004H, unsigned int型的乘除法采用逻辑移位操作， int型的乘除法采用算术移位操作，请问：
1)当x是unsigned int型时，x的真值是多少? x/2存放在R1中的机器码是什么? x/2的真值是多少? 2x存放在R1中的机器码是什么? 2x的真值是多少?
2)当x是int型时，x的真值是多少? x/2存放在R1中的机器码是什么? x/2的真值是多少? 2x存放在R1中的机器码是什么? 2x的真值是多少?
02.假设有两个整数x=-68, y=-80,采用补码形式(含1位符号位)表示，x和y分别存放在寄存器A和B中。另外，还有两个寄存器C和D。A、B、C、D都是8位的寄存器。请回答下列问题(要求最终用十六进制数表示二进制数序列)：
1)寄存器A和B中的内容分别是什么?
2)x和y相加后的结果存放在寄存器C中，则寄存器C中的内容是什么？此时，溢出标志OF、符号标志SF各是什么?
48	2027年计算机组成原理考研复习指导
3)x和y相减后的结果存放在寄存器D中，寄存器D中的内容是什么？此时，溢出标志OF、符号标志SF各是什么？
03.【2011统考真题】假定在一个8位字长的计算机中运行如下C程序段：
unsigned int x=134;
unsigned int y=246;
int m=x;
int n=y;
unsigned int z1=x-y;
unsigned int z2=x+y;
int k1=m-n;
int k2=m+n;
若编译器编译时将8个8位寄存器R1~R8分别分配给变量x,y,m,n,z1,z2,k1和k2。请回答下列问题（提示：有符号整数用补码表示）。
1)执行上述程序段后，寄存器R1、R5和R6的内容分别是什么（用十六进制数表示）？
2)执行上述程序段后，变量m和k1的值分别是多少（用十进制数表示）？
3)上述程序段涉及有符号整数加减、无符号整数加减运算，这四种运算能否利用同一个加法器辅助电路实现？简述理由。
4)计算机内部如何判断有符号整数加减运算的结果是否发生溢出？上述程序段中，哪些有符号整数运算语句的执行结果会发生溢出？
04.【2020统考真题】有实现x×y的两个C语言函数如下：
unsigned umul (unsigned x, unsigned y){return x*y; }
int imul (int x, int y){return x * y; }
假定某计算机M中的ALU只能进行加减运算和逻辑运算。请回答下列问题。
1)若M的指令系统中没有乘法指令，但有加法、减法和位移等指令，则在M上也能实现上述两个函数中的乘法运算，为什么？
2)若M的指令系统中有乘法指令，则基于ALU、位移器、寄存器及相应控制逻辑实现乘法指令时，控制逻辑的作用是什么？
3)针对以下三种情况：a)没有乘法指令；b)有使用ALU和位移器实现的乘法指令；c)有使用阵列乘法器实现的乘法指令，函数umul()在哪种情况下执行的时间最长？在哪种情况下执行的时间最短？说明理由。
4)n位整数乘法指令可保存2n位乘积，当只取低n位作为乘积时，其结果可能发生溢出。当n=32,x=2³¹-1,y=2时，有符号整数乘法指令和无符号整数乘法指令得到的x×y的2n位乘积分别是什么（用十六进制数表示）？此时函数umul()和imul()的返回结果是否溢出？对于无符号整数乘法运算，当仅取乘积的低n位作为乘法结果时，如何用2n位乘积进行溢出判断？
2.2.6 答案与解析
一、单项选择题
01. C
ALU的核心功能是算术与逻辑运算，其中加法是最基础的操作；减法可用补码加法实现，乘除可由加法和移位组合而成。因此，加法器是ALU最核心的部件。
02. C
ALU既能进行算术运算又能进行逻辑运算。
03. B
第2章 数据的表示和运算 49
该数是一个正数（最高位为0），按照补码算术移位规则，算术左移两位后，移出了最高位01，低位补0，因此算术左移两位后的结果是01010100。虽然移位后该数的符号位仍为0，但是移出了有效位1，所以本次算术移位发生了溢出。
04.D
80H=(10000000)<<1=00000000,左移前的符号位为1,左移后的符号位为0,溢出。90H=(10010000)<<1=00100000,左移前的符号位为1,左移后的符号位为0,溢出。B0H=(10110000)<<1=01100000,左移前的符号位为1,左移后的符号位为0,溢出。C0H=(11000000)<<1=10000000,左移前的符号位为1,左移后的符号位为1,未溢出，选项D正确。
05.D
该数是一个负数（最高位为1），按照算术补码移位规则，负数右移添1，负数左移添0，所以10010101右移一位后的值为11001010。
06.C
在十六进制数的加减法中，逢十六进一，因此有7E5H+4D3H=CB8H。
07.C
算术左移时，低位补0；算术右移时，高位补符号位。BAH=(10111010)_{2}，算术左移1位得(01110100)_{2}=74H，左移前后的符号位不同，溢出；算术右移1位得(11011101)_{2}=DDH。
08.C
三种溢出判别方法，均须有溢出判别电路，可用“异或”门来实现。
09.A
机器运算发生溢出的根本原因是计算机的字长有限，所以不能表示超过一定范围的数据。
10.C
首先将 r_{1} 和 r_{2} 转换为真值，F5H=11110101，转换为原码是10001011，真值为-11；EEH=11101110，转换为原码是10010010，真值为-18，8位补码的表示范围为[-128,127]，r_{1}×r_{2} 的结果为198，超出了8位补码的表示范围，发生溢出。
11.B
模4补码具有模2补码的全部优点且更易检查加减运算中的溢出问题，选项A错误。需要注意的是，存储模4补码仅需一个符号位，因为任何一个正确的数值，模4补码的两个符号位总是相同的，选项B正确。只在把两个模4补码的数送往ALU完成加减运算时，才把每个数的符号位的值同时送到ALU的双符号位中，即只在ALU中采用双符号位，选项C、D错误。
12.B
采用双符号位时，第一符号位表示最终结果的符号，第二符号位表示运算结果是否溢出。若第二位和第一位符号相同，则未溢出；若不同，则溢出。若发生正溢出，则双符号位为01，若发生负溢出，则双符号位为10。
13.D
采用进位位来判断溢出时，当最高有效位进位和符号位进位的值不相同时才产生溢出。两正数相加，当最高有效位产生进位（C_{1}=1）而符号位不产生进位（C_{0}=0）时，发生正溢出；两负数相加，当最高有效位不产生进位（C_{1}=0）而符号位产生进位（C_{0}=1）时产生负溢出。因此溢出条件为\overline{C_{0}C_{1}}+\overline{C_{0}C_{1}}=C_{0}\oplus C_{1}。
14.C
用两位符号位判断溢出时，两个符号位不同时表示溢出，即01时表示正溢出；10时表示负溢出；两个符号位相同时（11或00）表示未溢出。
50	2027年计算机组成原理考研复习指导
15. B
补码左移时，若移出的高位不同于移位后的符号位，即左移前后的符号位不同，则发生溢出。补码左移时，X₀移出，X₁取代X₀成为新的符号位，因此若X₀≠X₁，则表示发生了溢出。
16. B
32位无符号乘法通常采用“移位-相加”算法，共进行32轮迭代，每轮至少包含1次加法(或空操作)和1次移位。每轮消耗2个时钟周期(加法+移位)，共需约32×2=64个时钟周期。
17. D
对于左移操作，逻辑左移和算术左移的结果都一样，高位移出，低位补0。逻辑移位不考虑符号位的问题，逻辑左移时，若最高位移出的是1，表示发生溢出。算术左移时，若移出的高位不同于移位后的符号位，即左移前后的符号位不同，表示发生溢出。因此说法Ⅰ、Ⅱ、Ⅲ均正确。
18. B
不管是补码减法，还是无符号数减法，都是用被减数加上减数的负数的补码来实现的。根据求补公式，减数y的负数的补码[-y]补=圆+1，因此，在加法器的Y'输入端用一个反向器实现，并用控制端Sub控制多路选择器是否将y的各位取反后，输入Y'端，同时将Sub作为低位进位送到加法器。当Sub为1时，做减法，Sub=1控制将Y输入加法器Y'端，即实现“各位取反”功能；同时将Sub=1作为低位进位送到加法器，实现“末位加1”功能。69的二进制数为01000101；38的二进制数为00100110，各位取反得11011001。做减法时，低位进位为Sub，即为1。
注意
若仅记忆补码加减运算的过程，而未掌握加法电路的原理，则本题易误选D。
19. A
对补码减法运算，控制端Sub为1，所以低位进位输入位= Sub=1。[x]补=11110101，[y]补=01111110，[-y]补=10000001+1，[x]补-[y]补=[x]补+[-y]补=11110101+10000010=01110111，进位丢掉，参与运算的两个数的符号位均为1，结果的符号位为0，所以溢出标志OF为1。
20. C
[x2+2y]补=[x]补>>1+[y]补<<1=01000100>>1+11011100<<1=00100010+10111000=11011010=DAH。x右移移出了0，没有溢出或损失精度；y为负数，左移后，符号位仍为1，没有溢出；且从最后一步加法操作来看，一个正数和一个负数相加，必然不会溢出。
21. A
[x]补=44H=01000100，[y]补=DCH=11011100。执行x-2y时，先将y算术左移一位，得到10111000，未溢出，然后各位取反，再与x相加，做减法时Sub=1，即01000100+01000111+1=10001100(8CH)，两个加数的符号都为0，而结果的符号为1，因此发生了溢出，即OF=1。
22. A
无符号数和有符号数一起参与运算时，计算机按无符号数来解释最终的执行结果，因此j-1的结果是32个全1，会被解释成最大的无符号数。65536=2¹⁶，当把si强制转换为short型时，直接保留机器数的末16位，即16个全0，因此，当i和j-1进行比较时，根据无符号数的解释，OF标志是没有意义的，即根据CF位可知i小于j-1，因此最终输出“王道”。
23. C
无符号乘法无须辅助位，电路结构更简单。当控制逻辑的输入是“00”或“11”时，ALU执行空操作，仅移位。因结果为有符号数，P和Y的右移必须为算术右移，以保持符号位不变，选项C正确。溢出判断依据是P的所有位是否都等于Y的符号位，而非P是否全为0。
第2章 数据的表示和运算 51
24.B
该补码除法器在正式迭代之前会先判断：若被除数的绝对值小于除数的绝对值，则直接置商为0、余数为被除数，跳过全部移位和加减操作，从而最快完成。在选项B中，Y=-2^{31}，绝对值为2^{31}；Q=-1，绝对值为1。由于\mid Q\mid < \mid Y\mid，满足快速退出条件，故执行时间最短。
25.D
C语言中的整型数据为补码形式，int型为32位，short型为16位，因此x、y的机器数写为0000 007FH、FFF7H。执行z=x+y时，x为int型，y为short型，因此需将y的类型强制转换为int型，在机器中通过符号位扩展实现，y的符号位为1，因此在y的前面添加16个1，即可将y强制转换为int型，其十六进制形式为FFFF FFF7H。然后执行加法，即0000 007FH+FFFF FFF7H=0000 0076H，其中最高位的进位1自然丢弃。
26.B
本题的真正意图是考查补码的表示范围，采用补码乘法规则计算出四个选项是费力不讨好的做法，且极易出错。8位补码所能表示的整数范围为-128～+127。将四个数全部转换为十进制数：r_{1}=-2，r_{2}=-14，r_{3}=-112，r_{4}=-8，得r_{2}×r_{3}=1568，远超出了表示范围，发生溢出。
27.A
x*2，将x算术左移一位为1 1101000；y/2，将y算术右移一位为1 1011000，均无溢出或丢失精度。补码相加为1 1101000+1 1011000=1 1000000，亦无溢出。
28.C
8位定点补码表示的数据范围为-128～127，若运算结果超出这个范围，则会溢出。对选项A，x+y=103-25=78，符合范围。对选项B，-x+y=-103-25=-128，符合范围。对选项D，-x-y=-103+25=-78，符合范围。对选项C，x-y=103+25=128，超过127。
29.C
利用补码转换为原码的规则：负数的符号位不变数值位取反加1；正数补码等于原码。两个机器数对应的原码是[x]_{\text{原}}=80000021H，对应的数值是-33，[y]_{\text{原}}=[y]_{\text{补}}=00000041H=65。排除选项A、D。x-y直接利用补码减法准则，[x]_{\text{补}}-[y]_{\text{补}}=[x]_{\text{补}}+[-y]_{\text{补}}，-y的补码是连同符号位取反加1，最终减法变成加法，得出结果为FFFFFFF9EH。
30.B
逻辑移位：左移和右移空位都补0，且所有数字参与移动；补码算术移位：仍然是所有数字参与移动，右移空位补符号位，左移空位补0。根据该规则，轻松选取选项B。
31.A
[x]_{\text{补}}-[y]_{\text{补}}=[x]_{\text{补}}+[-y]_{\text{补}}，[-R2]_{\text{补}}=00000010H，很明显[R1]_{\text{补}}+[-R2]_{\text{补}}的最高位进位和符号位进位都是1（当最高位进位和符号位进位的值不相同时才产生溢出），可以判断溢出标志OF为0。同时，减法操作只需判断借位标志，R1大于R2，所以借位标志为0。
32.B
ALU生成标志位时只负责计算，而不管运算对象是有符号数还是无符号数，CF=1表示当作无符号数运算时溢出，OF=1表示当作有符号数运算时溢出。当作有符号数时，x=10，y=-20，x-y=30，未超过32位有符号数范围，不溢出，OF=0。当作无符号数时，x^{\prime}=10，y^{\prime}=2^{32}-20（符号位读作数值位），x^{\prime}-y^{\prime}=30-2^{32}，为负，超过32位无符号数范围，溢出，CF=1。
33.B
2^{15}=32768，i=32768+9=8000H+9H=8009H，32位有符号数i的机器数为0000 8009H。将32位有符号数i强制转换为16位有符号数si，直接保留机器数的末16位即可，因此si的机器数为8009H，真值为-2^{15}+9=-32759。将16位有符号数si强制转换为32位有符号数j，采用符号扩展（si
52	2027年计算机组成原理考研复习指导
的符号为 1，因此高位补 1），j 的机器数变为 FFFF 8009H，对应的真值为 -32759。

int i	short si	int j
机器数	0000 8009H	8009H	FFFF 8009H
真值	32777	-32759	-32759

34.D
阵列乘法器中的所有部分积同时产生并组成一个阵列，运用多操作数相加就能得到最终的积，因此可在一个时钟周期内完成。用 ALU 和移位器实现的乘运算通常采用串行的乘法算法，需要多个时钟周期才能完成。当一个乘数是常数时，编译器可将乘运算优化为若干移位和加减运算指令。两个变量的乘运算可通过移位和加法等指令循环实现，选项 D 错误。
35.D
要求计算 x-y，即 [x]补 + [-y]补。首先求 [-y]补：对 [y]补按位取反得 1000 1010，再加 1，得 1000 1011=8BH。然后计算 [x]补 + [-y]补 = A3H + 8BH = 10100011 + 10001011=(1)0010 1110，忽略进位后，结果为 0010 1110=2EH，对应十进制数 46。判断溢出：参与运算的两个操作数符号位均为 1（负数），而结果符号位为 0（正数），表明发生了溢出，因此 OF=1。
二、综合应用题
01.【解答】
1）对于无符号数，所有二进制位均为数值位。乘以 2 和除以 2 运算，相当于无符号数的逻辑左移和逻辑右移。x 的真值为 2^{31}+2^{2}。R1 中的机器码逻辑右移一位（高位补 0）为 4000 0002H，相当于除以 2，所以 x/2 的真值为 2^{30}+2。R1 中的机器码逻辑左移一位（低位补 0）为 0000 0008H，相当于乘以 2，高位丢 1，结果溢出，2x 的真值为 2^{3}（溢出）。
2）对于有符号数（补码），最高位为符号位。乘以 2 和除以 2 运算，相当于补码的算术左移和算术右移。8000 0004H 对应二进制数的最高位为 1，即为负数，其真值为 -(2^{31}-2^{2})。R1 中的机器码算术右移一位（高位补 1）为 0000 0002H，相当于除以 2，x/2 的真值为 -(2^{30}-2)。R1 中的机器码算术左移一位（低位补 0）为 0000 0008H，相当于乘以 2，移位前后的符号位不同，表示溢出，2x 的真值为 8（溢出）。
02.【解答】
1）因为 x=-68=-(100 0100)2，则 [-68]补 =1011 1100=BCH；因 y=-80=-(101 0000)2，则 [-80]补 =1011 0000=B0H，所以寄存器 A 和 B 中的内容分别是 BCH、B0H。
2）[x+y]补 =[x]补 +[y]补 =1011 1100+1011 0000=(1)0110 1100=6CH，所以寄存器 C 中的内容是 6CH，其真值为 108。此时，溢出标志 OF 为 1，表示溢出，说明寄存器 C 中的内容不是正确结果；符号标志 SF 为 0，表示结果为正数（OF 为 1，说明 SF 也是错的）。
3）[x-y]补 =[x]补 +[-y]补 =1011 1100+0101 0000=(1)0000 1100=0CH，最高位前面的一位被丢弃（取模运算），结果为 12，所以寄存器 D 中的内容是 0CH，其真值为 12。此时，溢出标志 OF 为 0，表示不溢出，也就是说，寄存器 D 中的内容是正确的结果；符号标志 SF 为 0，表示结果为正数。
03.【解答】
1）因为 134=128+6=1000 0110B，所以 x 的机器数为 1000 0110B，因此 R1 的内容为 86H。
246=255-9=1111 0110B，所以 y 的机器数为 1111 0110B，x-y=1000 0110+0000 1010=(0)1001 0000，括号中为加法器的进位，因此 R5 的内容为 90H。x+y=1000 0110+1111 0110=(1)0111 1100，括号中为加法器的进位，因此 R6 的内容为 7CH。
2）m 的机器数与 x 的机器数相同，皆为 86H=1000 0110B，解释为有符号整数 m（用补码表示）时，其值为 -111 1010B=-122。m-n 的机器数与 x-y 的机器数相同，皆为 90H=1001
第2章 数据的表示和运算 53
0000B，解释为有符号整数k1（用补码表示）时，其值为-1110000B=-112。
3）能。n位加法器实现的是模2^{n}无符号整数加法运算。对于无符号整数a和b，a+b可以直接用加法器实现，而a-b可用a加-b的补数实现，即a-b=a+[-b]_{\text{补}}\left(\bmod 2^{n}\right)，所以n位无符号整数加减运算都可在n位加法器中实现。
因为有符号整数用补码表示，补码加减运算公式为[a+b]_{\text{补}}=[a]_{\text{补}}+[b]_{\text{补}}\left(\bmod 2^{n}\right)，[a-b]_{\text{补}}=[a]_{\text{补}}+[-b]_{\text{补}}\left(\bmod 2^{n}\right)，所以n位有符号整数加减运算都可在n位加法器中实现。
4）有符号整数加减运算的溢出判断规则为：若加法器的两个输入端（加法）的符号相同，且不同于输出端（和）的符号，则结果溢出，或加法器完成加法操作时，若次高位（最高数位）的进位和最高位（符号位）的进位不同，则结果溢出。
最后一条语句执行时会发生溢出。因为10000110+11110110=(1)01111100，括号中为加法器的进位，根据上述溢出判断规则可知结果溢出。或者，因为两个有符号整数均为负数，它们相加之后，结果小于8位二进制所能表示的最小负数。
04.【解答】
1）乘法运算可以通过加法和移位来实现。编译器可以将乘法运算转换为一个循环代码段，在循环代码段中通过比较、加法和移位等指令实现乘法运算。
2）控制逻辑的作用是控制循环次数，控制加法和移位操作。
3）a最长，c最短。对于a，需要用循环代码段实现乘法操作，因此需要反复执行很多条指令，而每条指令都需要取指令、译码、取数、执行并保存结果，所以执行时间很长；对于b和c，都只需用一条乘法指令实现乘法操作，不过b中的乘法指令需要多个时钟周期才能完成，而c中的乘法指令可在一个时钟周期内完成，所以c的执行时间最短。
4）当n=32，x=2^{31}-1，y=2时，有符号整数和无符号整数乘法指令得到的64位乘积都是00000000FFFFFFFEH。int型的表示范围为[-2^{31},2^{31}-1]，所以函数imul()的结果溢出；unsigned int型的表示范围为[0,2^{32}-1]，所以函数umul()的结果不溢出。对于无符号整数乘法，若乘积高n位全为0，即使低n位全为1也正好是2^{32}-1，不溢出，否则溢出。注意，无论是无符号数还是有符号数，用2n位来表示两个n位整数的相乘结果都不会溢出，因为2n位可以完整地存储两个n位整数的乘积。但是，若只用低n位来表示结果，则可能溢出。因此，要保证低n位转换为的真值与2n位转换为的真值相等才算是不溢出。对于无符号数，只要高n位全为0，就不会溢出，因为高n位在转换为真值后不会影响低n位的值。对于有符号数，要考虑符号位的影响。当结果是正数时，符号位为0，要求高n位也全为0，且低n位的最高位也为0（否则正数变负数）。当结果是负数时，符号位为1，要求高n位也全为1，且低n位的最高位也为1（否则负数变正数）。因此，在有符号数的情况下，高n+1位相同表示不溢出。
2.3 浮点数的表示与运算
浮点数表示法通过将比例因子嵌入数据中，使小数点位置可根据需要浮动。这样，在有限位数下，既能扩大数值的表示范围，又能保持较高的有效精度。例如，用定点数表示电子质量(9×10^{-28}g)或太阳质量(2×10^{33}g)极为不便，而浮点数则能高效处理此类极大或极小的数值。
通常，浮点数表示为 
N=(-1)^{S}×M×R^{E}
54	2027年计算机组成原理考研复习指导
其中，S（取值0或1）决定浮点数的符号；M是一个非负的定点小数，称为尾数，通常用原码表示；E是一个定点整数，称为阶码（或指数），通常采用偏置表示（一种移码形式）。R是基数（通常隐含约定为2、4或16）。可见，浮点数由符号、尾数和阶码三部分组成。
在IEEE 754浮点数标准广泛使用之前，不同计算机所用的浮点数表示格式各不相同。图2.13展示了一种典型的32位短浮点数格式示例。
符号	1	7	8	31
阶码	尾数
图2.13	一种典型的32位浮点数格式示例
其中，第0位为符号S；第1～7位为阶码E，采用偏置值为64的移码表示；第8～31位为24位尾数M，以二进制原码小数表示；基数R为2。在该格式中，阶码的值决定了小数点的实际位置；阶码的位数决定了浮点数的表示范围；尾数的位数则决定了数值的精度。
2.3.1	IEEE 754标准的浮点数
1.IEEE 754标准的浮点数格式
考点追踪	IEEE 754单精度数大小的比较（2014）
现代系统普遍采用IEEE 754浮点数标准。该标准定义了两种常用格式：32位单精度浮点数(float型)和64位双精度浮点数(double型)，其基数隐含为2，其格式如图2.14所示。
符号	8位	23位
阶码	尾数
(a)32位单精度格式
1位	11位	52位
符号	阶码	尾数
(b)64位双精度格式
图2.14	IEEE 754标准浮点数的格式
32位单精度格式包含1位符号s、8位阶码e和23位尾数f；64位双精度格式包含1位符号s、11位阶码e和52位尾数f。基数隐含为2；尾数用原码表示。对于规格化的二进制浮点数，尾数的最高位恒为1。为提升精度，IEEE 754不显式存储该位，而是将其隐含在小数点之前，称为隐藏位。因此，单精度格式的23位尾数实际提供了24位有效数字，双精度格式的52位尾数实际提供了53位有效数字。例如，(12)_{10}=(1100)_{2}，规格化后为1.1×2^{3}。其中，小数点前的“1”不实际存储，尾数f仅保存小数部分“100…0”，而阶码保存的是指数3的编码值。
IEEE 754标准的阶码采用移码表示，但偏置值并不是通常n位移码所用的2^{n-1}，而是2^{n-1}-1。因此，单精度和双精度格式的偏置值分别为127和1023。上例中，指数真值为3，因此在单精度格式中，阶码为127+3=130(82H)；在双精度格式中，阶码为1023+3=1026(402H)。
IEEE 754标准的规格化单精度浮点数的真值为 
(-1)^{s}×1.f×2^{e-127}
规格化双精度浮点数的真值为 
(-1)^{s}×1.f×2^{e-1023}
其中，规格化单精度浮点数的阶码e的取值范围为1～254（8位，全0和全1保留用于特殊值）；规格化双精度浮点数的阶码e的取值范围为1～2046（11位，保留用途相同）。
第2章	数据的表示和运算 55
2. IEEE 754格式浮点数的表示范围
考点追踪	IEEE 754浮点数的表示范围和有效位 (2017、2018、2024)
IEEE 754规格化浮点数的表示范围见表2.2.
表2.2 IEEE 754规格化浮点数的表示范围
格	式	最	小	值	最	大	值
单精度	e=1,f=01.0×2¹⁻¹²⁷=2⁻¹²⁶	e=254,f=.111\cdots,111..1×2²⁵⁴⁻¹²⁷=2¹²⁷×(2-2⁻²³)
双精度	e=1,f=01.0×2¹⁻¹⁰²³=2⁻¹⁰²²	e=2046,f=.1111..,1.11..1×2²⁰⁴⁶⁻¹⁰²³=2¹⁰²³×(2-2⁻⁵²)
当浮点运算结果的绝对值超过最大规格化数时，发生上溢（也称溢出），可分为：
·正上溢：若结果为正且大于最大规格化正数。
● 负上溢：若结果为负且小于最小规格化负数（绝对值过大）。
IEEE 754对上溢的处理规则：①将结果设为+∞或-∞；②置位浮点溢出异常标志,IEEE 754规定，默认情况下不触发异常中断，程序继续执行，除非显式开启此类异常响应。
当运算结果的绝对值小于最小规格化正数但不为零时，发生下溢，可分为：
●正下溢：若结果为正，且处在0到最小规格化正数之间。
●负下溢：若结果为负，且处在最大规格化负数到0之间。
对下溢的处理采用渐进下溢机制：①若结果落在非规格化数可表示范围内，则以非规格化形式存储，保留部分有效精度；②若结果过于接近零（舍入后为零），则存储为+0或-0，并置位浮点下溢异常标志。同样，默认不响应下溢异常，程序继续运行，除非显式启用异常处理。
IEEE 754标准的单精度浮点数的表示范围如图2.15所示。
- (2 - 2^{ - 2 3}) × 2^{1 2 7}
-1.0×2⁻¹26
+ 1 . 0 × 2^{ - 1 2 6}
+ (2 - 2^{ - 2 3}) × 2^{1 2 7}
零
可表示的负数
可表示的正数
负上溢
规格化浮点数
负下溢
正下溢
规格化浮点数
正上溢
非规格
非规格
数轴
化负数
化正数
-1.0×2⁻¹⁴⁹
+ 1 . 0 × 2^{ - 1 4 9}
图2.15 IEEE 754标准的单精度浮点数的表示范围
3. 几种特殊的IEEE 754浮点数
考点追踪	IEEE 754标准中的特殊浮点数 (2017、2023)
在IEEE 754标准中，当阶码全为0或全为1时，浮点数具有特殊含义，如表2.3所示。
表2.3 阶码全为0或全为1时IEEE754浮点数的解释
值的类型	单精度(32位)	双精度(64位)
符号	阶码	尾数	值	符号	阶码	尾数	值
正零	0	0	0	0	0	0	0	0
负零	1	0	0	-0	1	0	0	-0
正无穷大	0	255（全1）	0	∞	0	2047（全1）	0	00
负无穷大	1	255（全1）	0	-∞	1	2047（全1）	0	-∞
无定义数（非数）	0或1	255（全1）	f≠0	NaN	0或1	2047（全1）	f≠0	NaN
非规格化正数	0	0	f≠0	2⁻¹²⁶(0. f)	0	0	f≠0	2⁻¹⁰²²(0. f)
非规格化负数	1	0	f≠0	-2⁻¹²⁶(0. f)	1	0	f≠0	-2⁻¹⁰²²(0. f)
56 2027年计算机组成原理考研复习指导
1）全0阶码全0尾数：+0/-0.符号s决定其正负，通常情况下+0和-0是等效的。
2）全1阶码全0尾数：+∞/-∞。+∞在数值上大于所有有限数，-∞则小于所有有限数。引入无穷大数的目的是，使程序在溢出等异常情况下仍能继续执行。
3）全1阶码非0尾数：NaN (Not a Number)。表示一个没有定义的数，称为非数。
4）全0阶码非0尾数：非规格化数。非规格化数的特点是阶码为全0，不使用隐藏位，尾数字段不全为0。因此，单精度和双精度浮点数的指数分别为-126和-1022.非规格化数用于实现渐进下溢，填补0与最小规格化数之间的数值间隙。
考点追踪	实数与IEEE 754浮点数的相互转换(2011、2013、2020、2022、2023、2025)
【例2.5】将十进制数-8.25转换为IEEE 754单精度浮点数格式表示。
解：
IEEE 754单精度浮点数的偏置值是127；尾数最高位的“1”是被隐藏的。
先将-8.25转换为二进制，即-1000.01= -1.000 01×2³, 尾数部分取小数点后的23位(00001后补0至23位)；再计算阶码E,E-127=3, 因此E=130, 转换为二进制为10000010.
IEEE 754单精度浮点数格式：符号（1位）+阶码（8位）+尾数(23位)，即为
1;1000 0010;0000 1000 00000000000000
因此，其单精度浮点数格式表示为11000001000001000000 0000 000000000=C1040000H.
【例2.6】求IEEE 754单精度浮点数C640 0000H的值是多少。
解：
先将C6400000H按二进制展开为
110001100100 0000 000000000000000
按IEEE 754单精度浮点数格式划分：
符号	阶码	尾数
1	1000 1100	1000000 0000 000000000000
因此，符号=1表示负数；阶码真值为1000 1100-0111 1111=(0000 1101)₂=13;尾数真值为1 + (0 . 1)_{2} = 1 . 5（注意，尾数含隐藏位1）。因此，该单精度浮点数的值为- 1 . 5 × 2^{1 3}。
2.3.2浮点数的加减运算
浮点数运算的特点是阶码与尾数分开处理，浮点数加减运算分为以下几个步骤。
考点追踪	float型能否通过左移实现乘以2运算(2017)；浮点数的加减运算(2009)
1.对阶
对阶的目的是使两个操作数的小数点位置对齐，即令它们的阶码相等，以便尾数可以直接相加减。对阶的原则是：小阶向大阶看齐，即将阶码较小的数的尾数右移，右移位数等于两阶码差的绝对值。对于IEEE 754标准的浮点数，对阶时需要进行移码减法运算，以求得阶码差。尾数右移时，仅移动数值位，符号位不参与移位；对于规格化数，隐藏位1会随尾数右移而进入小数部分，空出的高位补0。为保证运算精度，移出的低位不应丢弃，而应保留并参与后续尾数运算。
注	意
若采用大阶向小阶看齐，则需将尾数左移，导致最高有效位被移出，造成不可逆的精度错误。
第2章	数据的表示和运算 57
2.尾数加减
由于IEEE 754标准采用定点原码小数表示尾数，因此尾数加减运算实质上是定点原码小数的加减运算，应根据相应的规则执行。对于规格化数，在运算前还需要将隐藏位还原到尾数部分，形成完整的1. f形式。此外，对阶过程中为保持精度而保留的附加位也要参与尾数加减运算。
3.尾数规格化
为在浮点运算中最大限度保留有效数字，需要对运算结果进行规格化处理。所谓规格化，是指通过调整尾数与阶码，使浮点数的尾数满足最高有效位为1的形式。
IEEE 754规格化尾数的形式为1.×…×。尾数相加减后可能出现两类非规格化结果：
1.×…×+1.×…×=1×.×…×
1.×…×-1.×…×=0.0…01×…×
1）右规：当结果为1×.×...×时，需要进行右规。尾数每右移一位，阶码加1。尾数右移时，最高位1被移到小数点前一位作为隐藏位，最后一位移出时，要考虑舍入。
2）左规：当结果为0.0…01×…×时，需要进行左规。尾数每左移一位，阶码减1。可能需要左规多次，直到将第一位1移至小数点左边。
注	意
①	左规一次相当于乘以2，右规一次相当于除以2；②需要右规时，只需进行一次。
4.舍入
在对阶和右规过程中，尾数右移可能导致低位丢失。为保证精度，移出的低位通常被保留用于中间计算。最终结果需通过舍入处理，还原为标准的IEEE 754格式。
为此，IEEE 754引入三个辅助位以指导精确舍入。
1）保护位：紧邻尾数最低有效位之后的第一位，用于初步判断舍入方向。
2）舍入位：位于保护位之后，与保护位和粘滞位共同构成完整的舍入信息。
3）粘滞位：只要舍入位之后被移出的位中存在至少一个1，粘滞位就置为1，否则为0.
IEEE 754定义了四种可选的舍入模式。
1）就近舍入（默认方式）：选择最接近真实值的可表示数。若真实值恰好位于两个可表示数的正中间，则选择尾数最低有效位为0的那个（偶数）。具体规则：①若保护位=0，直接舍去；②若保护位=1且（舍入位=1或粘滞位=1），则尾数加1；③若保护位=1、舍入位=0、粘滞位=0，则在尾数末位为奇数时向其加1，以符合向偶数舍入的要求。
例如，运算后得到浮点数的临时尾数M₁，舍入过程如下：M₁
M₁=1.10110011 11001100 1101010 101
注意，下划线部分为保留的23位尾数，其后依次为保护位、舍入位、粘滞位。
由于保护位=1、舍入位=0、粘滞位=1，结果属于非中间值，需要向尾数加1。加1后的23位尾数为10110011 11001100 1101 011.
若运算后得到临时尾数M₂，则舍入过程如下：
M₂=1.10110011 11001100 1101010 100
由于保护位=1、舍入位=0、粘滞位=0，结果恰好位于两个可表示数的正中间。此时尾数最低有效位为偶数，无须加1。最终的23位尾数保持为10110011 1100 11001101010.
2）正向舍入：朝数轴+∞方向舍入，即选择数值更大的可表示数。
3）负向舍入：朝数轴-∞方向舍入，即选择数值更小的可表示数。
58 2027年计算机组成原理考研复习指导
4）截断法：直接截取所需位数，丢弃后面的所有位，实现最为简单。对正数或负数来说，都是选择更接近原点的那个可表示数，也称为朝原点舍入。
5.溢出判断
考点追踪	浮点数运算时的溢出判断 (2015)
在尾数规格化或舍入过程中，可能对阶码进行加减操作，因此需要判断指数是否溢出。在IEEE 754中，浮点数的溢出由阶码是否超出可表示范围决定；尾数溢出可通过右规修正，而真正的溢出仅发生在阶码上溢或下溢时。
1）上溢判断。尾数相加后若结果≥2，或舍入时尾数末位加 1 引发进位(如1.111…+1=10.000…)，则均需右规：尾数右移一位，阶码加1。若原阶码已为最大正规格化值（单精度阶码字段为11111110,对应真值+127）, 加1后变为11111111（该编码保留用于表示无穷大或NaN），则视为指数上溢，通常会引发异常。
2）下溢判断。左规时尾数左移，阶码减1。若阶码真值减至低于最小正规格化值(单精度-126,双精度-1022)，则进入非规格化数范围（阶码字段为0）。若结果进一步小于最小可表示非规格化数（如2⁻¹⁴⁹或2⁻¹⁰⁷⁴），则视为指数下溢，通常将结果置为机器零。
【例2.7】设x和y为float型变量,x=10.5, y=-120.625, 请给出x+y的计算过程。
解：
x = 1 0 . 5 = (1 0 1 0 . 1)_{2} = (1 . 0 1 0 1)_{2} × 2^{3}。其IEEE 754单精度：符号位为0;阶码为3+127=130, 即10000010; 机器数（注意隐含尾数最高位）为0;10000010;010 100000000000 00000000.
y = - 1 2 0 . 6 2 5 = - (1 1 1 1 0 0 0 . 1 0 1)_{2} = - (1 . 1 1 1 0 0 0 1 0 1)_{2} × 2^{6}。其IEEE 754单精度：符号位为1,阶码为6+127=133, 即10000101; 机器数为1;10000101;1110001010000000000000.
1）对阶。求阶差。E_{x} - E_{y} = - 3 。故将x的尾数右移3位，阶码调整为Ey=133.对阶后，x的尾数变为0.0010 101000000000000000000000000（含保留的附加位），此时无隐藏位。
2）尾数相加。0.0010 101000000000 00000000000000000+(-1.11100010 1000 0000 00000)=-1.1011 1000 1000 0000 000000 00000（注意，附加位参与运算，但不会存储）。
3）规格化。尾数相加结果- 1 . 1 0 1 1 1 0 0 0 1 0 \cdots × 2^{6} ，已是规格化形式。
4）舍入。单精度尾数保留23位，附加位全为0，按就近舍入规则，直接截断。
因此, x+y的机器数为1;1000 0101;1011 1000 1000 0000 0000000.
其真值为-
2.3.3 C语言中的浮点数类型
考点追踪	不同类型数据转换后数值的变化(2010)
C语言中的float型和double型分别对应IEEE 754单精度和双精度浮点数。long double型通常对应扩展双精度格式，其长度和格式依赖于编译器与目标平台。在C语言中，表达式中的赋值、运算或比较操作会触发自动类型转换，常见的转换序列为char→int→long→double 和 float→double，这些转换通常由范围和精度较低的类型向更高者进行，一般不会丢失信息。
当不同类型的数据混合运算时，遵循类型提升原则：较低类型自动转换为较高类型。例如，long与int运算时，先将int转换为long,然后进行运算，结果为long;float与double运算时，先将float转换为double，结果为double.这类由编译器自动完成的转换称为隐式类型转换。
考点追踪	int和float型的精度和范围分析(2017)
1）int转float时，虽然不会发生溢出，但由于float尾数（含隐藏位）仅24位有效，而int
第2章数据的表示和运算	59
为32位，当整数值的二进制有效位超过24位时，需做舍入处理，导致精度损失。
2) int或float转double时，因double的有效位更多，通常能精确表示原值。
3) double转float时，一方面float的表示范围较小，大数值转换时可能发生溢出；另一方面float的尾数有效位变少，高精度数转换时会发生舍入误差。
4) float或double转int时，由于int没有小数部分，小数部分被直接丢弃（向零截断）；同时，若浮点数值超出int的表示范围，则会发生整数溢出。
不同数据类型之间的转换常隐藏不易察觉的精度损失或溢出风险，编程时需格外谨慎。
2.3.4数据的宽度和存储
1.数据的宽度和单位
在计算机中，比特(bit，也称位，符号为b)是最小的信息单位，表示一个二进制位(0或1)；字节(byte，符号为B)是基本的存储和寻址单位，1字节=8比特。随着信息规模增大，常在B(字节)或b(位)前添加前缀以表示更大的容量，如KB、MB、GB等。在传统计算机系统中，这些前缀通常按2的幂定义，如1KB=2¹⁰B=1024B。
此外，字(word)也是常用的数据组织单位。它是由体系结构定义的逻辑单位，通常用于表示整数、地址等基本数据类型的宽度，其长度因架构而异，常见的有2、4或8字节。
与字不同，字长(也称机器字长)指CPU内部整数运算的数据通路的宽度，通常等于通用寄存器的宽度。字长反映计算机一次能处理的整数数据的位数，是衡量机器性能的重要指标。日常所说的“32位机”或“64位机”，其中的32或64即指字长。例如，在Intel x86架构中，自80386起字长为32位(32位机)，但其体系结构仍将16位定义为一个字，32位称为双字。这表明：字是架构层面的约定，而字长体现的是硬件的实际处理能力。
2.数据的“大端方式”和“小端方式”存储
在存储数据时，数据从低位到高位可以按从左到右排列，也可以按从右到左排列。因此，不宜用最左或最右来表征数据的最高位或最低位，通常使用最低有效字节(LSB)和最高有效字节(MSB)来分别表示数据的最低位和最高位。例如，在32位计算机中，一个int型变量i的机器数为01234567H，其最高有效字节MSB=01H，最低有效字节LSB=67H。
考点追踪	数据的大小端存储(2016、2018、2019、2024、2025)
现代计算机普遍采用字节编址，即每个地址对应1字节。不同类型的数据占用不同字节数(如int和float占4字节，double占8字节)，而程序中每个变量仅分配一个起始地址。假设变量i的地址为0800H，那么其4个字节01H、23H、45H、67H将占据连续的4个内存单元。这些字节在内存中的排列方式分为两种(见图2.16)：
大端方式
0800H 0801H 0802H 0803H
…
01H 23H 45H 67H
小端方式
…
67H 45H 23H 01H
图2.16采用大端方式和小端方式存储数据
考点追踪	根据存放顺序判断大小端方式(2019、2023)
1)大端方式(big endian)：MSB存储在低地址，LSB存储在高地址，字节顺序与数值的标准十六进制书写顺序一致。
60 2027年计算机组成原理考研复习指导
2）小端方式 (little endian):LSB存储在低地址,MSB存储在高地址，字节顺序与标准书写顺序相反。
在分析机器代码时，需特别注意字节顺序。例如，以下是由反汇编器生成的一行代码：
4004d3: 01 05 64 94 04 08  add eax, 0x08049464
其中,4004d3是指令地址，	010564940408是指令的机器码,add eax,0x08049464是其汇编形式.指令的第二个操作数是立即数0x08049464，其在内存中按地址递增顺序存储为：64H、94H、04H、08H.由于低地址存放的是LSB(64H) ,高地址存放的是MSB(08H) ,符合小端方式的特征。将这4个字节按小端规则重组，即可得到正确的立即数0x08049464。因此，在阅读小端机器代码时，需要将连续字节按逆序组合才能还原其逻辑数值。
3.数据按“边界对齐”方式存储
在字长为32位的系统中，边界对齐要求数据的存储地址是其对齐值（通常等于该类型大小，单位：字节）的整数倍：字节可位于任意地址，半字地址须为2的倍数，字地址须为4的倍数。满足此条件时，CPU可通过一次访存读取完整数据；否则，若数据跨越两个存储单元，则需两次访存并拼接字节，显著降低效率。为满足对齐要求，编译器会在必要时填充空白字节。这种“以空间换时间”的策略虽略微增加内存占用，但能大幅提升访问速度。
例如，数据序列“字节1、字节2、字节3、半字1、半字2、半字3、字1”按边界对齐与非对齐方式存储的格式分别如图2.17和图2.18所示。
字节1	字节2	字节3	填充
半字1	半字2
半字3	填充
字1
字节1	字节2	字节3	半字1-1
半字1-2	半字2	半字3-1
半字3-2	字1-1
字1-2
图2.17 按边界对齐方式存储	图2.18 按边界不对齐方式存储
考点追踪	结构体的小端、边界对齐存储(2012、2020)
C语言中，struct型的内存布局遵循以下对齐规则：①每个成员的起始地址必须是其对齐值的整数倍(例如：char为1,short为2,int为4)；②整个结构体的大小必须是其最大成员对齐值的整数倍（不足则在尾部填充）。这确保了每个结构体成员的起始地址均满足对齐要求。
先看两个例子（基于32位x86环境，GCC编译器）：
struct A{	struct B{
int a;	char b;
char b;	int a;
short c;	short c;
}	}
结果却是：sizeof(A)=8, sizeof(B)=12.
设B从地址0x0000开始，成员b的对齐值是1，其存放地址符合0x0000%1=0；成员a的对齐值是4, 需对齐到4字节边界，故起始于0x0004, 占据0x0004~0x0007; 成员c的对齐值是2,起始于0x0008，占据0x0008~0x0009.此外，结构体长度必须是最大对齐值(4)的整数倍，当前大小10字节，需填充至12字节 (0x000A~0x000B) .
设A也从地址0x0000开始，成员a的对齐值是4,存放在0x0000~0x0003;成员b的对齐值是1，存放在0x0004；成员c的对齐值是2，为满足“起始地址%对齐值=0”的条件，只能存放在0x0006~0x0007,总大小为8字节，无须尾部填充。
精简指令集计算机(RISC)普遍采用边界对齐，以支持高效的指令流水线。
第2章数据的表示和运算 61
2.3.5 本节习题精选
一、单项选择题
01.在C语言的不同类型的数据混合运算中，要先转换为同一类型后进行运算。设一表达式中包含有int型、long型、char型和double型的变量与数据，则表达式最后的运算结果是()，这4种类型数据的转换规律是()。
A. long, int→char→double→long B. long, char→int→long→double
C. double, char→int→long→double D. double, char→int→double→long
02.长度相同但格式不同的两种浮点数，假设前者阶码长、尾数短，后者阶码短、尾数长，其他规定均相同，则它们可表示的数的范围和精度为()。
A.两者可表示的数的范围和精度相同 B.前者可表示的数的范围大但精度低
C.后者可表示的数的范围大且精度高 D.前者可表示的数的范围大且精度高
03.浮点数的IEEE 754标准对尾数编码采用的是()。
A.原码 B.反码 C.补码 D.移码
04.在IEEE 754标准规定的64位浮点数格式中，符号位为1位，阶码为11位，尾数为52位，则它所能表示的最小规格化负数为()。
A.-(2-2⁵²)×2-1023 B.-(2-2-5²)×2+1023
C.-1×2-1024 D.-(1-2-52)×2+2047
05.按照IEEE 754标准规定的32位单精度浮点数41A4C000H对应的十进制数是()。
A.4.59375 B.-20.59375 C.-4.59375 D.20.59375
06.在浮点数编码表示中，()在机器数中不出现，是隐含的。
A.阶码 B.符号 C.尾数 D.基数
07.若某单精度浮点数、某原码、某补码、某移码的32位机器数均为0xF0000000，则这些数从大到小的顺序是()。
A.浮原补移 B.浮移补原 C.移原补浮 D.移补原浮
08.采用规格化的浮点数最主要是为了()。
A.增加数据的表示范围 B.方便浮点运算
C.防止运算时数据溢出 D.增加数据的表示精度
09.设x是采用IEEE 754标准表示的32位单精度浮点数，下列说法中正确的是()。
Ⅰ.当|x|<1.0×2-126时，x将被置为机器零
Ⅱ.当|x|>1.0×2¹²⁷时，将发生溢出
Ⅲ.x所能表示的最小非规格化正数与最大非规格化负数的绝对值相等
Ⅳ.x可表示的最大正数与最小负数的绝对值相等
A. I,II,III,IV B. I,II C. II,III,IV D. III,IV
10.在浮点运算中，下溢指的是()。
A.运算结果的绝对值小于机器所能表示的最小绝对值
B.运算的结果小于机器所能表示的最小负数
C.运算的结果小于机器所能表示的最小正数
D.运算结果的最低有效位产生的错误
11.判断浮点数运算是否溢出，取决于()。
A.尾数是否上溢 B.尾数是否下溢 C.阶码是否上溢 D.阶码是否下溢
12.假定采用IEEE 754标准中的单精度浮点数格式表示一个数为45100000H，则该数的值是()。
62 2027年计算机组成原理考研复习指导
A. (+1.125)_{10}×2^{10} B. (+1.125)_{10}×2^{11} C. (+0.125)_{10}×2^{11} D. (+0.125)_{10}×2^{10}
13.已知 float 型采用 IEEE 754 单精度浮点数格式，若 x、y 为 float 型变量，且x=-126,y=15.75，则执行语句x=x+y时，在浮点运算单元中进行对阶操作后的结果是（	）。
A. x 不变，y 为 010000101,0.001111110...
B. x 不变，y 为 010000110,0.001111110...
C. y 不变，x 为 110000101,0.001111110...
D. y 不变，x 为 110000110,0.001111110...
14.假设 x 和 y 均是 float 型变量，x 的真值为 1，y 的真值为 0.1。已知 0.1 的二进制表示为无限循环小数 0.00011[0011]...（重复因子为 0011），某计算机采用 IEEE 754 单精度格式及就近舍入方式，则计算x+y的结果用十六进制机器数表示为（	）。
A. 3F80 0000 B. 3F8C CCCD C. 3F8C CCCC D. 3F80 000C
15.在 IEEE 754 标准浮点格式中，非规格化浮点数表示为（	）。
A. 阶码为 0，尾数为任意非 0 的二进制数
B. 阶码为 255，尾数全为 0
C. 阶码为 255，尾数为任意非 0 的二进制数
D. 阶码为 0，尾数全为 0
16.在 IEEE 754 单精度浮点数加减运算的对阶阶段，若需将某操作数的尾数右移以对齐阶码，则关于其隐含的前导“1”，以下说法正确的是（	）。
A. 隐含的“1”始终保留在最高位，在右移过程中不会被移出
B. 隐含的“1”参与右移，但为保持规格化形式，移位后仍重置为 1
C. 对阶移位前，需先将隐含的“1”恢复到尾数高位，再整体右移
D. 非规格化数也包含隐含的“1”，因此同样需要恢复后再移位
17.在 IEEE 754 单精度浮点数加减运算中，若两个操作数阶码之差的绝对值为 \Delta E，当其大于或等于（	）时，阶码较小的操作数对结果无影响，结果直接取阶码较大的操作数（假设采用就近舍入的方式）。
A. 24 B. 25 C. 126 D. 128
18.下列关于机器字长的叙述中，错误的是（	）。
A. 机器字长是指 CPU 中定点运算数据通路的宽度
B. 机器字长通常与 CPU 通用寄存器的位数一致
C. 机器字长决定了定点数的表示范围和精度
D. 机器字长对计算机硬件造价没有影响
19.计算机中的信息按边界对齐方式存储的含义是（	）。
A. 信息的字节长度必须是整数 B. 信息单元的字节长度必须是整数
C. 信息单元的存储地址必须是整数 D. 信息单元的存储地址是其字节长度的整数倍
20.假设已定义三个 int 型变量 x、y 和 z，sizeof(int)=4，double 型采用 IEEE 754 双精度浮点数格式，变量 dx、dy 和 dz 的声明和初始化如下：
double dx =(double)x;
double dy =(double)y;
double dz =(double)z;
则下列关系表达式中永远为真的是（	）。
I. dx+dy==(double)(x+y)
II. (dx+dy)+dz==dx+(dy+dz)
第2章数据的表示和运算 63
A. I和II B.仅I C.仅II D.无正确项
21.在按字节编址的计算机中，采用小端方式存储数据，某静态二维数组b的声明如下：
static short b[2][4]={{2,9,-1,5},{3,1,-6,2}};
若b的首地址为0x8049820,采用按行优先存储，地址0x804982c中的内容是()。
A.FAH B.FFH C.00H D.05H
22.在按字节编址的计算机中，数据在存储器中以小端方式存放。假定int型变量i的地址为08000000H,i的机器数为01234567H,地址08000000H单元的内容是()。
A.01H B.23H C.45H D.67H
23.在按字节编址的32位计算机中，按边界对齐方式为以下结构型变量x分配存储空间：
struct cont info{
char id;
unsigned post;
char phone;
}x;
若x的首地址为0x8049820,则成员变量phone的起始地址为()。
A.0x8049828 B.0x8049826 C.0x8049825 D.0x8049822
24.假定变量i、f的数据类型分别是int、float。已知i=12345,f=1.2345×2³,则在一个32位机器中执行下列表达式时，结果为“假”的是()。
A.i==(int)(double)i B.f==(float)(double)f
C.i==(int)(float)i D.f==(float)(int)f
25.有以下C语言代码段：
int m=13;
float a=12.6,x;
x=m/2+a/2;
printf("%f\n",x);
执行上述代码后，输出的x值为()。
A.12.000000 B.12.300000 C.12.800000 D.12
26.【2009统考真题】浮点数加、减运算过程一般包括对阶、尾数运算、规格化、舍入和判断溢出等步骤。设浮点数的阶码和尾数均采用补码表示，且位数分别为5和7(均含2位符号位)。若有两个数X=2⁷×29/32和Y=2⁵×5/8,则用浮点加法计算X+Y的最终结果是()。
A.001111100000 B.001110100000 C.010000010001 D.发生溢出
27.【2010统考真题】假定变量i、f和d的数据类型分别为int、float和double(int型用补码表示，float型和double型分别用IEEE 754单精度和双精度浮点数格式表示)，已知i=785、f=1.5678E3、d=1.5E100,若在32位机器中执行下列关系表达式，则结果为“真”的是()。
I.i==(int)(float)i II.f==(float)(int)f III.f==(float)(double)f IV.(d+f)-d=f
A.仅I和II B.仅I和III C.仅II和III D.仅III和IV
28.【2011统考真题】float型数据通常用IEEE 754单精度格式表示。若编译器将float型变量x分配在一个32位浮点寄存器FR1中，且x=-8.25,则FR1的内容是()。
A.C1040000H B.C2420000H C.C1840000H D.C1C20000H
29.【2012统考真题】float型(IEEE 754单精度浮点数格式)能表示的最大正整数是()。
A.2¹²⁶-2¹⁰³ B.2¹²⁷-2¹⁰⁴ C.2¹²⁷-2¹⁰³ D.2¹²⁸-2¹⁰⁴
30.【2012统考真题】某计算机存储器按字节编址，采用小端方式存放数据。假定编译器规定int型和short型长度分别为32位和16位，并且数据按边界对齐存储。某C语言程序
64 2027年计算机组成原理考研复习指导
段如下：
struct{
int a;
char b;
short c;
} record;
record.a = 273;
若 record 变量的首地址为 0xC008，地址 0xC008 中的内容及 record.c 的地址分别为（	）。
A. 0x00, 0xC00D B. 0x00, 0xC00E C. 0x11, 0xC00D D. 0x11, 0xC00E
31.【2013 统考真题】某数采用 IEEE 754 单精度浮点数格式表示为 C640 0000H，则该数的值是（	）。
A. -1.5×2^{13} B. -1.5×2^{12} C. -0.5×2^{13} D. -0.5×2^{12}
32.【2014 统考真题】float 型数据常用 IEEE 754 单精度浮点格式表示。假设两个 float 型变量 x 和 y 分别存放在 32 位寄存器f1 和 f2中，若(f1)=CC90 0000H，(f2)=B0C0 0000H，则 x 和 y 之间的关系为（	）。
A. x < y 且符号相同 B. x < y 且符号不同
C. x>y 且符号相同 D. x>y 且符号不同
33.【2015 统考真题】下列有关浮点数加减运算的叙述中，正确的是（	）。
I. 对阶操作不会引起阶码上溢或下溢 II. 右规和尾数舍入都可能引起阶码上溢
III. 左规时可能引起阶码下溢 IV. 尾数溢出时结果不一定溢出
A. 仅II、III B. 仅I、II、IV C. 仅I、III、IV D. I、II、III、IV
34.【2016 统考真题】某计算机字长为 32 位，按字节编址，采用小端方式存放数据。假定有一个 double 型变量，其机器数表示为 1122 3344 5566 7788H，存放在以 0000 8040H 开始的连续存储单元中，则存储单元 0000 8046H 中存放的是（	）。
A. 22H B. 33H C. 77H D. 66H
35.【2018 统考真题】IEEE 754 单精度浮点格式表示的数中，最小的规格化正数是（	）。
A. 1.0×2^{-126} B. 1.0×2^{-127} C. 1.0×2^{-128} D. 1.0×2^{-149}
36.【2018 统考真题】某 32 位计算机按字节编址，采用小端方式。若语句“int i=0；”对应指令的机器代码为“C7 45 FC 00 00 00 00”，则语句“int i=-64；”对应指令的机器代码是（	）。
A. C7 45 FC C0 FF FF FF B. C7 45 FC 0C FF FF FF
C. C7 45 FC FF FF FF C0 D. C7 45 FC FF FF FF 0C
37.【2020 统考真题】在按字节编址、采用小端方式的 32 位计算机中，按边界对齐方式为以下 C 语言结构型变量 a 分配存储空间：
struct record{
short x1;
int x2;
} a;
若 a 的首地址为 2020 FE00H，a 的成员变量x2的机器数为 1234 0000H，则其中 34H 所在存储单元的地址是（	）。
A. 2020 FE03H B. 2020 FE04H C. 2020 FE05H D. 2020 FE06H
38.【2020 统考真题】已知有符号整数用补码表示，float 型数据用 IEEE 754 标准表示，假定变量 x 的类型只可能是 int 或 float，当 x 的机器数为 C800 0000H 时，x 的值可能是（	）。
A. -7×2^{27} B. -2^{16} C. 2^{17} D. 25×2^{27}
第2章数据的表示和运算 65
39.【2021统考真题】下列数值中，不能用IEEE 754浮点格式精确表示的是()。
A. 1.2 B. 1.25 C. 2.0 D. 2.5
40.【2022统考真题】-0.4375和IEEE 754单精度浮点数表示为()。
A. BEE00000H B. BF600000H C. BF700000H D. C0E00000H
41.【2023统考真题】若short型变量x=-8190,则x的机器数是()。
A. E002H B. E001H C. 9FFFH D. 9FFEH
42.【2023统考真题】已知float型变量用IEEE 754单精度浮点数格式表示。若float型变量x的机器数为80200000H,则x的值是()。
A. -2-128 B. -1.01×2-127 C. -1.01×2-126 D. 非数(NaN)
43.【2024统考真题】某科学实验中，需要使用大量的整型参数，为了在保证表数精度的基础上提高运算速度，需要选择合理的数据表示方法。若整型参数α、β的取值范围分别为-2²⁰~2²⁰、-2⁴⁰~2⁴⁰，则在下列选项中，α、β最适合采用的数据表示方法分别是()。
A. 32位整数、32位整数 B.单精度浮点数、单精度浮点数
C. 32位整数、双精度浮点数 D.单精度浮点数、双精度浮点数
44.【2025统考真题】已知float型变量用IEEE 754单精度浮点数格式表示。若float型变量x的机器数为47300000H,则x的值是()。
A. 0.375×2¹⁴ B. 1.375×2¹⁴ C. 0.375×2¹⁵ D. 1.375×2¹⁵
45.【2025统考真题】某32位计算机按字节编址，采用小端方式存放数据，编译器按边界对齐方式为下列C语言结构型数组变量employee分配存储空间。
struct record {
int id;
char name[10];
int salary;
}employee[200];
若employee的首地址为0000A0B0H, employee[]。id的机器数为12345678H,则该机器数中的56H所在存储单元的地址是()。
A. 0000A0C3H B. 0000A0C4H C. 0000A0C5H D. 0000A0C6H
二、综合应用题
01.现有一计算机字长32位(D₃₁~D₀)，符号位是最高位。
对于二进制10001111110111110000000000000000,
1)表示一个补码整数，其十进制值是多少?
2)表示一个无符号整数，其十进制值是多少?
3)表示一个IEEE 754标准的单精度浮点数，其值是多少?
02.假定变量i是一个32位的int型整数,f和d分别为float型(32位)和double型(64位)实数。分析下列各布尔表达式，说明结果是否在任何情况下都是“true”。
1)i==(int)((double)i)
2)f==(float)((int)f)
3)f==(float)((double)f)
4)d==(double)((float)d)
03.已知两个实数x=-68,y=-8.25,它们在C语言中定义为float型变量，分别存放在寄存器A和B中。另外，还有两个寄存器C和D。A、B、C、D都是32位的寄存器。请问(要求用十六进制表示二进制序列)：
1)寄存器A和B中的内容分别是什么?
66 2027年计算机组成原理考研复习指导
2) x和y相加后的结果存放在寄存器C中，寄存器C中的内容是什么？
3) x和y相减后的结果存放在寄存器D中，寄存器D中的内容是什么？
04.对下列每个IEEE 754单精度数值，解释它们所表示的是哪种数字类型(规格化数、非规格化数、无穷大、0)。当它们表示某个具体数值时，请给出该数值。
1)0000 0000 0000 0000 0000 0000 0000 0000
2)0100 0010 0100 0000 0000 0000 0000 0000
3)1000 0000 0100 0000 0000 0000 0000 0000
4)1111 1111 1000 0000 0000 0000 0000 0000
05.【2017统考真题】已知f(n)=sumlimits {i=0}^{n}2^i=2^n+1-1=11···1B,计算f(n)的C语言函数f1如下：
int f1(unsigned n){
int sum=1, power=1;
for(unsigned i=0; i<=n-1; i++){
power *= 2;
sum += power;
}
return sum;
}
将f1中的int都改为float,可得到计算f(n)的另一个函数f2。假设unsigned型和int型数据都占32位，float型数据采用IEEE 754单精度标准。请回答下列问题：
1)当n=0时，f1会出现死循环，为什么？若将f1中的变量i和n都定义为int型，则f1是否还会出现死循环？为什么？
2)f1(23)和f2(23)的返回值是否相等？机器数各是什么(用十六进制表示)？
3)f1(24)和f2(24)的返回值分别为33554431和33554432.0,为什么不相等？
4)f(31)=2³²-1,而f1(31)的返回值却为-1,为什么？若使f1(n)的返回值与f(n)相等，则最大的n是多少？
5)f2(127)的机器数为7F800000H,对应的值是什么？若使f2(n)的结果不溢出，则最大的n是多少？若使f2(n)的结果精确(无舍入)，则最大的n是多少？
2.3.6 答案与解析
一、单项选择题
01. C
不同类型的数据混合运算时，遵循的原则是“类型提升”，即较低类型转换为较高类型，最终结果为double型。4种类型数据的转换规律为char→int→long→double。
例如，long型数据与int型数据一起运算时，需先将int型转换为long型，然后两者再进行运算，结果为long型。float型数据和double型数据一起运算时，虽然它们同为实型，但两者精度不同，仍要先将float型转换为double型再进行运算，结果亦为double型。所有这些转换都是由系统自动进行的，这种转换通常称为隐式转换。
注意在强制类型转换中，从int型转换为float型时，虽然不会发生溢出，但因尾数位数的关系，可能有数据舍入，而转换为double型则能保留精度。double型转换为float型时亦是如此。从float型或double型转换为int型时，小数部分被截断，且由于int型的表示范围更小，还可能发生溢出。
02. B
在浮点数总位数不变的情况下，阶码位数越多，尾数位数越少；即表示的数的范围越大，精
第2章 数据的表示和运算 67
度越差(数变稀疏)。
03.A
IEEE 754标准中尾数采用原码表示，阶码部分用移码表示。
04.B
长浮点数，其阶码为11位，尾数为52位，采取隐藏位策略，因此其最小规格化负数为阶码取最大值2^{+1023}(1023=2^{11-1}-1)，尾数取最大值2-2^{-52}(注意其有隐藏位要加1)，符号位为负。
05.D
在IEEE 754单精度浮点数中，最高位为符号位；其后是8位阶码，以2为底，用移码表示，阶码的偏置值为127；其后23位是尾数数值位。对于规格化的二进制浮点数，数值的最高位总是“1”，为了能使尾数多表示一位有效值，将这个“1”隐藏，因此尾数数值实际上是24位。隐藏的“1”是一位整数。在浮点格式中表示出来的23位尾数是纯小数，用原码表示。41A4C000H写成二进制为0100 0001 1010 0100 1100 0000 0000 0000，第一位为符号位0，表示是正数。之后的8位1000 0011表示阶码，真值为(100)B，即4。剩下的是隐藏了最高位1的尾数，所以为1.0100100 1100 0000 0000 0000，数值左移四位后整数部分10100表示为20。
06.D
在浮点数编码表示中，基数的值是约定好的，因此将其隐含。
07.D
这个机器数的最高位为1，对于原码、补码、单精度浮点数而言为负数，对于移码而言为正数，所以移码最大，而补码为-2^{28}，原码为-(2^{30}+2^{29}+2^{28})，单精度浮点数为-1.0×2^{97}，大小依次递减。
08.D
与非规格化浮点数相比，采用规格化浮点数的目的主要是为了增加数据的表示精度。
09.D
IEEE 754单精度浮点数的阶码偏置为127，规格化数的阶码范围为1\sim 254（对应真值指数-126\sim +127），非规格化数用于表示接近零的数值。1.0×2^{-126}是最小规格化正数，最小非规格化正数为1.0×2^{-149}，仅当\mid x\mid小于此值时才舍入为机器零。最大可表示正数为(2-2^{-23})×2^{127}，仅当\mid x\mid超过该值时才溢出。IEEE 754浮点数的表示范围在正负区间完全对称，故说法Ⅲ和Ⅳ正确。
10.A
运算结果在0至规格化最小正数之间时称为正下溢，运算结果在0至规格化最大负数之间时称为负下溢，正下溢和负下溢统称下溢。
11.C
判断浮点数运算是否溢出，取决于阶码是否上溢。阶码下溢可以通过非规格化数来表示。尾数上溢或下溢，可以通过左移或右移进行调整。
12.B
写成二进制表示为0100 0101 0001 0000 0000 0000 0000，第一位为符号位，0表示正数，随后8位(float型)1000 1010是用移码表示的阶码，因此减去0111 1111后得十进制数11，而IEEE 754标准中单精度浮点数在阶码不为0时隐藏1，因此尾数为(1.0010)_{B}=(1.125)_{D}，因此该数值为(+1.125)_{10}×2^{11}。
13.A
规格化IEEE 754浮点数尾数部分的数值范围为[1,2)，x=-1111110B=-1.111110B×2^{6}，y=1111.11B=1.11111B×2^{3}，所以浮点数x、y的阶数分别为6和3。对阶操作是小阶码向大阶码看齐，即y的阶数变为6，移码表示为6+127=133，即10000101B；y的尾数右移3位，变为0.00111111B。
68	2027年计算机组成原理考研复习指导
14. B
x=1.0=(1.0)₂×2⁹,尾数为100...0(隐含的1加上23个0)。y=0.1=(1.10011…)₂×2⁻⁴,尾数为1.10011001100110011001101(最低有效位之后的3位为110,故末位加1)。执行x+y时对阶：将y的尾数右移4位使其与x同阶(2⁹)，得0.000110011001100110011001101。将其与x的尾数100...0相加,得1.000110011001100110011001101。根据1101进行就近舍入，末位加1,得1.00011001100110011001101。最终编码为：符号位为0,阶码为127=01111111,尾数为(隐含1)00011001100110011001101,组合并转换成十六进制数为3F8C CCCD。
15. A
在IEEE 754标准浮点格式中，阶码全为0，尾数不全为0表示非规格化数，非规格化数可用于处理阶码下溢，使得出现比最小规格化数还小的数时程序也能继续进行下去。
16. C
IEEE 754单精度规格化数的有效数字为24位(1.f₂₂f₂₁…f₀)，其中前导“1”是隐含的，未实际存储。对阶时，必须先恢复该隐含位，与23位尾数拼接成24位，再整体右移(高位补0)以对齐阶码。因此，前导“1”会随尾数一同参与移位，可能被移出，选项A错误，选项C正确。右移是逻辑右移，高位补0；若补1，将导致数值错误，选项B错误。非规格化数无隐藏位，选项D错误。
17. B
IEEE 754单精度浮点数的有效数字为24位(含隐含前导1)。对阶时，若阶差ΔE≥25,则小阶操作数的隐含1将右移至舍入位或更低位，导致保护位为0。根据就近舍入规则，此时无论舍入位和粘滞位为何值，均直接截断，不会进位。因此，结果直接取大阶操作数。
18. D
机器字长是CPU一次能处理的定点整数位数，通常等于通用寄存器位数和定点运算数据通路宽度。机器字长越长，定点数的表示范围越大，可精确表示的整数位数越多。机器字长直接影响寄存器、ALU、总线等硬件的位宽，字长越长，电路规模越大，硬件成本显著增加。
19. D
信息在存储器中按边界对齐方式存储的含义是信息单元的存储地址是其字节长度的整数倍。这样可以保证对一个字长数据的读/写只需要一次存储器访问，提高了访存效率，但有时会导致存储空间的浪费。因此，这是一种以空间换时间的办法。
20. D
说法Ⅰ非永真，因为x+y可能溢出，而dx+dy不会溢出，两者结果可能不同。说法Ⅱ永真，由于dx、dy和dz均由32位int转换而到，double可精确地表示int，且对阶时尾数移动位数不会超过52位，因此尾数不会舍入，不会发生大数吃小数[当两浮点数阶码相差超过尾数位宽(24/53位)时，小阶操作数在右移后有效位全部丢失，导致加法结果等于大阶操作数]的情况。
21. A
二维数组b的元素是short型，占2字节，采用按行优先存储，b[0][0]的地址为0x8049820，b[0][1]的地址为0x8049822,以此类推，b[1][2]的地址为0x804982c。b[1][2]的值为-6,补码表示为1111111111111010,采用小端方式存储，因此地址0x804982c存放的是低位字节FAH。
22. D
小端方式是将最低有效字节存储在最小位置。在数01234567H中，最低有效字节为67H。
23. A
结构体按边界对齐存放的要求：数据成员的起始地址是其数据类型大小的整数倍，char型占1字节，char型的起始地址必须是1字节的整数倍；unsigned型占4字节，所以unsigned型的起始地址必须是4字节的整数倍。据此分析，id的起始地址为0x8049820，post的起始地址为
第2章	数据的表示和运算 69
0x8049824,所以phone的起始地址为0x8049828.结构体x的存放方式如下所示。
地址
地址
8049820H	8049821H	8049822H	8049823H
char
8049824H	8049825H	8049826H	8049827H
post
8049828H	8049829H	804982AH	804982BH
phone
地址
24. D
对于选项A和B,int型的有效位数不会超过31位，float型的有效位数比double型的小得多，因此都能精确转换为具有53位有效位的double型。对于选项（C,12345<1024×16=2¹⁴,因此12345对应的二进制的位数一定小于14，因此可精确转换为具有24位有效位的float型。对于选项D,f=1234.5，转换为int型后，小数点后面的数字丢失，因此与原来的f不相等。
25. B
整数与整数运算，结果为整数，所以m/2的结果为6。实数与整数运算，结果为实数，所以a/2的结果为6.3，相加为12.3.C语言的输出格式可使输出值保留小数点后6位，输出为12.300000.
26. D
X的浮点数格式为00，111；00，11101（分号前为阶码，分号后为尾数），Y的浮点数格式为00,101;00,10100.然后根据浮点数的加法步骤进行运算。
①	对阶。X、Y阶码相减，即00,111-00,101=00,111+11,011=00,010, 可知X的阶码比Y的阶码大2（这一步可直接目测）。根据小阶码向大阶码看齐的原则，将Y的阶码加2,尾数右移2位，将Y变为00,111;00,00101.
②	尾数相加。即00,11101+00,00101=01,00010, 尾数相加结果符号位为01, 因此需要右规。
③	规格化。将尾数右移1位，阶码加1, 得X+Y为01,000;00,10001.
④	判断溢出。阶码符号位为01，说明发生溢出。
本题容易误选选项 B、C，因为选项 B、C本身并无计算错误，只是它们不是最终结果，选项B少了第3步和第4步，选项C少了第4步。
27. B
题中三种数据类型强制类型转换的顺序为int→float→double。若将float型转换为int型，小数位部分会被舍去，int型是精确到32位的整数，而float型只保存到1+23位，因此一个32位的int型整数在转换为float型时可能有损失，具体判断方法如下：先将int型整数转换为二进制真值，然后将真值写为±1. x…x×2"的形式，若小数点后的位数超过23位，则转换为float型会发生精度损失。本题中i=785，转换为二进制真值为1.100010001×2⁹，小数点后只有9位，不会发生精度损失，说法Ⅰ正确。对于说法Ⅱ，将float型的f转换为int型，小数点后的数位丢失，结果非真。double型的精度和范围都比float型的大，float型转换为double型不会有损失，说法Ⅲ正确。对于说法Ⅳ，初看似乎没有问题，但浮点运算d+f时需要对阶，对阶后f的尾数有效位被舍去而变为0，因此d+f仍然为d，再减去d后结果为0，结果非真。注意，从int型转换为float型时，虽然不会发生溢出，但由于尾数位数的关系，可能有数据舍入，影响精度，而转换为double型则能保留精度。
28. A
本题的目的在于考查IEEE 754单精度浮点数的表示。首先先将x转换为二进制数，即-1000.01=- 1 . 0 0 0 0 1 × 2^{3} ,然后计算阶码E,根据IEEE 754单精度浮点数格式，有E-127=3, 因此E=130,转换为二进制数，即10000010.最后，根据IEEE 754标准，最高位的1是被隐藏的。
IEEE 754单精度浮点数格式：符号（1位）+阶码（8位）+尾数(23位)。
70 2027年计算机组成原理考研复习指导
因此FR1 的内容为1;10000010;0000 1000 000000000000000.
即11000001000001000000000000000=C1040000H.
本题易误选选项D，未考虑IEEE 754标准隐藏最高位1的情况，把偏置值认为是128.
29. D
IEEE754单精度浮点数是尾数用采取隐藏位策略的原码表示，且阶码用移码（偏置值为127）表示的浮点数。规格化短浮点数的真值为(( - 1)^{S} × 1 . m × 2^{E - 1 2 7} ，其中S为符号位，阶码E的取值为1~254（8位表示），尾数m为23位，共32位；因此，float型能表示的最大整数是1 . 1 1 1 \cdots 1 × 2^{2 5 4 - 1 2 7} =2^{1 2 7}\times(2 - 2^{ - 2 3}) = 2^{1 2 8} - 2^{1 0 4}。
【另解】IEEE 754单精度浮点数格式如下图所示。
符号(1)	阶码 (8)	尾数(23)
表示最大正整数时：符号取 0；阶码取最大值 127；尾数部分隐藏了整数部分的“1”,23位尾数全取1时尾数最大，为2 - 2^{ - 2 3} ，此时浮点数的大小为(2 - 2^{ - 2 3}) × 2^{1 2 7} = 2^{1 2 8} - 2^{1 0 4}。
30. D
尽管record大小为7B（成员a有4B，成员b有1B，成员c有2B），因为数据按边界对齐方式存储，所以record共占用8B.record. a的十六进制表示为0x00000111,因为采用小端方式存放数据，所以地址0xC008中的内容应为低字节0x11;record. b只占1B,后面的1B留空;record. c占2B，因此其地址为0xC00E。各字节的存储分配如下表所示。
地址	0xC008	0xC009	0xC00A	0xC00B
内容	record. a(0x11)	record. a(0x01)	record. a(0x00)	record. a(0x00)
地址	0xC00C	0xC00D	0xC00E	0xC00F
内容	record. b	record. c	record. c
31. A
IEEE 754单精度浮点数格式为C640 0000H, 二进制格式为1100 0110 0100 0000 0000 00000000 0000,转换为标准的格式为
符号	阶码	尾数
1	1000 1100	1000000 0000 000000000000
符号为1表示负数；阶码为10001100-0111 1111=00001101=13;尾数为1.5（注意其有隐藏位，要加1）。因此，浮点数的值为- 1 . 5 × 2^{1 3}。
32. A
(f1)和(f2)对应的二进制分别是(110011001001...)₂和(101100001100...)₂, 根据IEEE 754浮点数标准，可知(f1)的符号为1,阶码为10011001,尾数为1.001,而(f2)的符号为1,阶码为01100001,尾数为1.1，可知两数均为负数，符号相同，B、D排除；(f1)的绝对值为1 . 0 0 1 × 2^{2 6} ,(f2)的绝对值为1 . 1 × 2^{ - 3 0} ,(f1)的绝对值比(f2)的绝对值大，而符号为负，真值大小相反，即(f1)的真值比(f2)的真值小，即x<y.
33. D
对阶是较小的阶码向较大的阶码对齐，所以对阶后的阶码是当前那个较大的阶码而不会导致阶码溢出，说法Ⅰ正确。右规和尾数舍入过程，阶码加1而可能上溢，说法Ⅱ正确，同理说法Ⅲ也正确。尾数溢出时可能仅产生误差，结果不一定溢出，说法Ⅳ正确。
34. A
大端方式：一个字中的高位字节存放在内存中这个字区域的低地址处。小端方式：一个字中
第2章	数据的表示和运算 71
的低位字节存放在内存中这个字区域的低地址处。各字节的存储分配如下表所示。
地址	0000 8040H	0000 8041H	0000 8042H	00008043H
内容	88H	77H	66H	55H
地址	0000 8044H	00008045H	00008046H	00008047H
内容	44H	33H	22H	11H
从而存储单元0000 8046H中存放的是22H.
35. A
IEEE 754单精度浮点数的符号位、阶码位、尾数位（省去正数位1）所占的位数分别是1、8、23.最小正数，符号位取0,移码的取值范围是1~254,取1,得阶码1-127=-126（127为我们规定的偏置值），尾数取全0，最终推出最小规格化正数为A.
36. A
按字节编址，采用小端方式，低位的数据存储在低地址位、高位的数据存储在高地址位，并且按照一字节相对不变的顺序存储。由题意，存储0的位数是后32位，则我们只需要把-64的补码按字节存储在其中即可，而-64表示成32位的十六进制是FFFFFF C0，根据小端方式的特点，低位字节存储在低地址位，就是C0 FF FF FF.
37. D
在32位计算机中，按字节编址，根据小端方式和按边界对齐的定义，变量a的存放方式：
地址	2020 FE00H	2020 FE01H	2020 FE02H	2020 FE03H
未知	未知
说明	x1(LSB)	x1(MSB)
地址	2020 FE04H	2020 FE05H	2020 FE06H	2020 FE07H
00H	00H	34H	12H
说明	x2(LSB)	x2(MSB)
于是,34H所在存储单元的地址为2020 FE06H.
38. A
C8000000H=1100 10000000 0000000000000000000000.
将其转换为对应的float型或int型。
1)若为float型，则尾数隐藏最高位1，符号为1表示负数，阶码1 0 0 1 0 0 0 0 = 2^{7} + 2^{4} = 1 2 8 + 1 6 ，再减去偏置值127得到17，算出x值为-2¹⁷.
2)若为int型，则有符号补码，为负数，数值部分取反加1,得011 1000 0000 0000 0000 000000000 0000, 算出x值为- 7 × 2^{2 7}。
39. A
使用排除法。选项B:1 . 2 5 = 1 . 0 1 B × 2^{0};选项C:2.0=1.0B×2¹; 选项]D : 2 . 5 = 1 . 0 1 B × 2^{1}。因此，选项B、C和D均可以用IEEE 754浮点格式精确表示。选项A的十进制小数1.2转换为二进制的结果是无限循环小数1.001100110011。。。，无法用精度有限的IEEE 754浮点格式精确表示。
40. A
IEEE 754单精度浮点数格式中依次为符号1位、阶码8位（偏置值127）、尾数23位	（隐藏1位）。-0.4375=-1.75×2⁻²,保证小数点前是1。根据单精度浮点数格式，符号为1; 阶码为移码表示，-2+127=125，写成8位二进制数为01111101；尾数隐藏小数点前的1，剩下的0.75写成二进制数为0.11,所以尾数部分是1100…0。该浮点数的二进制格式为1011 1110 11100000 0000 000000000000, 对应的十六进制格式为BEEO 0000H.
72 2027年计算机组成原理考研复习指导
41. A
short型变量是补码表示的16位有符号整数。x是负数，可先求出8190的机器数，8190=8192-2 = 2^{1 3} - 2^{1} ,8190的机器数为0010 0000 0000 000B﹣0000 0000 0000000010B=0001 1111 1111110B, 因此-8190的机器数为1110 0000 00000010B=E002H（按位取反，末位加1）.
42. A
把x的机器数按二进制展开，80200000H=1000 000000100000000000000000000000B,符号为负，阶码全为0，尾数不全为0，由下表可知，这是非规格化数，对于32位非规格化负数，若尾数的二进制为f，则真值为- 2^{ - 1 2 6} × 0 . f = - 2^{ - 1 2 6} × 0 . 0 1 = - 2^{ - 1 2 8}。
值的类型	单精度 (32位)
符号	阶码	尾数	值
非规格化正数	0	0	f≠0	2⁻¹²⁶(0.f)
非规格化负数	1	0	f≠0	-2⁻¹²⁶(0.f)
43. C
表示整数时，相同位数的浮点型的精度不如整型，因此在能满足α、β的取值范围的前提下，应优先选择整型；否则，才选择浮点型。32位补码整数的表示范围为- 2^{3 1}~2^{3 1} - 1 ，满足α的取值范围，因此α应采用32位整数。双精度浮点数的精度比单精度浮点数的更高，-240~240超出了单精度浮点数可以表示的精度（由尾数位数+隐含位决定），因此 β应采用双精度浮点数。
44. D
根据IEEE 754单精度浮点数格式，机器数4730 0000H对应的二进制数为0,10001110,0110000 0000 0000 000 0 000.符号位为0,表示正数；8位阶码10001110的十进制值为142, 减去偏置127,得到实际指数为15;23位尾数为0110000 0000 000000000000,规格化形式隐含了前导1，故有效数字为1.011（二进制），即十进制数1.375，因此x的值为1 . 3 7 5 × 2^{1 5}。
45. C
首先分析结构体record的内存布局：int id占4字节;char name[10]占10字节，为使后续int salary对齐到4字节边界，需要在name后填充2字节，使salary从4的整数倍偏移处开始。因此结构体总大小为4+10+2+4=20字节。employee[1]的首地址为0000A0B0H+20=0000A0C4H,id为其第一个成员，起始地址即为0000A0C4H。已知id的值为12345678H,在小端方式下，字节按78H、56H、34H、12H的顺序存放，故56H位于0000A0C5H.
二、综合应用题
01.【解答】
1)最高位为符号位，符号位为1，表示是一个负数，对应真值的二进制为
-1110000 00010000 0100 00000000000（数值位取反，末位加1）
对应的十进制值为- (2^{3 0} + 2^{2 9} + 2^{2 8} + 2^{2 0} + 2^{1 4}).
2)全部32位均为数值位，按权相加可知其十进制值为
2	14
3)表示一个IEEE 754标准的单精度浮点数：
符号	阶码	尾数
1   ;  00011111 ;  11011111100000000000000
因为阶码为00011111，所以对应的十进制数为31.IEEE 754标准中的阶码用移码表示，其
第2章 数据的表示和运算 73
偏置值为 127，所以阶码的十进制真值为 31-127=-96。
因为尾数为 1.11011111100000000000000。IEEE 754 标准中的尾数用原码表示，且采用隐藏尾数最高数位 1 的方法，隐藏的 1 是一位整数。所以尾数真值为 
1+2^{-1}+2^{-2}+2^{-4}+2^{-5}+2^{-6}+2^{-7}+2^{-8}+2^{-9}
因为符号为 1，表示这个浮点数是个负数。所以单精度浮点数的真值为 
-(1+2^{-1}+2^{-2}+2^{-4}+2^{-5}+2^{-6}+2^{-7}+2^{-8}+2^{-9})×2^{-96}
02.【解答】
强制类型转换，转换过程有两个，一是 unsigned int→int→long→double，二是 float→double，从后向前转换会使得数据丢失，进而使等号不成立。
1) 是。因为 double 型比 int 型精度高，所以 int 型变量转换为 double 型变量时不会有精度损失。
2) 不是。因为 float 型有小数部分，而 int 型没有小数部分，所以把 float 型变量转换为 int 型变量时，可能丢失小数部分。
3) 是。因为 double 型比 float 型精度高，所以 float 型变量转换为 double 型变量时不会有精度损失。
4) 不是。因为 float 型比 double 型的有效位数少，所以 double 型变量转换为 float 型变量时会有精度损失。
03.【解答】
1) float 型变量在计算机中都被表示成 IEEE 754 单精度格式。X=-68=-(1000100)_{2}=-1.0001×2^{6}，符号位为 1，阶码为 127+6=128+5=(1000101)_{2}，尾数为 1.0001，所以小数部分为 000 1000 0000 0000 0000 0000，合起来整个浮点数表示为 1\quad 1000\quad 0101\quad 000\quad 1000\quad 0000\quad 0000\quad 0000，写成十六进制为 C2880000H。
Y=-8.25=-(1000.01)_{2}=-1.00001×2^{3}，符号位为 1，阶码为 127+3=128+2=(1000010)_{2}，尾数为 1.00001，所以小数部分为 000 0100 0000 0000 0000 0000，合起来整个浮点数表示为 1\quad 1000\quad 0010\quad 000\quad 0100\quad 0000\quad 0000\quad 0000，写成十六进制为 C1040000H。
因此，寄存器 A 和 B 的内容分别为 C2880000H、C1040000H。
2) 两个浮点数相加的步骤如下。
① 对阶：E_{x}=10000101，E_{y}=10000010，则 
[E_{x}-E_{y}]_{\text{符}}=[E_{x}]_{\text{符}}+[-E_{y}]_{\text{符}}=10000101+01111110=00000011
E_{x}大于 E_{y}，所以对 y 进行对阶。对阶后，y=-0.00100001×2^{6}。
② 尾数相加：x 的尾数为 -1.000 1000 0000 0000 0000 0000，y 的尾数为 -0.001 0000 1000 0000 0000 0000，用原码加法运算实现，两数的符号相同，做加法，结果为 -1.001 1000 1000 0000 0000 0000。
即 x 加 y 的结果为 -1.001 1000 1×2^{6}，所以符号位为 1，尾数为 001 1000 1000 0000 0000，阶码为 127+6=128+5，即 1000 0101。合起来为 1 1000 0101 001 1000 1000 0000 0000，转换为十六进制形式为 C2988000H。
所以寄存器 C 中的内容是 C2988000H。
3) 两个浮点数相减的步骤同加法，对阶的结果也一样，只是尾数相减。
尾数相减：x 的尾数为 -1.000 1000 0000 0000 0000 0000，y 的尾数为 -0.001 0000 1000 0000 0000。
用原码减法运算实现，两数的符号相同，做减法；符号位：取大数的符号，负数，为 1；数值部分：大数加小数负数的补码：
74 2027年计算机组成原理考研复习指导
1. 000 1000 0000 00000000000
-1.110 1111 1000 0000 00000000000
x减y的结果为- 0 . 1 1 1 0 1 1 1 × 2^{6} = - 1 . 1 1 0 1 1 1 × 2^{5} ，所以符号位为1,尾数为110 11110000 000000000000, 阶码为127+5=128+4, 即10000100.
合起来为1100001001101111 0000 0000 0000000,转换为十六进制形式为C26F0000H。所以寄存器D中的内容是C26F0000H.
提	示
若为选择题，则第二问可先计算十进制数x+y,x-y的结果，再将其转成IEEE 754格式。
04.【解答】
1)因为该数的阶码字段内容为0，符号位为0，尾数字段内容也为0，所以它表示IEEE浮点格式的+0.
2)该数的阶码字段内容为132,尾数字段内容为100 0000 0000 000 000000000,因为阶码字段的内容既不全部为0，也不全部为1，所以它表示一个规格化数，其实际值为((1 . 1)_{2} × 2^{5} = 4 8 。
3)因为该数的阶码字段内容全部为0，且尾数字段内容不全部为0，所以它表示一个非规格化数，其实际值为(( - 0 . 1)_{2} × 2^{ - 1 2 6} = - 2^{ - 1 2 7} = - 5 . 8 7 7 × 1 0^{ - 3 9}（表示成4位有效数字形式）。
4)因为该数的阶码字段内容全部为1，且尾数字段内容为0，符号位为1，所以它表示负无穷大。
05.【解答】
1) i和n是unsigned型，因此“i<=n-1”是无符号数比较,n=0时,n-1的机器数为全1,值是2^{3 2} - 1 ，为unsigned型可表示的最大数，条件“i<=n-1”永真，因此出现死循环。
若i和n改为int型，则不会出现死循环。
因为"i<=n-1"是有符号整数比较，当n=0时,n-1的值是-1,当i=0时，条件“i<=n-1”不成立，此时退出for循环。
2) f1(23)与f2(23)的返回值相等。f(2 3) = 2^{2 3 + 1} - 1 = 2^{2 4} - 1 ，	其二进制形式是24个1.int型数占32位，没有溢出。float型数有1个符号位，8个指数位，23个底数位，23个底数位可以表示24位的底数，所以两者返回值相等。
f1(23)的机器数是00FF FFFFH,f2(23)的机器数是4B7FFFFFH.
显而易见，前者是24个1, 即0000 0000 1111 1111 111 11111 1111111111(2), 后者的符号位是0，指数位为2 3 + 1 2 7_{(1 0)} = 1 0 0 1 0 1 1 0_{(2)} ，底数位是111 1111 1111 1111 11111 1111(2).
3)当n=24时, f(24)=11111 1111 111111111111111111B, 而float型数只有24位有效位，舍入后数值增大，所以f2(24)比f1(24)大1.
4)显然f(31)已超出了int型数的表示范围，用f1(31)实现时得到的机器数为32个1，作为int型解释时其值为-1，即f1(31)的返回值为-1.
因为int型最大可表示的数是0后面加31个1，因此使fl(n)的返回值与f(n)相等的最大n值是30.
5)IEEE 754标准使用“阶码全1、尾数全0”表示无穷大。f2的返回值为float型，机器数7F80 0000H对应的值是+∞。当n=126时，f(1 2 6) = 2^{1 2 7} - 1 = 1 . 1 . . 1 × 2^{1 2 6} ，	对应的阶码为127+126=253,尾数部分舍入后阶码加1,最终阶码为254,是IEEE 754单
第2章数据的表示和运算	75
精度格式表示的最大阶码。因此使f2结果不溢出的最大n值为126。
当n=23时，f(23)为24个1，float型数有24位有效位，所以不需要舍入，结果精确。因此使f2获得精确结果的最大n值为23。
2.4	本章小结
本章开头提出的问题的参考答案如下：
1)在计算机中，为什么要采用二进制来表示数据？
答案已在本章开头给出。
2)计算机在字长足够的情况下能够精确地表示每个数吗？若不能，请举例说明。
不能。对于整数，只要其数值在当前字长可表示的范围内，即可精确表示。但对于小数（实数），由于采用二进制表示，只能精确表示形如若干个1/(2k)(k为正整数)之和的有理数。许多十进制有限小数在二进制下是无限循环小数，无法用有限位精确表示。例如，0.1=(0.0001100110011…)₂。因此，即使字长很长，这类数值也只能被近似表示。
3)字长相同的情况下，浮点数和定点数的表示范围与精度有什么区别？
在相同字长下，浮点数与定点数存在“范围vs精度”的权衡：
·表示范围：浮点数通过阶码可表示极大或极小的数值，远大于定点数。
·表示精度：定点数将所有位用于数值本身，具有恒定且较高的绝对精度；而浮点数需分配部分位给阶码，导致尾数位数减少，有效精度降低，且精度随数值增大而下降。
因此，浮点数以牺牲精度换取更大的表示范围，定点数以固定精度为代价限制其数值范围。
4)用移码表示浮点数的阶码有什么好处？
IEEE 754标准采用移码表示阶码，主要有以下优势：
①便于阶码比较。浮点数加减运算时需比较两个数的阶码大小，而移码比较更方便。
②支持特殊值的统一编码。阶码全0：当尾数也为0时，表示±0；尾数非零时，表示非规格化数。阶码全1：保留作特殊用途——当尾数为0时，表示±∞；尾数非零时，表示NaN(如0/0、∞-∞等无效运算结果)。
2.5	常见问题和易混淆知识点
1)如何表示一个数值数据？计算机中的数值数据都是二进制数吗？
在计算机内部，数值数据主要有两类表示方式：
①二进制数值表示：包括无符号数（如地址）、有符号数（通常用补码表示）和浮点数。
②二进制编码的十进制数（BCD码）：用4位二进制编码一位十进制数。
需要强调的是，所有数据在物理存储上都是二进制比特序列，区别仅在于解释规则。BCD并非真正的“十进制表示”，而是按十进制语义解释的二进制编码。
2)什么称为无符号整数的“溢出”？
对于n位无符号整数，其表示范围为0到2ⁿ-1。当运算结果大于或等于2ⁿ时，硬件仅保留
76	2027年计算机组成原理考研复习指导
低n位(结果对2”取模)，舍去高位，导致截断后的值不等于真实结果，这种现象称为无符号溢出。在运算器中，通常通过进位标志(CF)来检测无符号溢出。
3.对于位数相同的定点数和浮点数，可表示的浮点数个数比定点数多吗？
不是。n位编码最多表示2”个不同比特模式。定点数(如n位补码)通常能表示2”个互异的有效数值；浮点数中，部分编码用于表示±0、±∞和NaN等特殊值，实际可表示的有效实数个数少于2ⁿ。因此，在相同位数下，定点数通常能表示更多有效数值。
4.现代计算机中是否要考虑原码加减运算？如何实现？
现代计算机一般不实现原码加减运算。尽管IEEE 754浮点数的尾数采用原码表示，但尾数本身是无符号的，符号由独立的符号位表示。在加减运算时，硬件根据操作数符号和运算类型，将尾数作为无符号整数送入通用ALU进行加或减运算，结果符号由控制逻辑生成。
因此，浮点尾数运算本质上是无符号整数运算，无须原码加减机制。
购买王道书，就上
王道官方考研书店
wangdao.taobao.com
淘
第3章
存储系统
【考纲内容】
（一）存储器的分类
（二）层次化存储器的基本结构
（三）半导体随机存储器(RAM)
SRAM、DRAM、Flash存储器
（四）主存储器
DRAM芯片和内存条、多模块存储器、主存储器和CPU之间的连接
（五）外部存储器
磁盘存储器、固态硬盘(SSD)
（六）高速缓冲存储器(Cache)
Cache的基本原理；Cache和主存储器之间的映射方式
Cache中主存块的替换算法；Cache写策略
（七）虚拟存储器
虚拟存储器的基本概念
页式虚拟存储器：基本原理、页表、地址转换、TLB(快表)
段式虚拟存储器的基本原理；段页式虚拟存储器的基本原理
【复习提示】
本章是历年命题重点，特别是有关Cache和虚拟存储器的考点容易出综合题。此外，存储器的特点，存储器的扩展(芯片选择、连接方式、地址范围等)，交叉存储器，Cache的相关计算与替换算法，虚拟存储器与TLB也容易出选择题。读者应在掌握基本原理的基础上，多结合习题进行反复训练，以加深巩固。另外，读者需掌握存在Cache和TLB的计算机中的地址翻译与Cache映射问题，也建议结合《操作系统考研复习指导》复习。
在学习本章时，建议读者思考以下问题：
1)存储器系统为何要分这些层次？计算机如何管理这些层次?
2)影响Cache性能的因素有哪些?
3)虚拟存储系统的页面是设置得大一些好还是设置得小一些好？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
3.1 存储器概述
3.1.1 存储器的分类
存储器种类繁多，可从不同角度进行分类。
78	2027年计算机组成原理考研复习指导
1.按存储元件分类
存储元件需具备两个可区分的稳定物理状态，以分别表示二进制数0和1。常用的存储元件主要有半导体器件、磁性材料和光介质。半导体器件利用电荷或电压状态存储信息，构成半导体存储器（如DRAM、SRAM）；磁性材料通过磁化方向表示数据，用于磁表面存储器（如硬盘、磁带）；光介质则依靠反射率或相变特性记录信息，构成光存储器（如光盘）。
2.按存取方式分类
考点追踪	存储器的分类及特点（2011）
1)随机存取存储器（RAM）：可对任意存储单元进行读/写，且存取时间与物理位置无关。其优点是读/写灵活、使用方便，半导体存储器属于此类，常用于主存或高速缓存。
2)顺序存取存储器：信息按顺序存放和读出，存取时间取决于数据在介质中的位置，通常以记录块为单位编址。典型代表是磁带，具有容量大但速度慢的特点。
3)直接存取存储器：兼具随机访问和顺序访问的特点。可先直接定位到目标区域，再按顺序读取数据。典型代表是传统机械磁盘。
4)相联存储器：按内容而非地址进行存取，查找速度快且与存储位置无关，但成本高、容量小，主要用于快表（TLB）、路由表等小容量高速查找场景。
3.按信息的可更改性分类
按信息的可更改性，可分为可读可写存储器和只读存储器（Read-Only Memory,ROM）。ROM中的信息在正常工作时只能读取，通常不可修改，但某些类型（如E²PROM、Flash）支持特定条件下的重写。RAM属于可读可写存储器，与ROM一样，通常采用随机存取方式。
4.按信息的可保存性分类
1)易失性存储器：断电后，信息即丢失，如RAM。
2)非易失性存储器：断电后信息仍能保持，如ROM、Flash存储器、磁盘和光盘等。此外，若读取操作会破坏存储单元中的原有信息，则称为破坏性读出，读出后需立即执行再生操作以恢复数据；若读取不改变原内容、无须再生，则称为非破坏性读出。
3.1.2主存储器的组成和基本操作
图3-1是主存储器（Main Memory，MM）的基本组成框图。其中，由大量用于存储二进制数0或1的记忆单元（也称存储元）构成的存储矩阵（也称存储体、存储阵列）是存储器的核心部件。每个记忆单元是一种具有两种稳定物理状态、能够表示0和1的器件。为访问存储体中的信息，必须对存储单元编号（编址）。编址单位是指具有相同地址的一组记忆单元，称为一个存储单元。现代计算机普遍采用字节编址方式，即每个地址对应1字节（8位）数据。
考点追踪	MAR和MDR位数的决定关系、寻址范围的计算（2021）
当CPU执行指令需访问主存时，首先将目标地址送入存储器地址寄存器（MAR），并通过地址线传至主存的地址寄存器；地址译码器据此选中对应的存储单元。同时，CPU通过控制线向主存发送读/写控制信号。若为写操作，CPU将待写入的数据送入存储器数据寄存器（MDR），在控制电路作用下，经数据线写入选中单元；若为读操作，主存将选中单元的内容经数据线送至MDR。MDR的位数等于数据线宽度，MAR的位数等于地址线位数。图中数据线为64位，因此在字节编址下，每次可并行存取8个字节（64位÷8位/字节=8字节）。地址线的位数决定了主存的最大可寻址范围。例如，36位地址的寻址范围为0~2³⁶-1，共2³⁶个字节（64GB）。
第3章	存储系统 79
读/写的数据
数据线
MM
(64位)
00000
MDR
记忆单元
00001
01101001
00010
00011
00100
10101010
主存地址
地址线
(36位)
存储
MAR
地址寄存器
地址译码器
单元
存储内容
地址
141
CPU
读/写控制信号
控制线
读/写控制电路
11110
1
11
图3.1主存储器的基本组成框图
3.1.3	存储器的层次化结构
为缓解存储系统在容量、速度与成本之间的矛盾，现代计算机普遍采用多级存储器结构（见图3.2）。从上至下，各层存储器的单位价格逐渐降低，存取速度变慢，容量增大，CPU访问频率也相应降低。该层次结构主要体现为两个关键层级：Cache-主存层和主存-辅存层。其中，Cache和主存可直接与CPU交换信息；辅存则需通过主存间接与CPU通信；主存作为枢纽，能与CPU、Cache及辅存双向交换数据（见图3.3）.
CPU
寄存器
速度	容量	价格
最快	最小	最高
Cache
主存
磁盘
CPU
Cache
主存
辅存
磁带
光盘
最慢	最大	最低
Cache-主存层
主存-辅存层
图3.2
多级存储器结构
图3.3三级存储系统的层次结构及其构成
存储层次的核心思想如下：上一层存储器作为下一层的高速缓存。当CPU访问数据时，按Cache→主存→辅存的顺序逐级查找；若所需数据不在上层，则从下层逐级调入：先从磁盘读入主存，再从主存加载到Cache。从CPU视角看：Cache-主存层的速度接近Cache,而容量和单位成本接近主存；主存-辅存层的速度接近主存，而容量和单位成本接近辅存。
两层机制的主要目标和实现方式不同：Cache-主存层用于缓解CPU与主存速度不匹配问题，数据调度由硬件自动完成，对所有程序员透明。主存-辅存层则用于解决存储容量不足问题，数据调度由硬件与操作系统协同完成，对应用程序员透明。
随着主存-辅存层的不断发展，逐渐形成了虚拟存储系统。在该系统中，程序员使用的地址空间（虚拟地址空间）远大于实际主存容量，程序可按更大的逻辑地址空间进行编写。
注	意
在Cache-主存层和主存-辅存层中，上一层的内容始终是下一层内容的子集副本，即Cache中的数据来自主存，主存中的数据来自辅存。
3.1.4存储器的主要性能指标
存取时间：完成一次读/写操作所需的时间，其中读出时间是指从主存接收到有效地址到数据有效输出的时间，写入时间是指从主存接收到有效地址到数据成功写入指定单元的时间。
80	2027年计算机组成原理考研复习指导
存储周期：存储器进行连续两次独立的读/写操作所需的最小时间间隔。
存取时间不等于存储周期。通常，存储周期大于存取时间，因为每次读/写操作后，存储器需要一定时间恢复内部状态。对于破坏性读出的存储器(如DRAM)，读出后必须立即再生数据，因此其存储周期往往显著大于存取时间，甚至可达Tm=2Ta（其中Tm为存储周期，Ta为存取时间）。
存取时间与存取周期的关系如图3.4所示。
启动存取	存取完	下次存取
t₁	t₂	t₃
存取时间	复原时间
存储周期
图3.4存取时间与存储周期的关系
存储器带宽：存储器每秒能够传输的最大数据量。例如，若存储周期为50ns，每个周期可传输64位数据，则理论带宽为64b/50ns=1.28Gb/s。在实际系统中，存储器常被组织为多模块结构，允许多个模块并行工作，从而将总带宽提升至单模块带宽的若干倍。
3.1.5本节习题精选
单项选择题
01.磁盘属于（	）类型的存储器。
A.随机存储器(RAM)	B.只读存储器(ROM)
C.顺序存取存储器(SAM)	D.直接存取存储器(DAM)
02.存储器的存取周期是指（	）。
A.存储器的读出时间
B.存储器的写入时间
C.存储器进行连续读/写操作所允许的最短时间间隔
D.存储器进行一次读/写操作所需的平均时间
03.相联存储器是一种特殊的存储器，其主要特点是（	）。
A.通过地址总线指定存储单元进行读/写
B.按照“后进先出”原则访问数据
C.根据存储内容进行并行匹配查找
D.仅用于实现高速缓存中的直接映射结构
04.在下列几种存储器中，CPU不能直接访问的是（	）。
A.硬盘	B.内存	C.Cache	D.寄存器
05.计算机的存储器采用分级方式是为了（	）。
A.方便编程	B.解决容量、速度、价格三者之间的矛盾
C.保存大量数据方便	D.操作方便
06.计算机的存储系统包括（	）。
A.RAM	B.ROM
C.主存储器	D.寄存器、Cache、主存储器和外存储器
07.在计算机系统中，关于MAR和MDR的位数，以下说法正确的是（	）。
A.MAR的位数等于地址总线的宽度，MDR的位数等于数据总线的宽度
第3章存储系统
B. MAR的位数等于数据总线的宽度，MDR的位数等于地址总线的宽度
C. MAR和MDR的位数都等于地址总线的宽度
D. MAR和MDR的位数都等于数据总线的宽度
08.在多级存储系统中，“Cache-主存”结构的作用是解决（	）的问题。
A.主存容量不足	B.主存与辅存速度不匹配
C.辅存与CPU速度不匹配	D.主存与CPU速度不匹配
09.存储器分层体系结构中，存储器从速度最快到最慢的排列顺序是（	）。
A.寄存器-主存- Cache-辅存	B.寄存器-主存-辅存- Cache
C.寄存器- Cache-辅存-主存	D.寄存器- Cache-主存-辅存
10.下列关于多级存储系统的说法中，正确的有（	）。
I.多级存储系统是为了降低存储成本
II.虚拟存储器中主存和辅存之间的数据调动对任何程序员是透明的
III.CPU只能与Cache直接交换信息，CPU与主存交换信息也需要经过Cache
A.仅Ⅰ	B.仅Ⅰ和Ⅱ	C.Ⅰ、Ⅱ和Ⅲ	D.仅Ⅱ
11.若某存储器存取周期为250ns，每次读出16位，该存储器的数据传输速率是（	）。
A.4×10⁶B/s	B.16MB/s	C.8×10⁶B/s	D.8×2²⁰B/s
3.1.6答案与解析
单项选择题
01.D
磁盘属于直接存取存储器，其速度介于随机存储器和顺序存取存储器之间。
02.C
存取时间T₁是指从存储器读/写一次信息所需要的平均时间；存取周期T₁是指连续两次访问存储器之间所必需的最短时间间隔。对T₁一般有T₁=T₁+T₁，其中T₁为复原时间；对SRAM指存取信息的稳定时间，对DRAM指刷新的又一次存取时间。选项D指的是存取时间。
03.C
相联存储器按内容寻址，能并行比较所有存储单元的内容以匹配关键字，直接返回结果或位置，常用于TLB和Cache标记阵列等高速查找场景。
04.A
CPU不能直接访问硬盘，需先将硬盘中的数据调入内存才能被CPU访问。
05.B
存储器有三个主要性能指标：存储速度、存储容量和单位成本。存储器采用分级方式是为了解决这三者之间的矛盾。
06.D
计算机的存储系统包括CPU内部寄存器、Cache、主存和外存。
07.A
MAR用于存放内存地址，其位数需覆盖主存全部可寻址单元，故等于地址总线宽度；MDR用于暂存读/写数据，其位数决定单次传输的数据量，故等于数据总线宽度。
08.D
Cache中的内容只是主存内容的部分副本（拷贝），因此“Cache-主存”结构并未增加主存容量，目的是解决主存与CPU速度不匹配的问题。
82	2027年计算机组成原理考研复习指导
09. D
在存储器分层结构中，寄存器在CPU中，因此速度最快，Cache次之，主存再次之，最慢的是辅存（如磁盘、光盘等）。
10. A
主存和辅存之间的数据调动是由硬件和操作系统共同完成的，仅对应用级程序员透明。CPU与主存可直接交换信息。
11. C
每个存取周期读出16bit=2B，因此数据传输速率为2B÷(250×10⁻⁶)S，即8×10⁶B/s。
3.2 主存储器
3.2.1 半导体随机存取存储器
随机存取存储器(RAM)分为静态RAM(SRAM)和动态RAM(DRAM)，二者均为易失性存储器。现代计算机中，主存主要采用DRAM，而Cache使用SRAM。
1. SRAM的工作原理
地址相同的多个存储元构成一个存储单元。若干存储单元的集合构成存储体。
SRAM的存储元基于双稳态触发器（六晶体管MOS）利用电路的两个稳定状态分别表示二进制0和1。其静态特性体现在：读操作为非破坏性读出，因此无须再生。
SRAM的存取速度快，但集成度低，功耗较大，成本高，通常用于高速缓冲存储器。
2. DRAM的工作原理
与SRAM不同，DRAM利用栅极电容上的电荷来存储信息：有电荷表示1，无电荷表示0。其基本存储元仅由一个晶体管和一个电容构成，结构简单，因而集成度远高于SRAM。
考点追踪需要刷新的存储芯片：SDRAM(2015)
DRAM具有位价低、功耗小、容量大等优势。但同时也存在明显局限：存取速度较慢；电荷会因漏电而逐渐丢失，必须定时刷新以维持数据；且读出过程为破坏性读出，需在读取后立即再生。因此，DRAM被广泛用于大容量主存系统，在成本、容量与性能之间取得良好平衡。
3.存储芯片的组成
如图3-5所示，存储芯片由存储体、I/O读/写电路、地址译码器和控制电路等部分组成。前文介绍的DRAM芯片的存储阵列结构，正是此图中存储矩阵的核心构成部分。
1)存储体（存储矩阵）。是存储单元的集合，通过行选择线(X)和列选择线(Y)共同选中目标单元。位于相同行列交叉点上的多个位（位平面数）被同时读/写。
2)地址译码器。用来将输入地址转换为译码输出线上的高电平信号，以驱动相应的读/写电路。地址译码方式有单译码法（一维译码）和双译码法（二维译码）两种：
·单译码法。仅使用一个行译码器，同一行中所有存储单元的字线相连，构成一个字，可被同时读/写。其缺点是译码器输出线数量过多。
·双译码法。如图3-5所示，地址译码器分为X（行）和Y（列）两个部分，通过行与列的交叉点唯一确定一个存储单元。这是当前DRAM芯片普遍采用的译码结构。
3)I/O电路。用于控制被选中存储单元的读/写，具有放大信号的作用。
第3章	存储系统	83
4)片选控制线。单个存储芯片容量有限，通常无法满足计算机对主存容量的需求，因此需将多个芯片组合扩展。在访问某个存储字时，必须“选中”该存储字所在的芯片，而其他芯片不被“选中”，因此需要有片选控制信号（经片选控制线传输）。
5)读/写控制线。根据CPU发出的读/写命令，通过读/写控制线选中单元执行相应操作。
4.DRAM芯片的关键技术
（1）地址引脚复用技术
图3.6给出了一个4M×4位DRAM芯片的逻辑结构图。该芯片共有11个地址引脚(A_{0}\sim A_{10})，在行选通信号\overline{RAS}和列选通信号\overline{CAS}的控制下，分时复用传送行地址和列地址。数据端口有4个引脚(D_{1}\sim D_{4})，因此每个芯片可同时读/写4位数据。\overline{WE}为读/写控制信号，低电平表示写操作；\overline{OE}为输出使能信号，低电平有效，高电平时断开输出驱动。芯片内部存储阵列采用三维结构，总容量为2048×2048×4位，即4M×4位。因此，行地址和列地址各需11位，共4个位平面；在任意行与列的交叉点上，4个位平面上的数据被同时读/写。
考点追踪	DRAM芯片地址引脚复用技术（2014）
DRAM芯片容量较大，所需地址位数较多。为减少芯片地址引脚数量，通常采用地址引脚复用技术：行地址和列地址通过相同的引脚分两次先后输入，从而使地址引脚数量减少一半。
84	2027年计算机组成原理考研复习指导
（2）刷新机制与阵列设计优化
DRAM芯片需要定期刷新以维持所存信息。刷新时，仅向芯片提供行地址和\overline{RAS}信号，即可选中某一行的所有存储单元并执行读操作。由于DRAM采用破坏性读出，每次读取后必须立即再生：若读出为0，则将电容充分放电；若读出为1，则重新充电。对于图中所示的2048×2048×4存储阵列，只需进行2048次刷新操作即可完成全芯片刷新（因刷新按整行进行，无须列地址）。芯片内部集成一个刷新计数器，可自动产生刷新所需的行地址，其位数与行地址位数相同。行地址缓冲器与刷新计数器通过一个多路选择器（MUX）共享通往行译码器的地址通路。刷新周期定义为对某一特定行完成一次刷新后，到下一次对该行再次刷新的时间间隔。
考点追踪	DRAM芯片行、列设计优化原则（2018）
假定一个DRAM芯片的存储容量为2ⁿ×b位，其存储阵列的行数为r，列数为c，则满足2ⁿ=rxn。整个阵列的地址位数为n，其中行地址占log₂r位，列地址占log₂c位，因此有n=log₂r+log₂c。由于DRAM采用地址引脚复用技术，引脚数量由行、列地址位数中的较大者决定，为最小化地址引脚数，应使r与c尽可能接近。此外，DRAM按行刷新，行数越少，刷新开销越低，故还需满足r≤c。综合考虑，通常将阵列设计为行数略小于或等于列数的近似正方形结构。
（3）缓存机制与突发传输
考点追踪	DRAM芯片行缓冲器容量的计算（2022）
图3.7展示了一个DRAM芯片的简化示意图，其容量为16×8位，存储阵列为4行×4列。
由于采用地址引脚复用技术，仅需2根地址线，分时传送2位行地址和2位列地址。每个存储单元包含8位数据，因此需要8根数据线。芯片内部设有一个行缓冲器（通常由SRAM实现），用于缓存被选中行中所有列的数据。其容量等于一行中所有存储单元的数据总量，即数据x每个存储单元的位数（如4列x8位=32位）。当某一行被选中后，该行全部数据被一次性加载到行缓冲器中，后续可在每个时钟周期连续输出一个存储单元的数据（8位），从而支持突发传输，即在寻址阶段提供首地址，随后连续读取多个相邻存储单元的数据，显著提升有效带宽。
5.同步DRAM
目前更广泛使用的是SDRAM（同步DRAM）。与传统的异步DRAM不同，SDRAM的数据读/写操作与系统时钟同步，能够以CPU-主存总线的较高速率运行。在连续访问同一行（页）内的数据时，可实现突发传输，显著减少甚至避免插入等待状态。在异步DRAM中，CPU发出地址和控制信号后，必须等待一段不确定的延迟时间才能获得数据或完成写入；在此期间，CPU不断轮询存储器的状态信号，无法执行其他任务，从而降低整体执行效率。而SDRAM在系统时钟驱动下工作，它将CPU发出的地址和控制信号锁存，并在预设的若干时钟周期后返回数据或完成写入，使得CPU无须等待，可在延迟期间执行其他指令，显著提升系统性能。
6.SRAM和DRAM的比较
表3.1详细列出了SRAM和DRAM各自的特点。
第3章	存储系统 85
表3.1 SRAM和DRAM各自的特点
特点	类	型
SRAM	DRAM
存储信息	触发器	电容
破坏性读出	非	是
需要刷新	不需要	需要
送行列地址	同时送	分两次送（复用）
运行速度	快	慢
集成度	低	高
存储成本	高	低
主要用途	高速缓存	主机内存
3.2.2 非易失性存储器
1.只读存储器 (ROM)的特点
考点追踪	RAM和ROM的区别(2010)
RAM与ROM均支持随机访问，但ROM属于非易失性存储器，具有两个显著优点：①结构简单，位密度高于SRAM等可读/写存储器；②断电后数据不丢失，可靠性高。
根据制造工艺和可编程性,ROM可分为掩模式ROM(MROM)、一次可编程ROM(PROM)和可擦除可编程ROM (EPROM)等类型；MROM 由厂商固化，用户不可更改；PROM允许用户进行一次性编程；EPROM虽支持多次编程，但每次擦除需紫外线照射整片芯片，且擦写次数有限、写入速度慢，难以满足主存对高速随机读/写的需求，因此无法替代RAM.
2. Flash存储器
考点追踪	Flash存储器的特点(2012)
计算机中许多固定信息需长期保存在非易失性存储器中，如系统启动所需的 BIOS(Basic Input/ Output System)。早期BIOS固化在MROM或EPROM中，无法更新；现代主板普遍采用Flash存储器存储BIOS，用户可通过厂商提供的工具直接在系统中擦除并重写。
Flash存储器（又称闪存）是一种在EPROM基础上发展而来的非易失性存储器，兼具ROM与RAM的部分优点：断电后信息可长期保存；支持电擦除与在线重写，无须紫外线照射等特殊设备；其读取速度接近RAM，但写入速度显著较慢，读/写性能不对称。
3. 固态硬盘 (Solid State Drive, SSD)
固态硬盘是基于Flash存储器构建的存储设备，由控制单元和存储单元（Flash存储器芯片阵列）组成。它继承了 Flash存储器的重要特性：非易失性、无机械部件、读取速度快。相比传统硬盘，SSD 具有读/写速度快、功耗低、抗震性强等优势，缺点是价格较高，且写入寿命受限于Flash存储器的擦写次数。
3.2.3 多模块存储器
多模块存储器是一种空间并行技术，通过多个结构完全相同的存储模块并行工作来提高存储器的吞吐率。由于CPU的速度远高于存储器，若能在一个存取周期内连续获取多条指令或多个数据字，便可更充分利用CPU资源，提升系统性能。多体交叉存储器正是基于这一思想设计的。
根据模块间地址分配方式的不同，多模块存储器可分为连续编址和交叉编址两种结构。
1.连续编址方式
高位地址为模块号（或体号），低位地址为模块内地址（或体内地址）。如图3.8所示，存
86	2027年计算机组成原理考研复习指导
储器共有4个模块M_{0}\sim M_{3}，每个模块有n个单元，各模块的地址范围如图所示。
在连续编址方式下，低位的体内地址总是被送到由高位体号确定的模块内进行译码。访问一个连续主存块时，总是先在一个模块内访问，直到该模块访问完后才转到下一个模块访问。由于CPU按顺序访问存储模块，各模块不能并行访问，因此无法提高存储器的吞吐率。
注意
模块内的地址是连续的，存取方式仍是串行存取，因此这种存储器本质上仍属于顺序存储器。
2.交叉编址（低位交叉）方式
考点追踪	交叉存储器中数据的存放方式(2017)
低位地址用作模块号（体号），高位地址作为模块内地址。假设有m个模块，每个模块含k个存储单元，则模块编号由地址对m取模决定，即模块号=单元地址%m。如图3.9所示，单元0,m,\cdots,(k-1)m位于模块M_{0}；单元1,m+1,\cdots,(k-1)m+1位于模块M_{1}；以此类推。
在交叉编址方式下，由于连续地址的数据被依次分布到不同模块中，程序或数据块在物理上是“交叉存放”的，采用此方式的多模块存储器被称为交叉存储器。通过多个结构完全相同的存储模块并行工作，这种设计能够在访问连续地址时显著提高存储器的吞吐率。
交叉存储器可以采用轮流启动或同时启动两种方式。
（1）轮流启动方式
若每个模块一次读/写的位数正好等于数据总线位数，模块的存取周期为T，总线周期为r，则为实现轮流启动方式，存储器交叉模块数应满足：
m=T/r
第3章存储系统
考点追踪	交叉存储器存取时间和带宽的计算(2012、2013)
按每隔1/m个存取周期轮流启动各模块，则每隔1/m个存取周期就可读/写一个数据，存取速度提高m倍。图3.10展示了4体低位交叉轮流启动的存取时间示意图。交叉存储器要求其模块数大于或等于m，以保证启动某模块后经过mr的时间后再次启动该模块时，其上次的存取操作已经完成（以保证流水线不间断）。这样，连续存取m个字所需的时间为
t₁=T+(m-1)r
而顺序方式连续读取m个字所需的时间为t₂=mT。可见交叉存储器的带宽大大提高。
字
W₄
W₃
W₂
W₁
W₀
O
T
1
1
1
时间
图3.10低位交叉轮流启动的存取时间示意图
考点追踪	交叉存储器中访存冲突的分析(2015)
在理想情况下，m体交叉存储器每隔1/m存取周期可读/写一个数据。若相邻的m次访问的访存地址出现在同一个模块内，则会发生访存冲突，此时需延迟发生冲突的访问请求。
(2)同时启动方式
当所有存储模块一次并行读/写的总位数恰好等于存储器数据总线宽度时，可采用同时启动方式。例如，使用8个16M×8位的DRAM芯片构成一个128MB内存条：每个DRAM芯片内部为4096×4096×8位的存储阵列（行地址与列地址各12位），含8个位平面。
CPU发出的主存地址被拆分为行地址和列地址，通过分时复用方式先后送入DRAM芯片的行、列地址译码器，选中行列交叉处的8位单元进行读/写操作。因此，单个芯片每次传输8位，8个芯片同步工作，可一次性提供64位数据，匹配64位总线宽度。
需要注意的是，并行访问以连续8字节为单位进行，即每次读取的数据只能来自地址对齐的块(如第0~7,8~15,⋯,8k~8k+7单元)。若访问一个int型（4字节）数据时起始地址未对齐（如地址6，占用第6~9单元，横跨两个访问块），则需两次访问；若地址按4字节对齐（4的倍数），则一次即可完成。这正是内存访问要求数据对齐的根本原因。
3.2.4本节习题精选
一、单项选择题
01.某一SRAM芯片，容量为1024×8位，该芯片的地址引脚和数据引脚总数至少是（	）。
A.8	B.10	C.18	D.13
02.某存储器容量为32K×16位，则（	）。
A.地址线为16根，数据线为32根	B.地址线为32根，数据线为16根
C.地址线为15根，数据线为16根	D.地址线为15根，数据线为32根
03.DRAM的刷新是以（	）为单位的。
A.存储单元	B.行	C.列	D.存储字
04.下面是有关DRAM和SRAM存储芯片的叙述：
88	2027年计算机组成原理考研复习指导
I. DRAM芯片的集成度比SRAM芯片的高
II. DRAM芯片的成本比SRAM芯片的高
III. DRAM芯片的速度比SRAM芯片的快
IV. DRAM芯片工作时需要刷新，SRAM芯片工作时不需要刷新通常情况下，错误的是（	）。
A. I和II	B. II和III	C. III和IV	D. I和IV
05.下列关于随机存储器的说法中，正确的是（	）。
A.半导体RAM中的信息可读可写，且断电后仍能保持记忆
B. DRAM是易失性RAM，而SRAM中的存储信息是不易失的
C.半导体RAM是易失性RAM，但只要电源不断电，所存信息是不丢失的
D.半导体RAM是非易失性RAM
06.下列关于存储器的说法中，不正确的是（	）。
A.随机存储器和只读存储器不可以统一编址
B.在访问随机存储器时，访问时间与存储单元的物理位置无关
C.随机存储器(RAM)芯片可随机存取信息，掉电后信息会丢失
D.只读存储器(ROM)芯片可随机存取信息，掉电后信息不会丢失
07.关于半导体存储器的组织，下列选项中（	）是不正确的。
A.在同一个存储器中，每个存储单元的宽度可以不同
B.所谓“编址”，是指给每个存储单元一个编号
C.存储器的核心部分是存储阵列，由若干存储单元构成
D.每个存储单元由若干存储元件构成，每个存储元件存储一个比特位
08.关于SRAM和DRAM，下列叙述中正确的是（	）。
A.通常SRAM依靠电容暂存电荷来存储信息，电容上有电荷为1，无电荷为0
B.DRAM依靠双稳态电路的两个稳定状态来分别存储0和1
C.SRAM速度较慢，但集成度稍高；DRAM速度稍快，但集成度低
D.SRAM速度较快，但集成度稍低；DRAM速度稍慢，但集成度高
09.某一DRAM芯片，采用地址复用技术，容量为1024×8位，该芯片的地址引脚和数据引脚总数至少是（	）。
A. 18	B. 13	C. 8	D. 17
10.下列几种存储器中，（	）是易失性存储器。
A. Cache	B. EPROM	C. Flash存储器	D. CD-ROM
11.U盘属于（	）类型的存储器。
A.高速缓存	B.主存	C.只读存储器	D.随机存储器
12.下面有关ROM和RAM的叙述中，错误的是（	）。
A.RAM是可读可写存储器，ROM是只读存储器
B.ROM和RAM都采用随机访问方式进行读/写
C.系统的主存由RAM和ROM组成
D.系统的主存都用DRAM芯片实现
13.下列说法正确的是（	）。
A. EPROM是可改写的，因此可以作为随机存储器
B. EPROM是可改写的，但不能作为随机存储器
第3章存储系统	89
C. EPROM是不可改写的，因此不能作为随机存储器
D. EPROM只能改写一次，因此不能作为随机存储器
14.下列（	）是动态半导体存储器的特点。
I.在工作中存储器内容会产生变化
II.每隔一定时间，需要根据原存内容重新写入一遍
III.一次完整的刷新过程需要占用两个存取周期
IV.一次完整的刷新过程只需要占用一个存取周期
A. I、III	B. II、III	C. II、IV	D.只有III
15.下列关于存储器层次结构的说法中，错误的是（	）。
A. Flash存储器读/写速度差异显著，读速接近RAM，写速接近ROM
B.存储器层次结构基于程序局部性原理，通常采用缓冲技术缓解层级间速率差异
C. Cache位于CPU与主存之间，容量通常大于主存，旨在提升平均访问速率
D.辅存（如机械硬盘）容量大、成本低但速度慢，仅作为主存的补充与备份
16.下列关于Flash存储器特性与应用的说法中，正确的是（	）。
A.读写速度一致，均接近DRAM的访问速率
B.属于易失性存储器，断电后数据丢失
C.写操作前需先擦除目标块，故写速慢于读速
D.仅能用作辅助存储器（如U盘）
17.DRAM具有破坏性读出的特性，需要定时刷新，下列说法中不正确的是（	）。
A.刷新是以行为单位的
B.刷新是为了给DRAM存储单元中的存储电容重新充电
C.刷新是通过对存储单元进行“读但不输出数据”，即“假读”的操作来实现的
D.DRAM内部设有专门的刷新电路，不会影响到CPU的正常访存
18.下列关于DRAM和SDRAM的说法中，不正确的是（	）。
A.传统DRAM芯片与CPU采用异步方式交换数据
B.SDRAM芯片与CPU采用同步方式交换数据
C.DRAM需要定期刷新，而SDRAM不需要定期刷新
D.SDRAM的行缓冲器通常用SRAM实现
19.每推出新一代DRAM芯片，地址引脚至少增加1根，则容量至少提高到原来的（	）倍。
A. 2	B. 4	C. 8	D. 16
20.若一个内存条中有16个DRAM芯片，每个芯片中有4个位平面，每个位平面的存储阵列为4096行×4096列，则内存条的总容量为（	）MB。
A. 64	B. 128	C. 256	D. 512
21.某DRAM芯片容量为4M×4位，下列说法中错误的是（	）。
A.芯片有11个地址引脚
B.芯片内部的行地址生成器（刷新计数器）为11位
C.芯片内部的行缓冲器容量为2Kb
D.芯片有4个数据引脚
22.已知单个存储体的存取周期为110ns，总线传输周期为10ns，采用低位交叉编址的多模块存储器时，存储体数应（	）。
A.小于11	B.等于11	C.大于11	D.大于或等于11
90	2027年计算机组成原理考研复习指导
23.一个四体并行低位交叉存储器，每个模块的容量是64K×32位，存取周期为200ns，总线周期为50ns，在下述说法中，（	）是正确的。
A.在200ns内，存储器能向CPU提供256位二进制信息
B.在200ns内，存储器能向CPU提供128位二进制信息
C.在50ns内，每个模块能向CPU提供32位二进制信息
D.以上都不对
24.某机器采用四体低位交叉存储器，现分别执行下述操作：①读取6个连续地址单元中存放的存储字，重复80次；②读取8个连续地址单元中存放的存储字，重复60次。则①、②所花费的时间之比为（	）。
A.1:1	B.2:1	C.4:3	D.3:4
25.假定用若干16K×8位的存储芯片组成一个64K×8位的存储器，芯片各单元采用交叉编址方式，则地址BFFFH所在的芯片的最小地址为（	）。
A.0000H	B.0001H	C.0002H	D.0003H
26.下列关于单体多字存储器的说法中，不正确的是（	）。
A.单体多字存储器主要解决主存容量太小的问题
B.单体多字存储器中，每个存储单元存储多个字
C.指令与数据的连续存放有利于单体多字存储器提高主存的读/写速度
D.过多的转移指令会严重影响单体多字存储器的工作效率
27.多模块存储器之所以能提高存储器的访问速度，是因为（	）。
A.采用了高速元器件	B.各模块有独立的读/写电路
C.采用了信息预读技术	D.模块内各单元地址连续
28.某存储器总线的宽度是64位，若用8个16M×8位的DRAM芯片扩展构成16M×64位的内存条，按字节编址，支持突发传送方式，某double型的变量x的主存地址为20260000H，某int型的变量y的主存地址为20261006H，则下列叙述中错误的是（	）。
A.该内存条可不采用多模块交叉编址	B.DRAM芯片的行缓冲采用的是SRAM
C.读取变量x只需要一个存取周期	D.读取变量y需要两个存取周期
29.【2010统考真题】下列有关RAM和ROM的叙述中，正确的是（	）。
I.RAM是易失性存储器，ROM是非易失性存储器
II.RAM和ROM都采用随机存取方式进行信息访问
III.RAM和ROM都可用作Cache
IV.RAM和ROM都需要进行刷新
A.仅Ⅰ和Ⅱ	B.仅Ⅱ和Ⅲ	C.仅Ⅰ、Ⅱ和Ⅲ	D.仅Ⅱ、Ⅲ和Ⅳ
30.【2011统考真题】下列各类存储器中，不采用随机存取方式的是（	）。
A.EPROM	B.CD-ROM	C.DRAM	D.SRAM
31.【2012统考真题】下列关于闪存的叙述中，错误的是（	）。
A.信息可读可写，并且读、写速度一样快
B.存储元件由MOS管组成，是一种半导体存储器
C.掉电后信息不丢失，是一种非易失性存储器
D.采用随机访问方式，可替代计算机外部存储器
32.【2014统考真题】某容量为256MB的存储器由若干4M×8位的DRAM芯片构成，该DRAM芯片的地址引脚和数据引脚总数是（	）。
第3章存储系统
A. 19
B. 22
C. 30
D. 36
33.【2015统考真题】下列存储器中，在工作期间需要周期性刷新的是（	）。
A. SRAM
B. SDRAM
C. ROM
D. Flash存储器
34.【2015统考真题】某计算机使用四体交叉编址存储器，假定在存储器总线上出现的主存地址（十进制）序列为8005,8006,8007,8008,8001,8002,8003,8004,8000,则可能发生访存冲突的地址对是（	）。
A. 8004和8008
B. 8002和8007
C. 8001和8008
D. 8000和8004
35.【2017统考真题】某计算机主存按字节编址，由4个64M×8位的DRAM芯片采用交叉编址方式构成，并与宽度为32位的存储器总线相连，主存每次最多读/写32位数据。若double型变量x的主存地址为804001AH,则读取x需要的存取周期数是（	）。
A. 1
B. 2
C. 3
D. 4
36.【2018统考真题】假定DRAM芯片中存储阵列的行数为r、列数为c,对于一个2K×1位的DRAM芯片，为保证其地址引脚数最少，并尽量减少刷新开销，则r、c的取值分别是（	）。
A. 2048,1
B. 64,32
C. 32,64
D. 1,2048
37.【2022统考真题】某内存条包含8个8192×8192×8位的DRAM芯片，按字节编址，支持突发(burst)传送方式，对应存储器总线宽度为64位，每个DRAM芯片内有一个行缓冲区(row buffer)。下列关于该内存条的叙述中，不正确的是（	）。
A.内存条的容量为512MB
B.采用多模块交叉编址方式
C.芯片的地址引脚为26位
D.芯片内行缓冲有8192×8位
二、综合应用题
01.在显示适配器中，用于存放显示信息的存储器称为刷新存储器，它的重要性能指标是带宽。具体工作中，显示适配器的多个功能部分要争用刷新存储器的带宽。设总带宽50%用于刷新屏幕，保留50%的带宽用于其他非刷新功能，且采用分辨率为1024×768像素、颜色深度为3B、刷新频率为72Hz的工作方式。
1)试计算刷新存储器的总带宽。
2)为达到这样高的刷新存储器带宽，应采取何种技术措施？
02.一个四体并行交叉存储器，每个模块的容量是64K×32位，存取周期为200ns，问：
1)在一个存取周期中，存储器能向CPU提供多少位二进制信息？
2)若存取周期为400ns，则在0.1μs内存储器可向CPU提供32位二进制信息，该说法正确否？为什么？
03.设存储器容量为32个字，字长为64位，模块数m=4，分别采用顺序方式和交叉方式进行组织。存取周期T=200ns，数据总线宽度为64位，总线传输周期r=50ns。在连续读出4个字的情况下，求顺序存储器和交叉存储器各自的带宽。
04.某计算机字长32位，存储体的存取周期为200ns。
1)采用四体交叉工作，用低2位的地址作为体地址，存储数据按地址顺序存放。主机最多长时间可以读出一个数据字？存储器的带宽是多少？
2)若4个体分别保存主存中前1/4、次1/4、再下个1/4、最后1/4这四段的数据，即选用高2位的地址作为体地址，可以提高存储器顺序读出数据的速度吗？为什么？
3)若把存储器改成单体4字宽度，会带来什么好处和问题？
92 2027年计算机组成原理考研复习指导
4)比较采用四体低位地址交叉的存储器和四端口读出的存储器这两种方案的优缺点。
05.假定一个存储器系统支持四体交叉存取，某程序执行过程中访问地址序列为3，9，17，2，51，37，13，4，8，41，67，10，哪些地址访问可能发生体冲突？
3.2.5 答案与解析
一、单项选择题
01. C
芯片容量为1024×8位，8位说明数据线要8根，地址线要10根（1024=2¹⁰）。因此，该芯片的地址引脚和数据引脚总数至少需要18根。
02. C
该芯片为16位，所以数据线为16根，寻址空间32K=2¹⁵，所以地址线为15根。
03. B
DRAM的刷新按行进行。
04. B
DRAM芯片的集成度高于SRAM，说法Ⅰ正确；SRAM芯片的速度高于DRAM，说法Ⅲ错误；可以推出DRAM芯片的成本低于SRAM，说法Ⅱ错误；SRAM芯片工作时不需要刷新，DRAM芯片工作时需要刷新，说法Ⅳ正确。本题要求选择描述错误的表述，所以选择说法Ⅱ和Ⅲ。
05. C
RAM属于易失性半导体，SRAM和DRAM的区别在于是否需要动态刷新。
06. A
主存由RAM和ROM构成，两者统一编址，选项A错误。选项B描述的是随机访问特性，正确。RAM芯片具有随机访问特性和易失性，选项C正确。ROM芯片具有随机访问特性和非易失性，选项D正确。
07. A
同一个存储器中，每个存储单元的宽度必须相同，即每个存储单元存储的比特位数必须相同。
08. D
SRAM依靠双稳态电路的两个稳定状态来分别存储0和1；SRAM速度较快，不需要动态刷新，但集成度稍低，功耗大，单位价格高。DRAM依靠电容暂存电荷来存储信息，电容上有电荷为1，无电荷为0；DRAM集成度高，功耗小，单位价格较低，需定时刷新，速度慢。
09. B
1024×8位，寻址范围是1024=2¹⁰。采用地址复用技术时，分两次传送行、列地址，地址引脚减半为5根，数据引脚仍为8根，因此地址引脚和数据引脚总数至少为13根。
注意SRAM和DRAM的区别，DRAM采用地址复用技术，而SRAM不采用。
10. A
Cache由SRAM组成，掉电后信息即消失，属于易失性存储器。
11. C
U盘采用Flash存储技术，它是在E²PROM的基础上发展起来的，属于ROM的一种。擦写速度和性价比均很可观，因此常用作辅存。值得注意的是，随机存取与随机存储器是两个不同的概念，只读存储器也是随机存取的。因此，支持随机存取的存储器并不一定是随机存储器。
12. D
系统主存主要由DRAM构成，但通常也包含用于存放BIOS或固件的ROM（如Flash），因此并非全部由DRAM实现，D选项的说法错误。
第3章存储系统
13. B
EPROM 可多次改写，但改写较为烦琐，写入时间过长，且改写的次数有限，速度较慢，因此不能作为需要频繁读/写的RAM使用。
14. C
动态半导体存储器利用电容存储电荷的特性记录信息，电容会放电，因此必须在电荷流失前对电容充电，即刷新。方法是每隔一定的时间，根据原存内容重新写入一遍，因此说法Ⅰ错误。这里的读并不是把信息读入CPU，也不是从CPU向主存存入信息，它只是把信息读出，通过一个刷新放大器后又重新存回存储单元，而刷新放大器是集成在RAM上的。因此，这里只进行了一次访存，也就是占用一个存取周期，说法Ⅱ、Ⅳ正确，说法Ⅲ错误。
15. C
Flash存储器的读速接近RAM，但写/擦除速度慢，类似ROM，读写性能显著不对称。存储器层次结构以局部性原理为设计基础，通过缓冲机制有效缓解各级存储器间的速率差异。Cache虽位于CPU与主存之间且访问速度快，但其容量远小于主存，并非“大于主存”，选项C错误。辅存（如机械硬盘）因速度慢，不参与CPU实时访存，仅用于主存扩展或持久性存储。
16. C
Flash存储器是非易失性存储器，断电后数据不会丢失。其读操作速度较快（接近RAM），但写入和擦除必须以块为单位进行，且需要先擦除再写入，因此写速显著慢于读速，选项C正确。此外，Flash存储器广泛应用于电脑、手机、智能手表等设备的内部存储，而非限于U盘等辅助存储器。
17. D
刷新也是一个读取的过程，根据读出内容对相应单元进行重写，因此会和CPU的访存冲突，会有访存“死时间”。刷新是指每隔一定的时间必须向栅极电容补充一次电荷，并以行为单位。
18. C
SDRAM(同步DRAM)与SRAM不同，其与CPU采用同步方式交换数据。SDRAM也是DRAM的一种，需要定期刷新。行缓冲器用来缓存指定行中整行的数据，通常用SRAM实现。
19. B
DRAM芯片采用地址线复用技术，行地址和列地址分时复用，每增加1根地址线，则行地址和列地址各增加1位，所以行数和列数各增加1倍，因此容量至少提高到原来的4倍。
20. B
DRAM芯片的容量=位平面数×行数×列数，即由位平面数、存储阵列的行数和列数决定。因此，一个DRAM芯片的容量为4096×4096×4b=8MB，内存条的总容量为8MB×16=128MB。
21. C
4M×4位DRAM芯片需22位地址，采用地址复用技术，行、列地址分时共用引脚，地址引脚数为22/2=11。行地址位数为11位，刷新计数器位数与行地址位数相同。行缓冲器需暂存整行数据，每行包含2048×4位=8Kb数据，选项C错误。芯片字长为4位，对应4个数据引脚。
22. D
低位交叉编址多模块存储器，采用轮流启动的方式时，类似于流水线的工作方式，为保证某个模块再次启动时，其上次的存取操作已完成（流水线不间断），要求两次启动间隔的时间必须大于或等于一个存取周期，即“模块数×总线周期≥存取周期”，得出存储体数应大于或等于11。
23. B
低位交叉存储器采用流水线技术，可以在一个存取周期内连续访问4个模块，32位×4=128位。本题答案为B。
94	2027年计算机组成原理考研复习指导
注：本题若作为计算题来考虑，从第一个字的读/写请求发出，到第4个字读/写结束，共需要350ns，但这里考查的是整体工作性能，可从以下角度理解：
1)连续取m个字耗时t_{1}=T+(m-1)r，平均每个字的存取时间是t_{1}/m，实际工作时m非常大，因此t_{1}/m也就非常接近r，可认为存储器在每个总线周期r都能给CPU提供一个字。
2)流水线充分流动起来后，每个总线周期后都能完成一个字的读/写，所以本题中每4个总线周期（200ns）都能完成4个字的读/写。
24.C
1)在每轮读取存储器的前6个T/4时间（共3T/2）内，依次进入各个存储体。下一轮读取存储器时，最近访问的M_{1}还在占用中（才过T/2的时间），因此必须再等待T/2的时间才能开始新的读取（M_{1}连续完成两次读取，也即总共2T的时间才可进入下一轮）。
注意
进入下一轮不需要第6个字读取结束，第5个字读取结束时M_{1}就已空出，即可马上进入下一轮。
最后一轮读取结束的时间是本轮第6个字读取结束，共(6-1)×(T/4)+T=2.25T。
情况1)的总时间为(80-1)×2T+2.25T=160.25T。
2)每轮读取8个存储字刚好经过2T的时间，每轮结束后，最近访问的M_{1}刚好经过了时间T，此时可以立即开始下一轮的读取。
最后一轮读取结束的时间是本轮第8个字读取结束，共(8-1)×(T/4)+T=2.75T。
情况2)的总时间为(60-1)×2T+2.75T=120.75T。
因此情况1)和2)所花费的总时间比为4:3。
25.D
64K×8位/16K×8位=4，可知芯片数为4。芯片各单元采用交叉编址，所以每个芯片的片选信号由最低两位地址确定，高14位为片内地址。4个芯片内各存储单元的最低两位地址分别为00、01、10、11，即最小地址分别为0000H、0001H、0002H、0003H。地址BFFFH最低两位为11，因此该存储单元所在芯片的最小地址为0003H。
26.A
单体多字存储器主要解决访存速度的问题，并没有解决主存容量太小的问题。在单体多字存储器中，每个存储单元存储多个字，当指令和数据连续存放，且没有过多的转移指令时，单体多字存储器能有效地提高主存的读/写速度。
27.B
多模块存储器各模块有独立的读/写电路，可以实现并行操作，所以多模块存储器能进行高速的读/写操作。采用低位交叉编址的多模块存储器各单元地址不连续。
第3章存储系统
28. A
存储器总线的宽度是64位，内存条一次向计算机提供8B的数据，每个DRAM芯片提供1B的数据，因此一定采用多模块交叉编址，选项A错误。DRAM芯片的行缓冲采用SRAM。在此内存条中，同时读出的64位只可能是第0~7单元、第8~15单元⋯⋯第8k~8k+7单元，根据变量x和y的主存地址可知，读取x需要一个存取周期，读取y需要两个存取周期。
29. A
RAM (分DRAM和SRAM)断电后会失去信息，而ROM断电后不会丢失信息，它们都采用随机存取方式。Cache一般采用高速的SRAM制成，而ROM只可读，不能用作Cache，说法III错误。DRAM需要定期刷新，而ROM不需要刷新，所以说法IV错误。
30. B
随机存取是指CPU可对存储器的任意一个存储单元中的内容随机存取，而且存取时间与存储单元的物理位置无关。选项A、C和D均采用随机存取方式，CD-ROM即光盘，采用串行存取方式(直接存取)。注意，CD-ROM是只读型光盘存储器，不属于只读存储器(ROM)。
31. A
闪存是E²PROM的进一步发展，可读可写，用MOS管的浮栅上有无电荷来存储信息。闪存依然是ROM的一种，写入时必须先擦除原有数据，所以写速度要比读速度慢。闪存是一种非易失性存储器，它采用随机访问方式。现在常见的SSD固态硬盘，即由Flash存储器芯片组成。
32. A
4M×8位的芯片数据线应为8根，地址线应为log₂4M=22根，而DRAM采用地址复用技术，地址线是原来的1/2，且地址信号分行、列两次传送。地址线数为22/2=11根，所以地址引脚与数据引脚的总数为11+8=19根，选择选项A。此题需要注意DRAM采用的是传两次地址的策略，所以地址线为正常的一半，这是很多考生容易忽略的地方。
33. B
DRAM使用电容存储，所以必须隔一段时间刷新一次，若存储单元未被刷新，则存储的信息就会丢失。同步动态随机存储器SDRAM是现在最常用的一种DRAM。
34. D
每个访存地址对应的存储模块序号(0，1，2，3)如下所示：
访存地址	8005	8006	8007	8008	8001	8002	8003	8004	8000
模块序号	1	2	3	0	1	2	3	0	0
其中，模块序号=访存地址%存储器交叉模块数。
判断可能发生访存冲突的规则如下：给定的访存地址在相邻的四次访问中出现在同一个存储模块内。据此，根据上表可知8004和8000对应的模块号都为0，即表明这两次的访问出现在同一模块内且在相邻的访问请求中，满足发生冲突的条件。
35. C
交叉编址多模块存储器有轮流启动和同时启动两种方式，本题中所有存储模块一次并行读/写的总位数正好等于系统总线中的数据线数，所以可以判定采用的是同时启动方式。在同时启动方式下，一个存取周期可以对所有芯片的同一行都读取一个字节。double型变量占64位(8B)。其主存地址804001AH的最低两位是10，说明它从编号为2的芯片开始存储(编号从0开始)，共占3行，因此需要同时启动3轮才能完成对double型变量的读取。从本题也可发现，采用同时启动方式时，一次读行也许会有没用的数据读入。
96 2027年计算机组成原理考研复习指导
第i轮
第i+1轮
第i+2轮
第i+3轮
第i+4轮
体号	00	01	10	11
36. C
由题意，首先根据DRAM采用的是行列地址线复用技术，我们尽量选用行列差值不要太大的，选项B、C的地址线只需6根（取行或列所需地址线的最大值），轻松排除选项A和D。其次，为了减小刷新开销，而DRAM一般是按行刷新的，所以应选行数值较少的。
37. C
8×8192×8192×8bit =512MB, 内存条的容量为512MB, 选项A正确。存储器总线宽度64=8×8bit，而每个芯片一次只能传输8bit，需要8体多模块交叉编址采用同时启动方式才能实现，选项B正确。芯片容量为8192×8192×8bit,按字节编址，地址线数应为log₂(8192×8192)=26,DRAM采用地址复用技术，地址信号分行、列两次传送，因此地址引脚数为26/2=13根，选项C错误。芯片内行数是8192，一行的大小是8192×8bit，行缓冲长度就是一行的大小，选项D正确。
二、综合应用题
01.【解答】
1）因为刷新带宽 W₁=分辨率×像素点颜色深度×刷新频率
=1024×768×3B×72/s
=169869KB/s
所以刷新总带宽W_{0} = W_{1}(W_{0} / W_{1})
=169869KB/s×100/50=339738KB/s
=339.738MB/s (其中1K=1000)
2）要提高刷新存储器带宽，可采用以下技术：①采用高速DRAM芯片；②采用多体交叉存储器结构；③刷新存储器到显示控制器的内部总线宽度加倍；④采用双端口存储器将刷新端口和更新端口分开。
02.【解答】
1）一个存取周期，四体并行交叉存储器可取32位×4=128位，其中32位为总线宽度，4为交叉存储器内的存储体个数。
2）该说法不正确。因为在0.1μs内整个存储器可向CPU提供32位二进制信息，但每个存储体必须经过400ns才能向CPU提供32位二进制信息。
03.【解答】
顺序存储器和交叉存储器连续读出m=4个字的信息总量均是
q=64位×4=256位
顺序存储器和交叉存储器连续读出4个字所需的时间分别是
t₁=mT=4×200ns=800ns=8×10⁻⁷s
t₂=T+(m-1)r=200ns+3×50ns=350ns=35×10⁻⁸s
顺序存储器和交叉存储器的带宽分别是
W_{1} = q / t_{1} = 2 5 6 \div(8 × 1 0^{ - 7}) = 3 2 × 1 0^{7}b / s
W_{2} = q / t_{2} = 2 5 6 \div(3 5 × 1 0^{ - 8}) = 7 3 × 1 0^{7}b / s
04.【解答】
交叉存储器在统考真题中曾多次考查，希望能引起读者重视，本题是这一类题中较难的。
第3章存储系统
1)因为每个体的存取周期是200ns。四体交叉工作，每两个体间读出操作的延时为1/4个存取周期，理想情况是每个存取周期平均可读出4个数据字，读出一个数据字的时间平均为200ns/4=50ns。数据字长为32位，数据传输速率为32位/50ns=640Mb/s=80MB/s。
2)若对多体结构的存储器选用高位地址交叉，通常起不到提高存储器读/写速度的作用，因为它不符合程序运行的局部性原理，一次连续读出彼此地址相差一个存储体容量的4个字的机会太少。因此，通常只有一个存储模块在不停地忙碌，其他存储模块是空闲的。
3)若把存储器的字长扩大为原来的4倍，实现的则是一个单体4字结构的存储器，每次读可以同时读出4个字的内容，有利于提高存储器每个字的平均读/写速度，但其灵活性不如多体单字结构的存储器，还会多用到几个缓冲寄存器。
4)多端口存储器是对同一个存储体使用多套读/写电路实现的，扩大存储容量的难度显然比多体结构的存储器要大，而且不能对多端口存储器的同一个存储单元同时执行多个写入操作，而多体结构的存储器则允许在同一个存取周期对几个存储体执行写入操作。
05.【解答】
对于四体交叉访问的存储系统，每个存储模块的地址分布如下：
Bank0:0,4,8,12,16,…
Bank1:1,5,9,13,17,…,37,…,41,…
Bank2:2,6,10,14,18,…
Bank3:3,7,11,15,19,…,51,…,67
若给定的访存地址在相邻的4次访问中出现在同一个模拟内，则可能发生访存冲突。所以17和9、37和17、13和37、8和4可能发生冲突。易错点：虽然41和13号单元也在同一个模块内，并且访问间隔小于4，但是由于访问8号单元发生冲突而使其访问延迟3个间隔，进而使41号单元的访问也延迟3个间隔，因此其访问不会和13号单元的访问发生冲突。
3.3主存储器与CPU的连接
3.3.1连接原理
主存储器通过数据总线、地址总线和控制总线与CPU相连，三者协同完成数据传输、地址定位与操作控制。数据总线的位数与其工作频率共同决定数据传输速率，其乘积正比于理论带宽；地址总线的位数决定了CPU可寻址的最大内存空间。控制线因存储器类型而异：SRAM芯片通常包含片选和读/写控制信号线；ROM芯片仅需片选线；DRAM芯片一般不设独立片选线，其芯片选择可通过行/列地址选通或外部译码逻辑实现。主存储器与CPU的连接如图3.11所示。
由于单个存储芯片的容量有限，实际系统中需通过存储器扩展技术将多个芯片集成在内存条上，并结合主板上的ROM，共同构成计算机所需的主存空间，再经由系统总线与CPU连接。
3.3.2主存容量的扩展
当单个存储芯片的字数(存储单元数量)或字长(每个存储单元的位数)无法满足实际主存需求时，需要在位和字两个方向进行扩展，以构建所需容量的存储器。
98	2027年计算机组成原理考研复习指导
1.位扩展法
位扩展用于增加存储字的长度，适用于CPU数据总线宽度大于单个芯片数据位宽的情况。通过并联多个芯片，使其总数据位宽与CPU总线匹配。
连接方式：各芯片的地址线、片选线和读/写控制线并联，接至系统对应总线；数据线单独引出，分别连接到系统数据总线的不同位。所有芯片同时工作，共同提供一个完整字。
如图3.12所示，使用8片8K×1位的RAM芯片构成8K×8位的存储器。各芯片的地址线A_{12}\sim A_{0}、片选线和读/写控制线均连在一起，每片的数据线依次对应CPU数据总线的一位。
2.字扩展法
字扩展用于增加存储单元的数量（扩大地址空间），而存储字的位数已满足系统要求。此时，系统数据总线宽度等于芯片数据位宽，而地址总线位数多于芯片地址线位数。
连接方式：各芯片的地址线连接至系统地址总线的低位；数据线和读/写控制线并联至系统总线；系统地址总线的高位经译码器生成片选信号，分时选中不同芯片。各芯片分时工作。
考点追踪	字扩展（或字位扩展）后存储芯片的地址范围(2010、2016)
如图3.13所示，用4片16K×8位的RAM芯片构成64K×8位的存储器。所有芯片的数据线D_{0}\sim D_{7}并联至系统数据总线。地址线A_{15}A_{14}作为高位地址输入译码器，产生4个片选信号：A_{15}A_{14}=00时，译码器输出端0有效，选中1号芯片；A_{15}A_{14}=01时，译码器输出端1有效，选中2号芯片，以此类推（同一时刻只能有一个芯片被选中）。各芯片的地址分配如下：
第一片，最低地址：0000000000000000；最高地址：0011111111111111（16位）
第二片，最低地址：0100000000000000；最高地址：0111111111111111
第三片，最低地址：1000000000000000；最高地址：1011111111111111
第四片，最低地址：1100000000000000；最高地址：1111111111111111
第3章	存储系统	99
3.字位同时扩展法
当芯片的字长和容量均不足时，需同时进行位扩展和字扩展。该方法将位扩展后的芯片组视为一个逻辑单元，再对这些单元进行字扩展。
连接方式：先将若干芯片按位扩展方式组成一组（满足字长要求）；再将多组按字扩展方式连接；系统地址线低位接各组内部芯片的地址引脚，高位经译码器生成各组的片选信号。
如图3.14所示，用8片16K×4位的RAM芯片构成64K×8位的存储器。每2片组成一组（位扩展为16K×8位），共4组。地址线A_{15}A_{14}经译码器产生4个片选信号：当A_{15}A_{14}=00时，选中第一组（芯片① 和② ）；当A_{15}A_{14}=01时，选中第二组（芯片③ 和④ ）；以此类推。
3.3.3	本节习题精选
一、单项选择题
01.用存储容量为16K×1位的存储芯片来组成一个64K×8位的存储器，则在字方向和位方向分别扩展了（	）倍。
A.4.2	B.8.4	C.2.4	D.4.8
02.80386DX是32位系统，以4B为编址单位，当在该系统中用8KB（8K×8位）的存储芯片构造32KB的存储体时，应完成存储器的（	）设计。
A.位扩展	B.字扩展	C.字位扩展	D.字位均不扩展
03.4个16K×8位的存储芯片，可设计为（	）容量的存储器。
A.32K×16位	B.16K×16位	C.32K×8位	D.8K×16位
04.16片2K×4位的存储器可以设计为（	）存储容量的16位存储器。
A.16K	B.32K	C.8K	D.2K
05.设CPU地址总线有24根，数据总线有32根，用512K×8位的RAM芯片构成该计算机的主存储器，则该计算机主存最多需要（	）片这样的存储芯片。
A.256	B.512	C.64	D.128
06.地址总线A_{0}（高位）\sim A_{15}（低位），用4K×4位的存储芯片组成16KB存储器，则产生片选信号的译码器的输入地址线应该是（	）。
A.A_{2}A_{3}	B.A_{0}A_{1}	C.A_{12}A_{13}	D.A_{14}A_{15}
07.若内存地址区间为4000H\sim 43FFH，每个存储单元可存储16位二进制数，该内存区域用4片存储芯片构成，构成该内存所用的存储芯片的容量是（	）。
A.512×16bit	B.256×8bit	C.256×16bit	D.1024×8bit
100	2027年计算机组成原理考研复习指导
08.内存按字节编址，地址从90000H到CFFFFH，若用存储容量为16K×8位的芯片构成该内存，至少需要的芯片数是（	）。
A. 2	B. 4	C. 8	D. 16
09.若片选地址为111时，选定某一32K×16位的存储芯片工作，则该芯片在存储器中的首地址和末地址分别为（	）。
A. 00000H,01000H	B. 38000H,3FFFFH
C. 3800H,3FFFFH	D. 0000H,0100H
10.【2009统考真题】某计算机主存容量为64KB，其中ROM区为4KB，其余为RAM区，按字节编址。现要用2K×8位的ROM芯片和4K×4位的RAM芯片来设计该存储器，需要上述规格的ROM芯片数和RAM芯片数分别是（	）。
A. 1,15	B. 2,15	C. 1,30	D. 2,30
11.【2010统考真题】假定用若干2K×4位的芯片组成一个8K×8位的存储器，则地址0B1FH所在芯片的最小地址是（	）。
A. 0000H	B. 0600H	C. 0700H	D. 0800H
12.【2011统考真题】某计算机存储器按字节编址，主存地址空间大小为64MB，现用4M×8位的RAM芯片组成32MB的主存储器，则存储器地址寄存器MAR的位数至少是（	）。
A. 22位	B. 23位	C. 25位	D. 26位
13.【2016统考真题】某存储器容量为64KB，按字节编址，地址4000H~5FFFH为ROM区，其余为RAM区。若采用8K×4位的SRAM芯片进行设计，则需要该芯片的数量是（	）。
A. 7	B. 8	C. 14	D. 16
14.【2021统考真题】某计算机的存储器总线中有24位地址线和32位数据线，按字编址，字长为32位。若000000H~3FFFFFH为RAM区，则需要512K×8位的RAM芯片数为（	）。
A. 8	B. 16	C. 32	D. 64
15.【2023统考真题】某计算机的CPU有30根地址线，按字节编址，CPU和主存连接时，要求主存芯片占满所有可能的存储地址空间，且RAM区和ROM区所分配的空间大小比是3:1。若RAM在低地址区，ROM在高地址区，则ROM的地址范围是（	）。
A. 00000000H~0FFF FFFFH	B. 10000000H~2FFF FFFFH
C. 30000000H~3FFF FFFFH	D. 40000000H~4FFF FFFFH
二、综合应用题
01.用一个512K×8位的Flash存储器芯片组成一个4M×32位的半导体只读存储器，存储器按字编址，试回答以下问题：
1)该存储器的数据线数和地址线数分别为多少？
2)共需要几片这样的存储芯片？
3)说明每根地址线的作用。
3.3.4 答案与解析
一、单项选择题
01. D
字方向扩展了64K/16K=4倍，位方向扩展了8bit/1bit=8倍。
02. A
因为以4B为编址单位，要扩展到32KB，即扩展到8K×32bit，所以只用进行位扩展。
第3章存储系统
03.A
4个16K×8位的存储芯片构成的存储器容量=4×16K×8位=512K位或64KB，只有选项A的容量为64KB。注意，若有某项为128K×4位，则此选项不能选，因为芯片为8位，不可能将字长“扩展”成4位。
04.C
设存储容量为M，则有(M×16)÷(2K×4)=16，因此M=8K。
05.D
地址线为24根，寻址范围是2²⁴；数据线为32根，字长为32位。主存的总容量=2²⁴×32位，因此所需存储芯片数=(2²⁴×32)÷(512K×8)=128。
06.A
A₁₅为地址线的低位，接入各芯片地址端的是地址线的低12位，即A₄~A₁₅，共有8个芯片(16KB/4K=4B，并且位扩展时每组两片共分为4组)组成16KB的存储器，因此由高两位地址线A₂A₃作为译码器的输入。
07.C
43FF-4000+1=400H，即内存区域为1K个单元，总容量为1K×16位。现该内存由4片存储芯片构成，则构成该内存的芯片容量为1K×16位/4=256×16位。
08.D
CFFFF-90000+1=40000H，即内存区域有256K个单元。若用存储容量为16K×8位的芯片，则需要的芯片数=(256K×8)÷(16K×8)=16片。
09.B
32K×16的存储芯片有地址线15根(片内地址)，片选地址为3位，因此地址总位数为18位，现高3位为111，则首地址为11100000000000000000000000000000000000000000011111111111111=3FFFFH。
10.D
首先确定ROM的个数，ROM区为4KB，选用2K×8位的ROM芯片，需要(4K×8)÷(2K×8)=2片，采用字扩展方式；RAM区为60KB，选用4K×4位的RAM芯片，需要(60K×8)÷(4K×4)=30片，采用字和位同时扩展的方式。
11.D
用2K×4位的芯片组成一个8K×8位的存储器，共需8片2K×4位的芯片，分为4组，每组由2片2K×4位的芯片并联组成2K×8位的芯片，各组芯片的地址分配如下：
第一组(两个芯片并联)：0000H~07FFH。
第二组(两个芯片并联)：0800H~0FFFH。
第三组(两个芯片并联)：1000H~17FFH。
第四组(两个芯片并联)：1800H~1FFFH。
地址0B1FH所在的芯片属于第二组，所以其所在芯片的最小地址为0800H。
12.D
主存按字节编址，地址空间大小为64MB，MAR的寻址范围为64M=2²⁶，因此是26位。实际的主存容量32MB不能代表MAR的位数，考虑到存储器扩展的需要，MAR应保证能访问到整个主存地址空间，反过来，MAR的位数决定了主存地址空间的大小。
13.C
5FFF-4000+1=2000H，即ROM区容量为2¹³B=8KB(2000H=2×16³=2¹³)，RAM区容量为56KB(64KB-8KB=56KB)。需要8K×4位的SRAM芯片的数量为14(56KB/8K×4位=14)。
102 2027年计算机组成原理考研复习指导
14.C
000000~3FFFFF，共有3FFFFFH-000000H+1H=400000H=2^{22}个地址，按字编址，字长为32位(4B)，因此RAM区大小为2^{22}×4B=2^{22}×32bit。每个RAM芯片的容量为512K×8bit=2^{19}×8bit，所以需要RAM芯片的数量为(2^{22}×32bit)÷(2^{19}×8bit)=32。
15.C
地址空间为2^{30}，地址范围为0000 0000H~3FFF FFFFH。RAM:ROM=3:1，则ROM可分配的地址空间为2^{28}，从3FFF FFFFH往前数2^{28}个地址，即ROM的地址范围是3000 0000H~3FFF FFFFH。
二、综合应用题
01.【解答】
1)因为所需的组成存储器的最终容量为4M×32位，所以需要32根数据线。而存储器又是按字编址的，所以此时不需要将存储器的容量先转换成16M×8位，直接是4M×32位中的4M，所以只需要22根地址线(2^{22}=4M)。
2)采用512K×8位的Flash存储器芯片组成4M×32位的存储器时，需要同时进行位扩展和字扩展。位扩展：4片512K×8位的Flash存储器芯片位扩展可组成512K×32位的Flash存储器芯片。字扩展：8片512K×32位的Flash存储器芯片字扩展可组成4M×32位的存储器。综上可知，一共需要4×8=32片512K×8位的存储芯片。
3)在CPU的22根地址线中(A_{0}\sim A_{21})，地址线的作用分配如下：首先，此时不需要指定A_{0}、A_{1}来标识每组中的4片存储器，因为此时是按字寻址的，所以4片每次都是一起取的，而不是按字节编址时需要取4片中的某一片。
A_{0}\sim A_{18}：每片都是512K，所以需要19位(2^{19}=512K)来表示。
A_{19}、A_{20}、A_{21}：因为在扩展中4片一组，一共有8组(=2^{3})，所以需要用3位地址线来决定取哪一组（通过3/8译码器形成片选信号）。
3.4 外部存储器
3.4.1 磁盘存储器
磁盘存储器采用磁盘作为存储介质，具有以下优点：① 存储容量大，成本低；② 支持数据的重复写入和删除；③ 能长期保存信息，即使脱机也能存档；④ 读取操作是非破坏性的，无须再生数据。然而，其缺点包括存取速度较慢、机械结构复杂以及对工作环境要求较高。
1.磁盘存储器
考点追踪 磁盘存储器的相关概念(2019)
(1)磁盘设备的组成
① 磁盘存储器的组成。磁盘存储器由磁盘驱动器、磁盘控制器和盘片组成。
● 磁盘驱动器。驱动磁盘旋转并通过磁头在盘面上执行读/写操作，如图3.15所示。
● 磁盘控制器。磁盘驱动器与主机之间的接口，负责接收并解析来自CPU的命令，向磁盘驱动器发送控制信号，同时监控其运行状态。
第3章	存储系统	103
扇区	磁道	磁道	转轴
扇区间隙
磁道间隙
机械臂杆
扇区
柱面-	读/写
磁头
盘面
旋转
磁头臂
(a)磁盘盘片	(b)磁盘的组成
图3.15 磁盘驱动器示意图
②存储区域。磁盘由多个记录面组成，每面含若干同心磁道，每条磁道划分为若干扇区。
●记录面数：表示磁头数量，每个磁头负责一个记录面的数据读/写。
●柱面数：表示单个记录面上的磁道数量。所有记录面上相同编号的磁道构成一个柱面。
●扇区数：表示每条磁道所包含的扇区数量。扇区是磁盘读/写的最小单位。
相邻的磁道和扇区之间通过间隙隔开，以防止读/写错误。扇区按固定圆心角度划分，导致从外到内的位密度逐渐增加，磁盘的存储能力受限于最内圈的最大记录密度。
③磁盘高速缓存(Disk Cache)。在内存中开辟一部分空间，用于暂存待写入磁盘的数据。优点：磁盘以“簇”（由若干连续扇区组成）为单位进行写操作，缓存可减少频繁的小块写入；同时，中间结果若在写回前被再次使用，可直接从缓存读取，提升效率。
(2)磁记录原理
原理：当磁头和磁性记录介质发生相对运动时，通过电磁转换实现数据的读/写操作。
编码方法：按照特定规则，将二进制数据序列转换为磁层中对应的磁化翻转状态序列，以便读/写控制电路能够高效、可靠地完成信号转换。
(3)磁盘的性能指标
①记录密度。指单位面积上可存储的二进制数据量，通常以道密度、位密度和面密度表示。道密度是沿磁盘半径方向单位长度上的磁道数；位密度是单条磁道单位长度上可记录的二进制位数；面密度是位密度与道密度的乘积，反映单位面积的存储能力。
②磁盘的容量。分为非格式化容量和格式化容量。非格式化容量是指磁记录表面可利用的磁化单元总数，非格式化容量=记录面数×柱面数×每磁道磁化单元数。格式化容量是指按特定格式组织后实际可用的存储容量，格式化容量=记录面数×柱面数×每道扇区数×每扇区字节数。非格式化容量>格式化容量，因需预留扇区间隙、同步字段等格式开销。
考点追踪磁盘存取时间的计算(2013、2015、2022)
③响应时间与存取时间。磁盘处理一次读/写请求的完整过程包括请求排队、控制器解析以及三个关键物理操作：寻道、旋转等待和数据传输。因此，总响应时间为响应时间=排队延迟+控制器时间+寻道时间+旋转等待时间+数据传输时间其中，“寻道时间+旋转等待时间+数据传输时间”也称存取时间，特指从磁头定位开始到数据传输完成所需的时间，是衡量磁盘性能的核心指标。
●寻道时间：磁头移动到目标磁道所需时间。平均寻道时间通常取最大寻道时间的一半（从最外道到最内道时间的1/2）。
2027年计算机组成原理考研复习指导
●旋转等待时间：目标扇区旋转至磁头下方所需时间。平均旋转等待时间等于磁盘旋转半周的时间。
●数据传输时间：读取或写入一个扇区所需时间，取决于磁盘转速和数据密度。
④数据传输速率。指磁盘在单位时间内向主机传送的数据量(单位为B/s)。若磁盘转速为r转/秒，单磁道容量为N字节，则最大数据传输速率为
Dr=rN
(4)磁盘地址
考点追踪	磁盘地址结构的计算(2022)
主机向磁盘控制器发送寻址信息，磁盘地址通常由三部分组成，如下图所示。
柱面(磁道)号	盘面(磁头)号	扇区号
例如，磁盘有16个盘面，每个盘面有256个磁道，每个磁道划分为16个扇区，则每个扇区的地址可用16位二进制代码表示：其中柱面号占8位，盘面号占4位，扇区号占4位。
(5)磁盘的工作过程
磁盘的主要操作包括寻址、读盘和写盘。每种操作对应一个控制字。磁盘工作时，首先读取控制字，然后执行该控制字。由于磁盘是机械式部件，因此其读/写操作为串行执行。
2.磁盘阵列
RAID(独立冗余磁盘阵列)是指将多个独立的物理磁盘组合成一个逻辑磁盘，数据在多个物理盘上交叉分割存储并并行访问，从而获得更高的存储性能、可靠性与安全性。
考点追踪	提高RAID可靠性的措施(2013)
RAID的分级如下所示。在RAID1~RAID5等方案中，当任意磁盘发生故障时，可随时拔出损坏磁盘并插入新盘，系统仍能恢复或维持数据完整性，显著提升了可靠性。
●RAID0：无冗余、无校验的磁盘阵列。
●RAID1：镜像磁盘阵列。
●RAID2：采用海明码进行纠错的磁盘阵列。
●RAID3：位交叉奇偶校验的磁盘阵列。
●RAID4：块交叉奇偶校验的磁盘阵列。
●RAID5：无独立校验盘的分布式奇偶校验磁盘阵列。
RAID0将连续的多个数据块交替存放在不同物理磁盘的扇区中，利用多个磁盘交叉并行读/写，即条带化技术，不仅扩展了存储容量，还显著提高了存取速度，但不具备容错能力。
为提高可靠性，RAID1通过两个磁盘同步进行读/写操作，互为镜像备份。当一个磁盘故障时，可从另一磁盘完整读取数据。其代价是有效容量减半(两盘仅当一盘使用)。
总之，RAID通过多磁盘并行工作提升数据传输速率；通过并行存取大幅提高存储系统的吞吐量；通过镜像实现高可用性；通过校验机制提高容错能力。
3.4.2 固态硬盘
1.固态硬盘的特性
固态硬盘(SSD)是一种基于闪存技术的存储设备。其存储介质与U盘类似，但容量更大、存取性能更优。一个SSD由一个或多个闪存芯片以及闪存翻译层组成，如图316所示。其中，闪存芯片替代了传统磁盘中的机械驱动器；而闪存翻译层负责将CPU发出的逻辑块读/写请求转
第3章存储系统
换为对底层物理闪存的读/写控制信号，因此，闪存翻译层相当于代替了磁盘控制器的角色。
I/O总线
固态硬盘(SSD)
读/写逻辑磁盘块
闪存翻译层
闪存
块0
块B-1
页0
页1
页P-1
页0
页1
页P-1
图3.16 固态硬盘(SSD)结构组成
一个闪存芯片由B个块组成，每个块包含P页。通常，页的大小为512B~4KB，每块包含32~128页，块的大小为16KB~512KB。读/写操作以页为单位进行；擦除操作以块为单位进行，只有在整块被擦除后，才能向其中的页写入新数据。一旦某块被擦除，其所有页均可重新写入一次。每个块的擦写次数有限，经过若干重复写入后，该块会因磨损而失效。
随机写入速度较慢，主要有两个原因：①擦除操作耗时较长，通常比页访问慢一个数量级。②若需修改一个已包含有效数据的页P₁，必须先将该块中所有有效页复制到一个新的（已擦除的）块中，再执行对P₁的写入。
相比传统机械磁盘，SSD具有显著优势：由半导体器件构成，无机械运动部件，因此随机访问延迟极低，且无噪声、无振动、功耗更低、抗震性强、安全性更高。
2.磨损均衡(Wear Leveling)
SSD的主要缺点在于闪存的擦写寿命有限，通常仅为几百至几千次。若直接用普通闪存构建SSD而不加管理，则实际的寿命表现可能令人失望——因为读/写操作往往会集中在少数物理块上，导致这些区域迅速磨损。一旦这部分闪存损坏，整块SSD即告失效。这种磨损不均衡的情况，可能导致一块256GB的SSD，仅因几兆字节的闪存损坏而报废。
为解决这一问题，SSD引入了磨损均衡技术，主要分为两类：
1)动态磨损均衡。在写入数据时，优先选择擦写次数较少的空闲块，避免反复写入同一区域，从而将写入负载分散到更多物理块上。
2)静态磨损均衡。这是一种更高级的策略。即使没有新数据写入，控制器也会定期扫描并自动进行数据迁移，将高磨损块中的有效数据迁移到低磨损块中。使高磨损块转为以读为主，低磨损块承担更多写入任务，进一步均衡整体寿命。
得益于磨损均衡算法，SSD的实际使用寿命显著提升。例如，一块256GB的SSD，若其闪存的擦写寿命为500次，则理论总写入量可达125TB。即使每天持续写入10GB数据，也需要三十多年才会达到寿命极限。而日常使用中，普通用户的日均写入量通常远低于此值。
3.4.3 本节习题精选
一、单项选择题
01.下列关于磁盘的说法中，错误的是（	）。
A.本质上，U盘（闪存）是一种只读存储器
B.RAID技术可以提高磁盘的磁记录密度和磁盘利用率
106	2027年计算机组成原理考研复习指导
C. 未格式化的硬盘容量要大于格式化后的实际容量
D. 计算磁盘的存取时间时，“寻道时间”和“旋转等待时间”常取其平均值
02. 下列关于磁盘驱动器的叙述中，错误的是（	）。
A. 送到磁盘驱动器的地址由磁头号、盘面号和扇区号组成
B. 能控制磁头移动到指定磁道，并发回“寻道结束”信号
C. 能控制磁盘片转过指定的扇区，并发回“扇区符合”信号
D. 能控制对指定盘面的指定扇区进行数据的读/写操作
03. 下列有关磁盘存储器读/写操作的叙述中，错误的是（	）。
A. 最小读/写单位可以是一个扇区
B. 采用直接存储器存取DMA方式进行输入/输出
C. 按批处理方式进行一个数据块的读/写
D. 磁盘存储器可与CPU交换盘面上的存储信息
04. 若磁盘的转速提高一倍，则（	）。
A. 平均寻道时间减少一半	B. 存取速度也提高一倍
C. 平均旋转等待时间减少一半	D. 不影响磁盘传输速率
05. 下列关于固态硬盘(SSD)的叙述中，不正确的是（	）。
A. 固态硬盘的读/写是以页为单位的
B. 固态硬盘的擦除是以页为单位的
C. 固态硬盘的写入速度比读取速度慢很多
D. 固态硬盘的写入次数有限，引入磨损均衡可以延长使用寿命
06. 下列关于固态硬盘(SSD)的说法中，错误的是（	）。
A. 基于闪存的存储技术	B. 随机读/写性能明显高于磁盘
C. 随机写比较慢	D. 读/写速度快，常用作主存
07. 一个磁盘的转速为7200转/分，每个磁道有160个扇区，每个扇区有512字节，则在理想情况下，磁盘每秒传输的数据量是（	）。
A. 7200×160KB	B. 7200KB	C. 9600KB	D. 19200KB
08. 某磁盘盘面共有200个磁道，盘面总存储容量为60MB，磁盘旋转一周的时间为25ms，每个磁道有8个扇区，各扇区之间有一间隙，磁头通过每个间隙需1.25ms。则磁盘接口所需的最大传输速率是（	）。
A. 10MB/s	B. 60MB/s	C. 83.3MB/s	D. 20MB/s
09. 【2013统考真题】某磁盘的转速为10000转/分，平均寻道时间是6ms，磁盘传输速率是20MB/s，磁盘控制器延迟为0.2ms，读取一个4KB的扇区所需的平均时间约为（	）。
A. 9ms	B. 9.4ms	C. 12ms	D. 12.4ms
10. 【2013统考真题】下列选项中，用于提高RAID可靠性的措施有（	）。
I. 磁盘镜像	II. 条带化	III. 奇偶校验	IV. 增加Cache机制
A. 仅I、II	B. 仅I、III	C. 仅I、III和IV	D. 仅II、III和IV
11. 【2015统考真题】若磁盘转速为7200转/分，平均寻道时间为8ms，每个磁道包含1000个扇区，则访问一个扇区的平均存取时间大约是（	）。
A. 8.1ms	B. 12.2ms	C. 16.3ms	D. 20.5ms
12. 【2019统考真题】下列关于磁盘存储器的叙述中，错误的是（	）。
第3章	存储系统
107
A.磁盘的格式化容量比非格式化容量小
B.扇区中包含数据、地址和校验等信息
C.磁盘存储器的最小读/写单位为1字节
D.磁盘存储器由磁盘控制器、磁盘驱动器和盘片组成
二、综合应用题
01. 某个硬磁盘共有4个记录面，存储区域内半径为10cm，外半径为15.5cm，道密度为60道/cm，外层位密度为 600bit/cm，转速为6000转/分。
1)硬磁盘的磁道总数是多少？
2)硬磁盘的容量是多少？
3)将长度超过一个磁道容量的文件记录在同一个柱面上是否合理？
4)采用定长数据块记录格式，直接寻址的最小单位是什么？寻址命令中磁盘地址如何表示？
5)假定每个扇区的容量为512B，每个磁道有12个扇区，寻道的平均等待时间为10.5ms，试计算磁盘平均存取一个扇区的时间。
3.4.4 答案与解析
一、单项选择题
01. B
闪存是在 E²PROM的基础上发展起来的，本质上是只读存储器。RAID 将多个物理盘组成像单个逻辑盘，不会影响磁记录密度，也不可能提高磁盘利用率。在磁盘的格式化过程中，要对磁盘划分扇区，每个扇区要写入一些控制信息，扇区尾部还要留有一定的空隙，这些均需占用一些存储空间，因此导致格式化后的实际容量比非格式化的容量要小。
02. A
因为每个盘面对应一个磁头，所以盘面号和磁头号是同一个概念，显然A的说法是错误的，磁盘地址应该由磁道号（柱面号）、磁头号（盘面号）和扇区号组成。
03. D
磁盘存储器以成批（组）方式进行数据读/写，CPU 中没有那么多通用寄存器用于存放交换的数据，且磁盘与通用寄存器的传输速率相差过大，因此磁盘存储器通常直接和主存交换信息。
04. C
磁盘存取的步骤为：启动磁头、寻找磁道（寻道时间）、查找扇区（旋转等待时间）、传输数据，转速提高对寻道时间无影响；存取速度取决于所有步骤的时间，虽然会提高，但不会提高一倍；平均旋转等待时间为旋转半圈的时间，因此会减少一半；转速提高则传输速率也提高。
05. B
固态硬盘的擦除以块为单位，读/写以页为单位，选项 B 错误。固态硬盘的写入速度比读取速度要慢很多，因为在写入时需要擦除，且写入次数有限，否则相应块就会因为磨损而无法再次写入。
06. D
固态硬盘基于闪存技术，没有机械部件，随机读/写不需要机械操作，因此速度明显高于磁盘，选项A和B正确。选项C已在考点讲解中解释过。SSD常用作外存而非主存，选项D错误。
108	2027年计算机组成原理考研复习指导
07. C
磁盘的转速为7200转/分=120转/秒，转一圈经过160个扇区，每个扇区为512B，所以磁盘每秒传输的数据量为120×160×512/1024=9600KB。
08. D
每个磁道的容量=60MB/200=0.3MB，读一个磁道数据的时间等于磁盘旋转一周的时间减去通过扇区间隙的总时间(每个磁道有8个间隙)，即25ms-1.25ms×8=15ms，数据传输速率=0.3MB/15ms=20MB/s。
09. B
磁盘转速是10000转/分，转一圈的时间为6ms，因此平均查询扇区的时间为3ms，平均寻道时间为6ms，读取4KB扇区信息的时间为4KB÷20MB/s=0.2ms，磁盘控制器延迟为0.2ms，总时间为3+6+0.2+0.2=9.4ms。
10. B
RAID0方案是无冗余和无校验的磁盘阵列技术，而RAID1~RAID5方案均是加入了冗余(镜像)或校验的磁盘阵列技术。因此，提高RAID可靠性的措施主要是对磁盘进行镜像和奇偶校验，其余选项不符合条件。条带化是一种将数据分片，分别存储至不同的磁盘，提高读/写速度的技术。条带化的优点是读/写速度快，缺点是没有冗余，若其中一块磁盘损坏，则数据就会丢失。因此，条带化通常和其他技术如磁盘镜像或奇偶校验结合使用，形成不同的RAID级别。
11. B
存取时间=寻道时间+旋转等待时间+传输时间。存取一个扇区的平均旋转等待时间为旋转半周的时间，即(60/7200)/2=4.17ms，传输时间为(60/7200)/1000=0.01ms，因此访问一个扇区的平均存取时间为4.17+0.01+8=12.18ms，保留一位小数则为12.2ms。
12. C
磁盘存储器的最小读/写单位为一个扇区，即磁盘按块存取。磁盘存储数据之前需要进行格式化，将磁盘分成扇区并写入信息，因此磁盘的格式化容量比非格式化容量小。磁盘扇区中包含数据、地址和校验等信息。磁盘存储器由磁盘控制器、磁盘驱动器和盘片组成。
二、综合应用题
01.【解答】
1)有效存储区域=15.5-10=5.5cm,道密度=60道/cm,因此每个面为60×5.5=330道，即有330个柱面，因此磁道总数=4×330=1320个磁道。
2)外层磁道的长度为2πR=2×3.14×15.5=97.34cm。
每道信息量=600bit/cm×97.34cm=58404bit=7300B。
利用1)的结果，可得磁盘总容量=7300B×1320=9636000B(非格式化容量)。
3)若长度超过一个磁道容量的文件，将它记录在同一个柱面上是比较合理的，因为不需要重新寻找磁道，这样数据读/写速度快。
4)采用定长数据块格式，直接寻址的最小单位是一个扇区，每个扇区记录固定字节数目的信息，在定长记录的数据块中，活动头磁盘组的编址方式可用如下格式：
柱面号	盘面号	扇区号
5)读一个扇区中数据所用的时间=找磁道的时间+找扇区的时间+磁头扫过一个扇区的时间。找磁道的时间是指磁头从当前所处磁道运动到目标磁道的时间，一般选用磁头在磁盘径
第3章存储系统	109
向方向上移动1/2个半径长度所用的时间为平均值来估算，题中给出的是10.5ms.
找扇区的时间是指磁头从当前所处扇区运动到目标扇区的时间，一般选用磁盘旋转半周所用的时间作为平均值来估算，题中给出磁盘转速为6000转/分，即100转/秒，所以磁盘转一周用时10ms，转半周用时5ms.
题中给出每个磁道有12个扇区，磁头扫过一个扇区用时为10/12=0.83ms，因此磁盘平均存取时间为10.5+5+0.83=16.33ms.
3.5	高速缓冲存储器
程序的转移概率通常较高，数据分布也较为离散，因此单纯依赖并行主存系统来提升主存效率是有限的。高速缓存(Cache)具有比主存更快的访问速度，因此在CPU与主存之间设置Cache可以显著提升存储系统的整体效率。Cache由SRAM组成，通常集成在CPU内部。
3.5.1程序访问的局部性原理
Cache的设计基于程序访问的局部性原理，包括时间局部性和空间局部性。
考点追踪	分析给定代码的时空局部性(2017、2023)
时间局部性是指如果某条指令或数据项当前被访问，则在不久的将来很可能再次被访问。这源于程序中存在循环、重复调用的子程序，以及对同一数据的多次操作。空间局部性是指如果某存储单元被访问，则其邻近的存储单元在不久的将来很可能也被访问。这是因为指令通常顺序存放并顺序执行，而数据（如数组、向量）也往往以连续块的形式存储。
高速缓冲技术正是利用局部性原理，将程序当前活跃的部分数据暂存于容量小但速度极快的Cache中，使CPU的多数访存操作直接在Cache中完成，从而显著提升程序执行效率。
【例3.1】假设数组元素按行优先方式存储，对于以下两个程序：
程序A:	程序B:
1	int sumarrayrows（int a[M][N]）
2	{
3	int i, j, sum =0;
4	for (i =0; i < M; i++)
5	for (j =0; j < N; j++)
6	sum += a[i][j];
7	return sum;
8	}
1	int sumarraycols（int a[M][N]）
2	{
3	int i, j, sum =0;
4	for (j =0; j < N; j++)
5	for (i =0; i < M; i++)
6	sum += a[i][j];
7	return sum;
8}
1）对于数组a的访问，哪个程序的空间局部性更好？哪个时间局部性更好？
2）对于指令访问，for循环体的空间局部性和时间局部性如何？
解：假设M和N均为2048，按字节编址，每个数组元素占4字节，则指令和数据在主存中的存放情况如图3.17所示。
考点追踪	数组按行或列访问的命中率分析(2010)，数组循环访问的命中率分析(2016、2020)
1）对于数组a，程序A和程序B的空间局部性差异显著。
程序A按行访问：a[0][0],a[0][1],…,a[0][2047];a[1][0],a[1][1],…,a[1][2047];…。访问顺序与存放顺序是一致的，由于连续访问的元素位于相邻地址，空间局部性良好。
110	2027年计算机组成原理考研复习指导
程序B按列访问：a[0][0]，a[1][0)，...，a[2047][0]，a[0][1]，a[1][1]，...，a[2047][1]，...。访问顺序与存放顺序不一致，每次访问均需跨越2048个元素，即8192字节，若主存与Cache的交换单位小于8KB，则每次访问几乎都落在不同的Cache行中，空间局部性极差。
两个程序中，数组a的时间局部性均较差，因为每个数组元素仅被访问一次。
考点追踪	程序中指令Cache的命中率分析（2014）
2）对于for循环体的指令访问，程序A与程序B的局部性表现相同。因为循环体内的指令在内存中连续存放，顺序执行，空间局部性良好；整个循环共执行2048×2048次，时间局部性良好。
综上，尽管程序A与程序B功能完全相同，但由于内外循环顺序不同，导致对数组a访问的空间局部性存在巨大差异，进而造成实际执行效率的显著不同。
3.5.2	Cache的基本工作原理
为便于Cache与主存交换信息，Cache和主存都被划分为大小相等的块，Cache块也称Cache行，每块由若干字节组成，块的长度称为块长（也称行长）。因为Cache的容量远小于主存的容量，所以Cache中的块数要远少于主存中的块数，Cache中仅保存主存中最活跃的若干块的副本。因此，可按照某种策略预测CPU在未来一段时间内待访存的数据，将其装入Cache。
1.	Cache的访问过程
考点追踪	Cache命中对CPU执行时间影响的分析（2013、2015）
图3.18所示为典型的Cache访问流程。CPU执行程序时，每当需要从主存取指令或读/写数据，首先访问Cache。若所需信息已在Cache中（称为Cache命中），则直接从Cache读取，无须访问主存；若未命中（也称缺失），则需从主存中将该地址所在的一个主存块整体调入Cache，并将该块写入一个Cache行（若Cache已满，则按替换算法选择被替换块）。此后，CPU再从Cache中获取所需数据。整个访问过程（包括命中判断、块调入、替换等）必须在单条指令执行周期内完成，因此完全由硬件实现。Cache机制对程序员是透明的。
上述访问流程是先查Cache，未命中再访主存，这是统考真题遵循的方式。部分系统采用“并行访问”策略（同时查Cache和主存），若命中，则提前终止主存访问，但考试中通常不涉及。
2.	Cache的命中率分析
考点追踪	Cache命中率的分析与计算（2009、2025）
CPU所需访问的信息已在Cache中的概率称为Cache命中率。设某程序执行期间，Cache命
第3章存储系统 111
中次数为Nc，访问主存的次数为Nm（未命中次数），则命中率H定义为
H=Nc/（Nc+Nm）
命中时：CPU直接从Cache读取数据，耗时为命中时间Tc（访问Cache的时间）。
未命中时：需先从主存读取包含目标数据的一个主存块送入Cache，再将所需数据送至CPU，总耗时为Tm+Tc。其中Tm称为缺失损失，即从主存调入一个块所需的时间。
因此，Cache-主存系统的平均访问时间Ta为
Ta=HTc+(1-H)(Tm+Tc)=Tc+(1-H)Tm
考点追踪 Cache缺失率对主存带宽的影响（2012）
【例3.2】假设Cache的速度是主存的5倍，且Cache的命中率为95%，则采用Cache后，存储器性能提升多少（假设系统先访问Cache，未命中时才访问主存）？
解：设Cache的存取时间为t，则主存的存取时间为5t。系统的平均访问时间T为
T=命中时的访问时间×命中率+缺失时的访问时间×缺失率
=0.95×t+0.05×(1+5t)=1.25t
或等价地
T=命中时的访问时间+缺失时的访存开销×缺失率=t+0.05×5t=1.25t
可见，采用Cache后，存储器性能提升至原来的5t/1.25t=4倍。
根据Cache的读、写流程可知，实现Cache时需解决以下关键问题：
1)数据查找。如何快速判断所需数据是否在Cache中。
2)地址映射。主存块如何存放在Cache中，以及如何将主存地址转换为Cache地址。
3)替换策略。当Cache已满时，采用何种策略选择被替换的Cache行。
4)写入策略。如何在保证主存与Cache数据一致性的前提下，尽可能提升写操作效率。
3.5.3 Cache和主存的映射方式
由于Cache行数远少于主存块数，Cache只能存放主存中部分块的副本。为识别每个Cache行对应哪个主存块，需要为每行设置一个标记位，记录其主存块编号。同时设置一位有效位，用于指示该行数据是否有效。系统启动或复位时，所有Cache行均无效；仅当主存块被装入某Cache行后，其有效位才置为1。
地址映射是指将主存地址空间按一定规则映射到Cache地址空间，即决定主存块如何装入Cache。常见的映射方式有三种，包括直接映射、组相联映射和全相联映射。
1.直接映射
主存中的每一块只能装入Cache中的唯一指定位置。若该位置已有内容，则发生块冲突，原块将被无条件替换（无须替换算法）。直接映射实现简单，但灵活性差，即使Cache中其他行空闲，也不能用于存放该主存块，因此块冲突概率最高，空间利用率最低。
考点追踪直接映射的地址结构及映射关系的分析（2010、2011、2015）
直接映射关系可表示为
Cache行号=主存块号mod Cache总行数
设Cache共有2°行，主存共有2⁴块。则主存的第0块、第2°块、第2²⁺¹块…均映射到Cache的第0行；主存的第1块、第2°+1块、第2²⁺¹+1块…均映射到Cache的第1行，以此类推。
112 2027年计算机组成原理考研复习指导
由此可见，主存块号的低c位即为其对应的Cache行号。
为标识来源，每个Cache行设置一个长度为t=m-c的标记。当某主存块调入Cache后，将其块号的高t位存入对应Cache行的标记字段中，如图3.19(a)所示。
m位
第0块
t位
c位
b位
第1块
标记
行号
块内地址
t位
缺失
第0行
标记
数据
相等
不等
第1行
第2°-1块
比较
第2°块
第2°+1块
标记
主存
第2°-1行
标记
Cache
:
标记
主存
命中
读出
第2"-1块
Cache读出
数据总线
主存
(a) Cache和主存之间的映射关系
(b)CPU访存过程
图3.19 Cache和主存之间的直接映射方式
直接映射的地址结构如下
标记	Cache行号	块内地址
CPU访存过程：根据访存地址中间的c位确定Cache行，将该Cache行中的标记与主存地址的高 t位进行比较，若标记相等且有效位为 1，则Cache命中，根据地址低位的块内地址从该Cache行中读取数据；若标记不等或有效位为0，则Cache未命中，CPU需从主存读取该地址所在块，将其装入对应Cache行，置有效位为1，更新标记为地址高t位，并将所需数据送至CPU.
2.全相联映射
主存中的每一块可以装入Cache中的任何位置，如图3.20所示。每行的标记用于指出该行来自主存的哪一块，因此CPU访存时需要与所有Cache行的标记进行比较。优点：①Cache块的冲突概率低，只要有空闲Cache行，就不会发生冲突；②空间利用率高；③命中率高。缺点：①	标记的比较速度较慢；②实现成本较高，通常需采用按内容寻址的相联存储器。
主存
第0块
Cache
第0行
标记
数据
第1块
第1行
第15块
第15行
11位
第2047块
11位
9位
主存地址
标记
块内地址
主存块号
图3.20 Cache和主存之间的全相联映射方式
全相联映射的地址结构如下
标记	块内地址
第3章	存储系统	113
CPU访存过程：首先将主存地址的高位标记（位数=\log_{2}主存块数）与Cache各行的标记进行比较。若有一个相等且对应有效位为1，则Cache命中，此时根据块内地址从该Cache行中取出信息；若都不相等或有效位为0，则Cache未命中，此时CPU从主存中读出该地址所在的一块信息装入Cache的任意一个空闲行，置有效位为1，并设置标记，同时将所需数据送至CPU。
考点追踪	根据地址结构和比较器数量判断映射方式（2018）
通常为每个Cache行都设置一个比较器，比较器的位数等于标记字段长度。访存时根据标记字段的内容访问Cache行中的主存块，因此其查找过程是一种按内容访问的存取方式，属于相联存储器。这种方式的时间开销和硬件开销都较大，不适合大容量Cache。
3.组相联映射
考点追踪	组相联映射的原理（2009、2016、2018~2020、2023）
将Cache划分为Q个大小相等的组，每个主存块只能映射到固定组中的任意一行，即组间采用直接映射，组内采用全相联映射，如图3.21所示。它是直接映射与全相联映射的一种折中方案：当Q=1（整个Cache为一个组）时，退化为全相联映射；当Q=Cache总行数（每组仅1行）时，退化为直接映射。设每组包含r个Cache行，则称为r路组相联映射。
路数r越大，组内可选位置越多，块冲突概率越低，但所需的比较器数量和控制逻辑也越复杂。合理选择r，可在硬件成本接近直接映射的同时，获得接近全相联映射的性能。
考点追踪	组相联映射的地址结构及映射关系的分析（2025）
组相联映射关系可表示为
Cache组号=主存块号modCache组数（Q）
组相联映射的地址结构如下

标记	组号	块内地址

考点追踪	组相联映射的访存过程及Cache缺失处理过程（2020）
CPU访存过程：首先根据访存地址中的组号字段确定目标Cache组；将该组内所有Cache行的标记与主存地址的高位标记并行比较；若某行标记匹配且其有效位为1，则Cache命中，根据块内地址从该行读取数据；若所有行均不匹配或匹配行的有效位为0，则Cache未命中，CPU
114	2027年计算机组成原理考研复习指导
从主存读取该地址所在块，将其装入该组中任意一个空闲行（若无空闲行，则按替换算法选择一行），置有效位为1，写入标记，并将所需数据送至CPU。
考点追踪组相联映射中比较器的个数和位数(2022)
直接映射中每块仅对应一个唯一的Cache行，因此只需设置1个比较器。而r路组相联映射需在同一组的r个Cache行中并行比较，因此需设置r个比较器。
在Cache容量和主存块大小固定的条件下，三种映射方式的特性对比如下：
1)命中率：直接映射最低，全相联映射最高。
2)判断开销与所需时间：直接映射最小、最快，全相联映射最大、最慢。
3)标记存储开销：直接映射最少，全相联映射最多。
3.5.4	Cache中主存块的替换算法①
在采用全相联映射或组相联映射方式时，当向Cache传送一个新主存块而Cache(或Cache组)已满，就需要使用替换算法选择被替换的Cache行。而在直接映射中，每个主存块只能映射到唯一的Cache行，因此当该行已被占用时，新块直接覆盖旧块，无须替换算法。
常用的替换算法包括随机、先进先出、最近最少使用和最不经常使用算法。
1)随机(RAND)算法：随机选择一个Cache行进行替换。实现简单，但未利用程序访问的局部性原理，命中率通常较低。
2)先进先出(FIFO)算法：替换最早装入的Cache行。实现较容易，但未考虑局部性原理，最早进入的块可能仍是当前热点数据，因此命中率不高。
考点追踪组相联映射中LRU算法的命中率分析(2012、2021)
3)最近最少使用(LRU)算法：基于程序访问的局部性原理，优先替换最近最久未被访问的Cache行。其平均命中率通常高于FIFO.LRU算法是考查重点。
考点追踪LRU替换位及其位数的计算(2018、2020)
在硬件实现中，LRU算法为每组Cache维护一组计数器(常称LRU替换位)，用来记录各Cache行的相对访问顺序。LRU位的位数取决于组的路数：2路组相联需1位LRU位，4路组相联需2位LRU位。假定采用4路组相联，5个主存块{1,2,3,4,5}映射到同一Cache组，访问序列为{1,2,3,4,1,2,5,1,2,3,4,5}，LRU替换过程如图3.22所示。图中左边阴影部分的数字表示对应Cache行的LRU计数值(反映最近访问顺序)，右侧数字为主存块号。
图3.22	LRU算法的替换过程示意图
计数器的更新规则：①命中时，所命中行的计数器清零，比其低的计数器加1，其余不变；②未命中且有空闲行时，新装入的行的计数器置0，其他非空闲行全加1；③未命中且无空闲行时，替换计数值最大(本例中为3)的行，新装入的行的计数器置0，其余全加1。
当被频繁访问的主存块数量超过Cache每组的行数时，可能导致持续缺失。例如，若访问序列变为1,2,3,4,5,1,2,3,4,5,…，而Cache每组仅有4行，则每次访问第5个块都会驱逐下一个
①本考点建议结合《操作系统考研复习指导》复习。
第3章存储系统	115
将被访问的块，导致命中率为0，这种现象称为抖动。
4)最不经常使用(LFU)算法：替换一段时间内累计访问次数最少的Cache行。每行设置一个计数器，新行装入时计数器初始化为0，每次访问该行则计数器加1；替换时选择计数值最小的行。LFU与LRU的思想不同：LRU关注最近是否用过，LFU关注总共用了多少次。
3.5.5	Cache的一致性问题
由于Cache中的内容是主存块的副本，当对Cache进行写操作时，必须采用适当的写策略以维持Cache与主存数据的一致性。根据写操作是否命中Cache，可分为两类情况。所谓写命中是指CPU要写入的主存地址所在的块当前已在Cache中；反之则为写不命中。
1. Cache写命中的处理方法
考点追踪	直写法的原理及特点(2015、2020)
(1)全写法(直写法, Write Through)
当CPU对Cache写命中时，数据同时写入Cache和主存。由于主存始终与Cache保持同步，因此在替换Cache块时，可直接覆盖，无须写回。该方法实现简单，能保证主存数据的实时正确性，但缺点是每次写操作都需访问主存，降低了系统性能。
为缓解直写法的性能开销，可在Cache与主存之间增设写缓冲(Write Buffer),如图3.23所示。CPU将数据同时写入Cache和写缓冲，由写缓冲异步地将数据写入主存。写缓冲可缓解CPU与主存之间的速度差异。但在高频率写操作下，写缓冲可能饱和甚至溢出。
考点追踪	回写法的原理及应用(2018、2020)
(2)回写法(Write Back)①
当CPU对Cache写命中时，仅将数据写入Cache，不立即写入主存，仅在该块被替换出Cache时才写回主存。这种方法减少了主存访问次数，提高了Cache效率，但存在数据不一致的风险。为避免不必要的写回操作，每个Cache行设置一个修改位(又称脏位)：若修改位为1，表示该行数据已被修改，替换时必须写回主存；若修改位为0，表示该行数据与主存一致，替换时可直接覆盖。需要注意的是，直写法无须脏位，因为主存始终同步；回写法则必须设置脏位。
2.Cache写不命中的处理方法
(1)写分配法(Write allocate)②
当发生写不命中时，先将数据写入主存的对应单元，然后将该主存块调入Cache的一个空闲行中。该方法利用了程序的空间局部性，但每次写不命中都要将主存块加载到Cache中。
(2)非写分配法(Not-Write-allocate)
当发生写不命中时，直接将数据写入主存，不将主存块调入Cache。
3.5.6	Cache容量的计算举例
在计算Cache总容量时，需考虑Cache行的数据部分和每行的标记信息，即Cache总容量=(每行标记位数+每行数据位数)×Cache总行数
①大多数教材将其翻译为写回法，但2015年和2021年统考真题都采用回写法，所以本书采用该名称。
②不同参考书的解释不同，《深入理解计算机系统》中的解释是“先把该主存块调入Cache，再在Cache中更新”。
116	2027年计算机组成原理考研复习指导
考点追踪 Cache标记信息的分析(2015、2021)
每行的标记信息通常包括：有效位、标记位、脏位和LRU替换位。其中，有效位和标记位是所有Cache必须包含的；脏位仅在采用回写策略时存在；LRU替换位仅在使用LRU算法时存在，其位数取决于组内行数。图3.24展示了不同映射方式下Cache各字段的组成与分布。
1位1位log₂（组内块数）
有效位	脏位	LRU位	标记位	Cache块数据	一行Cache的容量
直接映射	标记位	Cache行号	块内地址
全相联映射	标记位	块内地址
组相联映射	标记位	组号	块内地址
图3.24 不同映射方式下Cache各字段的组成与分布
考点追踪标记位分析及总容量的计算(2010、2021)
【例3.3】假设某计算机的主存地址空间大小为256MB，按字节编址，其数据Cache有8个Cache行，行长为64B。请回答：
1)若不考虑脏位和替换算法控制位，并采用直接映射方式，求该数据Cache的总容量？
2)若采用直接映射方式，主存地址为3200(十进制)的主存块对应的Cache行号是多少？若采用2路组相联映射，对应的Cache组号及可能的行号是多少？
3)以直接映射方式为例，简述访存过程(设访存地址为0123456H)。
解：
1)Cache总容量=数据信息容量+标记信息容量(包括有效位和标记位)。本题不考虑脏位和替换算法控制位。主存地址位数为28位(主存地址空间为256MB=2²⁸B)；块内地址位数为6位(行长64B=2⁶B); Cache行号为3位(Cache行数8=2³)。标记信息位数=28-6-3=19位。每行含1位有效位+19位标记位=20位标记信息。每行数据部分为64B=512位。因此,Cache总容量为8×(512+1+19)=4256位。
2)主存地址3200对应的块号为3200B/64B=50。在直接映射方式中，Cache有8行，行号=50mod8=2,故对应的Cache行号为2。
在组相联映射方式中，组内采用全相联映射，组外采用直接映射，组号=50mod4=2,即该块可映射到第2组中的任意一行，对应的Cache行号为4或5。
3)在直接映射方式中，28位主存地址可分为19位的标记位，3位的块号，6位的块内地址，即0000000100100011010为标记位，001为块号，010110为块内地址。
访存过程：根据行号010访问Cache第2行，比较其标记与地址高19位，并检查有效位：若匹配且有效位为1，则命中，按块内地址010110读取数据并送至CPU；否则未命中，从主存读取该块，写入Cache第2行，更新标记为地址高19位，并置有效位为1。
思考：若1)问中采用2路组相联映射方式，则Cache总容量是多少？结合主存与Cache的划分关系，推导2路组相联映射下的主存地址结构，并简述其访存过程。
3.5.7 Cache的应用
(1)分离Cache
考点追踪采用分离的指令与数据Cache的目的(2014)
随着指令流水技术的发展，现代处理器通常将指令Cache和数据Cache分开设计，形成分离
第3章存储系统
的Cache结构。统一Cache的优点在于其设计和实现相对简单，但在流水线执行中，取指部件和执行部件同时访问同一Cache时容易产生冲突。通过采用分离Cache结构，不仅可以消除这类冲突，还能针对指令和数据的不同局部性特征进行优化，从而提升整体性能。
(2)多级Cache
现代计算机普遍采用多级Cache结构。以两级为例，按距离CPU的远近分别称为L1 Cache和L2 Cache：L1离CPU最近，速度最快、容量较小；L2则较远，速度较慢、容量较大。通常情况下，L1级会采用分离的指令Cache和数据Cache设计，其中L1数据Cache在写操作中采用写分配法（写不命中时加载块）与回写法（写命中时不立即写主存）相结合的策略。图3.25展示了一个典型的两级Cache系统。通常，L1和L2 Cache均采用回写法，当L1发生写命中时，仅更新L1；当L1块被替换时，若为脏块，则写回L2；L2同理，在替换时写回主存。由于L2 Cache的访问速度远高于主存，L1无须在写命中时访问主存，仅更新本地Cache即可快速完成写操作；后续的脏块写回由L2高效承接，从而有效避免因频繁写操作导致的写缓冲饱和或溢出问题。
CPU L1 Cache L2 Cache DRAM
Write Buffer
图3.25一个含有两级Cache的系统
3.5.8本节习题精选
一、单项选择题
01.在高速缓存系统中，主存容量为12MB，Cache容量为400KB，则该存储系统的容量为（	）。
A. 12MB+400KB	B. 12MB
C. 12MB-12MB+400KB	D. 12MB-400KB
02.访问Cache系统失效时，通常不仅主存向CPU传送信息，同时还需要将信息写入Cache，在此过程中传送和写入信息的数据宽度各为（	）。
A.块、页	B.字、字
C.字、块	D.块、块
03.假定用作Cache的SRAM的存取时间为2ns，用作主存的SDRAM的存取时间为40ns。为使存储系统的平均存取时间达到3ns，则Cache命中率应达到（	）左右。
A. 92.5%	B. 85%	C. 97.5%	D. 99.9%
04.关于Cache的更新策略，下列说法中正确的是（	）。
A.读操作时，全写法和回写法在命中时应用
B.写操作时，回写法和写分配法在命中时应用
C.读操作时，全写法和写分配法在失效时应用
D.写操作时，写分配法、非写分配法在失效时应用
05.在不同的情况下，需要采用适合的Cache写策略。对于下面两种情况：①主要运行访问密集型应用，其中包含写操作；②安全性要求很高，不允许有任何数据不一致的情况发生。适合它们的写策略分别是（	）。
A.回写法，全写法	B.全写法，回写法
C.回写法，回写法	D.全写法，全写法
06.局部性通常有两种不同的形式：时间局部性和空间局部性。程序员是否能编写出高速缓
118	2027年计算机组成原理考研复习指导
存友好的代码，就取决于这两方面的问题。对于下面这个函数，说法正确的是（	）。
int sumvec(int v[N]){
int i,sum=0;
for(i=0;i<N;i++)
sum+=v[i];
return sum;
}
A.对于变量i和sum，循环体具有良好的空间局部性
B.对于变量i、sum和v[N]，循环体具有良好的空间局部性
C.对于变量i和sum，循环体具有良好的时间局部性
D.对于变量i、sum和v[N]，循环体具有良好的时间局部性
07.对于下列代码，以下哪种变化将使其具有更好的空间局部性（	）。
①int i,j,k,sum=0;
②for(i=0;i<N;i++)
③for(j=0;j<n;j++)
④for(k=0;k<n;k++)
⑤sum+=a[k][j][i];
A.将第2行与第3行互换	B.将第2行与第4行互换
C.将第5行改为sum+=a[i][k][j];	D.将第5行改为sum+=a[j][i][k];
08.下列关于高速缓存Cache的描述中，正确的是（	）。
A.Cache的功能全部由硬件实现
B.Cache替换时的单位为字
C.Cache与主存统一编址，即主存地址空间的某一部分属于Cache
D.无论何时，Cache中的信息一定与主存中的信息一致
09.下列关于Cache的描述中，比较合理的是（	）。
I.指令Cache通常比数据Cache具有更好的空间局部性
II.由于空间局部性，适当增加Cache块大小通常会提高命中率
III.回写法的写主存操作次数少于直写法
A.Ⅲ	B.Ⅰ和Ⅱ	C.Ⅱ和Ⅲ	D.Ⅰ和Ⅱ和Ⅲ
10.假设Cache采用2路组相联映射方式，Cache共有4行（分为2组，每组2行），Cache每行可存放一个主存块。组内采用LRU算法进行替换。给定主存块访问序列为
1,8,1,7,8,2,7,2,1,8,3,8,2,1,3,1,7,1,3,7
若Cache初始为空，则该访问序列的Cache缺失率为（	）。
A.30%	B.50%	C.40%	D.45%
11.已知某程序运行期间，L1 Cache的命中率为94%，而L2 Cache的局部命中率（在L1不命中情况下的命中率）为85%。请问该存储系统的全局命中率（CPU的访存请求最终在L1或L2中得到满足的比例）是多少？
A.97.9%	B.98.5%	C.99.1%	D.99.4%
12.假设一个Cache中共有M块，每K块组成一个组，则下列描述中正确的是（	）。
A.若K=1,则该Cache是直接映射Cache
B.若K=1,则该Cache是全相联映射Cache
C.若K=M,则该Cache是直接映射Cache
D.若K>1且K<M,则该Cache是M/K路组相联映射Cache
13.在Cache中，常用的替换策略有随机(RAND)算法、先进先出(FIFO)算法、近期最少使用(LRU)算法，其中与局部性原理有关的是（	）。
第3章存储系统
A.随机(RAND)算法	B.先进先出(FIFO)算法
C.近期最少使用(LRU)算法	D.都不是
14.某存储系统中，主存容量是Cache容量的4096倍，Cache被分为64个块，采用直接映射方式、随机替换算法和全写法，则标记阵列(所有标记信息)的大小应为()。
A.6×4097bit	B.64×12bit	C.6×4096bit	D.64×13bit
15.有效容量为128KB的Cache,每块16B,采用8路组相联。字节地址为1234567H的单元调入该Cache,则其标记位字段应为()。
A.1234H	B.2468H	C.048DH	D.12345H
16.某个主存-Cache层的存储器，按字节编址，主存容量为1MB，Cache容量为16KB，每块有8个字，每字32位，采用直接映射方式，Cache起始字块为第0块，若主存地址为35301H,且CPU访问Cache命中,则在Cache的第()(十进制表示)字块中。
A.152	B.153	C.154	D.151
17.对于由高速缓存、主存、硬盘构成的三级存储系统，CPU直接根据()进行访问。
A.高速缓存地址	B.虚拟地址	C.主存物理地址	D.磁盘地址
18.设有8页的逻辑空间，每页有1024B，它们被映射到32个物理块中，则按字节编址逻辑地址的有效位是()，物理地址至少是()位。
A.10,12	B.10,15	C.13,15	D.13,12
19.对于n路组相联映射Cache，在保持n及主存和Cache总容量不变的前提下，将主存块大小和Cache块大小都增加一倍，则下列描述中正确的是()。
A.字块内地址的位数增加1位，主存标记字段的位数增加1位
B.字块内地址的位数增加1位，主存标记字段的位数不变
C.字块内地址的位数减少1位，主存标记字段的位数增加1位
D.字块内地址的位数增加1倍，主存标记字段的位数减少一半
20.某计算机的Cache有16行，块大小为16B，其映射方式可配置为直接映射或2路组相联映射，主存按字节编址，主存单元从0开始编号。若依次访问下列主存单元，则不论采取上述哪种映射方式都可能引起Cache冲突的是()。
A.52号和102号单元	B.48号和308号单元
C.60号和160号单元	D.46号和236号单元
21.假设主存地址位数为32位，按字节编址，主存和Cache之间采用全相联映射方式，主存块大小为1个字，每字32位，采用回写法(Write Back)方式和随机替换策略，则能存放32K字数据的Cache的总容量至少应有()位。
A.1536K	B.1568K	C.2016K	D.2048K
22.假设主存按字节编址，Cache共有64行，采用4路组相联映射方式，主存块大小为32字节，所有编号都从0开始。则第2593号存储单元所在主存块的Cache组号是()。
A.1	B.15	C.14	D.4
23.假定CPU通过存储器总线读取数据的过程为：发送地址和读命令需1个时钟周期，存储器准备一个数据需8个时钟周期，总线上每传送1个数据需1个时钟周期。若主存和Cache之间交换的主存块大小为64B，存取宽度和总线宽度都为8B，则Cache的一次缺失损失至少为()个时钟周期。
A.64	B.72	C.80	D.160
24.假定8个存储器模块采用交叉方式组织，存储芯片和总线支持突发传送，CPU通过存储器总线读取数据的过程为：发送首地址和读命令需1个时钟周期，存储器准备第一个数
120	2027年计算机组成原理考研复习指导
据需8个时钟周期，随后每个时钟周期总线上传送1个数据，可连续传送8个数据（突发长度为8）。若主存和Cache之间交换的主存块大小为64B，存取宽度和总线宽度都为8B，则Cache的一次缺失损失至少为（	）个时钟周期。
A. 17	B. 20	C. 33	D. 80
25. 下列关于Cache替换算法的叙述中，错误的是（	）。
A. 组相联映射和全相联映射都必须考虑如何进行替换
B. 先进先出算法无须对每个Cache行记录替换信息
C. 直接映射是多对一的映射，无须考虑替换问题
D. LRU算法需要对每个Cache行记录替换信息
26. 下列关于Cache大小、主存块大小和Cache缺失率之间关系的叙述中，错误的是（	）。
A. 主存块大小和Cache容量无直接关系
B. Cache容量越大，Cache缺失率越低
C. 主存块大小通常为几十到上百字节
D. 主存块越大，Cache缺失率越低
27. 若计算机按字编址，Cache数据区容量为8K字，主存块大小为512字，主存地址空间为1M字，采用2路组相联映射方式。每次根据主存地址访问Cache时，需要同时进行（	）次标记位的比较，每次需要比较的位数是（	）。
A. 2,8	B. 2,16	C. 4,8	D. 4,16
28. 【2009统考真题】假设某计算机的存储系统由Cache和主存组成，某程序执行过程中访存1000次，其中访问Cache缺失（未命中）50次，则Cache的命中率是（	）。
A. 5%	B. 9.5%	C. 50%	D. 95%
29. 【2009统考真题】某计算机的Cache共有16块，采用2路组相联映射方式（每组2块）。每个主存块大小为32B，按字节编址，主存129号单元所在主存块应装入的Cache组号是（	）。
A. 0	B. 2	C. 4	D. 6
30. 【2012统考真题】假设某计算机按字编址，Cache有4行，Cache和主存之间交换的块大小为1个字。若Cache的内容初始为空，采用2路组相联映射方式和LRU算法，则访问的主存地址依次为0,4,8,2,0,6,8,6,4,8时，命中Cache的次数是（	）。【提示，本题的映射方式与本书所讲的映射方式不同，具体见解析部分的“注意”】
A. 1	B. 2	C. 3	D. 4
31. 【2015统考真题】假定主存地址为32位，按字节编址，主存和Cache之间采用直接映射方式，主存块大小为4个字，每字32位，采用回写方式，则能存放4K字数据的Cache的总容量的位数至少是（	）。
A. 146K	B. 147K	C. 148K	D. 158K
32. 【2016统考真题】有如下C语言程序段：
for(k=0; k<1000; k++)
a[k]=a[k]+32;
若数组a和变量k均为int型，int型数据占4B，数据Cache采用直接映射方式，数据区大小为1KB、块大小为16B，该程序段执行前Cache为空，则该程序段执行过程中访问数组a的Cache缺失率约为（	）。
A. 1.25%	B. 2.5%	C. 12.5%	D. 25%
33. 【2017统考真题】某C语言程序段如下：
第3章存储系统 121
for(i=0;i<=9;i++){
temp=1;
for(j=0;j<=i;j++)temp*=a[j];
sum += temp;
}
下列关于数组a的访问局部性的描述中，正确的是（	）。
A.时间局部性和空间局部性皆有	B.无时间局部性，有空间局部性
C.有时间局部性，无空间局部性	D.时间局部性和空间局部性皆无
34.【2021统考真题】若计算机主存地址为32位，按字节编址，Cache数据区大小为32KB，主存块大小为32B，采用直接映射方式和回写法(Write Back)，则Cache行的位数至少是（	）。
A.275	B.274	C.258	D.257
35.【2022统考真题】若计算机主存地址为32位，按字节编址，某Cache的数据区容量为32KB，主存块大小为64B，采用8路组相联映射方式，该Cache中比较器的个数和位数分别为（	）。
A.8,20	B.8,23	C.64,20	D.64,23
二、综合应用题
01.某计算机的主存地址位数为32位，按字节编址。假定数据Cache中最多存放128个主存块，采用4路组相联映射方式，块大小为64B，每块设置了1位有效位。采用随机替换算法，写磁盘采用回写法，为此每块设置了1位脏位。要求：
1)分别指出主存地址中标记(Tag)、组号(Index)和块内地址(Offset)三部分的位置与位数。
2)计算该数据Cache的总位数。
02.某个Cache的容量大小为64KB，行长为128B，且是4路组相联Cache，主存使用32位地址，按字节编址。
1)该Cache共有多少行？多少组？
2)该Cache的标记阵列中需要有多少标记项？每个标记项中标记位长度是多少？
3)该Cache采用LRU算法，若当该Cache为全写法Cache时，标记阵列总共需要多大的存储容量？回写法又该如何？(提示：4路组相联Cache使用LRU算法的替换控制位为2位。)
03.某计算机有容量为256B的数据Cache，主存块大小为32B。现有如下C语言程序段：
int i,j,c,s,a[128];
…
for(i=0;i<10000;i++)
for(j=0;j<128;j+=s)
c=a[j];
int型数据用32位补码表示，编译器将变量i.j.c.s都分配在通用寄存器中，因此，只需考虑数组元素的访存情况，假定数组起始地址正好在一个主存块的开始。请回答：
1)若Cache采用直接映射方式，则当s=64和s=63时，缺失率分别为多少？
2)若Cache采用2路组相联映射方式，则当s=64和s=63时，缺失率分别为多少？
04.【2010统考真题】某计算机的主存地址空间大小为256MB，按字节编址。指令Cache和数据Cache分离，均有8个Cache行，每个Cache行大小为64B，数据Cache采用直接映射方式。现有两个功能相同的程序A和B，其伪代码如下所示：
程序A：程序B：
int a[256][256];
int a[256][256];
…
…
122	2027年计算机组成原理考研复习指导
int sum array 1()
{
int i, j, sum=0;
for(i=0; i<256; i++)
for(j=0; j<256; j++)
sum+= a[i][j];
return sum;
}
int sum array2()
{
int i, j, sum=0;
for(j=0; j<256; j++)
for(i=0; i<256; i++)
sum+= a[i][j];
return sum;
}
假定int型数据用32位补码表示，程序编译时，i、j和sum均分配在寄存器中，数组a按行优先方式存放，其首地址为320（十进制数）。请回答下列问题，要求说明理由或给出计算过程。
1)不考虑用于Cache一致性维护和替换算法的控制位，数据Cache的总容量为多少？
2)数组元素a[0][31]和a[1][1]各自所在的主存块对应的Cache行号是多少（Cache行号从0开始）？
3)程序A和B的数据访问命中率各是多少？哪个程序的执行时间更短？
05.【2013统考真题】某32位计算机，CPU主频为800MHz，Cache命中时的CPI为4，Cache块大小为32B；主存采用8体交叉存储方式，每个体的存储字长为32位、存取周期为40ns；存储器总线宽度为32位，总线时钟频率为200MHz，支持突发传送总线事务。每次读突发传送总线事务的过程包括：传送首地址和命令、存储器准备数据、传送数据。每次突发传送32B，传送地址或32位数据均需要一个总线时钟周期。请回答下列问题，要求给出理由或计算过程。
1)CPU和总线的时钟周期各为多少？总线的带宽（最大数据传输速率）为多少？
2)Cache缺失时，需要用几个读突发传送总线事务来完成一个主存块的读取？
3)存储器总线完成一次读突发传送总线事务所需的时间是多少？
4)若程序BP执行过程中共执行了100条指令，平均每条指令需进行1.2次访存，Cache缺失率为5%，不考虑替换等开销，则BP的CPU执行时间是多少？
06.【2020统考真题】假定主存地址为32位，按字节编址，指令Cache和数据Cache与主存之间均采用8路组相联映射方式，直写法(Write Through)和LRU算法，主存块大小为64B，数据区容量各为32KB。开始时Cache均为空。请回答下列问题。
1)Cache每一行中标记、LRU位各占几位？是否有修改位？
2)有如下C语言程序段：
for (k=0; k<1024; k++)
s[k]=2*s[k];
若数组s及其变量k均为int型，int型数据占4B，变量k分配在寄存器中，数组s在主存中的起始地址为008000C0H，则在该程序段执行过程中，访问数组s的数据Cache缺失次数为多少？
3)若CPU最先开始的访问操作是读取主存单元00010003H中的指令，简要说明从Cache中访问该指令的过程，包括Cache缺失处理过程。
3.5.9答案与解析
一、单项选择题
01.B
选项A为干扰项。各层次的存储系统不是孤立工作的，三级结构的存储系统是围绕主存储器来组织、管理和调度的存储器系统，它们既是一个整体，又要遵循系统运行的原理，其中包括包
第3章存储系统
含性原则。因为Cache中存放的是主存中某一部分信息的副本，所以不能认为总容量为两个层次容量的简单相加。
02. C
一个块通常由若干字组成，CPU与Cache(或主存)间信息交互的单位是字，而Cache与主存间信息交互的单位是块。当CPU访问的某个字不在Cache中时，将该字所在的主存块调入Cache,这样CPU下次要访问的字才有可能在Cache中。
03. C
Cache命中时的存取时间为2ns; Cache不命中时先访问Cache,再访问主存，总存取时间为42ns。设Cache命中率为x,则平均存取时间为2x+42(1-x)=3,解得x=97.5%。
04. D
在写不命中时，加载相应的低一层中的块到Cache中，然后更新这个高速缓存块，称为写分配法；而避开Cache，直接把这个字写到主存中，则称为非写分配法。这两种方法都是在不命中Cache的情况下使用的，而回写法和全写法是在命中Cache的情况下使用的。在写Cache时，写分配法和回写法搭配使用，非写分配法和全写法搭配使用。
05. A
写操作比较密集，采用回写法速度快，更适合访问密集型的应用。全写法每次均写入主存和Cache，能够随时保持主存数据的一致性，适合安全性要求很高的应用。
06. C
时间局部性是指一个内存位置被重复引用，循环体中的变量i和sum具有良好的时间局部性。空间局部性是指若一个内存位置被引用，则它附近的位置很快也会被引用，因为指令通常是顺序存放、顺序执行的，数据一般也是以向量、数组等形式存储的，v[N]具有良好的空间局部性。
07. B
空间局部性是指程序在一段时间内所访问的存储空间的集中度。为了提高空间局部性，应尽量按照数组在内存中的存储顺序依次访问数组元素。根据C语言的规定，数组a在内存中是按最右下标变化最快的方式存储的，即a[0][0][0],a[0][0][1],…,a[0][0][n-1],a[0][1][0],…,a[0][n-1][n-1],a[1][0][0],…,a[n-1][n-1][n-1]。因此，若将代码的第2行与第4行互换，则可使得对数组a的访问变成顺序访问，从而提高其空间局部性。
08. A
Cache的功能完全由硬件实现，选项A正确。Cache替换时的单位是块，而不是字或字节，因为Cache和主存是以块为单位进行数据交换的。Cache地址空间和主存地址空间相互独立，通过地址映射把主存地址空间映射到Cache地址空间。Cache中的信息不一定与主存中的信息一致，因为Cache可能采用回写策略，只有当被修改的块被换出时才写回主存。
09. D
指令Cache通常比数据Cache具有更好的空间局部性，这是因为指令流通常是顺序执行的，而数据流转移或随机访问的概率较高，说法Ⅰ正确。因为空间局部性，同一主存块中的数据的访问概率较高，所以增加Cache块大小会提高命中率，说法Ⅱ正确。写回法只有在被修改的块被换出时才写回主存，而直写法每次写操作都会同时写回主存，说法Ⅲ正确。
10. C
Cache为2路组相联，组号=块号mod2,组内采用LRU算法。对20次主存块访问序列模拟，缺失发生在第1、2、4、6、11、17、19、20次，共8次。缺失率=8/20=40%。
11. C
L1命中率为94%,故L1未命中率为6%。L2在L1未命中时的局部命中率为85%,因此L2命
124	2027年计算机组成原理考研复习指导
中的比例为6%×85%=5.1%。全局命中率=L1命中率+L2命中比例=94%+5.1%=99.1%。
12. A
当K=1时，每组仅含1块，主存块只能映射到唯一Cache位置，属于直接映射，选项A正确，选项B错误。当K=M时所有块组成一组，即全相联映射，选项C错误。若Cache共M块、每组K块，则组数为M/K，应称为K路组相联，而非“M/K路”，故选项D错误。
13. C
LRU算法根据程序访问局部性原理选择近期使用得最少的存储块作为替换的块。
14. D
Cache采用随机替换算法和全写法，因此无须脏位和替换算法控制位，每行仅需标记字段和1位有效位。Cache共64块，直接映射下每块对应一组，故有64个标记项。主存容量是Cache容量的4096倍，即2¹²倍，说明主存地址比Cache地址多12位，这12位即为标记字段长度。因此每个标记项含12位标记+1位有效位=13位，标记阵列总大小为64×13bit。
15. C
块大小为16B，所以块内地址字段为4位；Cache容量为128KB，采用8路组相联，共有128KB÷(16B×8)=1024组，组号字段为10位；剩下的为标记字段。1234567H转换为二进制数0001001000110100010101100111，标记字段对应高14位，即048DH。
16. A
先写出主存地址的二进制形式，然后分析Cache块内地址、Cache字块地址和主存字块标记。主存地址的二进制数00110101001100000001，根据直接映射的地址结构，字块内地址为低5位(每个字块32B，2⁵=32，因此为5位)，主存字块标记为高6位(1MB/16KB=64，2⁶=64，因此为6位)，其余010011000即为Cache字块地址，转换为十进制数152。
17. C
当CPU访存时，先要到Cache中查看该主存地址是否在Cache中，所以发送的是主存物理地址。只有在虚拟存储器中，CPU发出的才是虚拟地址，这里并未指出是虚拟存储系统。磁盘地址是外存地址，外存中的程序由操作系统调入主存中，然后在主存中执行，因此CPU不可能直接访问磁盘。
18. C
对于逻辑地址，因为8=2³页，所以表示页号的地址有3位，又因为每页有1024=2¹⁰B，所以页内地址有10位，因此逻辑地址共13位。
对于物理地址，块内地址和页内地址一样有10位，内存至少有32=2⁵个物理块，所以表示块号的地址至少有5位，因此物理地址至少有15位。
19. B
组相联映射的主存地址结构为：标记+Cache组号+块内地址。Cache块大小增加一倍，则字块内地址的位数增加1位。Cache组数=(Cache总容量/Cache块大小)/n，所以Cache组数减少一半；Cache组号=主存块号MOD Cache组数，所以Cache组号也减少1位。主存总容量不变，则主存地址总长度不变，字块内地址和Cache组号一个增1位，一个减1位，因此标记字段的位数不变。
20. B
块大小为16B=2⁴B，所以块内地址占4位。若采用直接映射方式，Cache共16行，主存地址的第5~8位为Cache行号，Cache行号=主存块号%Cache总行数=(主存地址/16)%16，选项B的地址48和308的Cache行号均为3，产生冲突。若采用2路组相联映射方式，共有16/2=
第3章存储系统 125
8组，主存地址中块内地址的前3位为Cache组号，Cache组号=主存块号%Cache组数=(主存地址/16)%8,选项B的地址48和308的Cache组号均为3,可能产生冲突。
21. D
主存块大小为1个字，即32位，按字节编址，所以块内地址占2位。在全相联映射方式下，主存地址只有两个字段，所以标志占32-2=30位。因为采用回写法，所以需1位修改位；因为采用随机替换算法，所以无须替换控制位。每个Cache行的总位数为32bit(数据位)+30bit(标记位)+1bit(修改位)+1bit(有效位)=64bit。综上，Cache总容量至少应有32K×64bit=2048Kbit。
22. A
主存块大小为32字节，按字节编址，所以块内地址占5位。采用4路组相联映射方式，共64行，分64/4=16组，所以组号占4位。因为2593=0…0101000100001,根据主存地址划分的结果，可以看出第2593号存储单元所在主存块的Cache组号为0001。
23. C
一次缺失损失需要从主存读出一个主存块(64B)，每个总线事务读取8B，因此需要8个总线事务。每个总线事务所用的时间为1+8+1=10个时钟周期，共需要80个时钟周期。
24. A
一次缺失损失需要从主存读出一个主存块(64B)，每个突发传送总线事务可读取8B×8=64B,因此只需要一个突发传送总线事务。首先，发送首地址和读命令需要一个时钟周期，然后轮流启动每个存储器模块，每隔一个时钟周期启动一个存储器模块，采用流水线工作方式，所以每个突发传送总线事务所用的时间为1+8+8=17个时钟周期，因此共需17个时钟周期。
25. B
对于直接映射，主存中的每一块只能装入Cache中的唯一位置，若产生块冲突，原来的块将被无条件换出，因此无须考虑替换问题，而组相联映射和全相联映射都需要考虑替换问题。先进先出算法需要对每个Cache行打一个时间戳，记录何时装入了一个新主存块。
26. D
主存块太小，不能很好地利用空间局部性，从而导致缺失率变高；但主存块太大也会使得Cache行数变少，即Cache中可以存放主存块的位置变少，从而也会降低命中率。因此，主存块大小应该适中，既不能太大，又不能太小，通常为几十字节到上百字节。
27. A
Cache中比较器的个数取决于Cache的关联度(这个名词不常见，了解即可)，即一个主存块可能映射到Cache中的几个行。在2路组相联映射方式中，关联度是2，因此Cache中有2个比较器，每次根据主存地址访问Cache时，需要同时进行2次比较。比较器的作用是比较主存地址中的标记字段和Cache中的标记位，因此比较器的位数取决于主存地址中标记位占多少位。主存地址空间是1M字，主存地址的位数是20，其中块内地址占9位，Cache共有8K/1K=8组，组号占3位，因此标记位的位数是20-9-3=8，即每次需要比较的位数是8。
28. D
命中率=Cache命中次数/总访问次数。注意看清题目，题中说明的是缺失50次，而不是命中50次，仔细审题是做对题的第一步。
29. C
因为Cache共有16块，采用2路组相联映射方式，共分为8组，组号为0,1,2,…,7,组号占3位。主存块大小为32B，按字节编址，块内地址占5位。主存单元地址129=0…01000001,后5位是块内地址，块内地址的前3位是组号，所以将映射到组号4的任意一个Cache块中。
126 2027年计算机组成原理考研复习指导
30. C
地址映射采用2路组相联，主存字地址为0~1、4~5、8~9可映射到第0组Cache 中，主存地址为2~3、6~7可映射到第1组Cache中。Cache置换过程如下表所示。
走向	0	4	8	2	0	6	8	6	4	8
第0组	块0	0	4	4	8	8	0	0	8	4
块1	0	4	8	8	0	0	8*	8	4	8*
第1组	块2	2	2	2	2	2
块3	2	2	6	6	6*	6	6
注：“”表示当前访问块，“*”表示本次访问命中。
注	意
在不同的计算机组成原理教材中，关于组相联映射的介绍并不相同。通常是采用上题中的方式，也是本书及唐朔飞所编教材中的方式，但本题中采用的是蒋本珊所编教材中的方式。可以推断两次命题的老师应该不是同一老师，这也给考生答题带来了困扰。
31. C
直接映射的地址结构为
主存字块标记	Cache字块标记	字块内地址
按字节编址，块大小为4×32位= 1 6 B = 2^{4}B ，则“字块内地址”占4位；“能存放4K字数据的Cache”即Cache的存储容量为4K字（注意单位），则Cache共有1K =2¹⁰个Cache行，Cache字块标记占10位；主存字块标记占32–10–4=18位。
Cache总容量包括：存储容量和标记阵列容量（有效位、标记位、脏位和替换算法控制位）。标记阵列中的有效位和标记位一定存在，而脏位和替换算法控制位的取舍需要看题意，题目中明确说明了采用回写法，则一定包含一致性维护位，而关于替换算法的词眼题目中未提及，所以不予考虑。因此，每个Cache行标记项包含18+1+1=20位，标记阵列容量为2^{1 0} × 2 0位 =20K位，存储容量为4K×32位 =128K位，总容量为128K+20K=148K位。
32. C
分析语句“a[k]=a[k]+32”：首先读取a[k]需要访问一次a[k],之后将结果赋值给a[k]需要访问一次，共访问两次。第一次访问a[k]未命中，并将该字所在的主存块调入Cache对应的块中，对该主存块中的4个整数的两次访问中，只在访问第一次的第一个元素时发生缺失，其他的7次访问中全部命中，因此该程序段执行过程中访问数组a的Cache缺失率约为12.5%.
33. A
时间局部性是指最近的未来要用到的信息，很可能是现在正在使用的信息，本题的外层循环每次都会访问一次数组 a，体现了时间局部性。空间局部性是指最近的未来要用到的信息，很可能与现在正在使用的信息在存储空间上是邻近的，本题在访问数组a的过程中是顺序访问的，体现了空间局部性。
34. A
Cache数据区大小为32KB,主存块的大小为32B,于是Cache中共有1K个Cache行，物理地址中偏移量部分的长度为5bit。因为采用直接映射方式，所以1K个Cache行映射到1K个分组，物理地址中组号部分的长度为10bit.32bit的主存地址除去5bit的偏移量和10bit的组号后，还剩17bit的标记部分。又因为Cache采用回写法，所以Cache行的总位数应为32B（数据位）+17bit（标记位）+1bit（脏位）+1bit（有效位）=275bit.
第3章存储系统
35. A
Cache采用组相联映射，主存地址结构应分为标记、组号、块内地址三部分。主存块大小=Cache块大小=64B=2⁶B,因此块内地址占6位。Cache数据区容量为32KB,每个Cache块大小为64B,则Cache总块数=32KB/64B=2⁹,因为采用8路组相联映射，即每8个Cache块为一个分组，所以共被分为2⁹/8=2⁶组，因此，组号占6位。除了块内地址和组号，剩余的位为标记位，占32-6-6=20位。地址结构如下所示。
标记	组号	块内地址
20位	6位	6位
Cache采用8路组相联映射，因此在访问一个物理地址时，要先根据组号定位到某一分组，然后用物理地址的高20位（标记）与分组中8个Cache行的标记做并行比较（用8个20位“比较器”实现），若某个Cache行的标记与物理地址的高20位完全一致，则选中该Cache行。综上所述，在组相联映射的Cache中，“比较器”用于并行地比较分组中所有Cache行的标记位与要访问物理地址的标记位，因此比较器的个数就是分组中的Cache行数8，比较器的位数就是标记位数20。
二、综合应用题
01.【解答】
块大小为64B，因此块内地址字段占6位；Cache中有128个主存块，采用4路组相联，所以Cache分为32组（128/4=32），因此组号字段占5位；标记字段为剩余的32-5-6=21位。
数据Cache的总位数应包括标记项的总位数和数据块的位数。每个Cache块对应一个标记项，标记项中应包括标记字段、有效位和“脏”位（仅适用于回写法）。
1)主存地址中标记为21位，位于主存地址前部；Index为5位，位于主存地址中部；Offset为6位，位于主存地址后部。
2)标记项的总位数=128×(21+1+1)=128×23=2944位，数据块位数=128×64×8=65536位，所以数据Cache的总位数=2944+65536=68480位。
02.【解答】
1)64KB/128B=512,因此有512行。而该Cache是4路组相联，所以512/4=128组。
2)每行有一个标记项，因此有512个标记项。主存字块标记长度就是标记位的长度，因为该Cache有128组(=2⁷),所以7位为组地址。而行长128B(=2⁷),7位为字块内地址，因此该标记项中的标记位长度为32-7-7=18位。
3)LRU算法要记录每个Cache行的生存时间，故每个标记项有两位替换控制位。而全写法没有脏位（一致性控制位），再加一个有效位即可。因此每个标记项位数是18+2+1=21位，因此总大小为512×21=10752位。
回写法则是每个标记项加一个一致性控制位，因此为512×22=11264位。
03.【解答】
块大小为32B，数组起始地址正好是一个主存块的开始，因此每8个数组元素占一个主存块；Cache共有256B/32B=8行，采用2路组相联映射方式时，Cache有4组。下面分析两种情况。
1)直接映射。当s=64时：访存顺序为a[0]，a[64]，a[0]，a[64]，…；循环10000次。因为a[0]所在主存块和a[64]所在主存块正好相差8个主存块，在直接映射方式下，除以8同余，这两个主存块会映射到同一个Cache行，每次都会发生冲突，缺失率为100%。当s=63时：访存顺序为a[0]，a[63]，a[126]；a[0]，a[63]，a[126]，…；循环10000次。因为a[63]所在主存块和a[126]所在主存块正好相差8个主存块，在直接映射方式下，这两个主存块会映射到同一个Cache行，每次都会发生冲突，而a[0]不会发生冲突，缺失率约为67%。
128	2027年计算机组成原理考研复习指导
2）2路组相联映射。当s=64时：访存顺序为a[0],a[64];a[0],a[64],…;循环10000次。因为a[0]所在主存块和a[64]所在主存块正好相差8个主存块，在2路组相联映射方式下，除以4同余，这两个主存块会映射到同一组，可放在同一组的不同Cache行中，不会发生冲突，总缺失次数仅为2次，缺失率近似为0。当s=63时：访存顺序为a[0],a[63],a[126];a[0],a[63],a[126],…；循环10000次。因为a[63]所在主存块和a[126]所在主存块正好相差8个主存块，这两个主存块会映射到同一组，可放在同一组的不同Cache行中，而a[0]不会发生冲突，总缺失次数仅为3次，缺失率近似为0。
04.【解答】
1）每个Cache行对应一个标记项，如下图所示。

有效位	脏位	替换控制位	标记位

不考虑用于Cache一致性维护和替换算法的控制位。地址总长度为28位	(2^{28}=256M)，块内地址为6位	(2^{6}=64)，Cache块号为3位	(2^{3}=8)，因此标记的位数为28-6-3=19位，还需使用一个有效位，因此题中数据Cache行的结构如下图所示。
数据Cache共有8行，因此数据Cache的总容量为8×(64+20/8)B=532B。
2）数组a在主存的存放位置及其与Cache之间的映射关系如下图所示。
数组按行优先方式存放，首地址为320，数组元素占4B。a[0][31]所在的主存块对应的Cache行号为[(320+(0×256+31)×4)÷2^{6}]\mod2^{3}=6；a[1][1]所在的主存块对应的Cache行号为[(320+(1×256+1)×4)÷2^{6}]\mod2^{3}=5。
【另解】由1）可知主存和Cache的地址格式如下图所示。
数组按行优先方式存放，首地址为320，数组元素占4B。a[0][31]的地址为320+31×4=11011100B，因此其对应的Cache行号为110_{B}=6；a[1][1]的地址为320+256×4+1×4=
第3章存储系统 129
1348=10101000100B,因此其对应的Cache行号为101B=5。
3)编译时i,j,sum均分配在寄存器中，所以数据访问命中率仅考虑数组a的情况。
数组a的大小为256×256×4B=218B,占用218/64=212个主存块，按行优先存放，程序A逐行访问数组a，共需访问的次数为216次，未命中次数为212次（每个字块的第一个数未命中），因此程序A的命中率为(216-212)/216×100%=93.75%。
【另解】数组a按行存放，程序a按行存取。每个字块中存放16个int型数据，除访问的第一个不命中外，随后的15个全都命中，访问全部字块都符合这一规律，且数组大小为字块大小的整数倍，因此程序A的命中率为15/16=93.75%。
程序B逐列访问数组a,Cache总数据容量为64B×8=512B,数组a一行的大小为1KB,正好是Cache容量的2倍，可知不同行的同一列数组元素使用的是同一个Cache单元，因此逐列访问每个数据时，都会将之前的字块置换出，即每次访问都不会命中，命中率为0。
因为从Cache读数据比从主存读数据快很多，所以程序A的执行比程序B快得多。
05.【解答】
1)CPU的时钟周期是主频的倒数，即1/800MHz=1.25ns。
总线的时钟周期是总线频率的倒数，即1/200MHz=5ns。
总线宽度为32位，因此总线带宽为4B×200MHz=800MB/s或4B/5ns=800MB/s。
2)Cache块大小是32B，因此Cache缺失时需要一个读突发传送总线事务读取一个主存块。
3)一次读突发传送总线事务包括一次地址传送、32B数据准备和传送；用一个总线时钟周期传输地址；之后每隔40ns/8=5ns启动一个存储体（各进行一次读操作），第一个体准备数据花费40ns，之后这个字的传送操作与下一个字的准备操作重叠；用8个总线时钟周期传送数据。读突发传送总线事务时间为5ns+40ns+8×5ns=85ns。
另解：首先5ns的传送地址和命令，然后把存储体准备数据的时间视为流水线，因为总线周期是5ns，存储体的存取周期是40ns，所以相当于准备数据是一个8段流水线，因此准备8个数据的时间是40+5×7，最后再花5ns传输最后一个数据，因为之前的7个存储体的数据的传输时间和其下一个存储体准备数据的时间是并行的，所以共需要5+40+5×7+5=85ns。也可以这样理解，将从数据准备到传输结束视为一个完整的流水线，也就是共视为9个流水段，每个流水段的时间是5ns，这样总共花费的时间就是5+45+7×5=85ns。
只要是有关于流水线思想的，最关键的就是分清楚流水段，剩下的就是简单计算，不同的算法不是关键，本质上都是一样的。
4)CPU执行时间=Cache命中时的指令执行时间+Cache未命中时的额外访存开销×缺失率。
一条指令在Cache命中时的执行时间=Cache命中时的CPI×时钟周期=4×1.25ns=5ns。
一条指令因Cache缺失而导致的平均访存开销=平均访存次数×一次突发传送总线事务时间=1.2×85ns=102ns。因此BP的CPU执行时间=(5ns+102ns×5%)×100=1010ns。100条指令中，平均有95%的指令Cache命中，只需要5ns；平均有5%的指令Cache缺失，需要5ns+102ns=107ns。本题说明了408真题采用先访问Cache再访问主存的方式。
06.【解答】
1)主存块大小为64B=2⁶字节，故主存地址低6位为块内地址，Cache组数为32KB÷(64B×8)=64=2⁶，所以主存地址中间6位为Cache组号，主存地址中高32-6-6=20位为标记，采用8路组相联映射，所以每行中的LRU位占3位，采用直写方式，所以没有修改位。
2)008000C0H=00000000100000000000000011000000B,主存地址的低6位为块内地址，为全0，所以s位于一个主存块的开始处，占1024×4B/64B=64个主存块；在执行程序段的过程中，每个主存块中的64B/4B=16个数组元素依次读、写1次，因此对每个
130	2027年计算机组成原理考研复习指导
主存块，总是第一次访问缺失，此时会将整个主存块调入Cache，之后每次都命中。综上，数组s的数据Cache访问缺失次数为64次。
3)00010003H=000000000000000100000000000000011B,根据主存地址划分可知，组索引为0，所以该地址所在主存块被映射到指令Cache的第0组；因为Cache初始为空，所有Cache行的有效位均为0，所以Cache访问缺失。此时，将该主存块取出后存入指令Cache的第0组的任意一行，并将主存地址高20位(00010H)填入该行标记字段，设置有效位，修改LRU位，最后根据块内地址000011B从该行中取出相应的内容。
3.6	虚拟存储器
虚拟存储器是一种由硬件与系统软件协同实现的存储管理机制，它利用主存和辅存(如磁盘)构建一个逻辑上连续且容量巨大的地址空间。对于应用程序员而言，该机制是透明的：程序可按此虚拟地址空间编写，无须关心实际主存容量或数据在主存中的物理位置。
3.6.1	虚拟存储器的基本概念
虚拟存储器将程序的地址空间(称为虚拟地址空间或逻辑地址空间)与主存的物理地址空间分离。用户程序使用的地址称为虚地址(或逻辑地址)，而实际主存单元的地址称为实地址(或物理地址)。通常，虚地址空间远大于实地址空间，如图3.26所示。
主存地址空间(实地址空间)
主存页号
虚存页号
01
01
4K
4K-1
4K
2
程序
辅存地址
4
主存页号
硬磁盘
5
实地址=主存页号+页内字地址
6
虚地址=虚存页号+页内字地址
7
32K-1
辅存地址=磁盘号+盘面号+磁道号+扇区号
图3.26	虚拟存储器的地址空间
当CPU使用虚地址访问内存时，系统首先判断该虚地址对应的数据是否已驻留在主存中。若已驻留，则通过地址变换机制将其转换为实地址，CPU即可直接访问对应的主存单元；若未驻留，则触发缺页(或缺段)异常，由操作系统将包含该地址的整个页(或段)从辅存调入主存，之后CPU再进行访问。若主存已满，则需根据替换算法选择一个页面进行置换。
考点追踪	虚拟存储器只能采用回写法的原因(2016)
虚拟存储器借鉴了Cache的思想，将辅存中频繁访问的数据缓存在主存中。由于辅存(如磁盘)访问延迟极高，每次写操作都同步更新辅存是不可行的。因此，系统采用类似回写的策略：当页面被修改时，标记为脏页；仅在该页被置换出主存时，若为脏页，才将其写回辅存。这显著降低了I/O开销。此外，虚拟存储器的分页机制允许任一虚页装入主存中任意可用的物理页框(类似于全相联映射)，从而提高主存利用率，并支持高效的地址重定位。
3.6.2	页式虚拟存储器①
页式虚拟存储器以页为基本单位。主存空间和虚拟地址空间均被划分为大小相同的页。主存中的页称为物理页(或实页、页框)，虚拟地址空间中的页称为虚拟页(或虚页)。页表记录了每个虚页在主存中的映射位置，通常常驻内存。
①本节内容建议结合《操作系统考研复习指导》进行学习。
第3章	存储系统 131
1. 页表
图3.27是一个页表示例。有效位（也称装入位），表示对应虚页是否已调入主存，若为1，表示该页已在主存，页表项中存放其物理页号；若为0，表示未调入，页表项通常存放该页在外存（如磁盘）中的地址。脏位（也称修改位），表示页面是否被修改过，在采用回写策略的虚拟存储系统中，置换页面时根据脏位决定是否需将其写回磁盘。引用位（也称使用位），记录页面是否被访问过，主要用于实现基于使用历史的页面替换算法（如Clock或LRU算法）。
考点追踪	数组的分页存放、缺页分析与处理过程（2014、2019、2023、2025）
以图3.27的页表为例，若CPU访问第1页，有效位为1，说明该页已驻留主存。地址转换部件将虚拟地址转换为物理地址，CPU即可访问对应的物理页中的数据。若访问第5页，有效位为0，则发生缺页异常，系统调用缺页处理程序。该程序根据页表项中的外存地址，将该页从磁盘调入一个空闲的物理页框。若主存已满，则需选择一个页面进行置换；由于系统采用回写策略，换出页面时根据脏位决定是否写回磁盘。缺页处理完成后，更新页表中的相应项。
页式虚拟存储器的优点是：页面大小固定，页表结构简单，调入操作方便。缺点是：程序大小通常不是页长的整数倍，导致最后一页产生内部碎片；此外，页是物理划分单位，缺乏逻辑意义，因此在程序模块化、保护和共享方面不如段式虚拟存储器灵活。
2. 地址转换
考点追踪	虚拟地址结构的分析（2011、2019、2021、2024）
程序生成的地址为虚拟地址，CPU执行指令时，必须先将其转换为物理地址，才能访问主存中的指令或数据。虚拟地址分为两部分：高位为虚页号，低位为页内偏移；物理地址同样分为高位物理页号和低位页内偏移。由于页面大小相同，两者的页内偏移完全一致。虚拟地址到物理地址的转换通过页表实现，页表是一张存放在主存中的虚页号与物理页号的映射表。
考点追踪	虚拟地址与物理地址的转换（2011、2013、2018、2022）
系统通过页表基址寄存器指向当前进程的页表起始地址（对应①）。地址转换时，首先从虚拟地址中提取虚页号（对应②），以此作为索引查找页表项；若该页表项的有效位为1，则从中取出物理页号（对应③），并与虚拟地址中的页内偏移拼接，形成最终的物理地址（对应④）。若有效位为0，则发生缺页异常，需由操作系统进行缺页处理。页式虚拟存储器的地址变换过程如图3.28所示。
132	2027年计算机组成原理考研复习指导
3.快表（TLB）
由地址转换过程可知，每次访存需先访问主存中的页表以获取物理页号，再访问主存取得实际数据，因此采用虚拟存储机制后，平均访存次数增加，性能下降。
考点追踪	TLB的硬件实现（2018）,TLB和Cache的比较（2020）
根据程序访问的局部性原理，在一段时间内CPU往往集中访问少数页面。若将这些页面对应的页表项缓存在由高速SRAM构成的快表（TLB）中，则可在地址转换时避免访问主存中的页表，从而显著提升效率。相应地，主存中的页表常被称为慢表（Page）。
考点追踪	TLB映射方式、地址划分与标记字段的分析（2016、2021）
TLB的工作原理类似于Cache，通常采用全相联或组相联映射。TLB表项包含虚拟页号（作为标记）和对应的物理页号及控制位（如有效位、脏位等）。在全相联映射下，TLB标记即为完整的虚拟页号；在组相联映射下，虚拟页号的高位作为标记，低位作为组索引。
4.具有TLB和Cache的多级存储系统
考点追踪	具有TLB的虚拟存储系统的地址变换过程（2024）
图3.29为一个具有TLB和Cache的多级存储系统，其中Cache采用2路组相联映射方式。CPU给出一个32位的虚拟地址，TLB采用全相联结构，每项均配备一个比较器。地址转换时，将虚拟地址中的虚页号与所有TLB项的标记字段并行比较；若某一项匹配且有效位为1，则TLB命中，直接从中获取实页号，完成地址转换。若TLB未命中，则需访问主存中的页表（慢表）以获取对应的页表项，完成地址转换后将其装入TLB；若TLB已满，则需执行替换算法。
获得物理地址后，Cache根据映射方式将其划分为标记、组号和块内地址三个字段。首先利用组号定位到对应的Cache组，再将该组中各Cache行的标记与物理地址的标记字段进行比较；若某一行匹配且有效位为1，则Cache命中，再根据块内地址取出对应的数据送至CPU。
通过TLB缓存频繁访问的页表项，系统避免了每次地址转换都访问主存页表，从而在引入虚拟存储器的同时，几乎不降低访存性能。
第3章	存储系统 133
考点追踪	TLB、Cache和Page缺失组合的分析 (2010)
CPU一次访存操作可能涉及TLB、页表、Cache、主存和磁盘的访问，访问过程如图3.30所示。可见，CPU访存过程中存在三种缺失情况：
① TLB缺失：要访问的虚页号不在TLB中：
②Cache缺失：要访问的主存块不在Cache中：
③Page缺失：要访问的页面不在主存中。
TLB是页表项的缓存，因此Page缺失时，TLB也必然缺失。同理，Cache是主存的副本，因此Page缺失时，Cache中也不可能有对应的数据。这三种缺失的组合情况见表3.3.
CPU给出虚拟地址VA
TLB缺失
否
对应页表项
是
在TLB中？
TLB缺失处理
将VA转换为物理地址PA
访问主存中的页表
否
访问页面在
是
是
缺页
主存中？
更新 TLB并将VA转换为物理地址PA
对应主存块
在 Cache?
否
Cache缺失
否
主存中存在
从主存换出一页
空闲页框？
否
Cache中存
是
从Cache替换出一块
在空闲行？
是
从磁盘读出一页到主存
主存块送Cache,
Cache缺失处理
并置标记和有效位
缺页处理
更新页表和TLB
访问Cache存取数据
图3.30 带TLB虚拟存储器的CPU访存过程
表3.3 TLB、Page、Cache三种缺失的可能组合情况
序号TLBPageCache	说	明
1	命中命中	命中	TLB命中则Page一定命中，信息在主存，就可能在Cache中
2	命中命中	缺失	TLB命中则Page一定命中，信息在主存，也可能不在Cache中
3	缺失命中	命中	TLB缺失但Page可能命中，信息在主存，就可能在Cache中
4	缺失命中	缺失	TLB缺失但Page可能命中，信息在主存，也可能不在Cache中
5	缺失缺失	缺失TLB缺失则Page也可能缺失，信息不在主存，也一定不在Cache
最好的情况是第1种组合，此时无须访问主存；第2种和第3种组合需要访问一次主存；第4种组合需要访问两次主存；第5种组合发生“缺页异常”，需要访问磁盘，并至少访问两次主存。Cache缺失处理由硬件自动完成；缺页处理由操作系统通过“缺页异常处理程序”实现，具体步骤包括调入所需页面、更新页表等；TLB 缺失既可用硬件处理，也可用软件处理。
注	意
在《操作系统考研复习指导》的第3章中，介绍了在同时具有TLB和Cache的存储系统中虚实地址转换的实例，读者可以结合该内容进行学习。
134	2027年计算机组成原理考研复习指导
3.6.3	段式虚拟存储器①
段式虚拟存储器中的段是按程序的逻辑结构划分的，各个段的长度因程序而异。虚拟地址分为两部分：段号和段内地址。虚拟地址到物理地址的变换由段表实现。段表是程序的逻辑段与其在主存中存放位置的对照表，每行记录某个段的段号、有效位、段起点和段长等信息。由于段的长度可变，段表中必须给出各段的起始地址与段长。
段表基址寄存器	虚拟地址
段表基地址	段号	段内地址
段号	段首址	有效位	段长
CPU 根据虚拟地址访存时，首先从虚拟地址中提取段号，并根据段表基地址找到对应的段表项。然后检查该段表项的有效位：若为1，表示该段已调入主存；若为 0，表示该段不在主存中。当该段已调入主存时，从段表读出其在主存中的起始地址，与段内地址相加，得到对应的物理地址。段式虚拟存储器的地址变换过程如图3.31所示。
2
n-1	物理地址
段表(在主存中)
图3.31 段式虚拟存储器的地址变换过程
由于段是程序逻辑结构所决定的独立部分，因此分段对程序员来说是不透明的；而分页对程序员是透明的，程序员编写程序时无须关心程序如何分页。
段式虚拟存储器的优点是：段的边界与程序的自然逻辑边界一致，具有良好的逻辑独立性，便于程序的编译、管理、修改和保护，也易于实现多道程序间的段共享。缺点是：段长度可变，主存分配困难，段间容易产生外部碎片，难以有效利用，造成存储空间浪费。
3.6.4	段页式虚拟存储器
在段页式虚拟存储器中，程序先按逻辑结构分段，每段再划分为固定大小的页，主存空间也划分为大小相等的页，程序对主存的调入和调出仍以页为基本交换单位。每个程序对应一个段表，每段对应一个页表。虚拟地址由段号、段内页号和页内地址三部分组成。CPU 根据虚地址访存时，首先用段号查找段表，获得该段对应的页表起始地址；接着以段内页号为索引访问页表，取出实页号；最后将实页号与页内地址拼接，形成物理地址。
段页式虚拟存储器的优点是兼具页式和段式的优点，既支持按段进行共享和保护，又避免了段式存储的外部碎片问题。缺点是在地址变换过程中需要两次查表，系统开销较大。
3.6.5	虚拟存储器与 Cache 的比较
考点追踪	虚拟存储器与 Cache的比较(2024)
虚拟存储器与 Cache既有相同之处，又有不同之处。
1.相同之处
1)最终目标都是提高系统性能，两者都体现了容量、速度、价格的梯度。
2)都把数据划分为小信息块作为基本交换单位，虚拟存储器的页通常比 Cache块大得多。
3)都涉及地址映射、替换算法和更新策略等问题。
4)都基于局部性原理，采用“快速缓存”思想，将活跃数据放在高速部件中。
① 段式与段页式虚拟存储器非统考命题重点，只需掌握其基本原理。
第3章存储系统
2.不同之处
1) Cache主要解决CPU与主存之间的速度差异，而虚拟存储器为了解决主存容量。
2) Cache完全由硬件实现，对所有程序员透明；虚拟存储器由操作系统和硬件共同实现，对应用程序员透明，但其管理机制对操作系统开发者不透明。
考点追踪Cache缺失和缺页的处理开销对比(2016)
3)不命中时的性能影响不同：Cache不命中需访问主存，延迟增加数十倍；而虚拟存储系统缺页需访问磁盘，延迟增加可达十万倍，对系统性能影响更为严重。
4)CPU可直接访问Cache和主存，Cache不命中时，硬件自动从主存取数据并装入Cache。辅存与CPU无直接通路，缺页时必须先将数据从辅存调入主存，之后CPU才能访问。
3.6.6本节习题精选
一、单项选择题
01.为使虚拟存储系统有效地发挥其预期的作用，所运行程序应具有的特性是()。
A.不应含有过多的I/O操作	B.大小不应小于实际的内存容量
C.应具有较好的局部性	D.顺序执行的指令不应过多
02.虚拟存储管理系统的基础是程序访问的局部性原理，此理论的基本含义是()。
A.在程序的执行过程中，程序对主存的访问是不均匀的
B.空间局部性
C.时间局部性
D.代码的顺序执行
03.虚拟存储器的常用管理方式有段式、页式、段页式，对于它们在与主存交换信息时的单位，以下表述正确的是()。
A.段式采用“页”	B.页式采用“块”
C.段页式采用“段”和“页”	D.页式和段页式均仅采用“页”
04.下列关于虚拟存储器的叙述中，正确的是()。
A.对应用程序员透明，对系统程序员不透明
B.对应用程序员不透明，对系统程序员透明
C.对应用程序员、系统程序员都不透明
D.对应用程序员、系统程序员都透明
05.在虚拟存储器中，当程序正在执行时，由()完成地址映射。
A.程序员	B.编译器	C.装入程序	D.操作系统
06.采用虚拟存储器的主要目的是()。
A.提高主存储器的存取速度	B.扩大主存储器的存储空间
C.提高外存储器的存取速度	D.扩大外存储器的存储空间
07.下列有关虚拟存储管理机制中地址转换的叙述，错误的是()。
A.地址转换是指把逻辑地址转换为物理地址
B.通常逻辑地址的位数比物理地址的位数少
C.地址转换过程中会发现是否“缺页”
D.内存管理单元(MMU)在地址转换过程中要访问页表项
08.下列有关虚拟存储管理机制的页表的叙述中，错误的是()。
136	2027年计算机组成原理考研复习指导
A.系统中每个进程有一个页表
B.页表中每个表项与一个虚页对应
C.每个页表项中都包含装入位(有效位)
D.所有进程都可以访问页表
09.下列有关缺页处理的叙述中，错误的是()。
A.若对应页表项中的有效位为0，则发生缺页
B.缺页是一种外部中断，需要调用操作系统提供的中断服务程序来处理
C.缺页处理过程中需根据页表中给出的磁盘地址去读磁盘数据
D.缺页处理完后要重新执行发生缺页的指令
10.下列关于段式虚拟存储管理的叙述中，错误的是()。
A.段是逻辑结构上相对独立的程序块，因此段是可变长的
B.按程序中实际的段来分配主存，所以分配后的存储块是可变长的
C.每个段表项必须记录对应段在主存的起始位置和段的长度
D.分段方式对低级语言程序员和编译器来说是透明的
11.虚拟存储器中的页表有快表和慢表之分，下面关于页表的叙述中正确的是()。
A.快表与慢表都存储在主存中，但快表比慢表容量小
B.快表采用了优化的搜索算法，因此查找速度快
C.快表比慢表的命中率高，因此快表可以得到更多的搜索结果
D.快表采用相联存储器件组成，按照查找内容访问，因此比慢表查找速度快
12.【2010统考真题】下列命令组合的一次访存过程中，不可能发生的是()。
A.TLB未命中, Cache未命中, Page未命中
B.TLB未命中, Cache命中, Page命中
C.TLB命中, Cache未命中, Page命中
D.TLB命中, Cache命中, Page未命中
13.【2013统考真题】某计算机主存地址空间大小为256MB，按字节编址。虚拟地址空间大小为4GB，采用页式存储管理，页面大小为4KB，TLB(快表)采用全相联映射，有4个页表项，内容如下表所示。
有效位	标记	页框号
0	FF180H	0002H
1	3FFF1H	0035H
0	02FF3H	0351H
1	03FFFH	0153H
则对虚拟地址03FF F180H进行虚实地址变换的结果是()。
A.015 3180H	B.0035180H	C.TLB缺失	D.缺页
14.【2015统考真题】假定编译器将赋值语句“x=x+3;”转换为指令“add xaddr,3”,其中xaddr是x对应的存储单元地址。若执行该指令的计算机采用页式虚拟存储管理方式，并配有相应的TLB，且Cache使用直写方式，则完成该指令功能需要访问主存的次数至少是()。
A.0	B.1	C.2	D.3
15.【2019统考真题】下列关于缺页处理的叙述中，错误的是()。
A.缺页是在地址转换时CPU检测到的一种异常
第3章	存储系统 137
B.缺页处理由操作系统提供的缺页处理程序来完成
C.缺页处理程序根据页故障地址从外存读入所缺失的页
D.缺页处理完成后回到发生缺页的指令的下一条指令执行
16.【2020统考真题】下列关于TLB和Cache的叙述中，错误的是（	）。
A.命中率都与程序局部性有关	B.缺失后都需要去访问主存
C.缺失处理都可以由硬件实现	D.都由DRAM存储器组成
17.【2022统考真题】某计算机主存地址为24位，采用分页虚拟存储管理方式，虚拟地址空间大小为4GB，页大小为4KB，按字节编址。某个进程的页表部分内容如下表所示。
虚页号	实页号（页框号）	存在位
82
…
024H	0
180H	1
018H	1
129
130
当CPU访问虚拟地址00082840H时，虚-实地址转换的结果是（	）。
A. 得到主存地址02 4840H	B. 得到主存地址180840H
C. 得到主存地址018840H	D.检测到缺页异常
18.【2024统考真题】对于页式虚拟存储管理系统，下列关于存储器层次结构的叙述中，错误的是（	）。
A. Cache-主存层次的交换单位为主存块，主存-外存层次的交换单位为页
B. Cache-主存层次替换算法由硬件实现，主存-外存层次替换算法由软件实现
C. Cache-主存层次可采用回写法，主存-外存层次通常采用回写法
D. Cache-主存层次可采用直接映射方式，主存-外存层次通常采用直接映射方式
19.【2024统考真题】某计算机按字节编址，采用页式虚拟存储管理方式，虚拟地址为32位，主存地址为30位，页大小为1KB。若TLB共有32个表项，采用4路组相联映射方式，则TLB表项中标记字段的位数至少是（	）。
A. 17	B. 18	C. 19	D. 20
20.【2024统考真题】下列事件中，不是在MMU地址转换过程中检测的是（	）。
A.访问越权	B. Cache缺失	C.页面缺失	D. TLB缺失
二、综合应用题
01.某计算机系统采用虚拟页式存储管理，某个进程的页表见下表，每项的起始编号是0,所有的地址均按字节编址，每页大小为1024B。分别将逻辑地址0793,1197,2099,3320,4188，5332，转换为物理地址，写出计算过程，对不能计算的说明为什么。
逻辑页号	存在位	引用位	修改位	页框号
0	1	1	0	4
1	1	1	1	3
2	0	0	0	—
3	1	0	0	1
4	0	0	0
5	1	0	1	5
02.下图表示使用快表（页表）的虚实地址转换条件，快表存放在相联存储器中，其容量为8个存储单元。
138 2027年计算机组成原理考研复习指导
页号	该页在主存中的起始位置
32	42000
25	38000
7	96000
6	60000
4	40000
15	80000
5	50000
34	70000
虚拟地址	页号	页内地址
1	15	0324
2	7	0128
3	48	0516
1）当CPU按虚拟地址1去访问主存时，主存的实地址码是多少？
2）当CPU按虚拟地址2去访问主存时，主存的实地址码是多少？
3）当CPU按虚拟地址3去访问主存时，主存的实地址码是多少？
03.一个两级存储器系统有8个磁盘上的虚拟页面需要映像到主存中的4个页中。某程序生成以下访存页面序列：l,0,2,2,l,7,6,7,0,1,2,0,3,0,4,5,1,5,2,4,5,6,7,6,7,2,4,2,7,3.采用LRU算法，设初始时主存为空。
1）画出每个页号访问请求之后存放在主存中的位置。
2）计算主存的命中率。
04.【2011统考真题】某计算机存储器按字节编址，虚拟（逻辑）地址空间大小为 16MB，主存（物理）地址空间大小为1MB，页面大小为4KB;Cache采用直接映射方式，共8行；主存与Cache之间交换的块大小为32B。系统运行到某一时刻时，页表的部分内容和Cache的部分内容分别如下的左图和右图所示，图中页框号及标记字段的内容为十六进制形式。回答下列问题：
1）虚拟地址共有几位，哪几位表示虚页号？物理地址共有几位，哪几位表示页框号（物理页号）？
2）使用物理地址访问 Cache时，物理地址应划分成哪几个字段？要求说明每个字段的位数及在物理地址中的位置。
虚页号	有效位	页框号	…	行号	有效位	标记	…
0	0
1	1
2	2
3	3
1	06
1	04
1	15
1	02	…
0	一
1	2B	…
0	—
1	32
1	020	…
0	—	…
1	01D	""
1	105	…
1	064	…
1	14D	…
0	…
1	27A
4	4
5	5
6	6
7	7
3）虚拟地址001C60H所在的页面是否在主存中？若在主存中，则该虚拟地址对应的物理地址是什么？访问该地址时是否Cache命中？要求说明理由。
4）假定为该机配置一个4路组相联的TLB，共可存放8个页表项，若其当前内容（十六进制）如下图所示，则此时虚拟地址024BACH所在的页面是否存在主存中？要求说明理由。
组号  有效位	标记	页框号  有效位	标记	页框号  有效位	标记	页框号  有效位	标记	页框号
0
0	—	—	1	001	15	0	—	—	1	012	1F
1	013	2D	0	—	—	1	008	7E	0	—	—
1
05.【2016 统考真题】某计算机采用页式虚拟存储管理方式，按字节编址，虚拟地址为 32
第3章	存储系统 139
位，物理地址为24位，页大小为8KB；TLB采用全相联映射；Cache数据区大小为64KB，按2路组相联映射方式组织，主存块大小为64B。存储访问过程的示意图如下。
回答下列问题：
1）图中字段A~G的位数各是多少？TLB标记字段B中存放的是什么信息？
2）将块号为4099的主存块装入Cache时，所映射的Cache组号是多少？对应的H字段内容是什么？
3）是Cache缺失处理的时间开销大还是缺页处理的时间开销大？为什么？
4）为什么Cache可以采用直写法，而修改页面内容时总是采用回写法？
06.【2018统考真题】某计算机采用页式虚拟存储管理方式，按字节编址。CPU进行存储访问的过程如下图所示。根据该图回答下列问题。
1）主存物理地址占多少位？
2）TLB采用什么映射方式？TLB是用SRAM还是用DRAM实现？
3）Cache采用什么映射方式？若Cache采用LRU算法和回写法，则Cache每行中除数据(Data)、标记和有效位外，还应有哪些附加位？Cache总容量是多少？Cache中有效位的作用是什么？
140	2027年计算机组成原理考研复习指导
4)若CPU给出的虚拟地址为0008 C040H，则对应的物理地址是多少？是否在Cache中命中？说明理由。若CPU给出的虚拟地址为0007C260H，则该地址所在主存块映射到的Cache组号是多少？
07.【2021统考真题】假设计算机M的主存地址为24位，按字节编址；采用分页存储管理方式，虚拟地址为30位，页大小为4KB；TLB采用2路组相联映射方式和LRU算法，共8组。请回答下列问题。
1)虚拟地址中哪几位表示虚页号？哪几位表示页内地址？
2)已知访问TLB时虚页号高位部分用作TLB标记，低位部分用作TLB组号，M的虚拟地址中哪几位是TLB标记？哪几位是TLB组号？
3)假设TLB初始时为空，访问的虚页号依次为10，12，16，7，26，4，12和20，在此过程中，哪一个虚页号对应的TLB表项被替换？说明理由。
4)若将M中的虚拟地址位数增加到32位，则TLB表项的位数增加几位？
08.【2023统考真题】已知计算机M的字长为32位，按字节编址，采用请求调页策略的虚拟存储管理方式，虚拟地址为32位，页大小为4KB；数据Cache采用4路组相联映射方式，数据区大小为8KB，主存块大小为32B。现有C语言程序段如下：
int a[24][64];
…
for(i=0;i<24;i++)
for(j=0;j<64;j++)a[i][j]=10;
已知二维数组a按行优先存放，在虚拟地址空间中分配的起始地址为00422000H，sizeof(int)=4，假定在M上执行上述程序段之前数组a不在主存，且在该程序段执行过程中不会发生页面置换。请回答下列问题：
1)数组a分布在几个页面中？对于数组a的访问，会发生几次缺页异常？页故障地址各是什么？
2)不考虑变量i和j，该程序段的数据访问是否具有时间局部性？为什么？
3)计算机M的虚拟地址(A31~A0)中哪几位用作块内地址？哪几位用作Cache组号?a[1][0]的虚拟地址是多少？其所在主存块对应的Cache组号是多少？
4)数组a占用多少主存块？假设上述程序段执行过程中数组a的访问不会和其他数据发生Cache访问冲突，则数组a的Cache命中率是多少？若将循环中i和j的次序按如下方式调换：
for(j=0;j<64;j++)
for(i=0;i<24;i++)a[i][j]=10;
则数组a的Cache命中率又是多少？
09.【2025统考真题】现有C语言程序P的部分代码如下所示。假定运行程序P的计算机M字长为32位，按字节编址，数据Cache的数据区大小为32KB，采用8路组相联映射方式，主存块大小为64B，Cache的命中时间为2个时钟周期，缺失损失为200个时钟周期；采用页式虚拟存储管理方式，页大小为4KB。数组d的起始虚拟地址VA₃₁~VA₀为01800020H。请回答下列问题。
int x,d[2048],i;
…
for(i=0;i<2048;i++)
d[i]=d[i]/x;
…
1)主存地址中Cache组号字段和块内地址字段分别占几位？虚拟地址中哪些位可作
第3章	存储系统	141
为 Cache 索引?
2)d[100]的虚拟地址为多少? d[100]所在主存块对应的 Cache组号是多少?
3)假定执行 for语句时对应代码已在 Cache中，变量i和x已装入寄存器，数组d已调入主存但不在 Cache中，则d[0]在其所在主存块内的偏移量是多少(用十六进制数表示)?在 for语句的执行过程中，访问数组d的 Cache缺失率和数组元素的平均访问时间分别是多少(Cache缺失率的计算结果要求用百分比表示，保留两位小数)?
4)数组d分布在几个页中？若执行 for语句时对应代码已在主存中，但数组d还未调入主存，则在执行 for语句的过程中，访问数组d所引起的缺页次数是多少?
3.6.7 答案与解析
一、单项选择题
01. C
虚拟存储系统利用的是局部性原理，程序应当具有较好的局部性，选项C正确。而含有输入、输出操作产生中断，与虚拟存储器无关，选项A错误。大小较小但可以多个程序并发执行，也可以发挥虚拟存储器的作用，选项B错误。顺序执行的指令应当占较大比重为宜，这样可增强程序的局部性，选项D错误。
02. A
局部性原理的含义是在一个程序的执行过程中，其大部分情况下是顺序执行的，某条指令或数据使用后，在最近一段时间内有较大的可能再次被访问(时间局部性)；某条指令或数据使用后，其邻近的指令或数据可能在近期被使用(空间局部性)。在虚拟存储管理系统中，程序只能访问主存获得指令和数据，选项A正确。选项B、C、D均是局部性原理的一个方面而已。
03. D
页式虚拟存储方式对程序分页，采用页进行交互；段页式则先按照逻辑分段，然后分页，以页为单位和主存交互，选项D正确。
04. A
虚拟存储器需要通过对操作系统实现地址映射，因此对操作系统的设计者即系统程序员是不透明的。而应用程序员写的程序所使用的是逻辑地址(虚地址)，因此对其是透明的。
05. D
虚拟存储器中，地址映射由操作系统来完成，但需要一部分硬件基础的支持，如快表、地址映射系统等。
06. B
引入虚拟存储器的目的是解决内存容量不够大的问题。
07. B
虚拟存储管理的目的是让程序员可以在一个比主存地址空间大得多的虚拟地址空间中编程，显然逻辑地址空间比主存空间大，因此逻辑地址的位数比物理地址的位数多，选项B错误。在执行程序时，由CPU 中的MMU进行逻辑地址到物理地址的转换。在转换过程中，MMU 需要查找对应的页表项，根据页表项中的装入(有效)位是否为1来确定是否发生缺页。
08. D
选项A、B和C都正确。页表中的每个表项反映的是对应虚拟页面的位置和使用等信息，通常只能由操作系统和硬件进行访问，虚拟存储管理机制对用户进程来说是透明的，选项D错误。
142	2027年计算机组成原理考研复习指导
09. B
缺页是CPU在执行指令过程中进行取指令或读/写数据时发生的一种故障，属于内部异常。
10. D
选项A、B和C都正确。分段方式对低级语言程序员和编译器来说是不透明的，因为低级语言程序员需要使用段号来编程，编译器需要使用段号来链接，选项D错误。
11. D
快表采用高速相联存储器，它的速度快来源于硬件本身，而不是依赖搜索算法来查找的；慢表存储在内存中，通常是依赖于查找算法，所以选项A和B错误。快表与慢表的命中率没有必然联系，快表仅是慢表的一个部分拷贝，不能够得到比慢表更多的结果，选项C错误。
12. D
Cache的内容是主存的一部分副本，TLB的内容是Page（页表）的一部分副本。在同时具有TLB和Cache的虚拟存储系统中，CPU发出访存命令，先查找对应的Cache块。
1)若Cache命中，则说明所需内容在Cache内，其所在页面必然已调入主存，因此Page必然命中，但TLB不一定命中。
2)若Cache未命中，则并不能说明所需内容未调入主存，和TLB、Page命中与否没有联系。但若TLB命中，Page也必然命中；而当Page命中，TLB则未必命中，因此D不可能发生。
13. A
按字节编址，页面大小为4KB，页内地址共12位。地址空间大小为4GB，虚拟地址共32位，前20位为页号。虚拟地址为03FF F180H，因此页号为03 FFFH，页内地址为180H。查找页标记03FFFH所对应的页表项，页框号为0153H，页框号与页内地址拼接即为物理地址0153180H。
14. B
上述指令的执行过程可划分为取数、运算和写回过程，取数时读取xaddr可能不需要访问主存而直接访问Cache，而直写方式需要把数据同时写入Cache和主存，因此至少访问1次。
15. D
在请求分页系统中，每当要访问的页面不在内存中时，CPU检测到异常，便会产生缺页中断，请求操作系统将所缺的页调入内存。缺页处理由缺页中断处理程序完成，根据发生缺页故障的地址从外存读入所缺失的页，缺页处理完成后回到发生缺页的指令继续执行。选项D中描述回到发生缺页的指令的下一条指令执行，明显错误。
16. D
Cache由SRAM组成；TLB也由SRAM组成。DRAM需要不断刷新，性能偏低，不适合组成TLB和Cache。选项A、B和C都是TLB和Cache的特点。
17. C
页大小为4KB=2¹²B，按字节编址，因此页内地址为12位。虚拟地址空间大小为4GB=2³²B，因此虚拟地址共32位，其中低12位为页内地址，高20位为虚页号。题中给出的虚拟地址为0008 2840H，虚页号为高20位即00082H（页内地址为低12位即840H），82H对应的十进制数为130（注意题中页表的虚页号部分末尾未写H，所以是十进制数，因此查找时要先将虚页号转换为十进制数），查页表命中，并且存在位为1，对应页框号为018H。将查找到的页框号018H和页内地址840H拼接，得到主存地址为01 8840H。
18. D
Cache与主存之间交换的是主存块，主存与外存之间交换的是页。Cache-主存层次和主存-外存层次的区别在于前者主要解决速度不匹配问题，用软件实现会影响速度，因此Cache-主存层次替
第3章	存储系统 143
换算法由硬件实现；而主存-外存层次替换算法由软件实现。Cache-主存层次可采用回写法或全写法；主存-外存层次通常采用回写法，即页面被修改后，仅当被换出时才写回外存，访问外存的代价很大，采用全写法的开销过高。访问外存的代价很大，提高命中率是关键，因此主存-外存层次通常采用全相联映射；而Cache-主存层次可采用直接映射、组相联或全相联，选项D错误。
19. C
按字节编址，页大小为2¹⁰B，因此页内地址占10位；TLB有32个表项，采用4路组相联映射，被分为2^{3} = 8组，因此TLB组号占3位；于是，标记字段的位数至少是32-3-10=19.
20. B
在地址转换的过程中，MMU会检查页表项的访问权限，以确保进程有权访问某个页面，否则就会访问越权。为了获得对应的页表项，先查找TLB，若找不到，则TLB 缺失，然后查找页表，若找不到，则页面缺失。访问Cache是在获得物理地址后使用物理地址存取数据的过程中才执行的操作，而MMU地址转换过程是在获得物理地址之前进行的，选项B错误。
二、综合应用题
01.【解答】
所有地址均可转换为页号和页内偏移量。地址转换时，先取出逻辑页号，然后查找页表，得到页框号，再将页框号与页内偏移量拼接，即可获得物理地址。根据题意，计算逻辑地址的页号和页内偏移量，拼接的物理地址如下表所示。
逻辑地址	逻辑页号	页内偏移量	页框号	物理地址
0793	0	793	4	4889
1197	1	173	3	3245
2099	2	51	—	缺页中断
3320	3	248	1	1272
4188	4	92	缺页中断
5332	5	212	5	5332
注：在本题中，物理地址=页框号×1024B+页内偏移量，页内偏移量 =逻辑地址-逻辑页号×1024B，逻辑页号 =逻辑地址/1024B（结果向下取整）。
02.【解答】
1）虚拟地址 1 的页号为 15，页内地址为0324，在左表中页号 15 对应的主存起始位置为80000, 则主存的实地址码为0324+80000=80324.
2）按1）中的方法易知，主存的实地址码为0128+96000=96128.
3）虚拟地址3的页号为48，在左表中无对应项，因此该页面在快表（页表）中无记录。
03.【解答】
1）LRU算法是换出最近最久未使用的页面，因此每个页号访问请求之后存放在主存中的位置如下图所示。
页框号	虚拟页号
4	77	7	7	7	7	73	3	33	1	1	1	1	1	6	6	6	6	6	66	6	3
3	22	2	2	2	2	0	0	0	0	0	0	000	0	2	2	22	7	7	7	7	77	7	7
2	0	00	0	0	6	6	6	6	2	22	2	25555	555	5	55	544	4	4
1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	44	4	4	4	4	44	4	44	222	2	2
命中	*	*	*	*	*	*	*	*	*	*	*	*	*
2)共30次访存，有13次命中，因此主存的命中率为13/30=43%。
04.【解答】
1)存储器按字节编址，虚拟地址空间大小为16MB=2²⁴B，因此虚拟地址为24位；页面大小为4KB=2¹²B，因此高12位为虚页号。主存地址空间大小为1MB=2²⁰B，因此物理地址为20位；页内地址为12位，因此高8位为物理页号。
2)因为Cache采用直接映射方式，所以物理地址各字段的划分如下：
主存字块标记 Cache字块标记字块内地址
块大小为32B，因此字块内地址占5位；Cache共8行，因此Cache字块标记占3位；主存字块标记占20-5-3=12位。
3)虚拟地址001C60H的前12位为虚页号，即001H，查看001H处的页表项，其对应的有效位为1，因此虚拟地址001C60H所在的页面在主存中。页表001H处的页框号为04H，与页内偏移(虚拟地址后12位)拼接成物理地址04C60H。物理地址04C60H=000001100110000000B，主存块只能映射到Cache的第3行(第011B行)，该行的有效位=1，标记(值为105H)≠04CH(物理地址高12位)，因此未命中。
4)TLB采用4路组相联，TLB被分为8/4=2个组，因此虚页号中高11位为TLB标记、最低1位为TLB组号。虚拟地址024BACH=00000010010011110110110011B，虚页号为000000100100B，TLB标记为00000010010B(012H)，TLB组号为0B，因此该虚拟地址所对应的物理页面只能映射到TLB的第0组。组0中存在有效位=1、标记=012H的项，因此访问TLB命中，即虚拟地址024BACH所在的页面在主存中。
05.【解答】
1)页大小为8KB，页内偏移地址为13位，因此A=B=32-13=19；D=13；C=24-13=11；主存块大小为64B，因此G=6。2路组相联，每组数据区容量有64B×2=128B，共有64KB/128B=512组，因此F=9；E=24-G-F=24-6-9=9。因此A=19，B=19，C=11，D=13，E=9，F=9，G=6。TLB中标记字段B的内容是虚页号，表示该TLB项对应哪个虚页的页表项。
2)块号4099=000001000000000011B，因此所映射的Cache组号为00000011B=3，对应的H字段内容为0000010000B。
3)Cache缺失带来的开销小，而处理缺页的开销大。因为缺页处理需要访问磁盘，而Cache缺失只要访问主存。
4)因为采用直写法时需要同时写快速存储器和慢速存储器，而写磁盘比写主存慢很多，所以在Cache-主存层次，Cache可以采用直写法，而在主存-外存(磁盘)层次，修改页面内容时总是采用回写法。
06.【解答】
1)物理地址由实页号和页内地址拼接，因此其位数为16+12=28；或直接得20+3+5=28。
2)TLB采用全相联映射，可把页表内容调入任意一块空TLB项中，TLB中的每项都有一个比较器，没有映射规则，只要空闲就行。TLB采用静态存储器(SRAM)，读/写速度快，但成本高，多用于容量较小的高速缓冲存储器。
3)图中可看到，Cache中每组有两行，因此采用2路组相联映射方式。因为是2路组相联并采用LRU算法，所以每行需要1位LRU位；因为采用回写法，所以每行有1位修改位(脏位)，根据脏位判断数据是否被更新，若脏位为1，则需要写回内存。28位物理地址中标记
第3章存储系统 145
字段占20位，组索引字段占3位，块内偏移地址占5位，因此Cache共有2³=8组，每组2行，每行有2⁵=32B; Cache的总容量为8×2×(20+1+1+1+32×8)=4464b=558B。Cache中有效位用来指出所在Cache行中的信息是否有效。
4)虚拟地址分为两部分：虚页号、页内地址；物理地址分为两部分：实页号、页内地址。利用虚拟地址的虚页号部分去查找TLB表（缺失时从页表调入），将实页号取出后和虚拟地址的页内地址拼接，形成物理地址。虚页号0008CH恰好在TLB表中对应实页号0040H（有效位为1，说明存在），虚拟地址的后3位为页内地址040H，对应的物理地址是0040040H。
物理地址为0040040H，其中高20位00400H为标志字段，低5位00000B为块内偏移量，中间3位010B为组号2，因此将00400H与Cache中的第2组两行中的标志字段同时比较，可以看出，虽然有一个Cache行中的标志字段与00400H相等，但对应的有效位为0，而另一Cache行的标志字段与00400H不相等，因此访问Cache不命中。
因为物理地址的低12位与虚拟地址的低12位相同，即为001001100000B。根据物理地址的结构，物理地址的后八位01100000B的前三位011B是组号，因此该地址所在的主存映射到Cache组号为3。
07.【解答】
注意：对于本题的TLB，需要采用处理Cache的方式求解。
1)按字节编址，页面大小为4KB=2¹²B，页内地址为12位。虚拟地址中高30-12=18位表示虚页号，虚拟地址中低12位表示页内地址。
2)TLB采用2路组相联映射方式，共8=2³组，用3位来标记组号。虚拟地址(或虚页号)中高18-3=15位为TLB标记，虚拟地址中随后3位(或虚页号中低3位)为TLB组号。
3)虚页号4对应的TLB表项被替换。因为虚页号与TLB组号的映射关系为TLB组号=虚页号mod TLB组数=虚页号mod8,因此，虚页号10,12,16,7,26,4,12,20映射到的TLB组号依次为2,4,0,7,2,4,4,4.TLB采用2路组相联映射方式，从上述映射到的TLB组号序列可以看出，只有映射到4号组的虚页号数量大于2，相应虚页号依次是12，4，12和20。根据LRU算法，当访问第20页时，虚页号4对应的TLB表项被替换出来。
4)虚拟地址位数增加到32位时，虚页号增加了32-30=2位，使得每个TLB表项中的标记字段增加2位，因此，每个TLB表项的位数增加2位。
08.【解答】
1)数组a的起始地址为00422000H，页大小为4KB，所以页内偏移量占12位，数组a共有24×64=1536个元素，每个int型数据占4字节，因此数组a共占1536×4B=6KB的怪分布在2个相邻的页面中。页号分别为00422H和00423H，当访问这两个页面的第一个数组元素的地址时，因为页面尚未调入内存，所以会发生2次缺页异常，两个页故障地址分别是00422000H和00423000H。
2)若不考虑变量i和j，该程序段的数据访问只涉及对数组元素的访问，每个数组元素只访问一次，因此该程序段的数据访问没有时间局部性。
3)在组相联映射方式下，物理地址结构为标记+Cache组号+块内地址，主存块大小为32B，因此块内地址占5位；Cache数据区共有8KB÷256行，采用4路组相联，共有64组，所以Cache组号占6位，因此虚拟地址中低5位(A4~A0)用作块内地址；低11位虚拟地址中高6位(A10~A5)用作Cache组号。a[1][0]的虚拟地址为00422000H+1×64×4+0×4=00422100H。虚拟地址为32位，页框大小为4KB，虚拟地址的低12位表示页内偏移量，
2027年计算机组成原理考研复习指导
因此物理地址的低12位和虚拟地址的低12位相同，因此a[1][0]所在主存块对应的Cache组号为001000B=8。
4)数组a占24×64×4B÷32B=192个主存块。每个主存块存放32B÷4B=8个数组元素，访问数组a的Cache命中率为(8-1)/8=87.5%。8行数组元素占8×64×4B÷32B=64个主存块，分别映射到64个Cache组的某Cache行，数组a共有24行，因此每个Cache组中只有24/8=3个Cache行存放数组a中的数据，而每个Cache组有4行，因此不会发生替换，访问数组a的Cache命中率为7/8=87.5%。
09.【解答】
1)Cache地址字段划分如下。
块内地址：主存块大小为64B=2⁶B，因此块内地址字段需要6位。
组号：Cache数据区大小为32KB，采用8路组相联，每组大小为8×64B=512B，总组数为32KB/512B=215/29=2⁶=64。因此组号字段需要6位。
Cache索引：地址的低6位是块内地址，紧接着的6位是组号(索引)，即物理地址的第6位到第11位(从0开始计数)，而又因为页大小为4KB，说明页内地址占12位，因此物理地址与虚拟地址的低12位(VA₁₁~VA₀)相同。因此索引是VA₁₁~VA₀。
2)数组d是int型，每个元素占4字节。d[100]相对于首地址的偏移量为100×4=400=190H字节。因此，d[100]的虚拟地址为01800020H+190H=018001B0H。
018001B0H的二进制表示为0000000110000000000110110000，Cache组号为该地址的VA₁₁~VA₆位，即000110，转换成十进制数为6。
3)块内偏移量：d[0]的地址为01800020H，块内偏移量即为地址的低6位，即20H。
Cache缺失率：每次循环对数组元素d[i]执行一次读和一次写操作，共4096次访存(2048×2)。每个Cache块大小为64B，可容纳64B/4B=16个int元素。由于数组在内存中连续存放，访问某块中的第一个元素缺失时，该块全部数据将被调入Cache，后续15个元素的访问均可命中。因此，若数组起始地址按64B(Cache块大小)对齐，则总共刚好需要访问2048/16=128个内存块，缺失次数为128；但d[0]的地址为01800020H，其块内偏移为20H(32B)，未按Cache块边界对齐，导致实际访问跨越128+1=129个内存块，因此总缺失次数为129次。故Cache缺失率=129/4096≈3.15%。
平均访问时间=命中时间+缺失率×缺失代价=2+0.0315×200=2+6.3=8.3个时钟周期。
3)数组总大小=2048×4B=8KB，页大小=4KB。貌似刚好占2个页，但需要看起始地址是否处在页边界。数组d的虚拟地址范围为01800020H~0180201FH，页号范围为01800H~01802H，共3个页。
初始时数组不在主存中，顺序访问将依次触发这3个页的缺页异常。因此缺页次数为3。
3.7	本章小结
本章开头提出的问题的参考答案如下。
1)存储器系统为何要分这些层次？计算机如何管理这些层次？
存储系统采用多级层次结构，旨在兼顾存储速度、存储容量与单位成本：Cache-主存层主要用于加速CPU访存，使平均访问速度接近Cache，而寻址空间和单位价格接近主存；主存-辅存
第3章存储系统
147
层主要用于扩展可用存储容量，使程序员看到的地址空间和单位价格接近辅存，而访问速度接近主存。
Cache与主存之间的信息调度由硬件自动完成，对程序员透明；而主存与辅存之间的信息调度通过虚拟存储技术实现，该技术结合软件与硬件。程序员使用远大于物理内存的虚拟地址空间编程；程序运行时，由硬件和操作系统协同完成虚拟地址到物理地址的转换。
2)影响 Cache性能的因素有哪些?
Cache系统的访存效率主要由命中率决定，而命中率受多种因素影响：
① 映射方式：全相联映射命中率最高，直接映射最低，组相联介于两者之间。
② Cache容量：容量越大，可缓存的数据越多，命中率通常越高。
③ 块大小(Cache行大小)：块过小难以利用空间局部性，过大则可能降低有效容量并增加缺失损失，因此需取适中值。
此外， Cache级数(单级或多级)、指令/数据 Cache是否分离、以及主存-总线-Cache-CPU的架构等，也会显著影响 Cache的总体性能。
3)虚拟存储系统的页面是设置得大一些好还是设置得小一些好?
页面大小应适中，过大或过小均会带来问题。页面过小：页表项数量剧增，导致页表庞大；同时难以有效利用空间局部性，降低命中率。页面过大：虽可减小页表规模，但会增加页内碎片，浪费内存空间，且页面调入/调出时传输开销更大，延长缺页处理时间。因此，实际系统通常选择4KB~几MB的页面大小，在页表开销、局部性利用与I/O效率之间取得平衡。
3.8 常见问题和易混淆知识点
1. Cache行的大小和命中率之间有什么关系?
当 Cache行较大时，能更好利用空间局部性，将更多的相邻数据一次性调入 Cache，从而提高命中率。但行长不宜过大，主要原因有两个：
① 行长过大会增加缺失损失，即未命中时需从主存读取更多数据，传输时间更长。
② 在 Cache总容量固定的情况下，行长增大会导致行数减少，降低地址映射的灵活性，反而可能降低命中率。
反之，行长过小虽使缺失代价较小，但难以有效利用空间局部性，命中率通常偏低。
2. 发生取指令 Cache缺失的处理过程是什么?
当发生取指令 Cache缺失时，系统按以下步骤处理：
1)保持程序计数器不变，确保缺失处理完成后能重新获取同一条指令。
2) 根据 PC 指向的地址，从主存读取该指令。
3) 将该指令所在主存块调入 Cache，并更新对应 Cache行的有效位和标记位。
4) 重新从 Cache中取指并继续执行。
第4章
指令系统
【考纲内容】
扫一扫
（一）指令格式的基本概念
（二）指令格式
（三）寻址方式
（四）数据的对齐和大/小端存放方式①
视频讲解
（五）CISC 和RISC 的基本概念
（六）高级语言程序与机器级代码之间的对应
编译器、汇编器与链接器的基本概念②；选择结构语句的机器级表示
循环结构语句的机器级表示；过程（函数）调用对应的机器级表示
【复习提示】
指令系统是表征一台计算机性能的重要因素。应掌握各种寻址方式的特点及有效地址的计算，三种偏移寻址（相对寻址、基址寻址和变址寻址）的地址计算方法，以及CISC与RISC的特点与区别。2022年大纲新增机器级表示相关内容，而机器级代码题型在历年统考中多次出现，需具备读懂汇编代码的能力。本章知识点既可能出选择题，也可能结合其他章节出有关指令的综合题。指令格式、机器指令、寻址方式与 CPU 指令执行过程密切相关，需重点掌握。
在学习本章时，建议读者思考以下问题：
1)什么是指令？什么是指令系统？为什么要引入指令系统?
2)一般来说，指令由哪些部分组成？各部分的作用是什么?
3)对一个指令系统而言，寻址方式多或少会带来什么影响？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
4.1 指令系统
4.1.1 指令集体系结构
考点追踪	指令集体系结构(ISA) 的内容(2022、2025)
机器指令（简称指令）是指示计算机执行某种操作的命令。一台计算机的所有指令的集合构成该机的指令系统，也称指令集。指令系统是指令集体系结构(ISA)中最核心的部分。ISA 完整定义了软件与硬件之间的接口，是机器语言或汇编语言程序员必须掌握的基础。
① 本考点在第2章的2.3节中介绍。
② 本考点在第1章的1.2节中介绍。
第4章指令系统
ISA规定的内容主要包括：
1)指令格式、寻址方式、操作类型，以及各操作所需操作数的个数、类型和寻址约束。
2)操作数的数据类型，以及是按大端还是小端方式存放。
3)程序可访问的寄存器编号、数量和位数，存储空间的大小及编址方式。
4)程序员可见的控制状态，如程序计数器、条件码的定义与行为等。
ISA规定了机器级程序的格式，因此机器语言或汇编语言程序员必须熟悉所用机器的ISA。然而，大多数程序员使用高级语言(如C/C++/Java)编程，因其开发效率高且不易出错。但高级语言的抽象层较高，隐藏了许多机器级细节，导致程序员难以利用与硬件结构相关的优化手段提升性能。若能充分理解ISA及底层硬件特性，则能开发出性能更优的程序。
4.1.2指令的基本格式
一条指令是机器语言的一个语句，由一组有意义的二进制代码组成。其基本格式如下：
操作码字段	地址码字段
其中，操作码指明指令应执行的操作及功能，是识别指令、理解其作用以及确定地址码含义的关键，例如指示算术加法或减法、程序转移或返回等。地址码给出被操作信息(指令或数据)的地址，包括源操作数地址、目的操作数地址、转移目标地址或子程序入口地址等。
指今字长是指一条指令所包含的二进制位数，取决于操作码长度、地址码长度及地址码个数。在一个指令系统中，若所有指令字长相等，则称为定长指令字结构。定长指令取指和译码简单，有利于流水线实现。若指令字长随功能而异，则称为变长指令字结构。由于主存通常按字节编址，指令字长通常为字节的整数倍。
根据指令中操作数地址码数目的不同，可将指令分为以下几种格式。
考点追踪	根据指令格式及相关编码条件组合成机器代码(2015)
1.零地址指令
零地址：OP
仅包含操作码，无显式地址。此类指令有两种情况：
1)无须操作数的指令，如空操作、停机、关中断等。
2)用于堆栈计算机的运算指令，其操作数隐含从栈顶和次栈顶弹出，运算结果压回栈顶。
2.一地址指令
一地址：OP A₁
其具体形式由操作码决定，常见有两种：
1)单操作数指令：按A₁地址读取操作数，进执行OP操作后结果存回A₁。
指令含义：OP(A₁)→A₁
如加1、减1、求反、求补、移位等。
2)累加器型双操作数指令：A₁为源操作数地址，另一操作数隐含在ACC，结果存入ACC。
指令含义：(ACC)OP(A₁)→ACC
若地址码为主存地址，完成一条一地址指令需3次访存(取指1次，取数1次，存结果1次)。
3.二地址指令
二地址：OP A₁ A₂
150	2027年计算机组成原理考研复习指导
指令含义：(A_{1})OP(A_{2})\rightarrow A_{1}
二地址指令中，A_{1}为目的操作数地址（兼结果地址），A_{2}为源操作数地址。若地址码均为主存地址，完成一条二地址指令需4次访存（取指1次，取两个操作数2次，存结果1次）。
4.三地址指令
三地址：	OP	A_{1} A_{2} A_{3}（结果）
指令含义：(A_{1})OP(A_{2})\rightarrow A_{3}。
在三地址指令中，A_{1}和A_{2}为两个源操作数地址，A_{3}为结果地址。若地址码均为主存地址，完成一条三地址指令需4次访存（取指1次，取两个操作数2次，存结果1次）。
4.1.3 定长操作码指令格式
考点追踪	定长操作码的指令条数（2015）
定长操作码指令在指令字的最高位部分分配固定位数表示操作码。一个n位操作码字段的指令系统最多可表示2^{n}条指令。定长操作码有利于简化硬件设计并提高译码速度。在字长为32位或更长的系统中，这种格式是常规用法。
4.1.4 扩展操作码指令格式
考点追踪	扩展操作码的设计与分析（2017、2021、2022）
为在有限的指令字长内支持丰富的指令种类，常采用可变长度操作码，即指令的操作码字段位数不固定，且分散在指令的不同位置。这增加了指令译码和分析的难度，使控制器设计更加复杂。最常见的变长操作码方法是扩展操作码（见图4.1），它使操作码长度随地址码减少而增加，不同地址数的指令有不同长度的操作码，从而有效缩短指令字长。
指令字长为16位，其中4位为基本操作码字段OP，另有3个4位长的地址字段A_{1}、A_{2}和A_{3}。若4位基本操作码全部用于三地址指令，则最多支持16条指令。实际使用了15条三地址指令，保留1111作为扩展操作码；对于二地址指令，保留11111111作为扩展操作码，共15条；对于一地址指令，保留111111111111作为扩展操作码，共15条；零地址指令共16条。
12位操作码
1111	1111	0000	A_{3}
1111	1111	0001	A_{3}
\cdots \cdots \cdots \cdots
1111	1111	1110	A_{3}
12位操作码
1111	1111	1111	0000
1111	1111	1111	0001
\cdots \cdots \cdots \cdots
1111	1111	1111	1111
16位操作码
除这种安排外，还有其他多种扩展方法，例如形成15条三地址指令、12条二地址指令、63条一地址指令和16条零地址指令，共106条指令，请读者自行分析。
图4.1	一种扩展操作码的安排方式
在设计扩展操作码指令格式时，必须注意以下两点：
1）不允许短操作码成为长操作码的前缀，即短操作码不能与长操作码的前面部分相同。
2）各指令的操作码一定不能重复。
通常情况下，对使用频率较高的指令分配较短的操作码，对使用频率较低的指令分配较长的操作码，从而尽可能减少指令译码和分析的时间。
第4章	指令系统	151
4.1.5 指令的类型
设计指令系统时必须考虑应提供哪些操作类型，指令按功能可分为以下几种。
1. 数据传送指令
传送指令主要有寄存器之间的传送(MOV)、从内存单元读取数据到CPU寄存器(LOAD)、从CPU寄存器写数据到内存单元(STORE)、进栈操作(PUSH)、出栈操作(POP)等。
2. 算术和逻辑运算指令
算术和逻辑运算指令主要有加(ADD)、减(SUB)、乘(MUL)、除(DIV)、加1(INC)、减1(DEC)、与(AND)、或(OR)、取反(NOT)、异或(XOR)等。
3. 移位操作指令
移位指令主要有算术移位、逻辑移位、循环移位等。
4. 顺序控制指令
考点追踪	转移指令、调用和返回指令、条件转移指令的区分(2019)
顺序控制指令主要有无条件转移(JMP)、条件转移(BRANCH)、调用(CALL)、返回(RET)、陷阱(TRAP)等。无条件转移指令在任何情况下都执行转移操作，而条件转移指令仅在特定条件满足时执行转移操作，转移条件通常是某个标志位的值或多个标志位的组合。
调用指令与转移指令的区别在于：调用指令会保存下一条指令的地址(返回地址)，以便子程序执行结束后能返回到主程序继续执行；而转移指令则不返回。
5. 输入输出指令
输入输出指令用于完成CPU与外部设备交换数据或传送控制命令及状态信息。
6. CPU控制指令
CPU控制指令主要有停机、开中断、关中断、系统模式切换以及进入特殊处理程序等。这类指令只能在操作系统内核代码中使用，以防止用户误用，对系统运行造成危害。
4.1.6 本节习题精选
一、单项选择题
01. 下列关于指令集体系结构和指令系统的说法中，错误的是（	）。
A. 指令集体系结构位于计算机软/硬件的交界面上
B. 指令集体系结构是指低级语言程序员所看到的概念结构和功能特性
C. 任何程序运行前都要先转换为机器语言程序
D. 指令系统和机器语言是无关的
02. 下列有关指令集体系结构(ISA)的叙述中，错误的是（	）。
A. ISA规定了执行每条指令时所包含的控制信号
B. ISA规定了指令获取操作数的方式，即寻址方式
C. ISA规定了所有指令的集合，包括指令格式和操作类型
D. ISA规定了程序可访问的寄存器个数、存储空间大小、编址方式和大端/小端方式
03. 运算型指令的寻址与转移型指令的寻址的不同点在于（	）。
A. 前者取操作数，后者决定程序转移地址
B. 后者取操作数，前者决定程序转移地址
152	2027年计算机组成原理考研复习指导
C. 前者是短指令，后者是长指令
D. 前者是长指令，后者是短指令
04. 程序控制类指令的功能是（	）。
A. 进行算术运算和逻辑运算
B. 进行主存与CPU之间的数据传送
C. 进行CPU和I/O设备之间的数据传送
D. 改变程序执行的顺序
05. 下列指令中不属于程序控制类指令的是（	）。
A. 无条件转移指令	B. 条件转移指令
C. 中断隐指令	D. 循环指令
06. 以下叙述错误的是（	）。
A. 为了便于取指令，指令的长度通常为存储字长的整数倍
B. 单地址指令是固定长度的指令
C. 单字长指令可加快取指令的速度
D. 单地址指令可能有一个操作数，也可能有两个操作数
07. 某指令系统有200条指令，对操作码采用固定长度二进制编码，最少需要用（	）位。
A. 4	B. 8	C. 16	D. 32
08. 在指令格式中，采用扩展操作码设计方案的目的是（	）。
A. 减少指令字长度
B. 增加指令字长度
C. 保持指令字长度不变而增加指令的数量
D. 保持指令字长度不变而增加寻址空间
09. 一个计算机系统采用32位单字长指令，地址码为12位，若定义了250条二地址指令，则还可以有（	）条单地址指令。
A. 212	B. 213	C. 214	D. 3×213
10. 假设系统采用16位定长指令字格式，操作码使用扩展编码方式，地址码为4位，三地址、二地址、一地址指令各有15、8、127条，则零地址指令最多有（	）条。
A. 15	B. 16	C. 31	D. 32
11. 某指令系统的指令字长为16位，地址码长度为6位。若已定义二地址指令15条、一地址指令48条，则零地址指令最多可定义（	）条。
A. 255	B. 256	C. 1023	D. 1024
12. 某机器的指令字长为12位，采用扩展操作码技术，支持零地址、一地址和二地址3种指令格式，地址码长度均为4位。若一地址和二地址指令均取最大可能条数，则该机器最多可定义的指令总数为（	）。
A. 16	B. 46	C. 48	D. 4366
13. 【2017统考真题】某计算机按字节编址，指令字长固定且只有两种指令格式，其中三地址指令29条、二地址指令107条，每个地址字段为6位，则指令字长至少应该是（	）。
A. 24位	B. 26位	C. 28位	D. 32位
14. 【2022统考真题】下列选项中，属于指令集体系结构(ISA)规定的内容是（	）。
I. 指令字格式和指令类型	II. CPU的时钟周期
第4章指令系统
Ⅲ.通用寄存器个数和位数
A.仅I、II
B.仅I、III
C.仅II、IV
D.仅I、III、IV
15.【2022统考真题】设计某指令系统时，假设采用16位定长指令字格式，操作码使用扩展编码方式，地址码为6位，包含零地址、一地址和二地址3种格式的指令。若二地址指令有12条，一地址指令有254条，则零地址指令的条数最多为（	）。
A.0
B.2
C.64
D.128
16.【2025统考真题】在下列选项中，由指令集体系结构(ISA)规定的是（	）。
A.是否采用阵列乘法器
B.是否采用定长指令字格式
C.是否采用微程序控制器
D.是否采用单总线数据通路
二、综合应用题
01.一个处理器中共有32个寄存器，使用16位立即数，其指令系统结构中共有142条指令。在某个给定的程序中，20%的指令带有一个输入寄存器和一个输出寄存器；30%的指令带有两个输入寄存器和一个输出寄存器；25%的指令带有一个输入寄存器、一个输出寄存器、一个立即数寄存器；其余25%的指令带有一个立即数输入寄存器和一个输出寄存器。
1)对于以上4种指令类型中的任意一种指令类型来说，共需要多少位？假定指令系统结构要求所有指令长度必须是8的整数倍。
2)与使用定长指令集编码相比，当采用变长指令集编码时，该程序能够少占用多少存储器空间？
02.假设指令字长为16位，操作数的地址码为6位，指令有零地址、一地址、二地址3种格式。
1)设操作码固定，若零地址指令有M种，一地址指令有N种，则二地址指令最多有几种？
2)采用扩展操作码技术，二地址指令最多有几种？
3)采用扩展操作码技术，若二地址指令有P条，零地址指令有Q条，则一地址指令最多有几种？
03.在一个36位长的指令系统中，设计一个扩展操作码，使之能表示下列指令：
1)7条具有两个15位地址和一个3位地址的指令。
2)500条具有一个15位地址和一个3位地址的指令。
3)50条无地址指令。
4.1.7答案与解析
一、单项选择题
01.D
指令集体系结构(ISA)完整定义了软件和硬件之间的接口，是机器语言或汇编语言程序员所应熟悉的。指令系统是计算机硬件的语言系统，这显然和机器语言有关。
02.A
指令集体系结构(ISA)是软件和硬件之间接口的一个完整定义，包含了基本数据类型、指令集、寄存器、寻址模式、存储体系、中断和异常处理及外部I/O。ISA规定了执行每条指令时所需要的操作码、操作数、寻址方式等信息，以及指令的功能和效果。控制信号是由控制单元根据ISA生成的，它属于微架构层面的实现细节，而不是ISA层面的抽象定义。
03.A
运算型指令寻址的是操作数，而转移型指令寻址的是下次欲执行的指令的地址。
154	2027年计算机组成原理考研复习指导
04. D
程序控制类指令用于改变程序执行的顺序，并使程序具有测试、分析、判断和循环执行的能力。
05. C
程序控制类指令主要包括无条件转移、条件转移、子程序调用和返回指令、循环指令等。中断隐指令是由硬件实现的，并不是指令系统中存在的指令，更不可能属于程序控制类指令。
06. B
指令的地址个数与指令的长度是否固定没有必然联系，即使是单地址指令，也可能由于单地址的寻址方式不同而导致指令长度不同。
07. B
因128=2⁷<200<2⁸=256，因此采用定长操作码时，至少需要8位。
08. C
扩展操作码并未改变指令的长度，而是使操作码长度随地址码的减少而增加。
09. D
地址码为12位，二地址指令的操作码长度为32-12-12=8位，已定义了250条二地址指令，2⁸-250=6，即可以设计出单地址指令6×2¹²=3×2¹³条。
10. B
指令长16位，地址码各4位。三地址指令：操作码4位，最多16种，用15种，剩1种(1111)用于扩展，所有非三地址指令的操作码的高4位均为1111，共2¹²=4096个编码。二地址指令：8条，每条占2⁸=256个编码(因有8位地址)，共占8×256=2048个，剩余编码为4096-2048=2048个。一地址指令：127条，每条占2⁴=16个编码，共占127×16=2032个，剩余编码为2048-2032=16个。这些编码无地址字段，每条对应一条零地址指令，故最多16条。
11. D
操作码按从短到长进行扩展编码。指令字长16位，地址码占6位。二地址指令含两个地址码(共12位)，操作码为高4位，可编码2⁴=16种；15条指令可使用编码0000~1110，剩余1111用作扩展。一地址指令的高4位固定为1111，中间6位用作扩展操作码，共2⁶=64种组合；实际使用48条，剩余64-48=16个编码可用作零地址扩展。零地址指令无地址字段，其高10位由1111拼接上述16个空闲扩展码构成，低6位自由取值，故最多可定义16×2⁶=16×64=1024条。
12. B
二地址指令的操作码占4位，共2⁴=16种编码，保留1个用于扩展，最多定义15条。一地址指令利用该保留编码，将第二个4位地址字段作为扩展操作码，得到2⁴=16种组合，再保留其中1个用于零地址扩展，最多可定义15条。零地址指令则使用这一保留编码，将剩余的4位全部作为操作码，可定义24=16条。因此，指令总数最多为15+15+16=46条。
13. A
三地址指令有29条，所以其操作码至少为5位。以5位进行计算，它剩余32-29=3种操作码给二地址。而二地址额外多了6位给操作码，因此其数量最大达3×64=192。所以指令字长最少为23位，因为计算机按字节编址，需要是8的倍数，所以指令字长至少应该是24位。
14. B
指令集体系结构处于软/硬件的交界面上。指令字和指令格式、通用寄存器个数和位数都与机器指令有关，由ISA规定。两个CPU可以有不同的时钟周期，但指令集可以相同；加法器的进位方式涉及电路设计，这两项都属于计算机的硬件部分，不由ISA规定。
15. D
地址码为6位，一条二地址指令会占用2⁶条一地址指令的空间，一条一地址指令会占用2⁶
第4章 指令系统 155
条零地址指令的空间。若全都是零地址指令，则最多有 2^{16} 条，减去一地址指令和二地址指令所占用的零地址指令空间，即 2^{16}-254×2^{6}-12×2^{6}×2^{6}=(2^{10}-254-12×2^{6})×2^{6}=2×2^{6}=128。
【另解】二地址指令有 12 条，则剩余 16-12=4 种操作码给一地址指令，一地址指令有 254 条，剩余 4×64-254=2 种操作码给 0 地址指令，所以 0 地址一共有 2×2^{6}=128 条。
16.B
指令集体系结构 (ISA) 是软件和硬件之间的抽象接口，定义了机器语言程序员可见的处理器行为，包括指令集、数据类型、寄存器、寻址方式及指令编码格式等。指令字是否定长属于编码格式的一部分，直接影响机器代码解析与程序设计，由 ISA 明确规定。而阵列乘法器、微程序控制器和单总线数据通路均属于微架构实现细节，对程序员不可见，不在 ISA 范围内。
二、综合应用题
01.【解答】
1) 因为有 142 条指令，所以至少需要 8 位才能确定各条指令的操作码 (2^{8}=256)。因为该处理器有 32 个寄存器，也就是说要用 5 位对寄存器 ID 编码，而每个立即数需要 16 位，所以有：20% 的一个输入寄存器和一个输出寄存器指令需要 8+5+5=18 位，长度对齐到 8 的倍数，便是 24 位。
30% 的两个输入寄存器和一个输出寄存器指令需要 8+5+5+5=23 位，对齐到 24 位。
25% 的一个输入寄存器、一个输出寄存器、一个立即数寄存器指令需要 8+5+5+16=34 位，对齐到 40 位。
25% 的一个立即数输入寄存器和一个输出寄存器指令需要 8+16+5=29 位，对齐到 32 位。
2) 因为变长指令最长的长度为 40 位，所以定长指令编码每条指令的长度均为 40 位。而采用变长编码，将各个指令长度和其概率相乘，得出平均长度为 30 位。所以该程序中，变长编码比定长编码少占用 25% 的存储空间。
02.【解答】
1) 根据操作数地址码为 6 位，得到二地址指令中操作码的位数为 16-6-6=4，这 4 位操作码可有 16 种操作。操作码固定，因此除了零地址指令有 M 种，一地址指令有 N 种，剩下的二地址指令最多有 16-M-N 种。
2) 采用扩展操作码技术，操作码位数可随地址数的减少而增加。对于二地址指令，指令字长 16 位，减去两个地址码共 12 位，剩下 4 位操作码，共 16 种编码，去掉一种编码（如 1111）用于一地址指令扩展，二地址指令最多可有 15 种操作。
3) 采用扩展操作码技术，操作码位数可变，二地址、一地址和零地址的操作码长度分别为 4 位、10 位和 16 位。这样，二地址指令操作码每减少一个，就可以多构成 2^{6} 条一地址指令操作码；一地址指令操作码每减少一个，就可以多构成 2^{6} 条零地址指令操作码。设一地址指令有 R 条，则一地址指令最多有 (2^{4}-P)×2^{6} 条，零地址指令最多有 [(2^{4}-P)×2^{6}-R]×2^{6} 条。题中给出零地址指令为 Q 条，即 Q=[(2^{4}-P)×2^{6}-R]×2^{6}，得 R=(2^{4}-P)×2^{6}-[Q×2^{-6}]。
03.【解答】
1)
156 2027年计算机组成原理考研复习指导
2）
3	15	15	3
OP1	OP2	addr1	addr2
000000000000000
111
000000111110011
3）
3	15	18
OP1	OP2
000000111110100	0000…00000(18个0)
111
000001000100101	0000…00000(18个0)
4.2	寻址方式	__
寻址方式是指确定指令或操作数有效地址的方法，包括确定下一条待执行指令的地址以及本条指令所需操作数的地址。寻址方式分为指令寻址和数据寻址两大类。
4.2.1指令寻址和数据寻址
确定下一条将要执行的指令地址称为指令寻址；确定本条指令操作数地址称为数据寻址。
1.指令寻址
指令寻址有两种方式：顺序寻址和跳跃寻址。
(1)顺序寻址
通过程序计数器(PC)加上当前指令的字节长度，自动形成下一条指令地址。
考点追踪PC自增大小与编址方式、指令字长的关系(2013、2014、2019、2023)
注	意
PC自增的大小与编址方式和指令字长有关。现代计算机通常按字节编址，若指令字长为16位（2字节），则PC自增为(PC)+2; 若指令字长为32位（4字节），则PC自增为(PC)+4.
(2)跳跃寻址
通过转移类指令实现。是否发生转移通常由状态寄存器中的条件码决定，转移目标地址由指令给出。转移方式分为：①绝对转移，地址码直接给出目标地址；②相对转移，地址码给出相对于当前PC值的偏移量。无论何种方式，转移指令的执行结果都是修改PC的值，CPU随后根据新的PC从主存取出下一条指令。
2.数据寻址
考点追踪	指令格式字段位数的分析(2020)
数据寻址指如何在指令中表示或计算操作数的地址。为区分不同寻址方式，指令字中通常设有寻址特征字段，其位数决定了可支持的寻址方式种类。典型指令格式如下：
考点追踪	指令格式中寻址特征字段的作用 (2023)
操作码	寻址特征	形式地址A
第4章	指令系统
指令中的地址码字段所包含的地址称为形式地址 (A)，它不代表操作数的真实地址；真实地址需通过寻址方式由形式地址计算得出，称为有效地址 (EA)。
•若为立即寻址，则形式地址的位数决定了操作数的取值范围。
•若为直接寻址，则形式地址的位数决定了可寻址的存储空间大小。
•若为寄存器寻址，则形式地址的位数决定了通用寄存器的最大数量。
•若为寄存器间接寻址，则寄存器的位数决定了可寻址空间大小。
注	意
(A)表示地址A处所存放的内容，A可以是寄存器编号或内存地址。
4.2.2常见的数据寻址方式
1. 隐含寻址
隐含寻址是指指令中不显式给出操作数地址，而将操作数地址隐含在特定寄存器中。例如，在累加器型结构中，单地址指令仅显式指定一个操作数地址，另一个操作数默认来自累加器(ACC)，运算结果也通常存回ACC，如图4.2所示。
寻址特征
主存
ADD A
ACC
A
操作数
另一个操作数
隐含在ACC中
ALU
暂存
图4.2隐含寻址
优点是可有效缩短指令字长；缺点是依赖存储隐含操作数的硬件(如ACC)。
2. 立即（数）寻址
考点追踪	立即寻址的概念(2023)
在立即寻址中，指令的形式地址字段并不表示操作数的地址，而是直接存放操作数本身，称为立即数，通常以补码形式表示。如图4.3所示，#表示立即寻址特征，A即为立即数。
优点是操作数已包含在指令中，执行阶段无须访问存储器，指令执行速度最快；缺点是立即数的大小受限于形式地址字段的位数，寻址范围非常有限。
3. 直接寻址
考点追踪	地址位数与直接寻址范围的关系(2010、2021)
直接寻址是指指令中的形式地址A就是操作数的真实地址EA，即EA=A，如图4.4所示。
直接寻址特征
主存
立即寻址特征
LDA A
OP #
A
A
操作数
ACC
操作数
图4.3立即寻址示意图
4.4直接寻址示意图
优点是实现简单，无须额外计算操作数地址，执行阶段只需访存一次；缺点是形式地址A的
158	2027年计算机组成原理考研复习指导
位数限制了寻址范围，且地址固定，难以动态修改。
例如，若形式地址字段占24位，则直接寻址范围为2²⁴=16M。
4.间接寻址
考点追踪	间接寻址EA的分析（2016）
间接寻址是相对于直接寻址而言的，指令中的形式地址A并不直接给出操作数的有效地址，而是指向一个主存单元，该单元中存放操作数的有效地址，即EA=(A),如图4.5所示。
OP
A
A
EA
优点是可扩大寻址范围（有效地址EA的位数通常大于形式地址A的位数，由存储字长决定），并支持地址动态生成（如实现指针和转移表）；缺点是指令执行阶段需多次访存（一次间址需2次访存）。由于访存开销较大，若需兼顾寻址范围与执行效率，通常采用寄存器间接寻址。
EA	操作数
一次间接寻址
图4.5间接寻址示意图
5.寄存器寻址
考点追踪	寄存器编号位数与寄存器数量的关系（2022、2024）
与直接寻址类似，寄存器寻址将操作数存放在寄存器中，指令的地址字段给出的是操作数所在寄存器的编号，即EA=R₁，操作数位于由R₁指定的寄存器内，如图4.6所示。例如，若CPU有32个通用寄存器，则寄存器编号需5位，形式地址字段仅需5位即可寻址全部寄存器。
优点是执行阶段无须访存，仅访问寄存器，执行速度快；且因寄存器数量远少于内存单元，地址码位数较少，有助于缩短指令字长；缺点是寄存器成本高，CPU中可用寄存器数量有限。
6.寄存器间接寻址
考点追踪	寄存器间接寻址的取数操作（2010）
寄存器间接寻址结合了间接寻址和寄存器寻址的特点，指令中的R₂所指寄存器中存放的不是一个操作数，而是操作数所在主存单元的地址，即EA=(R₁)，如图4.7所示。
寄存器寻址特征
寄存器间接寻址特征
OP
R₁
OP
R₁
主存
R₀
R₀
R₁
操作数
R₁ EA	操作数
R₂
R₂
寄存器
寄存器
图4.6寄存器寻址示意图
图4.7寄存器间接寻址示意图
相比间接寻址，寄存器间接寻址在执行阶段只需一次访存，减少了访存开销；同时，由于该方式使用寄存器来存储有效地址，其寻址范围不受形式地址字段位数限制，从而扩大了寻址范围。相比寄存器寻址，这种方式在执行阶段需要从主存获取操作数，增加了访存需求。
7.相对寻址
考点追踪	相对寻址的相关分析与计算（2009、2010、2013、2014、2019、2023）
相对寻址是指将程序计数器（PC）的内容与指令中的形式地址A相加，形成转移目标地址，
第4章	指令系统	159
即	EA=(PC)+A，如图4.8所示。其中，PC为取指完成后自动更新的值，指向下一条指令的地址；A是相对于该PC值的偏移量，可正可负，通常以补码表示。
相对寻址主要用于转移类指令，形式地址A的位数决定了转移范围。例如，假设某机器按字节编址，指令长度为2B。一条相对转移指令（JMP	A）位于地址1000H，其形式地址A=0005H（补码表示），则取指完成后PC=1002H，实际转移目标地址为1002H+0005H=1007H。
优点是目标地址不固定，而是相对于当前指令位置偏移，因此程序可在内存中任意浮动而不影响转移正确性，便于实现重定位和共享代码。
8.基址寻址
考点追踪	基址寻址的EA的计算（2019）
基址寻址是指将基址寄存器（BR）的内容与指令中的形式地址A相加，形成操作数的有效地址，即EA=(BR)+A，如图4.9所示。BR可以是专用基址寄存器或指定的通用寄存器。
在多道程序环境下，基址寄存器的内容由操作系统设定，在程序执行期间保持不变（作为基地址），而形式地址A作为偏移量，由用户程序指定并可根据需要变化。当使用通用寄存器作为基址寄存器时，尽管用户可选择哪个寄存器扮演此角色，但其内容仍由操作系统控制。
优点是：可扩大寻址范围（因基址寄存器位数通常大于形式地址A），能访问更大的地址空间；简化编程，用户无须关注程序在主存的具体位置，有利于多道程序设计和浮动程序的实现。缺点是：形式地址A的位数较短，限制了偏移量的范围。
9.变址寻址
考点追踪	变址寻址EA的相关计算（2013、2016、2024）
变址寻址是指将变址寄存器（IX）的内容与指令中的形式地址A相加，形成操作数的有效地址，即EA=(IX)+A，如图4.10所示。IX可以是专用变址寄存器或指定的通用寄存器。
160 2027年计算机组成原理考研复习指导
考点追踪	变址寻址的特点与应用 (2017、2018、2024)
变址寄存器面向用户，其内容（作为偏移量）可以在程序执行中由用户动态修改，而形式地址A（作为基地址）保持不变。该方式不仅扩大了寻址范围，还特别适用于数组等数据结构的处理——通过调整IX的值，可高效访问数组中任意元素，非常适合编写循环程序。例如，假设数组B首地址为1000H，存储在形式地址A中；变址寄存器IX初始为0。要访问B[3]元素（每个元素占4B）,可将IX置为0CH (3×4=12) , 则该元素EA=(IX)+A=0CH+1000H=100CH.
尽管变址寻址与基址寻址均通过“寄存器内容+形式地址”生成有效地址，但二者本质不同：基址寻址面向系统，基址寄存器(BR)的内容由操作系统设定且运行时不可变，用于支持多道程序和存储分配；而变址寻址面向用户，IX的值可由程序动态调整，用于灵活的数据访问。
考点追踪	偏移寻址的范畴(2011)
相对寻址、基址寻址和变址寻址均属于偏移寻址，其共同特点是通过某个寄存器的值与形式地址相加来确定操作数的有效地址，便于统一理解和应用。
10.堆栈寻址
堆栈是存储器（或寄存器组）中一块按后进先出原则管理的特定存储区，其读/写单元的地址由一个称为堆栈指针(SP)的特定寄存器给出。堆栈可分为两类：硬堆栈由高速寄存器构成，成本较高，容量较小；软堆栈则是从主存中划分一段区域实现，更为经济实用。
在采用堆栈结构的计算机中，多数指令表面上表现为无操作数形式，因为其操作数地址由SP隐含指定。在访问堆栈时，SP会自动更新以指向新的栈顶位置。
上述各寻址方式的有效地址计算方法及访存次数（不含取本条指令）的总结见表4.1.
表4.1寻址方式、有效地址及访存次数
寻址方式	有效地址	访存次数
立即寻址	A即是操作数	0
直接寻址	EA=A	1
一次间接寻址	EA=(A)	2
寄存器寻址	EA=R/	0
寄存器间接一次寻址	EA=(Rᵢ)	1
相对寻址	EA=(PC)+A	1
基址寻址	EA=(BR)+A	1
变址寻址	EA=(IX)+A	1
4.2.3 本节习题精选
一、单项选择题
01.指令系统中采用不同寻址方式的目的是（	）。
A.提供扩展操作码的可能并降低指令译码难度
B.可缩短指令字长，扩大寻址空间，提高编程的灵活性
C.实现程序控制
D.三者都正确
02.采用直接转移的无条件转移指令的功能是将指令中的地址码送入（	）。
A. 程序计数器 (PC)	B. 指令译码器 (ID)
C. 指令寄存器(IR)	D. 地址寄存器 (MAR)
第4章指令系统
03.为了缩短指令中某个地址段的位数，有效的方法是采取（	）。
A.立即寻址	B.变址寻址	C.间接寻址	D.寄存器寻址
04.简化地址结构的基本方法是尽量采用（	）。
A.寄存器寻址	B.隐含寻址	C.直接寻址	D.间接寻址
05.在指令寻址的各种方式中，获取操作数最快的方式是（	）。
A.直接寻址	B.立即寻址	C.寄存器寻址	D.间接寻址
06.假定指令中地址码所给出的是操作数的有效地址，则该指令采用（	）。
A.直接寻址	B.立即寻址	C.寄存器寻址	D.间接寻址
07.设指令中的地址码为A，变址寄存器为X，程序计数器为PC，则变址间址寻址方式的操作数的有效地址EA是（	）。
A.((PC)+A)	B.((X)+A)	C.(X)+(A)	D.(X)+A
08.（	）便于处理数组问题。
A.间接寻址	B.变址寻址	C.相对寻址	D.基址寻址
09.相对寻址方式中，指令所提供的相对地址实质上是一种（	）。
A.立即数
B.内存地址
C.以本条指令在内存中首地址为基准位置的偏移量
D.以下条指令在内存中首地址为基准位置的偏移量
10.指令寻址方式有顺序和跳跃两种，采用跳跃寻址方式可以实现（	）。
A.程序浮动	B.程序的无条件浮动和条件浮动
C.程序的无条件转移和条件转移	D.程序的调用
11.寄存器R1、R2均为16位，指令MOV R1，[R2]的功能是把内存数据传送至寄存器R1，寻址方式为寄存器间接寻址。R2的值为1234H，内存单元1234H存放数据56H，内存单元1235H存放数据78H，采用小端方式存储。则执行指令后R1的值为（	）。
A.5678H	B.7856H	C.8765H	D.6587H
12.某计算机的字长为16位，主存按字编址。转移指令由两个字节组成，采用相对寻址，第一个字节为操作码字段，第二个字节为相对偏移量字段。若某转移指令所在的主存地址为4000H，相对偏移量字段的内容为06H，则该转移指令执行后的PC值为（	）。
A.4002H	B.4004H	C.4007H	D.4008H
13.某计算机的指令字长为16位，由低到高第0~7位是形式地址D，第8~9位为寻址特征位X，第10~15位为操作码。当X=00时为直接寻址；当X=01时使用X1进行变址寻址；当X=10时使用X2进行变址寻址；当X=11时为相对寻址。设(PC)=1234H，(X1)=0005H，(X2)=1188H，则指令2222H的有效地址是（	）。
A.1256H	B.0027H	C.2222H	D.11AAH
14.某机器指令字长为16位，主存按字节编址，取指令时，每取一字节，PC自动加1。当前指令地址为2000H，指令内容为相对寻址的无条件转移指令，指令中的形式地址为40H。则取指令后及指令执行后PC的内容为（	）。
A.2000H,2042H	B.2002H,2040H
C.2002H,2042H	D.2000H,2040H
15.某计算机的主存容量为4M×16位，且存储字长等于指令字长，若该机能完成97种操作，操作码位数固定，且有直接、间接、基址、变址、相对、立即六种寻址方式，则相对寻
162	2027年计算机组成原理考研复习指导
址的偏移量范围为()。
A.(-32,+31)	B.(-64,+63)	C.(-128,+127)	D.(-256,+255)
16.假设寄存器R中的数值为200，主存地址为200和300的地址单元中存放的内容分别是300和400，则()方式下访问到的操作数为200。
A.直接寻址200	B.寄存器间接寻址(R)
C.存储器间接寻址(200)	D.寄存器寻址R
17.假设某条指令的第一个操作数采用寄存器间接寻址方式，指令中给出的寄存器编号为8，8号寄存器的内容为1200H，地址为1200H的单元中的内容为12FCH，地址为12FCH的单元中的内容为38D8H，而地址为38D8H的单元中的内容为88F9H，则该操作数的有效地址为()。
A.1200H	B.12FCH	C.38D8H	D.88F9H
18.设相对寻址的转移指令占3B，第1字节为操作码，第2、3字节为相对位移量(补码表示)，数据在存储器中采用以低字节为字地址的存放方式。每当CPU从存储器取出一字节时，即自动完成(PC)+1→PC。若PC的当前值为240(十进制)，要求转移到290(十进制)，则转移指令的第2、3字节的机器代码是()；若PC的当前值为240(十进制)，要求转移到200(十进制)，则转移指令的第2、3字节的机器代码是()。
A.2FH、FFH	B.D5H、00H	C.D5H、FFH	D.2FH、00H
19.某计算机按字节编址，采用大端方式，某指令的一个操作数的机器数为ABCD00FFH，该操作数采用基址寻址方式，指令中形式地址(用补码表示)为FF00H，当前基址寄存器的内容为C0000000H,则该操作数的LSB(FFH)存放的地址是()。
A.C000FF00H	B.C000FF03H	C.BFFF FF00H	D.BFFF FF03H
20.下列关于指令的功能及分类的叙述中，正确的是()。
A.算术与逻辑运算指令，通常完成算术运算或逻辑运算，都需要两个数据
B.移位操作指令，通常用于把指定的两个操作数左移或右移一位
C.转移指令、子程序调用与返回指令，用于解决数据调用次序的需求
D.特权指令，通常仅用于实现系统软件，这类指令一般不提供给用户
21.某计算机字长为16位，标志寄存器中存在ZF、SF、OF和CF标志位，采用双字节字长指令字。假定bgt(大于零转移)指令的第一个字节指明操作码和寻址方式，第二个字节为立即数Imm8，用补码表示。指令功能是：若转移条件成立，则PC=PC+2+Imm8×2；否则，PC=PC+2。则下列叙述中错误的是()。
A.该计算机按字节编址
B.若bgt指令是无符号整数的比较，则转移条件可以是ZF+CF=0
C.若bgt指令是有符号整数的比较，则转移条件可以是SF⊕OF=0
D.转移目标地址的范围是相对于bgt指令的前127条指令到后128条指令之间
22.下列关于指令寻址与数据寻址的描述中，错误的是()。
A.中断响应时，中断隐指令的执行不属于指令寻址的范畴
B.指令格式中，每个操作数字段均需通过显式编码或隐含约定确定其寻址方式
C.在含Cache的系统中，指令访存遵循“Cache优先”原则，未命中时再访问主存
D.数据寻址方式不属于指令集体系结构(ISA)规定的内容
23.【2009统考真题】某机器字长为16位，主存按字节编址，转移指令采用相对寻址，由2字节组成，第一字节为操作码字段，第二字节为相对位移量字段。假定取指令时，每
第4章指令系统
取一字节，PC自动加1。若某转移指令所在主存地址为2000H，相对位移量字段的内容为06H，则该转移指令成功转移后的目标地址是（	）。
A. 2006H B. 2007H C. 2008H D. 2009H
24.【2011统考真题】偏移寻址通过将某个寄存器的内容与一个形式地址相加来生成有效地址。下列寻址方式中，不属于偏移寻址方式的是（	）。
A.间接寻址 B.基址寻址 C.相对寻址 D.变址寻址
25.【2011统考真题】某机器有一个标志寄存器，其中有进位/借位标志CF、零标志ZF、符号标志SF和溢出标志OF，条件转移指令bgt（无符号整数比较大于时转移）的转移条件是（	）。
A. CF+OF=1 B. SF+ZF=1 C. CF+ZF=1 D. CF+SF=1
26.【2013统考真题】假设变址寄存器R的内容为1000H，指令中的形式地址为2000H；地址1000H中的内容为2000H，地址2000H中的内容为3000H，地址3000H中的内容为4000H，则变址寻址方式下访问到的操作数是（	）。
A. 1000H B. 2000H C. 3000H D. 4000H
27.【2014统考真题】某计算机有16个通用寄存器，采用32位定长指令字，操作码字段（含寻址方式位）为8位，STORE指令的源操作数和目的操作数分别采用寄存器直接寻址和基址寻址方式。若基址寄存器可使用任意一个通用寄存器，且偏移量用补码表示，则STORE指令中偏移量的取值范围是（	）。
A. -32768~+32767 B. -32767~+32768 C. -65536~+65535 D. -65535~+65536
28.【2016统考真题】某指令格式如下所示。
OP M I D
其中M为寻址方式，I为变址寄存器编号，D为形式地址。若采用先变址后间址的寻址方式，则操作数的有效地址是（	）。
A. I+D B. (I)+D C. ((I)+D) D. ((I))+D
29.【2017统考真题】下列寻址方式中，最适合按下标顺序访问一维数组元素的是（	）。
A.相对寻址 B.寄存器寻址 C.直接寻址 D.变址寻址
30.【2018统考真题】按字节编址的计算机中，某double型数组A的首地址为2000H，使用变址寻址和循环结构访问数组A，保存数组下标的变址寄存器的初值为0，每次循环取一个数组元素，其偏移地址为变址值乘以sizeof(double)，取完后变址寄存器的内容自动加1。若某次循环所取元素的地址为2100H，则进入该次循环时变址寄存器的内容是（	）。
A. 25 B. 32 C. 64 D. 100
31.【2019统考真题】某计算机采用大端方式，按字节编址。某指令中操作数的机器数为1234FF00H，该操作数采用基址寻址方式，形式地址（用补码表示）为FF12H，基址寄存器的内容为F0000000H，则该操作数的LSB（最低有效字节）所在的地址是（	）。
A. F000 FF12H B. F000 FF15H C. EFFF FF12H D. EFFF FF15H
32.【2020统考真题】某计算机采用16位定长指令字格式，操作码位数和寻址方式位数固定，指令系统有48条指令，支持直接、间接、立即、相对4种寻址方式。在单地址指令中，直接寻址方式的可寻址范围是（	）。
A. 0~255 B. 0~1023 C. -128~127 D. -512~511
164 2027年计算机组成原理考研复习指导
33.【2023统考真题】某运算类指令中有一个地址码为通用寄存器编号，对应通用寄存器中存放的是操作数或操作数的地址，CPU区分两者的依据是（	）。
A.操作数的寻址方式	B.操作数的编码方式
C.通用寄存器的编号	D.通用寄存器的内容
二、综合应用题
01.某机的机器字长为16位，主存按字编址，指令格式如下：
15	10 9	8 7	0
操作码	x	D
其中，D为位移量；X为寻址特征位。
x=00: 直接寻址。
X=01：用变址寄存器X1进行变址。
X=10：用变址寄存器X2进行变址。
x=11: 相对寻址。
设(PC)=1234H, (X1)=0037H,(X2)=1122H（H代表十六位进制数），请确定下列指令的有效地址：
①4420H	②2244H	③1322H	④3521H	⑤6723H
02.某计算机字长16位，标志寄存器FLAGS中的ZF、SF和OF分别是零标志、符号标志和溢出标志，采用双字节字长指令字。假定 bgt（大于零转移）指令的第一个字节指明操作码和寻址方式，第二个字节为偏移地址Imm8，用补码表示。指令功能是：
若（ZF+(SF⊕OF)=0）, 则PC=PC+2+Imm8×2; 否则, PC=PC+2.
请回答下列问题：
1）该计算机的编址单位是多少？
2）bgt指令执行的是有符号整数比较，还是无符号整数比较？
3）偏移地址Imm8的含义是什么？转移目标地址的范围是什么？
03.【2010统考真题】某计算机字长为16位，主存地址空间大小为128KB，按字编址，采用单字长指令格式，指令各字段定义如下：
15	12 11	6 5	0
OP	Ms	Rs	Md	Rd
源操作数	目的操作数
转移指令采用相对寻址方式，相对偏移量用补码表示，寻址方式定义见下表。
Ms/ Md	寻址方式	助	记	符	含	义
000B	寄存器直接	Rn	操作数 =(Rn)
001B	寄存器间接	(Rn)	操作数 =（(Rn)）
010B	寄存器间接、自增	(Rn)+	操作数 =（(Rn)）, (Rn)+1→Rn
011B	相对	D(Rn)	转移目标地址 =(PC)+(Rn)
注：(X)表示存储器地址X或寄存器X 的内容。
回答下列问题：
1）该指令系统最多可有多少条指令？该计算机最多有多少个通用寄存器？存储器地址寄存器(MAR)和存储器数据寄存器(MDR)至少各需要多少位？
2）转移指令的目标地址范围是多少？
第4章	指令系统 165
3）若操作码0010B表示加法操作（助记符为add），寄存器R4和R5的编号分别为100B和101B,R4的内容为1234H,R5的内容为5678H,地址1234H中的内容为5678H,5678H中的内容为1234H, 则汇编语句"add(R4),(R5)+"（逗号前为源操作数，逗号后为目的操作数）对应的机器码是什么（用十六进制表示）？该指令执行后，哪些寄存器和存储单元的内容会改变？改变后的内容是什么？
04.【2013统考真题】某计算机采用16位定长指令字格式，其CPU中有一个标志寄存器，其中包含进位/借位标志CF、零标志ZF和符号标志NF。假定为该机设计了条件转移指令，其格式如下：
15	11109 8 7	0
00000CzN	OFFSET
其中，00000为操作码OP;C、Z和N分别为CF、ZF和NF的对应检测位，某检测位为1时表示需检测对应标志，需检测的标志位中只要有一个为1就转移，否则不转移。例如，若C=1,Z=0,N=1, 则需检测CF和NF的值，当CF=1或NF=1时发生转移；OFFSET 是相对偏移量，用补码表示。转移执行时，转移目标地址为(PC)+2+2×OFFSET；顺序执行时，下一条指令地址为(PC)+2.请回答下列问题：
1）该计算机存储器是按字节编址还是按字编址？该条件转移指令向后（反向）最多可转移多少条指令？
2）某条件转移指令的地址为200CH，指令内容如下图所示，若该指令执行时CF=0,ZF=0,NF=1,则该指令执行后PC的值是多少？若该指令执行时CF=1,ZF=0,NF=0，则该指令执行后PC的值又是多少？请给出计算过程。
15	1110 9 8 7	0
00000	0	1	1	11100011
3）实现“无符号数比较小于或等于时转移”功能的指令中，C、Z和N应各是什么？
4）以下是该指令对应的数据通路示意图，要求给出图中部件①~③的名称或功能说明。
标志寄存器
①
OP
C Z
N OFFSET
2
PC
符号扩展器
加法器
②
③
多路选择器
05.【2021统考真题】假定计算机M字长为16位，按字节编址，连接CPU和主存的系统总线中地址线为20位、数据线为8位，采用16位定长指令字，指令格式及说明如下：
格式	6位	2位	2位	2位	4位	指令功能或指令类型说明
R型	R[rd]← R[rs]op1 R[rt]
含ALU运算、条件转移和访存
000000	rs	rt	rd	opl
op2	rs	rt	imm
op3	target
Ⅰ型	操作3类指令
J型	PC的低10位←target
2027年计算机组成原理考研复习指导
166
其中，op1~op3为操作码，rs，rt和rd为通用寄存器编号，R[r]表示寄存器r的内容，imm为立即数，target为转移目标的形式地址。请回答下列问题。
1)ALU的宽度是多少位？可寻址主存空间大小为多少字节？指令寄存器、主存地址寄存器(MAR)和主存数据寄存器(MDR)分别应有多少位？
2)R型格式最多可定义多少种操作？Ⅰ型和J型格式总共最多可定义多少种操作？通用寄存器最多有多少个？
3)假定op1为0010和0011时，分别表示有符号整数减法和有符号整数乘法指令，则指令01B2H的功能是什么(参考上述指令功能说明的格式进行描述)？若1，2，3号通用寄存器当前内容分别为B052H，0008H，0020H，则分别执行指令01B2H和01B3H后，3号通用寄存器内容各是什么？各自结果是否溢出？
4)若采用Ⅰ型格式的访存指令中imm(偏移量)为有符号整数，则地址计算时应对imm进行零扩展还是符号扩展？
5)无条件转移指令可以采用上述哪种指令格式？
4.2.4 答案与解析
一、单项选择题
01. B
采用不同寻址方式的目的是为了缩短指令字长，扩大寻址空间，提高编程的灵活性，但这也提高了指令译码的复杂度。程序控制是靠转移指令而非寻址方式实现的。
02. A
转移指令有条件/无条件、直接/间接、相对/绝对三种属性。条件转移是指需要先判断条件是否成立，才决定是否转移；无条件转移是指不用判断条件就可以转移，典型的是函数调用和返回。直接转移是指转移目标地址直接放在指令中，执行时直接将地址码送入PC；间接转移是指转移目标地址存放在寄存器或内存单元中。相对转移是指转移目标地址为当前PC值加上偏移量，偏移量一般在指令中；绝对转移是指转移目标地址直接由指令或寄存器给出。
03. D
CPU中寄存器的数量都不会太多，用很短的编码就可以指定寄存器，寄存器寻址需要的地址段位数为[log₂(通用寄存器个数)]，因此能有效地缩短地址段的位数。立即寻址，操作数直接保存在指令中，若地址段位数太小，则操作数表示的范围会很小；变址寻址，EA=变址寄存器IX的内容+形式地址A，A与主存寻址空间有关；间接寻址中存放的仍然是主存地址。
04. B
隐含寻址不明显给出操作数地址，而在指令中隐含操作数的地址，因此可以简化地址结构。
05. B
立即寻址最快，指令直接给出操作数；寄存器寻址次之，只需访问一次寄存器；直接寻址再次之，访问一次内存；间接寻址最慢，要访问内存两次或以上。
06. A
指令字中的形式地址为操作数的有效地址，这种方式为直接寻址。
07. B
变址寻址的有效地址是(X)+A，再进行变址间址寻址，即把(X)+A中取出的内容作为真实地址EA，即EA=((X)+A)。
第4章	指令系统 167
寄存器中的内容和指令地址码相加得到的是操作数的地址码。
08. B
变址寻址便于处理数组问题。基址寻址与变址寻址的区别见下表。
基址寻址	变址寻址
有效地址	EA=(BR)+A	EA=(IX)+A
访存次数	1	1
寄存器内容	由操作系统或管理程序确定	由用户设定
程序执行过程中值可变否	不可变	可变
特点	有利于多道程序设计和编制浮动程序	有利于处理数组问题和编制循环程序
09. D
相对寻址中，有效地址EA=(PC)+A（A为形式地址），执行本条指令时，PC已完成加1操作，PC中保存的是下一条指令的地址，因此以下一条指令的地址为基准位置的偏移量。
10. C
跳跃寻址通过转移类指令（如相对寻址）来实现，可用来实现程序的条件或无条件转移。
11. B
寄存器R2中的值是1234H,内存单元1234H中的值是56H,1235H中的值是78H, 因为采用小端方式，所以实际存储的数据为7856H，取出后存放到R1，因此R1的值为7856H.
12. C
主存按字编址，指令字长为1个字（2字节），因此取出该指令后，PC自动加1，相对偏移量为06H,所以该转移指令执行后的PC值为4000H+06H+1H=4007H.
13. D
将指令2222H展开成二进制为0010 0010 0010 0010B,因此寻址特征位X=10, 即使用X2进行变址寻址，其有效地址为1188H+22H=11AAH.
14. C
指令字长为16位，2字节，因此取指令后PC的内容为(PC)+2=2002H；无条件转移指令将下一条指令的地址送至PC,形式地址为40H,指令执行后PC=2002H+0040H=2042H.
15. A
操作码位数固定，且能完成97种操作，则操作码位数是[\log_{2}9 7] = 7位；具有六种寻址方式，则寻址特征位数是[\log_{2}6] = 3位；指令字长为16位，因此地址码位数是16-3-7=6位，6位补码的表示范围为-32~+31，即为相对寻址的偏移量范围。
16. D
直接寻址200访问的操作数是300，选项A错误。寄存器间接寻址(R)的访问结果与Ⅰ一样，选项B错误。存储器间接寻址 (200)表示主存地址200中的内容为有效地址，有效地址为300，访问的操作数是400，选项C错误。寄存器寻址R表示寄存器R的内容为操作数，只有选项D正确。
17. A
寄存器间接寻址中操作数的有效地址EA=(R₁)，8号寄存器内容为1200H，因此EA=1200H.
18. D、C
首先需要讲解一下补码扩充的问题。补码的扩充只需使用符号位补足即可，也就是说正数补码的扩充只要补 0，负数补码的扩充只需补 1（这是由补码的性质决定的）。理解了该性质，这道题就变成了十进制数转换为十六进制数的简单问题。
168	2027年计算机组成原理考研复习指导
1)PC的当前值为240，该指令取出后PC的值为243，要求转移到290，即相对位移量为290-243=47，转换成补码为2FH。因为数据在存储器中采用以低字节地址为字地址的存放方式，所以该转移指令的第二字节为2FH，而由于47是正数，只需在高位补0，所以第三字节为00H。
2)PC的当前值为240，该指令取出后PC的值为243，要求转移到200，即相对位移量为200-243=-43，转换成补码为D5H。数据在存储器中采用以低字节地址为字地址的存放方式，因此该转移指令的第二字节为D5H，因为-43是负数，所以只需在高位补1，所以第三字节为FFH。
19. D
基址寻址的操作数的有效地址为基址寄存器内容加上形式地址，即C0000000H+FF00H=C0000000H+FFFFFF00H=BFFF FF00H。因为是大端方式，所以LSB的存放地址为BFFF FF03H。
20. D
算术与逻辑运算指令用于完成对一个(如自增、取反等)或两个数据的算术运算或逻辑运算，选项A错误。移位操作用于把一个操作数左移或右移一位或多位，选项B错误。转移指令、子程序调用与返回指令用于解决变动程序中指令执行次序的需求，而不是数据调用次序的需求，选项C错误。
21. C
PC的增量是2，每条指令占2字节，可知编址单位为字节。若bgt指令是无符号整数的比较，则大于零时，ZF一定为0，且CF也一定为0。若bgt指令是有符号整数的比较，则转移条件成立时，要么未发生溢出，SF=OF=0，要么发生溢出，SF=OF=1，但前提是ZF一定为0，故正确的转移条件是(ZF+(SF⊕OF)=0)。Imm8的范围为-128~127，因此转移目标地址的范围是PC+2+(-128×2)~PC+2+127×2，即相对于bgt指令的前127条指令到后128条指令之间。
22. D
中断隐指令由硬件自动完成(如保存PC、转移至中断向量)，不涉及程序控制流中的指令地址生成，故不属于指令寻址。操作数要通过显式字段或隐含规则(如堆栈使用SP)确定来源，是寻址机制的基本要求。在现代存储体系中，指令与数据访存优先经Cache，缺失时才访问主存以提升性能。数据寻址方式是ISA的核心内容，必须明确定义，选项D错误。
23. C
相对寻址EA=(PC)+A，首先计算取指令后的PC值。转移指令由2字节组成，每取一字节PC加1，取指令后的PC值为2002H，因此EA=(PC)+A=2002H+06H=2008H。本题易误选选项A或B，选项A未考虑PC值的自动更新，选项B虽然考虑了PC值的自动更新，但未注意到该转移指令是一条2字节指令，PC值应是“+2”而不是“+1”。
24. A
间接寻址不需要寄存器，EA=(A)。基址寻址EA=A+基址寄存器BR的内容；相对寻址EA=A+程序计数器(PC)的内容；变址寻址EA=A+变址寄存器IX的内容。后三者都是将某个寄存器的内容与一个形式地址相加而形成有效地址，所以统称偏移寻址。
25. C
假设两个无符号整数A和B，bgt指令会将A和B进行比较，也就是将A和B相减。若A>B，则A-B肯定无进位/借位，也不为0(为0时表示两数相等)，因此CF和ZF均为0，选C。其余选项中用到了符号标志SF和溢出标志OF，SF表示结果的符号，OF是有符号整数的溢出标志
第4章指令系统
位，对于无符号数运算，SF和OF没有意义，显然应当排除。
26.D
根据变址寻址的方法，变址寄存器的内容(1000H)与形式地址的内容(2000H)相加，得到操作数的实际地址(3000H)，根据实际地址访问内存，获取操作数4000H，如下图所示。
变址寄存器形式地址
1000H 2000H 地址内容
1000H 2000H
2000H 3000H
3000H 4000H
27.A
采用32位定长指令字，其中操作码为8位，两个地址码共占用32-8=24位，而STORE指令的源操作数和目的操作数分别采用寄存器直接寻址和基址寻址，机器中共有16个通用寄存器，因此寻址一个寄存器需要log216=4位，源操作数中的寄存器直接寻址用掉4位，而目的操作数采用基址寻址也要指定一个寄存器，同样用掉4位，则留给偏移量的位数为24-4-4=16位，而偏移量用补码表示，因此16位补码的表示范围为-32768~+32767。
28.C
在变址寻址中，有效地址(EA)等于指令字中的形式地址D与变址寄存器I的内容之和，即EA=(I)+D。间接寻址是相对于直接寻址而言的，指令的地址字段给出的形式地址不是操作数的真正地址，而是操作数地址的地址，即EA=(D)。从而该操作数的有效地址是((I)+D)。
29.D
变址操作时，将计算机指令中的地址与变址寄存器中的地址相加，得到有效地址，指令提供数组首地址，由变址寄存器来定位数据中的各元素。所以它最适合按下标顺序访问一维数组元素，选择选项D。相对寻址以PC为基地址，以指令中的地址为偏移量确定有效地址。寄存器寻址则在指令中指出需要使用的寄存器。直接寻址在指令的地址字段直接指出操作数的有效地址。
30.B
根据变址寻址的公式EA=(IX)+A,有(IX)=2100H-2000H=100H=256, sizeof(double)=8(双精度浮点数用8位字节表示),因此数组的下标为256/8=32。
31.D
注意，内存地址是无符号数。
操作数采用基址寻址方式，EA=(BR)+A，基址寄存器BR的内容为F0000000H，形式地址用补码表示为FF12H即1111111100010010B,因此有效地址为F0000000H+(-00EEH)=EFFF FF12H。计算机采用大端方式编址，所以低位字节存放在字的高地址处，机器数一共占4字节，该操作数的LSB所在的地址是EFFFF FF12H+3=EFFF FF15H。
32.A
48条指令需要6位操作码字段(2⁵<48<2⁶)，4种寻址方式需要2位寻址特征位(4=2²)，还剩16-6-2=8位作为地址码，所以直接寻址范围为0~255。注意，主存地址不能为负。
33.A
指令字由操作码、寻址特征和地址码三个字段组成，寻址特征字段用来指明指令属于哪种寻址方式。若寻址方式是寄存器直接寻址，则地址码所指的通用寄存器中存放的是操作数，若寻址方式是寄存器间接寻址，则对应通用寄存器中存放的是操作数的地址。
170 2027年计算机组成原理考研复习指导
二、综合应用题
01.【解答】
取指令后, PC=1235H（注意，不是1236H, 因主存按字编址）。
①X=00,D=20H,有效地址EA=20H.
②X=10, D=44H, 有效地址EA=1122H+44H=1166H.
③X=11, D=22H, 有效地址EA=1235H+22H=1257H.
④X=01, D=21H, 有效地址EA=0037H+21H=0058H.
⑤X=11, D=23H, 有效地址EA=1235H+23H=1258H.
02.【解答】
1）因为PC的增量是2，且每条指令占2字节，所以编址单位是字节。
2）根据“大于”条件判断表达式，可以看出该bgt指令实现的是有符号整数比较。因为无符号数比较时，其判断表达式中没有溢出标志OF。继续分析该逻辑表达式，bgt指令的含义是当两数相减的结果大于0时，执行转移操作。因此，要满足bgt指令的条件，必须保证如下两个条件：一是结果不为0，即零标志位ZF为0；二是结果的符号位与溢出标志位OF相同，即SF⊕OF为O（两数相减结果大于O，有两种情况：第一种情况是结果没有溢出，此时OF位和SF位都为0；第二种情况是结果发生了溢出，此时OF和SF位都为1）。综上所述，逻辑表达式可表示为ZF+(SF⊕OF)=0.
3）偏移地址Imm8为补码表示，说明转移目标地址可能在bgt指令之后。计算转移目标地址时，偏移量为Imm8×2，说明Imm8不是相对地址，而是相对指令数。Imm8的范围为-128~127,所以转移目标地址的范围是PC+2+(-128×2)~PC+2+127×2,也即转移目标地址的范围是相对于bgt指令的前127条指令到后128条指令之间。
03.【解答】
1）操作码占4位，则该指令系统最多可有2^{4} = 1 6条指令。操作数占6位，其中寻址方式占3位、寄存器编号占3位，因此该机最多有2^{3} = 8个通用寄存器。主存地址空间大小为128KB,按字编址，字长为16位，共有128KB/2B =2¹⁶个存储单元，因此MAR至少为16位；本题已说明了存储字长为16位，因此MDR至少为16位。
2）寄存器字长为16位，PC可以表示的地址范围为（0 ~2^{1 6} - 1 ,Rn可表示的相对偏移量为-2¹⁵~2^{1 5} - 1 ,而主存地址空间为2¹⁶,因此转移指令的目标地址范围为0000H~FFFFH (0~2¹⁶-1).
3）汇编语句“add(R4),(R5)+”对应的机器码为
字	段	OP	Ms	Rs	Md	Rd
内	容	0010	001	100	010	101
说	明	add	寄存器间接	R4	寄存器间接、自增	R5
将对应的机器码写成十六进制数形式为00100011 00010101B=2315H.
该指令的功能是将R4 的内容所指的存储单元的数据与R5的内容所指的存储单元的数据相加，并将结果送入R5的内容所指的存储单元中。(R4)=1234H,(1234H)=5678H;(R5)=5678H,(5678H)=1234H; 执行加法操作5678H+1234H=68ACH.之后R5 自增。
该指令执行后，R5和存储单元5678H的内容会改变，R5的内容从5678H变为5679H，存储单元5678H中的内容变为该指令的计算结果68ACH.
04.【解答】
1）因为指令长度为16位，且下一条指令地址为(PC)+2，因此编址单位是字节。
第4章指令系统
相对偏移量OFFSET为8位补码，表示范围为-128~127，根据转移目标地址为(PC)+2+2×OFFSET，若要向后转移，则要求OFFSET必须为负数，OFFSET的最小值为-128，但在执行转移指令之前，PC进行了自增+2的操作，所以向后最多可转移127条指令。
2)指令中C=0,Z=1,N=1,因此应根据ZF和NF的值来判断是否转移。CF=0,ZF=0,NF=1时，需转移。已知指令中的偏移量为11100011B=E3H,符号扩展后为FFE3H,左移一位(乘以2)后为FFC6H,因此PC的值(转移目标地址)为200CH+2+FFC6H=1FD4H。CF=1,ZF=0,NF=0时不转移。PC的值为200CH+2=200EH。
3)指令中的C、Z和N应分别设置为C=Z=1,N=0。两个数之间的大小比较通常是对两个数做减法运算，即两个数相减当结果为0或为负时转移，若为0，则ZF标志应当是1，若为负，则借位标志应该是1，而无符号数并不涉及符号标志NF。
4)部件①用于存放当前指令，不难得出为指令寄存器；多路选择器根据符号标志C/Z/N来决定下一条指令的地址是PC+2还是PC+2+2×OFFSET，因此多路选择器左边线上的结果应是PC+2+2×OFFSET。根据运算的先后顺序及与PC+2的连接，部件②用于左移一位实现乘以2，为移位寄存器。部件③用于PC+2和2×OFFSET相加，为加法器。
部件②：移位寄存器(用于左移一位)；部件③：加法器(地址相加)。
05.【解答】
1)ALU的宽度为16位，ALU的宽度即ALU运算对象的宽度，通常与字长相同。地址线为20位，按字节编址，可寻址主存空间大小为2²⁰字节(或1MB)。指令寄存器有16位，和单条指令长度相同。MAR有20位，和地址线位数相同。MDR有8位，和数据线宽度相同。
2)R型格式的操作码有4位，最多有2⁴(或16)种操作。I型和J型格式的操作码有6位，因为它们的操作码部分重叠，所以共享这6位的操作码空间，且前6位全为0的编码已被R型格式占用，因此I和J型格式最多有2⁶-1=63种操作。从R型和I型格式的寄存器编号部分可知，只用2位对寄存器编码，因此通用寄存器最多有4个。
3)指令01B2H=0000001110110010B为一条R型指令，操作码0010表示有符号整数减法指令，其功能为R[3]←R[1]-R[2]。执行指令01B2H后,R[3]=B052H-0008H=B04AH,结果未溢出。指令01B3H=0000001110110111B,操作码0011表示有符号整数乘法指令，执行指令01B3H后,R[3]=R[1]×R[2]=B052H×0008H=8290H,B052H乘以8相当于将B052H算术左移3位，B052H是一个负数，符号位为1，在算术左移的过程中移出了101，不全为1，由此可以判断结果溢出。
4)在进行指令的转移时，既可能向前转移，又可能向后转移，偏移量是一个有符号整数，因此在地址计算时，应对imm进行符号扩展。
5)无条件转移指令可以采用J型格式，将target部分写入PC的低10位，完成转移。
4.3程序的机器级代码表示
考点追踪涉及汇编代码的年份(2012、2014、2015、2017、2019、2023、2024)
本节是2022年新增考点，但相关知识早已多次以综合题形式出现在历年真题中，难度较大，不少跨考生感到无从下手。通过本节学习后，考生应能从容应对此类问题。统考大纲未指定具体指令集，但历年真题主要考查x86和MIPS汇编指令。其中，MIPS指令通常会在试题中附带功能
172 2027年计算机组成原理考研复习指导
说明，而x86指令则更常作为默认考查对象。因此，本节重点介绍x86汇编指令。
4.3.1常用汇编指令介绍
1.相关寄存器
x86处理器中有8个32位通用寄存器，主要寄存器及说明如图4.11所示。为向后兼容早期的16位和8位架构,EAX、EBX、ECX和EDX的低16位可作为独立寄存器使用(分别记为AX、BX、CX、DX)，而每个16位寄存器又可进一步拆分为两个8位寄存器(如AX分为AH和AL).其中,E表示Extended,用于标识32位寄存器。
通用寄存器
31	16 15	8 7	0	16bit 32bit	说明
AX EAX 累加器 (Accumulator)
BX EBX 基地址寄存器 (Base Register)
CX ECX 计数寄存器 (Count Register)
DX EDX 数据寄存器 (Data Register)
AH	AL
BH	BL
CH	CL
DH	DL
ESI
EDI
EBP
ESP
ESI	变址寄存器 (Index Register)
EDI
EBP 堆栈基指针 (Base Pointer)
ESP 堆栈顶指针 (Stack Pointer)
图4.11 x86处理器中的主要寄存器及说明
除EBP（基址指针）和ESP（栈指针）外，其余通用寄存器的用途是比较灵活的。
2.常用指令
汇编指令通常可分为数据传送指令、算术与逻辑运算指令和控制流指令，下面以Intel格式为例，介绍一些常用指令。以下用于操作数的标记分别表示寄存器、内存和常数。
·<reg>：表示任意寄存器，若其后带有数字，则指定其位数，如<reg32>表示32位寄存器(eax,ebx, ecx, edx, esi, edi, esp或ebp); <reg16>表示16位寄存器(ax, bx, cx或dx) ; <reg8>表示8位寄存器 (ah,al,bh,bl,ch,cl,dh,dl) .
● <mem>: 表示内存地址（如[eax]、[var+4]或dword ptr[eax+ebx]）.
● <con>: 表示8位、16位或32位常数。<con8>表示8位常数;<con16>表示16位常数；<con32>表示32位常数。
考点追踪	分析汇编指令对应的二进制代码 (2010)
x86指令采用变长编码，其操作码通常为1字节，但整条指令长度可变。同一指令(如mov)因操作数类型或寄存器不同，可能对应多种机器码编码，例如，
mov ax, <con16>	#机器码为B8H
mov al, <con8>	#机器码为BOH
mov <reg16>, <reg16>/<mem16>	#机器码为89H
mov <reg8>/<mem8>, <reg8>	#机器码为8AH
mov <reg16>/<mem16>, <reg16>	#机器码为8BH
考点追踪   模仿写出简单语句的机器级指令 (2012)
(1)数据传送指令
1）mov指令。将第二个操作数（寄存器内容、内存内容或常数值）复制到第一个操作数（寄存器或内存）。其语法如下：
mov < reg>,< reg>
第4章指令系统	173
mov < reg>,< mem>
mov < mem>,< reg>
mov < reg>,< con>
mov < mem>,< con>
举例：
mov eax, ebx	#将 ebx寄存器的值复制到 eax
mov byte ptr [var], 5	#将常数5存入地址 var处的1字节内存单元
双操作数指令的两个操作数不能同时为内存，即mov指令不能用于直接从内存复制到内存。若需在内存之间复制，可先将源内存内容加载到寄存器，再从该寄存器写入目标内存。
2) push指令。将操作数压入栈中，常用于函数调用和现场保护。ESP是栈顶，入栈前先将ESP减4（栈向低地址方向增长），再将操作数压入ESP所指地址。其语法如下：
push < reg32>
push < mem>
push < con32>
举例（注意，栈中元素固定为32位）：
push eax	#将 eax的值压入栈
push [var]	#将地址 var处的4字节内容压入栈
3) pop指令。与 push指令相反，从栈中弹出数据。出栈前先将ESP所指地址的内容读出，再将ESP加4。其语法如下：
pop eax	#弹出栈顶元素并存入 eax
pop [ebx]	#弹出栈顶元素并存入 ebx所指的4字节内存地址
(2)算术和逻辑运算指令
1) add/sub指令。add指令将两个操作数相加，sub指令将第一个操作数减去第二个操作数，结果均保存在第一个操作数中。其语法如下：
add < reg>,< reg>/ sub < reg>,< reg>
add < reg>,< mem>/ sub < reg>,< mem>
add < mem>,< reg>/ sub < mem>,< reg>
add < reg>,< con>/ sub < reg>,< con>
add < mem>,< con>/ sub < mem>,< con>
举例：
sub eax, 10	#eax←eax-10
add byte ptr [var], 10	#将地址 var处的1字节内容与10相加，结果存回该地址
2) inc/dec指令。分别对操作数执行自增1或自减1操作。其语法如下：
inc < reg> / dec < reg>
inc < mem> / dec < mem>
举例：
dec eax	#eax值自减1
inc dword ptr [var]	#将地址 var处的4字节内容自增1
3) imul指令。有符号整数乘法指令，支持两种格式：①双操作数，将第二、第三操作数相乘，结果存入第一个操作数（必须为寄存器）；②三操作数，将第二、第三操作数相乘，结果存入第一个操作数（必须为寄存器）。其语法如下：
imul < reg32>,< reg32>
imul < reg32>,< mem>
imul < reg32>,< reg32>,< con>
imul < reg32>,< mem>,< con>
举例：
imul eax, [var]	#eax←eax * [var]
imul esi, edi, 25	#esi←edi * 25
无符号整数乘法由 mul指令实现，仅支持单操作数格式，被乘数隐含在 eax中，乘积结果存放在edx:eax中。当edx≠0时，表示结果无法用32位无符号数表示，CPU置CF=1和OF=1。imul
174	2027年计算机组成原理考研复习指导
在结果溢出时，同样置CF=1和OF=1。无符号乘法以CF判断溢出，有符号乘法则以OF为准。
4)idiv指令。有符号整数除法指令，仅指定除数。被除数为edx:eax组成的64位有符号数(edx为高32位，eax为低32位)。执行后，商存入eax，余数存入edx。其语法如下：
idiv<reg32>
idiv<mem>
举例：
idiv ebx
idiv word ptr[var]
无符号整数除法指令div的格式与idiv的完全一致，仅对操作数的解释不同。
5)and/or/xor指令。分别执行按位与、或、异或操作，结果存入第一个操作数。其语法如下：
and<reg>,<reg>/or<reg>,<reg>/xor<reg>,<reg>
and<reg>,<mem>/or<reg>,<mem>/xor<reg>,<mem>
and<mem>,<reg>/or<mem>,<reg>/xor<mem>,<reg>
and<reg>,<con>/or<reg>,<con>/xor<reg>,<con>
and<mem>,<con>/or<mem>,<con>/xor<mem>,<con>
举例：
and eax,0FH	#将eax的高28位置0，低4位保持不变
xor edx, edx	#将edx清零
6)not指令。按位取反指令，将操作数的每一位0变1、1变0。其语法如下：
not<reg>
not<mem>
举例：
not byte ptr[var]	#将地址var处的1字节内容按位取反
7)neg指令。取负指令，计算操作数的二进制补码(-x)。其语法如下：
neg<reg>
neg<mem>
举例：
neg eax	#eax←-eax
8)sh1/shr指令。逻辑移位指令：sh1为逻辑左移，shr为逻辑右移，第一个操作数为被移位数，第二个操作数为移位位数。其语法如下：
sh1<reg>,<con8>/shr<reg>,<con8>
sh1<mem>,<con8>/shr<mem>,<con8>
sh1<reg>,<cl>/shr<reg>,<cl>
sh1<mem>,<cl>/shr<mem>,<cl>
举例：
sh1eax,1	#eax逻辑左移1位
shrewbx,cl	#ebx逻辑右移n位(n为cl中的值)
(3)控制流指令
x86处理器通过指令指针寄存器EIP(相当于程序计数器即PC)指示当前执行指令的地址。每条指令执行后，EIP自动指向下一条指令。EIP不能直接访问，但可通过控制流指令修改。程序中常用标签(label)标记指令地址，例如：
指令①
begin:	指令②
指令③
此处标签begin指向第二条指令，控制流指令通过标签实现转移。
考点追踪	无条件转移指令的指令格式(2021)
1)jmp指令。无条件转移到label标签所指示的地址继续执行。其语法如下：
jmp<label>
第4章指令系统
举例：
jmp begin	#转移到begin标记处执行
考点追踪	条件转移指令与标志位的结合(2013)
2) jcondition 指令。条件转移指令，根据程序状态字寄存器中的状态标志(如零标志 ZF、符号标志SF等)决定是否转移。常见指令包括：
je <label>	#相等时转移(jump when equal)
jz <label>	#结果为零时转移(jump when last result was zero)
jne <label>	#不相等时转移(jump when not equal)
jg <label>	#大于时转移(jump when greater than)
jge <label>	#大于等于时转移(jump when greater than or equal to)
jl <label>	#小于时转移(jump when less than)
jle <label>	#小于等于时转移(jump when less than or equal to)
举例：
cmp eax, ebx
jie done	#若eax≤ ebx,则转移到done;否则顺序执行下一条指令
3) cmp/test 指令。cmp指令执行减法运算但不保存结果，仅根据结果设置标志位；test 指令执行按位与运算但不保存结果，仅更新标志位(特别是ZF)。其语法如下：
cmp <reg>,<reg>/test<reg>,<reg>
cmp <reg>,<mem>/test<reg>,<mem>
cmp <mem>,<reg>/test<mem>,<reg>
cmp <reg>,<con>/test<reg>,<con>
cmp和test指令通常与jcondition指令配合使用。cmp指令举例：
cmp dword ptr [var], 10	#将var处的4字节内容，与10比较
jne loop	#若相等则顺序执行；否则转移到loop
test指令举例：
test eax, eax	#测试eax是否为零
jz xxxx	#若eax为零(ZF=1),则转移到xxxx
考点追踪	call指令的功能(2019)
4) call/ret 指令。分别用于实现子程序调用与返回。其语法如下：
call <label>
ret
call指令将下一条指令的地址(返回地址)压入栈，然后转移到 label 处执行；ret 指令从栈顶弹出返回地址，并转移到该地址继续执行。call和ret是函数调用机制的核心指令。
掌握上述指令的语法与功能，有助于解答相关考题。建议读者在学习C语言程序时，结合调试工具(如GDB)查看其对应的汇编代码，以加深对机器级指令的理解。
3.汇编指令格式
使用不同的编程工具开发程序时，所用的汇编器也不同，主要有AT&T格式和 Intel格式两种(统考常涉及的是 Intel格式)。它们的主要区别如下：
① AT&T格式的指仓名必须使用小写字母，Intel格式对大小写不敏感。
② 操作数顺序不同：AT&T格式为“源，目的”，Intel格式为“目的，源”。
③ AT&T格式中，寄存器前加“%”，立即数前加“$”；Intel格式中，两者均无前缀。
④ 内存寻址符号不同：AT&T使用圆括号“()”，Intel使用方括号“[]”。
⑤ 复杂寻址方式表示不同：AT&T格式的内存操作数“disp(base, index, scale)”分别表示偏移量、基址寄存器、变址寄存器和比例因子，如“8(% edx,% eax,2)”表示操作数地址为R[edx]+R[eax]*2+8;对应的 Intel格式为“[edx+eax*2+8]”。
176 2027年计算机组成原理考研复习指导
⑥	操作数长度指定方式不同：AT&T格式在指令助记符后加后缀，表明操作数大小，“b”表示byte（字节）、“w”表示word（字）或“1”表示long（双字）;Intel格式则在内存操作数前使用“byte ptr”、”word ptr”或“dword ptr”显式指定长度。
注	意
在x86体系结构中，32或64位都是由16位扩展来的，因此word（字）始终表示16位。
表4.2所示为AT&T格式与Intel格式的指令对比。其中，mov指令用于在寄存器与内存之间或寄存器之间传送数据；lea指令用于将有效地址（而非内存内容）加载到寄存器。
表4.2 AT&T格式指令和Intel格式指令的对比
AT&T格式	Intel格式	含	义
mov $100, % eax	mov eax, 100	100→R[eax]
mov % eax, % ebx	mov ebx, eax	R[eax]→R[ebx]
mov % eax, (% ebx)	mov [ebx], eax	R[eax]→M[R[ebx]]
mov % eax, -8(% ebp)	mov [ebp-8], eax	R[eax]→M[R[ebp]-8]
lea 8(% edx,% eax,2), % eax	lea eax, [edx+ eax*2+8]	R[edx]+R[eax]*2+8→R[eax]
mov l % eax, % ebx	mov dword ptr [ebx], eax	32位R[eax]→M[R[ebx]]
注：R[r]表示寄存器r的内容，M[addr]表示主存单元addr的内容，→或←表示信息传送方向。
两种汇编格式的相互转换并不复杂，历年统考真题通常采用Intel格式。
4.3.2选择语句的机器级表示
常见的选择结构语句有if-then、if-then-else等。编译器通过条件码（标志位）设置指令和各类条件转移指令来实现程序中的选择结构。条件码描述了最近算术或逻辑运算操作的结果属性，程序通过检测这些标志位来决定是否执行条件分支。常用的条件码有CF、ZF、SF和OF.
常见的算术逻辑运算指令(add,sub,imul,or,and,shl,inc,dec,not,sal等)在执行时会自动设置条件码。此外，cmp和test指令专门用于设置条件码，它们执行相应的运算(cmp相当于sub,test相当于and)，但不保存结果，仅根据运算结果更新标志位。
之前介绍的jcondition条件转移指令，就是根据条件码ZF、OF或SF来实现转移的。
if-else语句的通用形式如下：
if(test expr)	// test   expr为条件测试表达式
then statement	//当test expr为真时，执行then statement语句
else
else__statement	//当test__expr为假时，执行else statement语句
在C语言中，test expr是一个整数表达式，其值为0时表示“假”，非0（包括负数）时表示“真”。两个分支语句(then__statement或else   statement) 中只会执行其中一个。
这种通用形式可以被翻译成如下等价的goto语句形式：
t= test__expr;	//暂存测试表达式的结果
if(!t)	//若条件为假(t=0)
goto false;	//转移至false标签，进入假分支
then__statement	//真分支：仅当t≠0时执行
goto done;	//执行完真分支后，跳过假分支，转移至结束点
false:	//假分支入口标签
else__statement	//假分支：仅当t=0时执行
done:	//整个if-else结构的结束点
第4章指令系统	177
下面以一个具体的C语言函数为例：
int get _ cont(int *p1, int *p2){
if(p1>p2)
return *p2;
else
return *p1;
}
已知p1和p2对应的实参已被压入调用函数的栈帧，它们对应的存储地址分别为R[ebp]+8、R[ebp]+12（EBP指向当前栈帧底部），函数返回值需存放在eax中。对应的汇编代码为
mov eax, dword ptr [ebp+8]#R[eax]->M[R[ebp]+8],即加载参数p1到eax
mov edx, dword ptr [ebp+12]#R[edx]->M[R[ebp]+12],即加载参数p2到edx
cmp eax, edx	#比较p1和p2，根据结果设置条件码
jbe .L1	#若p1<=p2,则转移到L1
mov eax, dword ptr [edx]	#R[eax]->M[R[edx]],即取*p2作为返回值
jmp . L2	#无条件转移到L2,跳过else分支
.L1:
mov eax, dword ptr [eax]	#R[eax]->M[R[eax]],即取*p1作为返回值
.L2:
p1和p2是指针型参数，在32位机器中占4字节（一个dword），比较指令cmp的两个操作数都应来自寄存器，因此需先将p1和p2对应的实参从栈中加载到寄存器。指针比较在C语言中按无符号整数处理，故使用jbe（无符号“小于等于”）进行条件转移。
4.3.3循环语句的机器级表示
考点追踪循环语句的机器级代码分析(2014、2017、2019、2023)
常见的循环结构语句有while、for和do-while。x86指令集中没有直接对应这些高级循环结构的指令，编译器通过条件测试(如cmp、test)和条件转移(如je、jne、jg、jle等)指令的组合来实现循环逻辑。实际上，大多数编译器会将这三种循环统一转换为类似于do-while形式。
(1) do-while循环
do-while语句是一种“后测试”型循环，其通用形式如下：
do //先执行循环体，再判断循环条件
body _ statement	//body _ statement为循环体执行语句
while(test _ expr);	//test _ expr为循环继续的条件表达式
这种结构可以直接翻译成如下所示的条件和goto语句组合：
loop:	//循环入口标签
body _ statement	//执行循环体语句(首次进入时必然执行)
t= test _ expr;	//计算循环条件
if(t)	//若条件为真(t≠0)
goto loop;	//跳回loop标签，继续下一轮迭代
由于循环体在条件判断之前执行，因此无论test _ expr的初始值是什么，body _ statement至少会被执行一次。每次执行结束时，程序会重新计算test _ expr的值；如果结果为真(非零)，就跳回循环开头继续执行；否则，顺序执行后续代码，退出循环。
(2) while循环
while语句是一种“前测试”型循环，其通用形式如下：
while(test _ expr)	//test _ expr为循环判断的条件表达式
body _ statement	//当test _ expr为真时重复执行body _ statement语句
与do-while不同,while循环在第一次执行body _ statement之前就会测试test _ expr的值。如果初始条件为假(test _ expr=0)，那么循环体一次都不会执行。
为了用转移指令实现这一语义，编译器通常采用“先判断、再进入循环体”的策略。具体来
178	2027年计算机组成原理考研复习指导
说，可以将while循环转换为一个带前置判断的do-while式结构，如下所示：
t=test _ expr; //计算初始循环条件
if(!t) //若初始条件为假(t=0)
goto done; //跳过循环体，直接转至结束点
do
body _ statement //执行循环体
while(test _ expr); //重新测试条件
done: //循环结构的结束点
进一步展开为纯goto语句的形式：
t=test _ expr; //计算初始循环条件
if(!t) //若为假
goto done; //跳过循环
loop:
body _ statement //执行循环体
t=test _ expr; //重新计算条件
if(t) //若仍为真
goto loop; //继续下一轮
done: //循环结束
这种转换确保了while循环“先判断、后执行”的语义，同时复用了do-while的结构。
(3) for循环
for循环是一种语法更紧凑的循环形式，其通用形式如下：
for(init _ expr; test _ expr; update _ expr)
body _ statement //body _ statement为循环体执行语句
init _ expr为初始化表达式，用于初始化循环计数器(如i=0); test _ expr为条件判断表达式，每次执行循环体前测试(如i<10); update _ expr为更新表达式，每次循环体执行完后执行(如i++)。
从执行逻辑上看，for循环完全等价于下面这段while循环代码：
init _ expr; //初始化(只执行一次)
while(test _ expr){ //每次循环前判断条件
body _ statement //执行循环体
update _ expr; //更新循环变量}
}
因此，可以先将for循环转换为while形式，再按照前述方法转换为goto语句：
init _ expr; //执行初始化
t=test _ expr; //测试初始条件
if(!t) //若初始条件为假
goto done; //跳过循环
loop:
body _ statement //执行循环体
update _ expr; //执行更新操作
t=test _ expr; //重新测试条件
if(t) //若条件仍为真
goto loop; //跳回循环体
done:
下面以一个具体的C语言函数为例，展示for循环如何被转换为汇编代码：
int nsum _ for(int n){
int i;
int result =0;
for(i=1; i<=n; i++)
result +=i;
return result;
}
第4章	指令系统	179
在这段代码中，for循环的各个组成部分如下：
init _ expr	i=1
test _ expr	i<=n
update _ expr	i++
body _ statement	result +=i
通过替换前面给出的模板中的相应位置，很容易将for循环转换为while或do-while循环。将这个函数翻译为goto语句代码后，不难得出其过程体的汇编代码：
mov ecx,word ptr [ebp+8]	#R[ecx]=M[R[ebp]+8]，即加载参数n到ecx
mov eax,0	#R[eax]=0，即初始化result=0
mov edx,1	#R[edx]=1，即初始化i=1
cmp edx,ecx	#比较i与n（R[edx]与R[ecx]）并设置标志位
jg .L2	#If greater，则转移到L2
.L1:	#循环体入口
add eax,edx	#R[eax]+=R[eax]+R[edx]，即result +=i
add edx,1	#R[edx]+=R[edx]+1，即i++
cmp edx,ecx	#再次比较i：n
jle .L1	#If less or equal，则转移到L1
.L2:	#循环结束点
已知实参n已被压入调用函数的栈帧，其对应的存储地址为R[ebp]+8。编译器将频繁使用的局部变量优化到寄存器中：此处，result被分配到eax（同时也是返回值寄存器），i被分配到edx。由于i和n均为int型，判断条件i<=n属于有符号比较，因此使用jle和jg等有符号转移指令。
4.3.4	过程调用的机器级表示
在程序执行过程中，当一个过程（函数）调用另一个过程时，需要完成参数传递、控制转移、现场保护与返回等一系列操作。x86架构通过call和ret指令支持这一机制，它们都属于无条件转移指令，但配合栈的使用，实现了完整的“调用-返回”语义。
假定过程P（调用者）调用过程Q（被调用者），整个调用过程的执行步骤如下：
1)P将入口参数（实参）放到Q能访问的位置。
2)P执行call指令，将返回地址（call的下一条指令地址）压入栈中，并转移到Q。
3)Q建立自己的栈帧，为局部变量分配空间，并在必要时保存某些寄存器。
4)Q执行其主体代码。
5)Q将返回结果放到约定位置，释放局部变量空间，并恢复之前保存的寄存器。
6)Q执行ret指令，从栈顶弹出返回地址，并转移回P继续执行。
上述过程中，入口参数、返回地址、局部变量、返回结果以及需保护的寄存器内容，都需要在内存中找到合适的存放位置。由于寄存器数量有限，且调用双方共享寄存器资源，若不加保护直接覆盖，将导致程序出错。因此，调用约定和栈的配合至关重要。规定：寄存器EAX、ECX和EDX是调用者保存寄存器：若P希望在调用后仍使用这些寄存器的值，则P必须在调用前自行保存（如压栈），并在返回后恢复。寄存器EBX、ESI、EDI是被调用者保存寄存器：若Q需要使用这些寄存器，则Q必须在使用前将其保存到栈中，并在返回前恢复。
每个过程在执行时，都会在运行时栈中分配一块专属区域，称为栈帧。整个运行时栈由多个连续的栈帧组成。EBP（基址指针）指向当前栈帧的基址（保存旧EBP的位置），ESP（栈指针）始终指向当前栈顶。栈从高地址向低地址增长；过程执行时，ESP会随数据入栈/出栈动态变化，而EBP在当前过程执行期间保持不变，便于通过固定偏移访问参数和局部变量。
下面用一个简单的C语言程序来说明过程调用的机器级实现。
int add(int x,int y){
return x+y;
}
180	2027年计算机组成原理考研复习指导
		int caller(){<br>			int temp1=125;<br>			int temp2=80;<br>			int sum=add(temp1,temp2);<br>			return sum;<br>		}
经GCC编译后，caller对应的汇编代码如下：
		caller:<br>			push ebp			#保存调用者P的EBP<br>			mov ebp,esp			#建立新栈帧：EBP\leftarrow当前栈顶<br>			sub esp,24			#为局部变量和参数区分配24字节空间<br>			mov [ebp-12],125			#M[R[ebp]-12]\leftarrow125，即temp1=125<br>			mov [ebp-8],80			#M[R[ebp]-8]\leftarrow80，即temp2=80<br>			mov eax,dword ptr [ebp-8]		#R[eax]\leftarrowM[R[ebp]-8]，加载temp2<br>			mov [esp+4],eax		#M[R[esp]+4]\leftarrowR[eax]，将temp2放入参数区高地址<br>			mov eax,dword ptr [ebp-12]	#R[eax]\leftarrowM[R[ebp]-12]，加载temp1<br>			mov [esp],eax		#M[R[esp]]\leftarrowR[eax]，将temp1放入参数区高地址<br>			call add			#调用add，返回值保存于eax<br>			mov [ebp-4],eax		#M[R[ebp]-4]\leftarrowR[eax]，将返回值存入sum<br>			mov eax,dword ptr [ebp-4]	#R[eax]\leftarrowM[R[ebp]-4]，将sum作为返回值<br>			leave			#等价于mov esp,ebp和pop ebp<br>			ret			#弹出返回地址并跳回
假设caller被过程P调用。在执行完“sub esp,24”后，caller的栈帧已建立（见图4.12），ESP指向新栈顶。GCC为caller分配了24字节的空间。从代码可见：
• caller仅使用了EAX（属于调用者保存寄存器），没有使用任何被调用者保存寄存器。因此其栈帧中除了通过“push ebp”保存调用者P的旧EBP外，无须保存其他寄存器。
• caller的三个局部变量temp1、temp2和sum皆被分配在栈帧中，占12字节。
• 在call指令调用add之前，caller依次将入口参数temp2和temp1的值（80和125）保存到栈中（左参数位于较低地址，右参数位于较高地址），占8字节。
• 执行call指令时再把返回地址压入栈中，占4字节。
包括最初压入栈中的旧EBP值（4字节）在内，caller栈帧实际使用的空间是4+12+8+4=28字节。然而，由于GCC为了保证数据的严格对齐，规定每个函数的栈帧大小必须是16字节的倍数，最终分配的栈帧大小为32字节，这意味着有4字节（未使用）作为对齐填充。
call指令执行后，add函数的返回值存放在EAX中。因此，call指令后面的两条指令分别完成：指令“mov [ebp-4],eax”将add的结果存入变量sum的存储位置，该变量位于地址R[ebp]-4；指令“mov eax,dword ptr [ebp-4]”再将sum的值加载到EAX，作为caller的返回值。
在执行ret指令之前，必须释放当前栈帧并恢复调用者（P）的基址指针。上述第14行leave指令正是用于完成这一任务，其功能等价于以下两条指令：
• mov esp,ebp	#将栈指针ESP设置为当前EBP的值，即指向保存旧EBP的位置
• pop ebp	#从栈中弹出旧EBP值，恢复过程P的基址指针
执行完这两条指令后，EBP已恢复为过程P中的原始值，而ESP则指向栈顶的返回地址。此时，ret指令便可从ESP所指位置取出该返回地址，并转移回过程P继续执行。当然，编译器
第4章	指令系统 181
也可以不使用leave指令，而是通过显式的pop操作配合对ESP的调整来实现栈帧的回收。
add过程经GCC编译并链接后，对应的机器代码如下：
8048469:55	push ebp
804846a:89 e5	mov ebp, esp
804846c:8b 45 0c	mov eax, dword pt r[ebp+12]
804846f:8b 55 08	mov edx, dword ptr [ebp+8]
8048472:8d 04 02	/ lea eax,[edx+ eax]
8048475:5d8048476:c3	pop ebpret
通常，一个过程的机器级代码可分为三个部分：准备阶段、过程体和结束阶段。
准备阶段（第1、2行）:“push ebp”将caller的EBP值保存到栈中，随后“mov ebp,esp”使EBP指向当前栈帧的基址。如图4.12所示,EBP指向add栈帧底部。这里add的入口参数x和y对应的值(125和80)分别在地址为R[ebp]+8、R[ebp]+12的存储单元中。
过程体(第3、4、5行)：第3行将y([ebp+12])加载到EAX, 第4行将x([ebp+8])加载到EDX.第5行使用lea指令计算edx+eax，并将结果存回EAX，作为函数的返回值。这里好像没有加法指令，实际上lea指令执行的是加法运算R[edx]+R[eax]=x+y.
结束阶段（第6、7行）:“pop ebp”恢复caller的EBP值，使栈帧指针回到调用前的状态；随后re t指令从栈顶弹出返回地址，并转移回调用点。此时栈顶正是call指令执行时压入的返回地址，对应caller中紧接在“call add”之后的那条指令(mov[ebp-4],eax) .
由于add过程不包含局部变量、未使用任何被调用者保存的寄存器，且不再调用其他过程（没有入口参数和返回地址要保存）。因此，其栈帧结构极为简洁：仅需保存EBP以维持调用链的完整性，无须额外空间用于寄存器保存、局部变量或嵌套调用。
4.3.5 本节习题精选
一、单项选择题
01. 假设R[ax]=FFE8H, R[bx]=7FE6H,执行指令“add ax,bx”后，寄存器的内容和各标志的变化为（	）。
A. R[ax]=7FCEH, OF=1, SF=0, CF=0, ZF=0
B. R[bx]=7FCEH, OF=1, SF=0, CF=0, ZF=0
C. R[ax]=7FCEH, OF=0, SF=0, CF=1, ZF=0
D. R[bx]=7FCEH, OF=0, SF=0, CF=1, ZF=0
02. 假设R[ax]=7FE6H, R[bx]=FFE8H,执行指令“sub bx,ax”后，寄存器的内存和各标志的变化为（	）。
A. R[ax]=8002H, OF=0, SF=1, CF=1, ZF=0
B. R[bx]=8002H, OF=0, SF=1, CF=0, ZF=0
C. R[ax]=8002H, OF=1, SF=1, CF=0, ZF=0
D. R[bx]=8002H, OF=1, SF=1, CF=0, ZF=0
03. 某计算机的数据采用小端方式存储，减法指令“sub ax,imm”的功能为(ax)-imm→ax,imm表示立即数，该指令对应的十六进制机器码为2dxxxxx（从左到右以字节为单位由低地址到高地址），其中xxxx对应imm的机器码，若imm=-3,(ax)=7,则该指令对应的机器码和执行后OF标志位的值分别为（	）。
A. 2DFFFDH,0 B. 2DFFFDH, 1 C. 2DFDFFH, 0D. 2DFDFFH, 1
04. 某C语言程序中对数组变量b的声明为“int b[10][5];”, 有一条for语句如下：
182	2027年计算机组成原理考研复习指导
for(i=0;i<10;i++)
for(j=0;j<5;j++)
sum+=b[i][j];
假设执行到“sum+=b[i][j];”时, sum的值在eax中, b[i][0]所在的地址在edx中, j在esi中, 则“sum+=b[i][j];”所对应的指令( Intel格式)可以是( )。
A. add dword ptr eax,[edx+esi*4]	B. add dword ptr eax,[esi+edx*4]
C. add dword ptr eax,[edx+esi*2]	D. add dword ptr eax,[esi+edx*2]
05. 假设R[eax]=080480B4H, R[ebx]=00000011H, M[080480F8H]=000000B0H, 执行指令“imul eax,[eax+ebx*4],-16”后，寄存器或存储单元的内容变为( )。
A. R[eax]=00000B00H	B. M[080480F8H]=00000B00H
C. R[eax]=FFFFF500H	D. M[080480F8H]=FFFFF500H
06. 程序P中有两个变量i和j，被分别分配在寄存器eax和edx中, P中语句“if(i<j){…}”对应的指令序列如下(左边为指令地址，中间为机器代码，右边为汇编指令)，其中jle指令的偏移量为0d:
804846a 39 c2 cmp dword ptr edx,eax
804846c 7e 0d jle xxxxxxxx
若执行到804846aH处的cmp指令时, i=105, j=100, 则jle指令执行后将转到( )处的指令执行。
A. 8048461H	B. 804846eH	C. 8048479H	D. 804847bH
07. 假定全局数组a的声明为double a[8], a的首地址为80498c0H, 变量i被分配在寄存器ecx中，现要将a[i]取到eax相应宽度的寄存器中，则所用的汇编指令是( )。
A. mov eax,[ecx*4+80498c0H]	B. mov eax,ecx*4+80498c0H
C. mov eax,[ecx*8+80498c0H]	D. mov eax,ecx*8+80498c0H
08. 子程序调用指令执行时，必须完成的操作是( )。
A. 仅将子程序入口地址送入程序计数器(PC)
B. 将返回地址存入主存，并将子程序入口地址送入程序计数器(PC)
C. 将程序计数器(PC)当前值存入通用寄存器
D. 修改数据通路中的控制信号以实现转移
09. 下列关于选择结构语句“if(comp_A) then statement_B; else statement_C”对应的机器级代码表示的叙述中，错误的是()。
A. 一定包含一条无条件转移指令
B. 一定包含一条条件转移指令(分支指令)
C. 计算comp_A的代码段一定在条件转移指令之前
D. 对应statement_B的代码一定在对应statement_C的代码之前
10. 下列关于循环结构语句的机器级代码表示的叙述中，错误的是()。
A. 一定至少包含一条条件转移指令
B. 不一定包含无条件转移指令
C. 循环结束条件可以用一条比较指令CMP来实现
D. 循环体内执行的指令不包含条件转移指令
11. 下列有关调用指令(转子指令)的叙述中，错误的是()。
A. 与高级语言源程序中的过程调用相对应，一次过程调用对应一条调用指令
B. 指令执行时必须保留返回地址，调用指令随后一条指令的地址是返回地址
C. 嵌套调用时返回地址通常保存在栈中，非嵌套调用时可保存在特定寄存器中
D. 指令执行时将无条件转移到目标地址处，转移目标地址无须在指令中明显给出
第4章	指令系统 183
12.假设P为调用过程，Q为被调用过程，程序在32位x86处理器上执行，以下是C语言程序中过程调用所涉及的操作：
①	过程Q保存P的现场，并为非静态局部变量分配空间
②	过程P将实参存放到Q能访问到的地方
③	过程P将返回地址存放到特定处，并转移到Q执行
④	过程Q取出返回地址，并转移回到过程P执行
⑤	过程Q恢复P的现场，并释放局部变量所占空间
⑥	执行过程Q的函数体
过程调用的正确执行步骤是（	）。
A. ②→③→④→①→⑤→⑥	B. ②→③→①→④→⑥→⑤
C. ②→③→①→⑥→⑤→④	D. ②→③→①→⑤→⑥→④
二、综合应用题
01.【2017统考真题】在按字节编址的计算机M上，f1的部分源程序（阴影部分）如下。将f1中的 int都改成float,可得到计算f(n)的另一个函数f2.
int f1(unsigned n){
int sum=1, power=1;
for(unsignedi=0;i<=n-1;i++){
power *=2;
sum += power;
}
return sum;
}
对应的机器级代码（包括指令的虚拟地址）如下：
1	int f1(unsigned n)00401020	55for(unsigned i=0; i<= n -1; i++)push ebp…
..	...
20	0040105E	39 4D F4	cmp d word ptr [ebp-0Ch], ecx
{…	power * =2;
23	00401066-	return sum;D1 E2	shl edx,1
..	---
35	0040107F	C3	ret
其中，机器级代码行包括行号、虚拟地址、机器指令和汇编指令。
1）计算机M是RISC还是CISC? 为什么？
2）f1的机器指令代码共占多少字节？要求给出计算过程。
3）第20条指令cmp通过i减n-1实现对i和n-1的比较。执行fl(0)的过程中，当i=0时，cmp指令执行后，进位/借位标志CF的内容是什么？要求给出计算过程。
4）第23条指令shl通过左移操作实现了power *2运算，在f2 中能否用 shl指令实现power *2? 为什么？
02.【2019统考真题】已知f(n)=n!=n×(n-1)×(n-2)×…×2×1, 计算f(n)的C语言函数f l 的源程序（阴影部分）及其在32位计算机M上的部分机器级代码如下：
184	2027年计算机组成原理考研复习指导
int f1(int n){
1	00401000	55	push ebp
…	if(n>1)
11	00401018	83 7D 08 01	cmp dword ptr [ebp+8],1
12	0040101C	7E 17	jle f1+35h (00401035)
return n*f1(n-1);
13	0040101E	8B 45 08	mov eax, dword ptr [ebp+8]
14	00401021	83 E8 01	sub eax, 1
15	00401024	50	push eax
16	00401025	E8 D6 FF FF FF	call f1 (00401000)
…	…	…	…
19	00401030	OF AF C1	imul eax, ecx
20	00401033	EB 05	jmp f1+3Ah (0040103a)
else return 1;
21	00401035	B8 01 00 00 00 mov eax, 1
}
…	…	…	…
26	00401040	3B EC	cmp ebp, esp
…	…	…	…
30	0040104A	C3	ret
其中，机器级代码行包括行号、虚拟地址、机器指令和汇编指令，计算机M按字节编址，int型数据占32位。请回答下列问题：
1）计算f1(10)需要调用函数f1多少次？执行哪条指令会递归调用f1？
2）上述代码中，哪条指令是条件转移指令？哪几条指令一定会使程序转移执行？
3）根据第16行的call指令，第17行指令的虚拟地址应是多少？已知第16行的call指令采用相对寻址方式，该指令中的偏移量应是多少（给出计算过程）？已知第16行的call指令的后4字节为偏移量，M是采用大端方式还是采用小端方式？
4）f1(13)=6227020800，但f1(13)的返回值为1932053504，为什么两者不相等？要使f1(13)能返回正确的结果，应如何修改f1的源程序？
5）第19行的imul指令(有符号整数乘)的功能是R[eax]\leftarrow R[eax]×R[ecx]，当乘法器输出的高、低32位乘积之间满足什么条件时，溢出标志OF=1？要使CPU在发生溢出时转异常处理，编译器应在imul指令后加一条什么指令？
03.【2019统考真题】对于题02，若计算机M的主存地址为32位，采用分页存储管理方式，页大小为4KB，则第1行的push指令和第30行的ret指令是否在同一页中（说明理由）？若指令Cache有64行，采用4路组相联映射方式，主存块大小为64B，则32位主存地址中，哪几位表示块内地址？哪几位表示Cache组号？哪几位表示标记(tag)信息？读取第16行的call指令时，只可能在指令Cache的哪一组中命中（说明理由）？
04.【2023统考真题】已知计算机M的字长为32位，按字节编址，采用请求调页策略的虚拟存储管理方式，虚拟地址为32位，页大小为4KB。某C语言程序段在计算机M上的部分机器级代码如下，数组a的定义为“inta[24][64]；”，每个机器级代码行中依次包含指令序号、虚拟地址、机器指令和汇编指令。
for(i=0;i<24;i++)
1 00401072	C745F8 00 00 00 00	mov[ebp-8],0
2 00401079	EB 09	jmp 00401084h
3 0040107B	8B 55 F8	mov eax,[ebp-8]
……
7 00401088	7D 32	jge 004010bch
第4章	指令系统 185
for(j=0;j<64;j++)
8 0040108A	C745 FC 0000 0000	mov[ebp-4],0
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯	⋯⋯
a[i][j]=10;
⋯⋯⋯⋯⋯⋯⋯19 004010AE20 ⋯⋯	C78482002042000A000000⋯⋯⋯	⋯⋯⋯mov[ecx+ edx*4+00422000h],0Ah⋯⋯
请回答下列问题。
1)第20条指令的虚拟地址是多少？
2)已知第2条jmp和第7条jge都是转移指令，其操作码分别是EBH和7DH，转移目标地址分别为0040 1084H、004010BCH，这两条指令都采用什么寻址方式？给出第2条指令jmp的转移目标地址计算过程。
3)已知第19条mov指令的功能为“a[i][j]←10”,其中ecx和edx为寄存器名,00422000H是数组a的首地址，指令中源操作数采用什么寻址方式？已知edx中存放的是变量j,ecx中存放的是什么？根据该指令的机器码判断M采用的是大端还是小端方式。
4)第一次执行第19条指令时，取指令过程中是否会发生缺页异常？为什么？
05.【2024统考真题】假定计算机M字长为32位，按字节编址，采用32位定长指令字，指令add、slli和lw的格式、编码和功能说明如图(a)所示。
指令 31	25 24	20 19	15 14	12 11	7 6	0	指令功能说明
add	R[rd]←R[rs1]+R[rs2]
0000000	rs2	rsl	000	rd	0110011
0000000	shamt	rsl	010	rd	0010011
imm	rsl	010	rd	0000011
slli	R[rd]←R[rs1]<< shamt
lw	R[rd]←M[R[rs1]+ imm]
图(a)
其中，R[x]表示通用寄存器x的内容，M[x]表示地址为x的存储单元内容，shamt为移位位数，imm为补码表示的偏移量。图(b)给出了计算机M的部分数据通路及其控制信号（用带箭头虚线表示），其中A和B分别表示从通用寄存器rs1和rs2中读出的内容；IR[31:20]表示指令寄存器中的高12位；控制信号Ext为0、1时扩展器分别实现零扩展、符号扩展，ALUctr为000、001、010时ALU分别实现加、减、逻辑左移运算。请回答下列问题。
32
A
OF
SF
32
32
E
F
B
0
ZF
32
CF
12
32
1
IR[31:20]
扩展器
3
000: 加
0：零扩展
001: 减
1：符号扩展
Ext
ALUBsrc
ALUctr
010：逻辑左移
图(b)
1)计算机M最多有多少个通用寄存器？为什么shamt字段占5位？
2)执行add指令时，控制信号ALUBsrc的取值应是什么？若rsl和rs2寄存器内容分别是87654321H和98765432H,则add指令执行后,ALU输出端F、OF和CF的结果分别是什么？若该add指令处理的是无符号整数，则应根据哪个标志判断是否溢出？
3)执行slli指令时，控制信号Ext的取值可以是0也可以是1，为什么？
4)执行lw指令时，控制信号Ext、ALUctr的取值分别是什么？
186 2027年计算机组成原理考研复习指导
5)若一条指令的机器码是A040 A103H，则该指令一定是lw指令，为什么？若执行该指令时，R[01H]=FFFF A2D0H,则所读取数据的存储地址是什么？
06.【2024统考真题】对于题05中的计算机M,C语言程序P包含的语句"sum+=a[i],"在M中对应的指令序列S如下。
slli ra, r2, 2	//R[r4]←R[r2]<<2
add r4, r3, r4	//R[r4]←R[r3]+R[r4]
lw r5, 0(r4)	//R[r5]←M[R[r4]+0]
add rl, rl, r5	//R[r1]←R[r1]+R[r5]
已知变量i、sum和数组a都为int型，通用寄存器rl~r5的编号为01H~05H.请回答下列问题。
1)根据指令序列S中每条指令的功能，写出存放数组a的首地址、变量i和sum的通用寄存器编号。
2)已知M为小端方式计算机，采用页式存储管理方式，页大小为4KB。若执行到指令序列S中第1条指令时, i=5且rl和r3的内容分别为0000 1332H和0013 DFFOH,从地址0013 DFF0H开始的存储单元内容如下图所示，则执行“sum+=a[i];”语句后，a[i]的地址、a[i]和sum的机器数分别是什么（用十六进制表示）?a[i]所在页的页号是多少？此次执行中，数组a至少存放在几页中？
地址	0	1	2	3	4	5	6	7
0013 DFF0
0013 DFF8
FF	FF	FF	7C	70	FE	FF	FF
00	00	00	0C	3C	02	01	FF
FO	F1	00	00	DC	EC	FF	FF
FF	FF	01	02	00	00	01	02
0013 E000
0013 E008
3)指令“sllir4,r2,2”的机器码是什么（用十六进制表示）？若数组a改为short类型，则指令序列S中slli指令的汇编形式应是什么？
09.【2025统考真题】现有C语言程序P的部分代码如下所示。假定运行程序P的计算机M字长为32位，按字节编址。假定P的部分机器级代码如图(a)所示，其中，R0~R4为通用寄存器，SEXT表示按符号扩展；M中补码除法器逻辑结构如图(b)所示。
int x,d[2048],i;
for(i=0;i<2048;i++)
d[i]=d[i]/x;
…
除数寄存器Y
32
32
ALUop
32位ALU
32
//x在R2中, i在R4中
//数组d的首地址在R3中
mov R1,(R3+R4*4)  //R1←d[i]
scov R1	∥{R0,R1}←SEXT(R1)
idivR1,R2	∥R1←{R0,R1}/R2
...
左移
余数寄存器R
余数/商寄存器Q
控制逻辑
32
32位
写使能
时钟
(a)
(b)
请回答下列问题。
第4章	指令系统 187
1）若执行图(a)中idiv指令的除运算时，d[i]=0x87654321、x=0xff, 则补码除法器中寄存器R、Q和Y的初始内容分别是什么（用十六进制表示）？图(b)中哪个部件包含计数器？在补码除法器执行过程中，由ALUop所控制的ALU运算有哪几种？
2）假设 idiv指令执行过程中会检测并触发除法异常，则执行idiv指令时，哪些情况下会发生除法异常（要求给出此时d[i]和x的十六进制表示机器数）？发生除法异常时，在异常响应过程中CPU需要完成哪些操作？
4.3.6 答案与解析
一、单项选择题
01. C
该指令是Intel格式,add指令的目的寄存器为ax.add指令的补码加法过程为1111 1111 1101000+0111 1111 111100110=(1)0111 1111 11001110(7FCEH) ,两个操作数的符号不同，必然不会溢出, OF=0; 结果的符号位为0, SF=0; 有进位, CF=C⊕Sub=1⊕0=1; 非0, ZF=0.
注	意
无论是无符号数还是有符号数，都以二进制代码形式无差别地存放在计算机内。即便两个有符号数相加，也会导致CF的变动，只是CF值对有符号数运算是没有意义的。同理，两个无符号数相加，也会导致OF和SF的变动，只是OF值和SF值仅对有符号数运算有意义。
02. B
该指令是Intel格式，sub指令的目的寄存器为bx.sub减法运算用补码加法实现，被减数+减数逐位取反 +1=1111 1111 110 1000+1000 0000 001 1001+1=(1)1000 0000 0000 0010(8002H)，两个操作数的符号位都是1，结果的符号位也是1，无溢出，OF=0；结果为负数，SF=1;进位输出C_{\mathrm{o u t}} = 1 ，低位进位Sub=1, CF=Cout⊕Sub=1⊕1=0; 非0, ZF=0.
03. C
imm的值为-3,转换成二进制为1111111111111101B, 即FFFDH,因为该计算机采用小端存储，先存储低位字节，所以该指令对应的机器码为2DFDFFH,OF是有符号数运算的溢出标志位，7-(-3)显然没有溢出，因此OF标志位为O.
04. A
b[i][0]所在的地址在edx中,j在esi中，一个数组元素占4字节，所以b[i][j]的地址为R[edx]+R[esi]*4，指令格式为Intel格式，第一个为目的操作数，第二个为源操作数，于是选项A正确。
05. C
指令的一个源操作数在内存单元中，地址为R[eax]+R[ebx]*4=080480B4H+00000011H*4=080480F8H.指令的功能是1R[eax]←M[080480F8H]*(-16)=(-000000B0H)<<4=FFFFFF50H<<4=FFFFF500H.目的操作数保存在eax中，所以主存单元080480F8H中的内容不会改变。
06. D
i=105,j=100,即edx的内容为100,eax的内容为105,cmp指令就是对这两个数做减法，显然100<105，满足jle指令小于或等于的条件，jle指令长度为2字节，所以 jle指令执行后将转移到当前PC值+偏移量=804846cH+2+0dH=804847bH处执行。
07. C
每个double型的数组元素占8字节，数组a的首地址为80498c0H,i存储在ecx中，所以a[i]在主存中的地址可表示为[[e c x^{ * }8 + 8 0 4 9 8 c O H] ，，因此汇编指令可以是mov eax,[ecx*8+80498c0H].
188	2027年计算机组成原理考研复习指导
08.B
子程序调用指令属于控制转移类指令，其执行时必须完成两个关键操作：一是保存返回地址（调用指令的下一条指令地址），通常压入主存中的栈；二是将子程序的入口地址送入PC，以实现转移。选项A仅完成转移，缺失返回地址保存，无法正确返回。选项C和D的描述不准确或不完整。因此，选项B正确且完整地描述了子程序调用的本质功能。
09.D
在if语句的机器级代码中，comp_A后面紧接着有一个条件转移指令，条件成立则转移到statement_B，statement_B中有一个无条件转移指令，会转移到if-else的下一条语句，选项A、B和C正确。statement_B不一定在statement_C之前，这取决于条件转移指令的类型和方向，选项D错误。
10.D
循环结构循环体内最后会有一条条件转移指令，判断是否跳出循环，可以用比较指令(CMP)来实现，选项A和C正确，选项D错误。循环结构不一定包含无条件转移指令，选项B正确。
11.D
为了能保证从被调用过程返回到调用过程继续执行，必须确定并保存返回地址，这个地址是调用指令随后的指令的地址，返回地址只能由调用指令来计算并保存，因为执行调用指令后就转移到了被调用过程，因此无法获取返回地址。为了保证嵌套调用时能够返回到调用过程，必须将返回地址压栈，若不压栈而保存在特定寄存器中，则后面执行的调用指令会将前面调用指令保存的返回地址覆盖掉。调用指令执行时将无条件转移到目标地址处，这个目标地址就是被调用过程第一条指令的地址，它一定在调用指令中明显给出，因此选项D错误。
12.C
过程调用的具体过程已在4.3.4节中介绍。
二、综合应用题
01.【解答】
1)M为CISC。M的指令长短不一，不符合RISC指令系统的特点。
2)f1的机器代码占96B。因为f1的第一条指令“push ebp”所在的虚拟地址为00401020H，最后一条指令“ret”所在的虚拟地址为0040107FH，所以f1的机器指令代码长度为0040107FH-00401020H+1=60H=96B。
3)CF=1。cmp指令实现i与n-1的比较功能，进行的是减法运算。在执行f1(0)的过程中，n=0，当i=0时，i=00000000H，并且n-1=FFFF FFFFH。因此，执行第20条指令时，在补码加/减运算器中执行“0减FFFF FFFFH”操作，即00000000H+00000000H+1=00000001H，此时进位输出Cout=0，低位进位Sub=1，CF=Cout⊕Sub=0⊕1=1。
4)f2中不能用shl指令实现power*2。因为shl指令把一个整数的所有有效数位整体左移，而f2中的变量power是float型，其机器数中不包含最高有效数位，但包含了阶码部分，将其作为一个整体左移时并不能实现“乘以2”的功能，因此f2中不能用shl指令实现power*2。浮点数运算比整型运算要复杂，耗时也较长。
02.【解答】
1)计算f(10)需要调用函数f1共10次，执行第16行的call指令会递归调用f1。
2)第12行的jle指令是条件转移指令，其含义为小于或等于时转移，本行代码的意义为：当n≤1时，转移至地址00401035H。第16行的call指令为函数调用指令，第20行的jmp指令为无条件转移指令，第30行的ret指令为子程序的返回指令，这三条指令一定会使
第4章指令系统
程序转移执行。
3)在计算机M上按字节编址，第16行的call指令的虚拟地址为0040 1025H，长度为5字节，因此第17行的指令的虚拟地址为0040 1025H+5=0040 102AH。第16行的call指令采用相对寻址方式，即目标地址=(PC)+偏移量，call指令的目标地址为0040 1000H，所以偏移量=目标地址-(PC)=0040 1000H-0040 102AH=FFFF FFD6H。根据第16行的call指令的偏移量字段为D6 FF FF FF，可以确定M采用小端方式。
4)因为f(13)=6227020800，其结果超出了32位int型数据可表示的最大范围，因此f(13)的返回值是一个发生了溢出的错误结果。为使fl(13)能返回正确结果，可将函数fl的返回值类型改为double(或long long,或long double,或float)类型。
5)若乘积的高33位不全为0或不全为1，则OF =1。编译器应在imul指令后加一条“溢出自陷指令”，使得CPU自动查询溢出标志OF，当OF=1时调出“溢出异常处理程序”。
03.【解答】
因为页大小为4KB，所以虚拟地址的高20位为虚拟页号。第1行的push指令和第30行的ret指令的虚拟地址的高20位都是00401H，因此两条指令在同一页中。
指令Cache有64块，采用4路组相联映射方式，因此指令Cache共有64/4=16组，Cache组号共4位。主存块大小为64B，因此块内地址为低6位。综上所述，在32位主存地址中，低6位为块内地址，中间4位为组号，高22位为标记。
因为页大小为4KB，所以虚拟地址和物理地址的最低12位完全相同，因此call指令虚拟地址0040 1025H中的025H=0000 00100101B为物理地址的低12位，对应的7~10位为组号，因此对应的Cache组号为0。
04.【解答】
1)第19条指令的虚拟地址为004010AEH，且第19条指令占11字节，因此第20条指令的虚拟地址为004010AEH+11(十进制)=0040 10B9H。
2)第2条指令的虚拟地址为00401079H，占2字节，取该指令后，PC+2，变为0040107BH，转移指令的目标地址为00401084H，因此偏移量为00401084H-0040107BH=09H，根据第2条指令的机器码可知，09H恰好是第2条指令给出的偏移量。第7条指令的分析同理。因此，第2条jmp和第7条jge指令都采用相对寻址方式。第2条指令jmp的转移目标地址=0040 1079H+2(十进制)+09H=0040 1084H。
3)第19条指令的源操作数为0AH，直接在机器指令中(0A 00 00 00)给出，因此采用立即(数)寻址方式。数组a的一行有64个元素，每个元素占4字节，因此a[i][j]的地址应为00422000h+i×64×4+j×4=00422000h+i×256+j×4,根据汇编指令中给出的计算公式ecx+edx*4+00422000h可知, ecx中存放的是i×256。M采用小端方式。
4)第一次执行第19条指令时，取指令过程中不会发生缺页异常。因为第19条指令所在的该程序段都在页号为00401H的同一个页面中，执行第19条指令时，该页已在主存，因此取指令过程中不会发生缺页异常。
05.【解答】
1)最多有2⁵=32个通用寄存器。M字长为32位，因此通用寄存器宽度为32位，于是shamt字段占log₂32=5位。
2)add指令的两个源操作数均来自通用寄存器，因此控制信号ALUBsrc=0.rs1=87654321H,rs2=98765432H,则rs1+rs2=87654321H+98765432H=1FDB9753H,在计算过程中，次高位向最高位的进位为0，最高位产生的进位为1，因此OF=0⊕1=1。add
190	2027年计算机组成原理考研复习指导
做的是加法操作，sub=0，因此CF=0⊕1=1。无符号数根据CF判断是否溢出。
3)因为slli指令的移位位数只使用IR[31：20]中的低5位，与高位IR[31：25]及扩展出来的位无关，所以Ext取值可以是0，也可以是1。
4)Iw指令的功能是将主存地址为R[rs1]+imm的数据加载到目标寄存器中，需要首先通过ALU计算访存有效地址，imm是补码表示的12位有符号数，在和R[rs1]中的32位数相加时，需要进行符号扩展，R[rs1]中的数和imm符号扩展后的数做的是加法。因此，Ext=1；ALUctr=000。
5)因为A040A103H=1010000001000000101000010000011B，根据指令格式中IR[6：0]=0000011B，IR[14：12]=010B，可以判定该指令是Iw指令。Iw指令的高12位=A04H，经过符号扩展后，得到32位机器码为FFFF FA04H，所读取数据的存储地址为FFFF A2D0H+FFFF FA04H=FFFF FCD4H。
06.【解答】
1)变量i存放在r2中。R[r4]←R[r2]<<2的功能是将i左移两位，即将i×4的值送到r4。数组a的首地址(a[0]的地址)存放在r3中。R[r4]←R[r3]+R[r4]的功能是计算addra(0)+i×4，即将a[i]的地址送到r4。R[r5]←M[R[r4]+0]的功能是将a[i]送到r5。变量sum存放在r1中。R[r1]←R[r1]+R[r5]的功能是将sum+a[i]的结果送回r1。
2)数组a的首地址为0013DFF0H，从表中可以看出，a[5]的地址为0013E004H。M为小端方式计算机，根据表格可知，a[5]的机器数为FFFF ECDCH。页大小为4KB，因此页内偏移量为低12位，页号为地址高20位，即0013EH。sum的初值为00001332H，执行sum+=a[i]后，sum的机器数更新为00001332H+FFFF ECDCH=0000000EH。表格中的数据包含了页号为0013DH和0013EH两个不同页面的数据，所以数组a至少存放在2页中。
3)指令机器码=000000000100010010001000000011=00212213H。若数组a改为short型，则每个元素占2字节，a[i]的地址为addra(0)+i×2，因此汇编形式是slli r4，r2，1。
07.【解答】
1)scov R1指令对d[i]做符号扩展(符号位为1)，得到64位的被除数，高32位FFFF FFFH存入R0，低32位87654321H存入R1。在除法器中，被除数加载到{R，Q}中，因此R的初始内容是FFFF FFFH，Q的初始内容是87654321H；除数x加载到Y中，因此Y的初始内容是000000FFH。补码除法需要执行固定次数的迭代，因此控制逻辑部件中包含计数器。在补码除法过程中，每一步根据当前余数与除数的符号关系，决定是执行加法还是执行减法，因此由ALUop控制的ALU运算有加法运算和减法运算。
2)idiv指令可能发生以下两种异常：当x为00000000H时，发生除数为零异常；当d[i]为80000000H且x为FFFF FFFH时(用最小负数除以-1)，发生除运算溢出异常。CPU检测到除法异常后，需将断点和程序状态保存到内核栈或特定寄存器中，关中断，最后转移到内核中的除法异常处理程序执行。
4.4 CISC和RISC的基本概念
指令系统朝着两个截然不同的方向发展：一是通过增强原有指令功能、引入更复杂的指令，将部分软件功能固化到硬件中，这类机器称为复杂指令系统计算机(CISC)，典型代表包括采用x86架构的处理器；二是通过精简指令集、简化指令功能，以提升指令执行效率，这类机器称为精简指令系统计算机(RISC)，典型代表包括ARM、MIPS等架构的处理器。
第4章	指令系统
191
4.4.1 复杂指令系统计算机 (CISC)
随着集成电路技术的发展，软件开发成本不断上升，促使设计者在指令系统中加入更多、更复杂的指令，以适应多样化的应用需求，从而形成了CISC架构。
考点追踪 CISC的特点(2017)
CISC的主要特点如下：
1)指令系统庞大复杂，指令数量通常超过200条。
2)指令长度不固定，指令格式和寻址方式种类繁多。
3)多数指令均可直接访问内存。
4)各类指令的使用频率差异显著。
5)指令执行时间相差较大，大多数指令需多个时钟周期才能完成。
6)控制器多采用微程序控制，部分复杂指令难以用硬连线逻辑实现。
7)难以通过优化编译生成高效的目标代码。
如此庞大的指令系统，对设计提出了极高要求，导致研制周期变得很长。后续研究发现，一味追求指令系统的复杂和完备程度并非提升性能的有效途径。对传统CISC指令系统的统计分析表明：各种指令的使用频率相差悬殊，约80%的程序执行仅依赖于20%的简单指令，而其余80%的复杂指令使用频率极低。基于这一观察，设计者开始尝试仅保留高频使用的简单指令，并通过它们组合实现不常用的复杂指令功能，由此催生了RISC架构。
4.4.2 精简指令系统计算机 (RISC)
RISC的核心思想是简化指令系统，强调“寄存器-寄存器”操作，并力求指令格式统一。
考点追踪 RISC的特点(2009、2025)
RISC的主要特点如下：
1)仅选取使用频率最高的简单指令，复杂功能由多条简单指令组合实现。
2)指令长度固定，指令格式和寻址方式种类较少。
3)仅LOAD/STORE(取数/存数)指令可访问内存，其余运算均在寄存器之间进行。
4)CPU中配备大量通用寄存器。
5)普遍采用指令流水线技术，绝大多数指令在一个时钟周期内完成。
6)以硬布线控制为主，极少或完全不使用微程序控制。
7)高度依赖编译器优化，以缩短程序执行时间。
此外，在指令系统兼容性方面，CISC架构通常支持向后兼容，即新机型包含旧机型的全部指令并加以扩展。而RISC由于大幅简化指令集、改变指令格式，通常无法与老机型兼容。
历史上，RISC因其高效性和简洁性曾被视为未来处理器的发展方向。然而在现实中，x86架构凭借庞大的软件生态占据主流地位，早期大量软件均基于CISC设计，纯RISC系统难以满足兼容性需求。此外，现代CISC处理器已在内部融合了大量RISC思想，使得两者在性能上的差距日益缩小。与此同时，CISC能提供更丰富的指令功能，这是很多程序设计所需要的。
4.4.3 CISC和RISC的比较
与CISC相比，RISC的优势主要体现在以下几个方面：
1)更高效利用芯片面积。CISC采用微程序控制，其控制存储器占CPU芯片面积的50%以上，而RISC采用硬布线控制，逻辑电路仅占约10%，节省了宝贵的硅片资源。
192 2027年计算机组成原理考研复习指导
2）更高的运算速度。RISC指令数量少、格式统一、寻址方式简单，配合大量通用寄存器和流水线技术，使大多数指令可在单周期内完成，显著提升执行效率。
3）更易设计与维护。RISC指令系统结构简单，设计周期短；其逻辑清晰，出错概率低，且便于调试和验证，从而提高了系统可靠性。
4）更利于编译优化。由于指令类型和寻址方式有限，编译器更容易选择最优指令序列、调整指令调度，生成高效的目标代码。
CISC与RISC的对比如表4.3所示。
表4.3 CISC与RISC的对比
对比项目	类	别
CISC	RISC
指令系统	复杂，庞大	简单，精简
指令数目	一般大于200条	一般小于100条
指令字长	不固定	定长
可访存指令	不加限制	只有LOAD/STORE指令
各种指令执行时间	相差较大	绝大多数在一个周期内完成
各种指令使用频度	相差很大	都比较常用
通用寄存器数量	较少	多
目标代码	难以用优化编译生成高效的目标代码程序	采用优化的编译程序，生成代码较为高效
控制方式	绝大多数为微程序控制	绝大多数为组合逻辑控制
指令流水线	可以通过一定方式实现	必须实现
4.4.4 本节习题精选
单项选择题
01.下列关于RISC的叙述中，正确的是（	）。
A. RISC机一定采用流水技术	B.采用流水技术的机器一定是RISC机
C. RISC机的兼容性优于CISC机	D. CPU配备很少的通用寄存器
02.下列描述中，不符合RISC指令系统特点的是（	）。
A.指令长度固定，指令种类少
B.寻址方式种类尽量减少，指令功能尽可能强
C.增加寄存器的数目，以尽量减少访存次数
D.选取使用频率最高的一些简单指令，以及很有用但不复杂的指令
03.以下有关RISC的描述中，正确的是（	）。
A.为了实现兼容，新设计的RISC是从原来CISC系统的指令系统中挑选一部分实现的
B.采用RISC技术后，计算机的体系结构又恢复到了早期的情况
C. RISC 的主要目标是减少指令数，因此允许以增加每条指令的功能的方法来减少指令系统所包含的指令数
D.以上说法都不对
04. 下列关于RISC和CISC的说法中，不正确的是（	）。
A. RISC指令格式种类少，寻址方式少，指令长度固定，更容易用硬布线电路实现
B. CISC指令功能强大，寻址方式多，便于汇编程序员编程
C. CISC指令格式种类多，所以更有利于编译优化
D. RISC多数指令能够在一个时钟周期内完成，特别适合流水线工作
05.【2009统考真题】下列关于RISC的说法中，错误的是（	）。
第4章指令系统
A. RISC普遍采用微程序控制器
B.RISC大多数指令在一个时钟周期内完成
C.RISC的内部通用寄存器数量相对CISC多
D.RISC的指令数、寻址方式和指令格式种类相对CISC少
06.【2025统考真题】下列关于RISC的叙述中，错误的是（	）。
A.多采用硬连线方式实现控制器	B.通常采用LOAD/STORE指令设计风格
C.难以采用流水线数据通路实现微架构D.多采用寄存器传递过程调用时的参数
4.4.5答案与解析
单项选择题
01.A
RISC必然采用流水线技术，这也是由其指令的特点决定的。而CISC则无此强制要求，但为了提高指令执行速度，CISC也往往采用流水线技术，因此流水线技术并非RISC的专利。CISC机可以兼容很多不同的高级语言和软件，而RISC机的指令系统简单精简，只包含一些基本的指令，这些指令需要通过组合来实现复杂的功能，从而增加了编译器的设计难度和程序员的编程难度，因此CISC机的兼容性更好。CPU配备很多通用寄存器是RISC机的主要特点。
02.B
A、C和D都是RISC的特点。对于B，寻址方式种类尽量减少是RISC的特点，而增强指令的功能则是CISC的特点。RISC指令功能简单，复杂指令的功能由简单指令的组合来实现。
03.D
RISC选择一些常用的寄存器型指令，并不是为了兼容CISC,RISC也不可能兼容CISC,选项A错误。RISC只是CPU的结构发生变化，基本不影响整个计算机的结构，并且即使是采用RISC技术的CPU，其架构也不可能像早期一样简单，选项B错误。RISC的指令功能简单，通过简单指令的组合来实现复杂指令的功能，选项C错误，但RISC的主要目标是减少指令数是正确的。
04.C
CISC指令格式种类多，增大了编译优化的复杂性，因此不利于编译优化。
05.A
相对于CISC,RISC的特点是：指令条数少；指令长度固定，指令格式和寻址种类少；只有取数/存数指令访问存储器，其余指令的操作均在寄存器之间进行；CPU中通用寄存器多；大部分指令在一个时钟周期内完成；以硬布线逻辑为主，不用或少用微程序控制。B、C和D都是RISC的特点。RISC的速度快，因此普遍采用硬布线控制器，选项A错误。
06.C
RISC指令集具有格式规整、数量少、寻址简单、采用LOAD/STOR访存、通用寄存器数量多及硬连线控制器等特点，指令执行周期均匀，非常适合流水线实现。相反，CISC因指令复杂、长度可变而难以采用流水线。因此，选项C错误，其余选项均符合RISC特征。
4.5	本章小结
本章开头提出的问题的参考答案如下。
1)什么是指令？什么是指令系统？为什么要引入指令系统？
指令是控制计算机完成某种基本操作的命令。一台计算机所能执行的全部机器指令的集合，
194	2027年计算机组成原理考研复习指导
称为该机的指令系统。引入指令系统具有双重意义：对软件层面，它为程序员提供了统一的硬件抽象接口，无须直接操作物理电路或二进制编码，显著提升了编程效率；对硬件层面，指令系统的格式、功能和寻址能力直接决定了处理器的微架构设计、性能潜力和适用领域。
2)一般来说，指令由哪些部分组成？各部分的作用是什么？
一条典型指令由操作码和地址码两部分构成：操作码指明指令的功能类型(如加法、转移、加载等)，是CPU 识别和执行指令的核心依据；地址码提供操作所需的地址信息，包括操作数的存储位置、运算结果的保存地址、程序转移的目标地址或子程序的入口地址等。通过操作码与地址码的组合，指令能够精确描述一次完整的计算或控制操作。
3)对一个指令系统而言，寻址方式多或少会带来什么影响？
寻址方式的设计需权衡编程灵活性与硬件效率。寻址方式丰富(如立即数、寄存器、直接、间接、变址、相对等)可使程序更简洁高效，便于表达复杂的数据访问模式；但会增加指令译码逻辑的复杂度，不利于流水线调度，并可能增大控制单元面积。寻址方式过少虽能简化硬件、提升执行速度，却会限制程序表达能力，迫使程序员用多条指令模拟复杂访问，降低代码效率。
4.6常见问题和易混淆知识点
1.简述各常见指令寻址方式的特点和适用情况。
·立即寻址：操作数直接嵌入指令，无须访存，常用于赋初值或常量。
·直接寻址：指令中给出操作数的内存地址，访存一次，适用于固定地址访问。
·间接寻址：指令给出地址的地址，需两次访存，扩大了寻址范围，易于完成子程序返回。
·寄存器寻址：操作数在寄存器中，指令短、速度快，适合高频运算。
·寄存器间接寻址：寄存器存放操作数地址，兼具灵活性与较大寻址范围。
·基址寻址：EA=基址寄存器+偏移量，基址由系统设定，适用于多道程序的地址重定位。
·变址寻址：EA=变址寄存器+偏移量，变址寄存器由用户控制，适合数组遍历和循环。
·相对寻址：EA=PC+偏移量，主要用于转移指令。
基址寻址和变址寻址的区别：形成相同，都是 EA=寄存器内容+偏移量。但基址寄存器由操作系统管理，偏移量可变；变址寄存器由程序员控制，偏移量固定。
2.一个操作数在内存可能占多个单元，怎样在指令中给出操作数的地址？
现代计算机普遍采用字节编址，即每个内存单元存储1字节(8位)。当操作数为多字节数据(如 int 占 4 字节， double 占 8 字节)时，指令中仅给出该操作数的起始地址(第一个字节的地址)，CPU 根据操作数类型自动读取连续的多个字节。
3. 装入/存储(LOAD/STORE) 型指令有什么特点?
LOAD/STORE 是 RISC 指令系统的核心设计原则之一，其主要特点包括：
·访存与计算分离：只有 LOAD (从内存读入寄存器)和 STORE (从寄存器写入内存)指令能访问主存；所有运算指令(如加、减、移位)仅操作寄存器中的数据。
·指令格式规整：由于寄存器编号位数远少于内存地址，通过固定字段分配，可实现定长指令，极大简化译码逻辑。
·利于流水线执行：统一的指令长度和访存边界，使取指、译码、执行等阶段易于并行化。
·潜在缺点：频繁的数据搬移可能导致程序中 LOAD/STORE 指令比例较高，增加指令条数；但现代编译器优化和高速缓存机制可有效缓解此问题。
第5章
中央处理器
【考纲内容】
扫一扫
（一）CPU的功能和基本结构
（二）指令执行过程
（三）数据通路的功能和基本结构
（四）控制器的功能和工作原理
（五）异常和中断机制
视频讲解
异常和中断的基本概念；异常和中断的分类；异常和中断的检测与响应
（六）指令流水线
指令流水线的基本概念；指令流水线的基本实现；
结构冒险、数据冒险和控制冒险的处理；超标量和动态流水线的基本概念
（七）多处理器的基本概念
SISD、SIMD、MIMD、向量处理器的基本概念；硬件多线程的基本概念；
多核(multi-core)处理器的基本概念；共享内存多处理器(SMP)的基本概念
【复习提示】
中央处理器是计算机的核心，也是本书的难点。其中，数据通路的分析、指令执行阶段的节拍与控制信号的安排、流水线技术与性能分析易出综合题。而关于各种寄存器的特点、各种指令执行的周期与特点、控制器的相关概念、流水线的相关概念易出选择题。
在学习本章时，建议读者思考以下问题：
1)指令和数据均存放在内存中，计算机如何从时间和空间上区分它们是指令还是数据？
2)什么是指令周期和时钟周期？它们之间有何关系？
3)什么是微指令？它和第4章谈到的指令有什么关系？
4)什么是指令流水线？指令流水线相对于传统体系结构的优势是什么？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
5.1 CPU的功能和基本结构
5.1.1 CPU的功能
CPU的核心功能是执行程序。在程序运行过程中，可能会遇到各类异常或外中断事件，如译码阶段发现非法操作码、外部设备发出中断请求等。因此，CPU不仅需要高效执行指令，还要具备检测并响应各类异常与中断的能力。其基本功能包括：
1)取指令并译码：从主存中取出指令，解析操作码，并生成相应的控制信号。
196	2027年计算机组成原理考研复习指导
2）更新程序计数器（PC）：确定下一条指令地址，以支持顺序执行或程序转移。
3）执行算术与逻辑运算：通过ALU对操作数进行算术或逻辑运算。
4）取操作数或写结果：访问主存或I/O接口，读取操作数或将运算结果写回。
5）处理异常或中断：检测异常或中断请求，并在必要时转入相应的处理程序。
6）时序控制：通过时钟信号协调各操作的执行顺序和持续时间，确保指令按序执行。
5.1.2	CPU的基本结构
上述功能需求决定了CPU的内部结构组成。为实现完整的指令执行流程，CPU必须包含若干关键功能部件：为支持指令控制，需要设置程序计数器（PC），用于存放即将执行指令的地址；为完成指令译码，需要配备指令寄存器（IR）暂存当前指令，并由指令译码器（ID）解析操作码；控制单元（CU）综合译码结果、时序信号与状态标志，生成微操作控制信号序列，驱动各部件协同工作；算术逻辑单元（ALU）和通用寄存器组（GPRs）共同构成数据通路，负责操作数的暂存与运算；中断机构用于响应异常与外部中断请求；此外，为协调CPU与主存之间的数据交换，还需要设置存储器地址寄存器（MAR）和存储器数据寄存器（MDR）。
图5.1展示了CPU的基本组成框图，其主要部件说明如下。
考点追踪	CPU中各种寄存器的作用与特点(2013、2016、2021)
1）程序计数器（PC）。存放即将执行的指令地址。顺序执行时自动递增（增量为当前指令所占的字节数）；遇到转移类指令时，更新为目标地址。程序启动前，首条指令地址被装入PC。其位数由地址总线宽度决定，反映了CPU可直接寻址的内存空间大小。
2）指令寄存器（IR）。暂存当前正在执行的指令。指令从主存取出后首先送入IR，供指令译码器使用。其位数等于指令字长。
3）通用寄存器组（GPRs）。供用户程序灵活使用，用于暂存操作数、中间结果或地址指针，减少对主存的频繁访问，提升执行效率。
4）标志寄存器（FR），也称程序状态字寄存器（PSWR）。保存ALU运算产生的状态信息，用于条件判断与转移控制。这些标志位通常由触发器实现，整体构成程序状态字。
5）存储器地址寄存器（MAR）。存放当前要访问的主存地址。取指或数据读/写时，地址先送入MAR，再通过地址总线传至存储器。其位数同样由地址总线宽度决定。
6）存储器数据寄存器（MDR）。暂存从主存读出的数据或将要写入主存的数据，起到缓冲与同步作用，缓解CPU与主存之间的速度差异。
7）指令译码器（ID）。对IR中的操作码进行分析，识别指令类型，并输出对应的译码信号。
8）算术逻辑单元（ALU）。执行数据运算的核心部件，完成算术与逻辑运算。运算结果送回寄存器，状态标志则写入标志寄存器，供后续条件转移指令使用。
第5章	中央处理器	197
9)时序信号产生部件。以系统时钟为基础，生成指令执行所需的周期、节拍和工作脉冲，为整个CPU提供时序基准。
10)操作控制信号形成部件。综合译码信号、时序信号和状态标志，生成微操作控制信号。
11)总线控制逻辑。实现对总线传输的控制，包括对数据和地址信息的缓冲与控制。
12)中断机构。实现对异常情况和外部中断请求的处理。
5.1.3 CPU中的寄存器
考点追踪	用户可见寄存器(2010、2015、2021)
CPU中的寄存器可根据汇编语言(或机器语言)程序是否能够直接访问，分为两类。
1.用户可见寄存器
这类寄存器可被用户程序直接读取或修改，用于暂存数据、地址或状态信息，从而减少对主存的访问次数，提高程序执行效率。这类寄存器主要包括通用寄存器组(GPRs)、专用地址寄存器(如基址寄存器、变址寄存器、堆栈指针等)、程序计数器(PC)。
此外，还有一类只读型用户可见寄存器，即标志寄存器(FR)，其内容由ALU运算结果自动生成，用户程序不能直接修改其值。
2.用户不可见寄存器
这类寄存器对用户程序完全透明，既不能被读取，又不能被修改，仅由CPU硬件或操作系统内核在特权模式下使用，如指令寄存器(IR)、存储器地址寄存器(MAR)、存储器数据寄存器(MDR)、页表基址寄存器等。
5.1.4 本节习题精选
单项选择题
01.CPU的核心功能是执行程序，下列不属于CPU的基本功能的是()。
A.时序控制	B.异常与中断处理
C.执行算术和逻辑运算	D.数据存储
02.通用寄存器是()。
A.可存放指令的寄存器
B.可存放程序状态字的寄存器
C.本身具有计数逻辑与移位逻辑的寄存器
D.可编程指定多种功能的寄存器
03.CPU中保存当前正在执行指令的寄存器是()。
A.指令寄存器	B.指令译码器	C.数据寄存器	D.地址寄存器
04.在CPU中，跟踪后继指令地址的寄存器是()。
A.指令寄存器	B.程序计数器	C.地址寄存器	D.状态寄存器
05.条件转移指令执行时所依据的条件来自()。
A.指令寄存器	B.标志寄存器	C.程序计数器	D.地址寄存器
06.在CPU的寄存器中，()对汇编语言程序员是完全透明的。
A.程序计数器	B.状态寄存器	C.指令寄存器	D.通用寄存器
07.指令()从主存储器中读出。
A.总是根据程序计数器
198	2027年计算机组成原理考研复习指导
B. 有时根据程序计数器，有时根据转移指令
C. 根据地址寄存器
D. 有时根据程序计数器，有时根据地址寄存器
08. 程序计数器（PC）属于（	）的部件。
A. 运算器	B. 控制器	C. 存储器	D. ALU
09. 下面有关程序计数器（PC）的叙述中，错误的是（	）。
A. PC中总是存放指令地址
B. PC的值由CPU在执行指令过程中进行修改
C. 执行转移指令时，PC的值总是修改为转移指令的目标地址
D. PC的位数一般和存储器地址寄存器（MAR）的位数一样
10. 若指令按字边界对齐存放，程序计数器（PC）可以使用字地址，其位数取决于（	）。
I. 存储器的容量II. 机器字长III. 指令字长
A. I	B. I和III	C. II和III	D. I、II和III
11. 下列关于程序计数器（PC）的叙述中，错误的是（	）。
A. 机器指令中不能显式地使用PC
B. 指令顺序执行时，PC值总是自动加1
C. 调用指令执行后，PC值一定是被调用过程的入口地址
D. 无条件转移指令执行后，PC值一定是转移目标地址
12. 指令寄存器（IR）的位数取决于（	）。
A. 存储器的容量B. 机器字长	C. 指令字长	D. 存储字长
13. CPU中通用寄存器的位数取决于（	）。
A. 存储器的容量B. 指令的长度	C. 机器字长	D. 都不对
14. CPU中的通用寄存器，（	）。
A. 只能存放数据，不能存放地址
B. 可以存放数据和地址
C. 既不能存放数据，又不能存放地址
D. 可以存放数据和地址，还可以替代指令寄存器
15. 在计算机系统中表示程序和机器运行状态的部件是（	）。
A. 程序计数器	B. 指令寄存器	C. 中断寄存器	D. 程序状态字寄存器
16. 状态寄存器用来存放（	）。
A. 算术运算结果	B. 逻辑运算结果
C. 运算类型	D. 算术、逻辑运算及测试指令的结果状态
17. 下列关于标志寄存器（EFLAGS寄存器或PSW寄存器）的叙述中，错误的是（	）。
A. 不需要像通用寄存器那样，对标志寄存器进行编号
B. 条件转移指令根据其中的一些的标志位来确定PC的值
C. 可以通过指令直接访问标志寄存器并修改它的值
D. 可以用它来存放执行指令得到的各种标志信息
18. 下列表述中，对CPU中控制器功能描述最完整的是（	）。
A. 产生CPU工作所需的时序信号
B. 控制从主存取出一条指令
C. 完成指令操作码的译码
D. 完成指令操作码译码，并产生相应的操作控制信号
19. CPU中不包括（	）。
第5章中央处理器
A.存储器地址寄存器
C.地址译码器
20.以下关于计算机系统的概念中，正确的是（	）。
I.CPU不包括地址译码器
II.CPU的程序计数器中存放的是操作数地址
III.CPU中决定指令执行顺序的是程序计数器
IV.CPU的状态寄存器对用户是完全透明的
A. I、III	B. III、IV	C. II、III、IV	D. I、III、IV
21.间址周期结束后，CPU内寄存器MDR中的内容为（	）。
A.指令	B.操作数地址	C.操作数	D.无法确定
22.【2010统考真题】下列寄存器中，汇编语言程序员可见的是（	）。
A.存储器地址寄存器(MAR)	B.程序计数器(PC)
C.存储器数据寄存器(MDR)	D.指令寄存器(IR)
23.【2016统考真题】某计算机的主存储器空间为4GB，字长为32位，按字节编址，采用32位字长指令字格式。若指令按字边界对齐存放，则程序计数器(PC)和指令寄存器(IR)的位数至少分别是（	）。
A.30,30	B.30,32	C.32,30	D.32,32
24.【2020统考真题】下列给出的部件中，其位数(宽度)一定与机器字长相同的是（	）。
I.ALU	II.指令寄存器	III.通用寄存器	IV.浮点寄存器
A.仅I、II	B.仅I、III	C.仅II、III	D.仅II、III、IV
5.1.5答案与解析
单项选择题
01.D
CPU的基本功能包括：通过时序控制协调指令执行节奏，响应并处理异常与中断事件，以及利用ALU执行算术与逻辑运算。数据存储由主存、Cache等存储器承担；CPU仅包含少量寄存器用于临时暂存，不负责持久性或主体数据存储，因此不属于其基本功能，选项D错误。
02.D
存放指令的寄存器是指令寄存器，选项A错误。存放程序状态字的寄存器是程序状态字寄存器，选项B错误。通用寄存器本身并不一定具有计数逻辑和移位逻辑功能，选项C错误。
03.A
指令寄存器用于存放当前正在执行的指令。
04.B
程序计数器用于存放下一条指令在主存储器中的地址，具有地址自增功能。
05.B
指令寄存器用于存放当前正在执行的指令；程序计数器用于存放下一条指令的地址；地址寄存器用于暂存指令或数据的地址；程序状态字寄存器用于保存系统的运行状态。条件转移指令执行时，需要对标志寄存器的内容进行测试，判断是否满足转移条件。
06.C
对汇编语言程序员透明是指无法通过汇编指令直接访问或修改。指令寄存器由硬件自动加载，程序员不可读/写，故完全透明，选项C正确。程序计数器可通过转移/调用间接控制，通用寄存器可直接使用，二者均不透明。状态寄存器部分标志位可被条件指令使用或读取，是半透明的。
200	2027年计算机组成原理考研复习指导
07. A
CPU 根据程序计数器(PC)中的内容从主存储器中取指令。读者可能想到无条件转移指令或中断返回指令，认为不一定总是根据PC读出。实际上，当前指令正在执行时，PC已经是下一条指令的地址。若遇到无条件转移指令，则只需简单地用转移地址覆盖原PC的内容即可，最终的结果还是根据PC从主存储器中读出。地址寄存器用来指出所取数据在主存储器中的地址。
08. B
控制器是计算机中处理指令的部件，包含程序计数器。
09. C
PC中存放下一条要执行的指令的地址，选项A正确。PC的值会根据CPU在执行指令的过程中修改（确切地说是在取指周期），或自增，或转移到程序的某处，选项B正确。转移指令时，需要判别转移是否成功，若成功则PC修改为转移指令的目标地址，否则下一条指令的地址仍然为PC自增后的地址，选项C错误。PC的位数通常和MAR的位数一样，选项D正确。
10. B
当指令按字边界对齐且PC采用字地址时，PC的值表示下一条指令所在“字”的地址。设主存容量为M字节，指令字长为W字节，则主存最多容纳M/W个指令字，PC至少需要log₂(M/W)位。因此，PC的位数取决于存储器容量和指令字长，而与机器字长无直接关系。
11. B
机器指令中不能显式地使用PC，PC的值是自增的，或者是由转移类指令设置的。指令顺序执行时，PC自动加1，这里的“1”是指一条指令的长度，PC的值不一定总是自动加1，而是根据指令长度来确定的，具体取决于指令长度占几个编址单位。其余说法均正确。
12. C
指令寄存器中保存当前正在执行的指令，所以其位数取决于指令字长。
13. C
通用寄存器用于存放操作数和各种地址信息等，其位数与机器字长相等，因此便于操作控制。
14. B
通用寄存器供用户自由编程，可以存放数据和地址。而指令寄存器是专门用于存放指令的专用寄存器，不能由通用寄存器代替。
15. D
程序状态字寄存器用于存放程序状态字，而程序状态字的各位表征程序和机器的运行状态，如含有进位标志(CF)、结果为零标志(ZF)等。
16. D
程序状态字寄存器用于保留算术、逻辑运算及测试指令的结果状态。
17. C
标志寄存器是专用寄存器，不需要编号，也不能在指令中直接指定编号来访问；标志寄存器中的内容是执行指令的过程中，CPU根据指令执行的结果生成的各种标志信息，用户不能直接修改它的值。标志寄存器中的标志位主要用于条件转移或条件设置类指令的条件判断。
18. D
控制器的核心功能是在时序驱动下完成取指、译码，并根据操作码生成相应的控制信号，协调各部件工作。选项A仅描述其子功能（时序生成），选项B和C均只涉及单一环节；而选项D抓住了控制器“分析指令并发出控制命令”的本质，因此是对其功能最完整的描述。
19. C
地址译码器是主存等存储器的组成部分，其作用是根据输入的地址码唯一选定一个存储单元，它不是CPU的组成部分。而MAR、IR、PC都是CPU的组成部分。
第5章	中央处理器	201
20. A
地址译码器位于存储器，说法Ⅰ正确；程序计数器中存放的是欲执行指令的地址，它决定程序的执行顺序，说法Ⅱ错误、说法Ⅲ正确；程序状态字寄存器对用户不完全透明，说法Ⅳ错误。
21. B
间址周期的作用是取操作数的有效地址，因此，间址周期结束后，MDR 中的内容为操作数地址。
22. B
汇编语言程序员可见的是程序计数器（PC），即汇编语言程序员通过汇编程序可以对某个寄存器进行访问。汇编语言程序员可以通过指定待执行指令的地址来设置 PC 的值，如转移指令、子程序调用指令等。而IR、MAR、MDR 是CPU 的内部工作寄存器，对程序员不可见。
23. B
PC 用于指出下一条指令的主存地址，虽然可以用32位的地址来表示指令地址，但实际上内存中最多只能存放4GB/32位=2³⁰条指令，所以可以用30位的字地址来表示指令地址，这种情况下指令必须采用按边界对齐的方式存放，所以PC的位数至少是30位，即PC给出的地址是字地址。题干已说明指令按字边界对齐的方式存放，也就是说，指令地址都是4字节的整数倍，因此为了让PC的位数最少，可以采用字地址，取指令时将PC值左移2位到主存中取指令。指令寄存器（IR）用于存放从内存中取出的指令，它取决于指令字长，所以IR的位数至少是32位。
24. B
机器字长是指 CPU 内部用于整数运算的数据通路的宽度。数据通路是指数据在指令执行过程中所经过的路径及路径上的部件，主要是CPU内部进行数据运算、存储和传送的部件，这些部件的宽度基本上要一致才能相互匹配。因此，机器字长等于ALU位数和通用寄存器宽度。
5.2指令执行过程
5.2.1指令执行的一般流程
考点追踪	指令执行的过程(2011)
计算机执行程序的本质，是控制器依据指令序列协调各功能部件协同工作的过程。CPU启动后，将持续循环执行“取指令”与“执行指令”两个基本操作。每条指令执行完毕后，还要进行中断与异常检测，以确保系统能够及时响应外部事件或内部异常。指令执行的一般流程如图5.2所示。
指令执行的基本流程如下：
首先，CPU 以程序计数器（PC）的当前值为地址，从主存中取出下一条指令；与此同时，PC通常被自动更新为下一条顺序指令的地址（增量等于当前指令的长度），为后续取指做准备。
随后，进入译码与执行阶段：CPU对指令进行译码，识别其类型，并据此确定执行路径。为简化分析，可将指令分为分支指令与非分支指令两类：
·为分支指令时，在执行阶段判断分支条件；条件满足时，PC将被更新为分支目标地址。
·为非分支指令时，依次完成取操作数、执行运算、写回结果等基本操作。
无论执行哪类指令，执行完成后，CPU均需要进行中断与异常检测：
·未检测到中断或异常时，继续以更新后的PC地址取指，进入下一条指令的执行阶段。
·检测到中断或异常时，进入中断响应阶段：屏蔽可屏蔽中断，保存返回地址（通常为下一条指令地址或当前指令地址，具体取决于中断/异常的类型），并将PC设置为对应中断服务程序的入口地址，随后转移执行该服务程序。关于中断机制的介绍，见5.5节。
202	2027年计算机组成原理考研复习指导
开始
取指阶段
取指令，修改PC值
指令译码
分支指令?
N
执行阶段
取操作数
如需分支则计算分支地址，修改PC值
执行指令
存操作数
N
中断/异常?
中断阶段
Y
中断响应
保存断点
中断入口→PC
图5.2指令执行的一般流程
5.2.2 CPU的时序控制
计算机的时序控制用于协调指令执行过程中各操作的先后顺序。CPU必须按照精确的时序产生控制信号，以适应不同指令在操作步骤和执行时间上的差异。
时钟信号是时序控制的基础，通常由机器内部的脉冲源（如晶振）产生，经整形和分频后形成供全机同步使用的节拍信号。时钟周期的长度由数据通路中相邻状态单元之间组合逻辑的最大传播延迟决定，以确保信号在下一个时钟边沿到来前稳定。关于数据通路的介绍，见5.3节。
早期计算机采用“机器周期—节拍—脉冲”三级时序系统：一个指令周期被划分为若干机器周期（如取指、取操作数、执行、中断响应等），每个机器周期又细分为多个节拍，必要时在节拍内插入工作脉冲，以实现更精细的时序控制。由于不同指令的功能复杂度各异，其所需的机器周期数及各周期内的节拍数均可不同，从而支持多样化的需求。
随着高速缓存的广泛应用和芯片集成度的显著提升，现代处理器已大幅简化时序结构，“机器周期”这一概念逐渐淡化。CPU内部由统一的系统时钟直接驱动，一个时钟周期即对应一个节拍，绝大多数指令可在若干时钟周期内高效完成。
5.2.3指令周期的基本概念
指令周期是指一条指令从主存读出到执行完成所经历的全部时间。为便于分析，可将其划分为若干阶段。最简单的划分方法是将指令周期分为取指和执行两个阶段；更细致的划分则可将其细分为取指、译码/读寄存器、执行/计算地址、访存和写回五个阶段，如图5.3所示。
取指阶段	执行阶段	取指	译码/读寄存器	执行/计算地址	访存	写回
指令周期	指令周期
(a)指令周期的简单划分	(b)指令周期的一种典型划分
图5.3指令周期的常见划分方法
第5章	中央处理器	203
1. 取指 (IF)
CPU根据PC的值，从主存(或指令Cache)中读取下一条指令，并将其送入IR。同时，PC被更新为下一条指令的地址：顺序执行时，PC增加当前指令的长度；若为变长指令，则需要在取指阶段初步解析其格式，以确定长度；若发生分支，则其目标地址将在后续阶段计算，并据此更新PC。
2. 译码/读寄存器 (ID)
对IR中的指令进行译码，识别操作码和寻址方式，并从寄存器堆中读取所需的操作数。此阶段还可能组合基址寄存器与偏移量，为后续地址计算做准备。立即数也在本阶段提取。
3. 执行/计算地址 (EX)
根据指令类型执行相应的操作：算术或逻辑指令，由ALU 完成运算；访存类指令(如LOAD/STORE)，计算操作数在主存中的有效地址；分支指令，计算目标地址并判断是否转移。此外，运算结果的状态(如零标志、进位等)通常在此阶段生成并暂存。
4. 访存 (MEM)
若指令需要访问主存储器(如加载数据或存储结果)，则在此阶段通过数据 Cache或主存完成读/写操作。寄存器-寄存器类指令不涉及此阶段。
5. 写回 (WB)
将最终结果写回寄存器堆。结果可能来自ALU的运算输出(执行阶段)或从存储器读取的数据(访存阶段)。写回完成后，该指令的执行即告结束。
需要注意的是，指令周期的具体划分因处理器架构而异，上述划分仅为一种典型示例。实际系统还可能包含中断响应等阶段，此时CPU 会保存断点并转移至服务程序。
由于指令功能和寻址方式的不同，不同指令的指令周期长度并不固定。根据实现方式，可分为定长指令周期(所有指令的周期长度相同)和变长指令周期(不同指令包含的时钟周期数可变)。现代计算机普遍采用基于时钟信号定时的变长指令周期，以提高执行效率。
5.2.4处理器指令执行模型
考点追踪	单周期和多周期CPU的CPI (2016、2020、2025)
一个指令周期通常由若干依次执行的步骤组成，各步骤协同完成指令的全部功能。不同处理器对这些步骤的组织方式存在显著差异，主要可分为以下三类模型。
1.单周期处理器
单周期处理器为所有指令分配相同的执行时间，每条指令在一个时钟周期内完成(CPI=1)。指令之间严格串行执行，即下一条指令必须等待前一条指令完全结束后才能启动。因此，时钟周期的长度由执行时间最长的指令决定。对于原本可在更短时间内完成的指令，也要占用整个周期，导致硬件资源在部分时间内空闲，限制了系统的整体性能。
2.多周期处理器
多周期处理器根据指令类型动态分配执行周期数，不同指令可占用不同数量的时钟周期(各指令的CPI不同，平均CPI通常大于1)。该方案不再要求所有指令具有相同的执行时间，从而提高了时钟频率和资源利用效率。但是，指令之间仍是串行执行的，无法实现重叠处理。
3.流水线处理器
流水线处理器采用指令级并行策略，目标是在每个时钟周期完成一条指令的吞吐(理想情况下CPI=1)。其实现机制是：每个时钟周期启动一条新指令，使多条指令在流水线中重叠执行，
204	2027年计算机组成原理考研复习指导
各自处于不同的执行阶段（如取指、译码、执行、写回等）。尽管单条指令从开始到完成仍需要多个周期（执行延迟未减少），但整体吞吐率显著提高，大幅提升了处理器效率。
5.2.5	本节习题精选
单项选择题
01. 计算机工作的最小时间周期是（	）。
A. 时钟周期	B. 指令周期	C. 存取周期	D. 总线周期
02. 指令周期是指（	）。
A. CPU从主存取出一条指令的时间
B. CPU执行一条指令的时间
C. CPU从主存取出一条指令加上执行这条指令的时间
D. 时钟周期时间
03. 在一条无条件转移指令的指令周期内（不含中断），程序计数器的值被修改了（	）次。
A. 1	B. 2	C. 3	D. 不能确定
04. 取指操作后，程序计数器中存放的是（	）。
A. 当前指令的地址	B. 程序中指令的数量
C. 已执行的指令数量	D. 下一条指令的地址
05. 下列关于指令执行的叙述中，错误的是（	）。
A. 指令周期的第一个操作是取指令
B. 为了进行取指操作，控制器需要得到相应的指令
C. 取指操作是控制器自动进行的
D. 指令执行时有些操作是相同或相似的
06. 下列关于指令执行过程的叙述中，错误的是（	）。
A. 取指操作是控制器固有的功能，不需要在操作码控制下完成
B. 所有指令的取指操作是相同的
C. 在指令长度相同的情况下，所有指令的取指操作是相同的
D. 中断周期是在指令执行完成后出现的
07. 下列关于指令周期的叙述中，错误的是（	）。
A. 指令周期的第一个阶段一定是取指令阶段
B. 乘法指令和加法指令的指令周期总是一样长
C. 一个指令周期可由若干时钟周期组成
D. 单周期CPU中的指令周期就是一个时钟周期
08. 下列关于多周期CPU的说法中，合理的是（	）。
A. 执行各条指令的时钟周期数相同，各时钟周期的长度均匀
B. 执行各条指令的时钟周期数相同，各时钟周期的长度可变
C. 执行各条指令的时钟周期数可变，各时钟周期的长度均匀
D. 执行各条指令的时钟周期数可变，各时钟周期的长度可变
09. 关于指令执行过程，下列叙述中正确的是（	）。
A. 取指令和取操作数阶段都一定需要通过总线访问主存
B. 指令译码阶段需要计算操作数在内存中的地址
C. 所有指令在执行阶段必然包含访问主存或I/O端口的操作
D. 取指令和译码是每条指令必须执行的操作，但取数或写结果不一定要访问主存
第5章	中央处理器	205
10.【2009 纟考真题】冯·诺依曼机中指令和数据均以二进制形式存放在存储器中， CPU区分它们的依据是（	）。
A.指令操作码的译码结果	B.指令和数据的寻址方式
C.指令周期的不同阶段	D.指令和数据所在的存储单元
11. 【2011统考真题】假定不采用 Cache和指令预取技术，且机器处于“开中断”状态，则在下列有关指令执行的叙述中，错误的是（	）。
A.每个指令周期中 CPU 都至少访存一次
B.每个指令周期一定大于或等于一个CPU 时钟周期
C.空操作指令的指令周期中任何寄存器的内容都不会被改变
D.当前程序在每条指令执行结束时都可能被外部中断打断
5.2.6 答案与解析
单项选择题
01. A
时钟周期是计算机内部最基本、最小的时间单位。指令周期是指完成一条指令所需的时间，可以包含多个时钟周期。存取周期是指访问一次存储器（读或写）的时间，通常也需要多个时钟周期。总线周期是指总线进行数据传输所需的时间，也可包含多个时钟周期。
02. C
指令周期是指 CPU 从主存取出一条指令加上执行这条指令的时间，间址周期不是必需的。
03. B
首先在取指周期结束后，PC 值自动加 1；在执行周期中，PC 值修改为要转移到的地址。综上，在一条无条件转移指令的指令周期内，程序计数器（PC）的值被修改了2次。
04. D
在取指操作后，程序计数器中的内容将被修改为下一条指令的地址，而不是当前指令的地址。
05. B
取指操作是自动进行的，控制器不需要得到相应的指令。
06. B
不同长度的指令，其取指操作可能是不同的。例如，双字指令、三字指令与单字指令的取指操作是不同的。
07. B
无论哪种指令，指令周期的第一个阶段都是取指令（从主存中获得指令）。乘法指令通常比加法指令复杂，若是多周期 CPU，则乘法指令通常需要更多的时钟周期，选项 B 错误。多周期CPU的指令周期由若干时钟周期组成。在单周期CPU中，指令执行的所有阶段（取指令、译码、执行等）都在一个时钟周期内完成，因此其指令周期就是一个时钟周期。
08. C
多周期 CPU 把指令的执行分为多个阶段来实现，每个阶段在一个时钟周期内完成，时钟周期以最复杂的阶段所花的时间为准，阶段的划分原则是：将一条指令的执行过程尽量分成大致相等的若干阶段。不同的指令（根据指令的复杂程度）所含的时钟周期数可以不同。
09. D
指令执行的基本步骤通常包括取指令、译码、地址计算、取操作数、执行和写回结果，其中取指令和译码是所有指令执行的必经阶段，而后续操作因指令而异；操作数和结果可能仅涉及寄
206	2027年计算机组成原理考研复习指导
存器，无须访问主存或I/O。因此选项D正确。选项A错在取操作数不一定访存；选项B错在地址计算属于执行阶段，而非译码阶段；选项C错在并非所有指令都需要访问主存或I/O。
10. C
虽然指令和数据都以二进制形式存放在存储器中，但CPU 可以根据指令周期的不同阶段来区分是指令还是数据，通常在取指阶段取出的是指令，在执行阶段取出的是数据。本题容易误选选项A，需要清楚的是，CPU只有在确定取出的是指令后，才会将其操作码送去译码，因此不可能依据译码的结果来区分指令和数据。
11. C
因为不采用指令预取技术，每个指令周期都需要取指令，而不采用 Cache技术，所以每次取指令都至少要访存一次（当指令字长与存储字长相等且按边界对齐时），选项A正确。时钟周期是CPU的最小时间单位，每个指令周期一定大于或等于一个CPU时钟周期，选项B正确。即使是空操作指令，在取指操作结束后，PC 也会自动加1，选项C错误。因为机器处于“开中断”状态，所以在每条指令执行结束时都可能被外部中断打断。
5.3数据通路的功能和基本结构
5.3.1数据通路的功能
随着技术的发展，越来越多的功能逻辑被集成到CPU芯片中，但不论CPU的内部结构多么复杂，它都可视为由数据通路 (Data Path)和控制部件 (Control Unit)两大部分组成。
数据在指令执行过程中所经过的路径，以及路径上涉及的硬件部件，称为数据通路。ALU、通用寄存器、状态寄存器等，都是指令执行时数据流经的部件，属于数据通路的一部分。数据通路描述了数据从何处开始，中间经过哪些部件，最终被传送到哪里。整个数据通路由控制部件控制，后者根据每条指令的功能，生成相应的控制信号，以驱动数据通路完成指定操作。
5.3.2数据通路的组成
数据通路的基本构成元件可分为组合逻辑元件和时序逻辑元件两大类。
考点追踪 数据通路的组成部件 (2017、2021、2025)
1.组合逻辑元件 (操作元件)
组合逻辑元件主要用于执行数据运算与路径选择，也称操作元件。其特征是：任意时刻的输出仅由当前输入决定，不依赖历史状态；内部不含记忆单元，不受时钟控制，且无输出到输入的反馈通路，因而具有确定性和即时响应性。数据通路中常用的组合逻辑元件包括加法器、算术逻辑单元 (ALU)、译码器、多路选择器 (MUX)和三态门等，如图5.4所示。
Select-
EN
A1 Y2 A
三八译码器
Y3
A2
in Y out
A3
B
Y8
(a)译码器 (b)多路选择器 (c)三态门
图5.4数据通路中的几种常用组合逻辑元件
第5章	中央处理器	207
考点追踪	三态门、多路选择器的应用（2015、2023、2024）
图中虚线表示控制信号，译码器常用于操作码译码或地址码译码，对于n位输入，可产生2^{n}个互斥输出。多路选择器（MUX）根据控制信号Select从多路输入中选择一路输出，若输入路数为N，则需[\log_{2}N]位控制信号。三态门可视为一种受控的总线开关，由控制信号EN决定信号线的通断，当EN=1时，三态门被打开，输出（out）信号等于输入（in）信号；当EN=0时，输出端呈高阻态（隔断态），所连寄存器与总线断开。
2.时序逻辑元件（状态元件）
时序逻辑元件的输出不仅取决于当前输入，还依赖于电路的历史状态，因此其内部必然包含用于存储信息的记忆单元。此外，这类元件必须在时钟的同步控制下工作。常见的时序逻辑元件包括各类寄存器和存储器，例如通用寄存器组、程序计数器（PC）、状态/暂存寄存器等。
数据通路的基本结构可抽象为时序逻辑元件与组合逻辑元件交替连接的形式，即“……-状态元件-操作元件-状态元件-……”，如图5.5所示。为简化分析，假设寄存器A和B的写使能信号一直有效，当时钟上升沿到来时，两个寄存器同时锁存各自的新值。从时钟上升沿开始到寄存器A输出稳定的时间称为寄存器延迟T_{\mathrm{clk}\_t\mathrm{o}\_q}；随后，其输出数据经组合逻辑电路处理，经历一个关键路径延迟T_{\max}（所有输出信号达到稳定所需的最长时间）。为确保寄存器B能在下一个时钟上升沿正确采样该数据，其输入必须在时钟沿到来前至少提前T_{\mathrm{setup}}（寄存器建立时间）保持稳定。因此，数据通路的最小时钟周期必须不小于T_{\mathrm{clk}\_t\mathrm{o}\_q}+T_{\max}+T_{\mathrm{setup}}，其中组合逻辑延迟T_{\max}是关键因素。可见，在CPU设计中，缩短组合逻辑的关键路径延迟是提升系统频率的关键手段。
5.3.3	数据通路的组织与分类
数据通路可根据其内部部件的连接方式和指令执行的时序组织方式进行分类。
1.按部件连接方式划分
（1）总线式数据通路
总线式数据通路将通用寄存器、ALU和内部寄存器等主要部件连接至一条或多条CPU内部总线（注意，此总线为片内总线，不同于系统总线）。根据总线数量的不同，可分为如下两类：
•单总线结构：所有数据传输共享一条内部总线，ALU的输入与输出均通过该总线分时传送。
•多总线结构（如双总线、三总线）：提供多条独立总线，例如分别用于两个源操作数和结果写回，以支持更高的并行度。
208 2027年计算机组成原理考研复习指导
优点是硬件简洁、易于扩展；缺点是同一时刻仅能传输一组数据，存在总线竞争问题。
(2)专用数据通路
专用数据通路采用点对点专用连线连接寄存器、ALU等部件，而非共享总线。各数据通路可并行传输，避免了总线冲突。
优点是数据传输效率高、延迟低；缺点是布线复杂、扩展性差、成本较高。
总线式与专用数据通路的特点对比如表5.1所示。
表5.1总线式与专用数据通路的特点对比
对比维度	总线式数据通路	专用数据通路
结构复杂度	简单，部件共享总线，连线少	复杂，需要大量点对点专用连线
扩展灵活性	强，新增部件只需要挂接总线	弱，新增部件需要重新布线
数据传输效率	低，同一时刻仅支持一组数据传输	高，多组数据可并行传输
硬件成本	低	高
性能瓶颈	总线带宽受限，部件增多时延迟增加	无总线瓶颈，性能随并行度提升
典型应用场景	教学模型、嵌入式微控制器	高性能通用处理器(如RISC)
2.按时序组织方式划分
(1)单周期数据通路
在单周期数据通路中，每条指令的所有操作（取指、译码、执行、访存、写回等）都在一个时钟周期内完成。时钟周期长度由最慢的指令（通常是访存指令）决定。
特点是控制简单，资源利用率低，可基于总线式或专用通路实现。
注	意
单周期处理器(CPI=1)不能采用单总线结构的数据通路，因为单总线将所有寄存器都连接到一条公共总线上，一个时钟周期内只允许一次操作，无法完成一条指令的所有操作。
(2)多周期数据通路
多周期数据通路将一条指令的执行划分为多个阶段，每个阶段在一个时钟周期内完成。典型阶段包括取指、译码与读寄存器、执行/地址计算、访存、写回等。
特点是各阶段的结果在时钟边沿被锁存到寄存器中；时钟周期长度通常以一次存储器访问时间为基准；相比单周期设计，提高了硬件复用率，缩短了时钟周期。
(3)流水线数据通路
流水线数据通路将指令执行过程分解为若干独立、可重叠的阶段，不同指令在不同阶段并发推进。每个阶段由专用功能部件完成，并通过流水段寄存器隔离和传递中间结果。
特点是时钟周期长度由最长阶段决定；理想情况下，每个周期可以完成一条指令。
5.3.4单总线结构的数据通路
单总线数据通路结构简洁，所有数据传输共享同一条内部总线，同一时刻仅允许一个部件向总线输出数据，导致操作需要分步进行。图5.6所示为一种典型的单总线数据通路结构。
考点追踪	数据通路中的部件及连接方式(2013、2015、2022)
在图5.6中，GPRs为通用寄存器组，rs和rd分别是源寄存器和目的寄存器的编号，各占4位，可寻址2^{4} = 1 6个通用寄存器；Y和Z为暂存寄存器（简称暂存器），用于暂存从总线读取的操作数；FR为标志寄存器，用于保存ALU运算产生的状态标志。所有可向内部总线输出数据的
第5章	中央处理器 209
部件（如寄存器、MDR、PC等）均通过各自的三态门与总线相连，以控制其与总线之间的通断，避免多个输出同时驱动总线造成冲突。图中带箭头的虚线表示控制信号，控制信号的命名采用“部件名+in/out”的方式：in表示允许向该部件写入（如PCin表示将内部总线上的数据写入PC）,out表示允许该部件输出到总线（如PCout表示将PC的内容送至内部总线）。
系统总线
MARin
MDRin
PCin
送CU等部件
MAR
MDR
PC
Readi
MDRout
PCout
IR
IRin
Write
内部总线
主存储器
16
16
Y
Yin
A
B
GPRout
ALU
✔
GPRs
、
rd
16
F
ALUop
rs
Zout
FR
SFOF
Z
GPRin
图5.6一种典型的单总线数据通路结构
ALU的操作类型由控制信号ALUop决定。若ALUop为n位，则最多支持2"种操作。在以下分析中，假设ALUop为3位，且约定执行加法操作时ALUop=000.
总线是一组共享的传输信号线，不能存储信息，任一时刻只能有一个部件将信息发送到总线上。下面以图5.6所示的单总线数据通路为例，介绍两条常见指令的指令周期数据流。数据流是指令执行过程中，根据操作要求依次访问的数据序列。该序列因指令执行的不同阶段而异，也随指令类型的不同而变化。为简化分析，此处将指令周期分为取指和执行两个阶段。
(1)加法指令
考点追踪	指令执行阶段的操作控制分析(2009、2015、2019)
指令功能：将rs和rd寄存器中的值相加，并将结果写入rd寄存器。
1）取指阶段：根据PC中的内容从主存储器中取出指令代码并存放在IR中。假设从发出主存读命令到主存读出数据并传输到MDR共需5个时钟周期，则取指阶段的数据流如下（不考虑PC增量操作）：
时钟	功能	有效控制信号
Cl	(PC)→MAR	PCout, MARin
C2~C6	MEM(MAR)→MDR	MDRin, read
C7	(MDR)→IR	MDRout, IRin
解释：①将PC的内容写入MAR（1个时钟周期）；②读主存并将读出的数据写入MDR（5个时钟周期）；③将MDR的内容写入IR（1个时钟周期）。
2）执行阶段：根据rs和rd寄存器的编号(假设分别为0001和0010)，将两个操作数取出，送入ALU进行加法运算，并将运算结果送回rd寄存器。执行阶段的数据流如下：
时钟	功能	有效控制信号
C8	(rs)→Y	rs=0001, GPRout, Yin
C9	(rs)+(rd)→Z	rd=0010, GPRout, ALUop=000
C10	(Z)→rd	Zout, rd=0010, GPRin
210 2027年计算机组成原理考研复习指导
解释：①将rs寄存器的内容写入暂存寄存器Y（1个时钟周期）；②将rd寄存器中的值取出并与Y暂存寄存器中的值相加，结果送入Z暂存寄存器（1个时钟周期）；③将暂存寄存器Z中的加法结果送回rd寄存器（1个时钟周期）。
注	意
在单总线数据通路中，任一时刻总线上仅允许一个数据传输。由于ALU是无存储能力的组合逻辑电路，运算时需要两个输入同时有效，因此需要先将一个操作数经总线送入暂存寄存器Y；下一周期再将另一个操作数送至ALU的另一个输入端，Y的输出即作为其第一个操作数。此外，ALU输出不能直接连到总线，否则可能通过总线反馈至输入端，干扰运算结果，故需要暂存于暂存寄存器Z中。
(2)取数指令
指令功能：将主存地址为rs寄存器中的值的主存单元内容取出送回rd寄存器。
1）取指阶段：所有指令取指阶段的数据流都是相同的，此处不再赘述。
2）执行阶段：假设rs和rd寄存器的编号分别为0001和0010，从发出主存读命令到主存读出数据并传输到MDR共需5个时钟周期，则执行阶段的数据流如下：
时钟	功能	有效控制信号
C8	(rs)→ MAR	rs=0001, GPRout, MARin
C9~C13	MEM(MAR)→MDR	MDRin, read
C14	(MDR)→rd	MDRout, rd=0010, GPRin
解释：①将rs的内容写入MAR（1个时钟周期）；②读主存并将读出的数据写入MDR（5个时钟周期）；③将MDR的内容写入rd寄存器（1个时钟周期）。
5.3.4专用结构的数据通路
本节以单周期数据通路为例，介绍专用数据通路的设计原理。在单周期数据通路中，每条指令的取指与执行均在一个时钟周期内完成，CPU的时钟周期必须以最耗时的指令为准。此外，由于资源无法复用，系统需要为频繁使用的功能单元（如加法器）配置多组独立的实例。同时，为避免指令获取与数据访问冲突，指令和数据被分别存储在独立的存储器中，确保两者可在同一时钟周期内并行处理。鉴于完整单周期数据通路结构较为复杂，以下将结合具体指令执行过程，逐步拆解其关键设计要点。尽管基于单周期模型，但其中的控制逻辑与数据通路设计思想同样适用于多周期、流水线等更复杂的结构。考生应在夯实基础的前提下，灵活运用所学知识。
1.取指令部件的设计
每条指令的第一步都是完成取指令并计算下一条指令地址的过程。图5.7展示了取指令部件的结构示意图。指令存储在指令存储器中，仅支持读操作。读取指令时，只需提供指令地址，经过固Address	指令字	定的延迟后即可输出对应的32位指令字。指令地下地址	指令逻辑	8	存储器	32	址由程序计数器(PC)提供。
CLK	取指令部件包含专用的下地址逻辑电路，用于计算并更新PC值，以确定下一条指令的地址。下图5.7取指令部件的结构示意图	地址逻辑根据当前指令类型区分不同的执行路径：·顺序执行：当指令为普通顺序指令时，直接计算PC+4得到下一条指令的地址。
·转移执行：对于分支或转移指令，需要根据指令类型计算转移目标地址。例如，beq指令（相等转移）通过比较两个寄存器的内容决定是否转移，并根据偏移量计算新的PC值。
第5章	中央处理器	211
2.R型运算类指令数据通路
R型指令指的是操作数全部来自通用寄存器、运算结果也写回通用寄存器的算术/逻辑运算指令。以加法指令为例：
add rd, rs, rt	#R[rs]+R[rt]\longrightarrowR[rd]
图5.8展示了R型指令相关的数据通路
示意图。该数据通路能够对两个寄存器Rs和Rt的内容进行运算，并将结果写回Rd寄存器。例如，add和sub等指令还需判断运算结果是否溢出，仅当不溢出时才将结果写回Rd寄存器；发生溢出时，会触发异常处理。
指令中的Rs和Rt是两个源操作数寄存器的编号，Rd是目的寄存器的编号。因此，
·	寄存器堆的两个读地址端Ra和Rb应分别与Rs和Rt相连。
·	写地址端Rw应与Rd相连。
·	ALU的运算结果通过总线busW连至寄存器堆的写数据端。
控制信号RegWr作为寄存器堆的写使能信号，在RegWr为1且无溢出的情况下，运算结果才被写入寄存器堆。具体来说，RegWr信号和溢出标志位Overflow通过“与”门组合后，决定是否允许写入寄存器堆。显然，在R型指令执行期间，RegWr信号应始终为1。
此外，ALU的操作类型由控制信号ALUctr决定。假设ALU支持N种不同的运算，则ALUctr至少需要\left[\log_{2}N\right]位来选择具体的运算类型。
由于单周期处理器必须在一个时钟周期内完成指令，其数据通路中不设置指令寄存器（IR），而直接从指令存储器中取指令并解析执行，否则仅取指令到IR就需一个时钟周期。
3.I型运算指令的数据通路
I型运算指令（立即数运算类指令）的核心执行逻辑是，先将指令中的16位立即数扩展为32位，再将寄存器Rs的内容送入ALU运算，结果写回目的寄存器Rt。以有符号加法指令为例：
addi rt, rs, imm16	#R[rs]+SignExt[imm16]\longrightarrowR[rt]
其中，SignExt[imm16]表示对16位立即数进行符号扩展。
图5.9是在R型指令数据通路（见图5.8）基础上，增加支持I型指令的功能模块（如立即数扩展器和多路选择器）后形成的通用数据通路。该通路可同时执行R型和I型运算指令。
212	2027年计算机组成原理考研复习指导
与图5.8相比，数据通路主要有以下三处改动，以同时兼容R型和I型运算指令的执行。
1）目的寄存器选择：R型指令使用目的寄存器Rd，而I型指令使用目的寄存器Rt。因此，在寄存器堆的写地址Rw处增设多路选择器，由控制信号RegDst控制：
\bulletRegDst=1（执行R型指令）时，选择Rd为目的寄存器。
\bulletRegDst=0（执行I型指令）时，选择Rt为目的寄存器。
2）立即数扩展：I型指令的16位立即数需扩展为32位才能送入ALU。数据通路中新增一个立即数扩展器，其输入为指令的imm16字段。由控制信号ExtOp决定扩展方式：
\bullet对于算术类指令，采用符号扩展。
\bullet对于按位逻辑操作指令，采用零扩展。
3）ALU第二操作数选择：R型指令的第二操作数来自寄存器Rt，I型指令则使用扩展后的立即数。因此，在ALU的第二输入端增设多路选择器，由控制信号ALUSrc控制：
\bulletALUSrc=0（执行R型指令）时，选择寄存器Rt的数据。
\bulletALUSrc=1（执行I型指令）时，选择扩展后的立即数。
4.访存指令的数据通路
MIPS访存指令属于I型指令（需要进行立即数运算），包括以下两类：
lw	rt,imm16(rs) #M[R[rs]+SignExt(imm16)]\rightarrowR[rt]
sw	rt,imm16(rs) #R[rt]\rightarrowM[R[rs]+SignExt(imm16)]
LOAD和STORE指令的访存地址计算逻辑完全一致：首先对指令中的16位立即数imm16进行符号扩展，然后将其与寄存器Rs的内容相加，得到访存地址。二者区别在于数据传输方向：
\bulletLOAD指令从该地址读取32位数据，并将数据写入寄存器Rt。
\bulletSTORE指令则将寄存器Rt中的32位数据写入该地址对应的存储单元。
图5.10是在图5.9的基础上增加支持LOAD/STORE指令功能模块后的数据通路示意图。该数据通路不仅能够执行LOAD/STORE指令，还能兼容R型和I型运算指令。
与图5.9相比，数据通路主要有以下两处改动，以支持LOAD/STORE指令的执行：
1）写回寄存器的数据选择：为了处理运算类指令与LOAD指令写回寄存器的不同数据来源，在寄存器堆的写端口busW处增设一个多路选择器，由控制信号MemtoReg控制：
\bulletMemtoReg=0（运算类指令）时，选择ALU的运算结果。
\bulletMemtoReg=1（LOAD指令）时，选择数据存储器读出的数据。
2）新增数据存储器模块：以满足LOAD/STORE指令对数据存储器的读/写需求。
\bullet数据存储器的地址端Adr直接连接到ALU的输出端（访存地址由ALU计算得出）。
第5章	中央处理器	213
•STORE指令需要将寄存器Rt的内容写入存储器，因此将寄存器堆的第二读端口busB（对应寄存器Rt）连接到数据存储器的输入端DataIn。
•数据存储器的输出端接入busW处的多路选择器，用于LOAD指令的结果写回。
•控制信号MemWr作为数据存储器的写使能信号（控制数据存储器的读/写操作）。
•LOAD/STORE指令计算访存地址时，需要对16位立即数imm16进行符号扩展，并通过ALU执行不判溢出的加法(addu)，此时控制信号ALUctr被配置为对应的操作码。
5.完整的单周期数据通路结构图
综合前述各功能模块，可构建如图5.11所示的完整单周期数据通路。图中所有加下划线的信号均为控制信号，以虚线表示。
其中，取指令部件在图5.7的基础上，还需接收三类关键外部控制信号：
•控制信号Branch在执行分支指令时置1。
•控制信号Jump在执行无条件转移指令时置1。
•标志位Zero用于判断分支条件是否成立，该信号由ALU输出。例如，执行beq指令（相等转移）时，ALU执行减法操作，若结果为0，则Zero置1，表示满足转移条件。
基于以上分析，单周期处理器具有以下重要特点：
1）存储器分离设计：指令存储器与数据存储器相互独立，使得取指令与数据访存操作可并行进行，避免冲突，确保在一个时钟周期内同时完成指令读取与数据读/写。
2）无指令寄存器（IR）：指令从存储器取出后，其各字段（如rs、rt、rd、imm）直接用于生成控制信号或地址输入，指令解析与执行在同一个时钟周期内同步完成。
3）时钟周期由最慢指令决定：时钟周期必须满足执行时间最长的指令（如访存指令），导致简单指令（如R型加法）的执行效率受限。
4）数据通路资源专用：由于所有操作需要在一个周期内并发完成，关键功能单元（如用于PC更新和地址计算的加法器）需要配置多个独立的实例，硬件无法复用，开销较大。
5）控制信号单周期有效：所有控制信号（如RegWr、MemWr等）在一个时钟周期内保持有效，指令“取指、执行、写回”的完整流程在单个时钟脉冲内完成，无流水线分段。
5.3.5	本节习题精选
一、单项选择题
01.下列不属于CPU数据通路结构的是（	）。
A.单总线结构	B.多总线结构
214	2027年计算机组成原理考研复习指导
C.部件内总线结构	D.专用数据通路结构
02.下列有关数据通路的叙述中，错误的是（	）。
A.数据通路由若干组合逻辑元件和时序逻辑元件连接而成
B.数据通路的功能由控制部件送出的控制信号决定
C.ALU属于操作元件，包含在数据通路中
D.通用寄存器属于状态元件，但不包含在数据通路中
03.数据通路是由操作元件和状态元件通过总线或分散方式连接而成的进行数据存储、处理和传送的路径，下列部件中属于状态元件的是（	）。
I.算术逻辑部件II.译码器III.移位寄存器IV.存储器数据寄存器
A. I、III	B. II、III、V	C. III、IV	D. I、IV
04.下列关于采用单总线方式的CPU的说法中，正确的是（	）。
A.ALU的两个输入端及输出端都可与总线相连
B.ALU的两个输入端可以与总线相连，但输出端需通过暂存器与总线相连
C.ALU的一个输入端可以与总线相连，其输出端也可与总线相连
D.ALU只能有一个输入端可以与总线相连，另一输入端需通过暂存器与总线相连
05.CPU内部若多个部件共享一条总线，则每个部件与总线之间需设置一个常用的器件，CPU控制该器件的状态，实现某个部件与总线的连接或断开。该器件是（	）。
A.触发器	B.多路选择器	C.三态门	D.与非门
06.CPU内部电路通常采用总线连接方式，总线上信号流动的原则是（	）。
I.每个时刻只有一个器件发出信息	II.每个时刻有一个或多个器件发出信息
III.每个时刻只有一个器件接收信息	IV.每个时刻有一个或多个器件接收信息
A. I、III	B. I、IV	C. II、III	D. II、IV
07.下列关于CPU时钟信号的叙述中，错误的是（	）。
A.处理器总是每来一个时钟信号就开始执行一条新的指令
B.边沿触发指状态单元总在时钟上升沿或下降沿开始改变状态
C.时钟周期以相邻状态单元之间最长组合逻辑延迟为基准确定
D.每个时钟周期称为一个节拍，机器的主频就是时钟周期的倒数
08.下列操作中，从开始到完成所持续的时间不一定等于一个时钟周期的是（	）。
Ⅰ.单总线数据通路中完成一次主存读操作
Ⅱ.单周期CPU中执行一条完整指令
Ⅲ.单总线数据通路中，寄存器R1经内部总线传至寄存器R2
Ⅳ.流水线数据通路中，数据从一个流水段寄存器传入下一个流水段寄存器
V.单周期CPU中完成一次ALU运算
A. I,V	B. I,III,V	C. II,III,IV	D. IV,V
09.下列关于单周期CPU和多周期CPU的描述中，错误的是（	）。
A.单周期CPU更容易支持复杂指令（如乘法、除法）
B.单周期CPU部件冗余大、利用率低，多周期CPU则刚好相反
C.单周期CPU在1个时钟周期内执行一条指令，CPI=1
D.多周期CPU至少需要2个时钟周期才能执行一条指令，CPI>1
10.下列关于单周期数据通路和多周期数据通路的说法中，正确的是（	）。
A.单周期CPU的CPI总比多周期CPU的CPI大
B.单周期CPU的时钟周期通常比多周期CPU的时钟周期短
第5章中央处理器
C.在一条指令执行过程中，单周期CPU中的每个控制信号取值一直不变，而多周期CPU中的控制信号可能发生改变
D.在一条指令执行过程中，单周期数据通路和多周期数据通路中的每个部件都可使用多次
11.下列关于单周期CPU与采用单总线结构的多周期CPU的说法中，正确的是（	）。
A.单周期CPU可基于单总线结构实现
B.运行相同程序时，单周期CPU的总执行时间一定更短
C.多周期CPU可将指令和数据存放在同一单端口存储器中，而单周期CPU不行
D.单周期CPU的硬件实现成本通常低于多周期CPU
12.与专用通路结构的数据通路相比，单总线结构的数据通路（	）。
A.性能更高	B.数据冲突更严重
C.硬件规模更大、实现更复杂	D.控制逻辑更复杂
13.CPU的读/写控制信号的作用是（	）。
A.决定数据总线上的数据流方向	B.控制存储器操作的读/写类型
C.控制流入、流出存储器信息的方向	D.以上都是
14.下列有关取指令操作部件的叙述中，错误的是（	）。
A.取指令操作的时延主要由存储器的访问时间决定
B.取指令操作可与下条指令地址的计算并行进行
C.在单周期数据通路中，需设置指令寄存器（IR）暂存取出的指令
D.在单周期数据通路中，程序计数器（PC）无须“写使能”控制信号
15.【2016统考真题】单周期处理器中所有指令的指令周期为一个时钟周期。下列关于单周期处理器的叙述中，错误的是（	）。
A.可以采用单总线结构数据通路	B.处理器时钟频率较低
C.在指令执行过程中控制信号不变	D.每条指令的CPI为1
16.【2019统考真题】下列有关处理器时钟信号的叙述中，错误的是（	）。
A.时钟信号由机器脉冲源发出的脉冲信号经整形和分频后形成
B.时钟信号的宽度称为时钟周期，时钟周期的倒数为机器主频
C.时钟周期以相邻状态单元间组合逻辑电路的最大延迟为基准确定
D.处理器总是在每来一个时钟信号时就开始执行一条新的指令
17.【2021统考真题】下列关于数据通路的叙述中，错误的是（	）。
A.数据通路包含ALU等组合逻辑（操作）元件
B.数据通路包含寄存器等时序逻辑（状态）元件
C.数据通路不包含用于异常事件检测及响应的电路
D.数据通路中的数据流动路径由控制信号进行控制
18.【2023统考真题】数据通路由组合逻辑元件（操作元件）和时序逻辑元件（状态元件）组成。下列给出的元件中，属于操作元件的是（	）。
I.算术逻辑单元（ALU）	II.程序计数器（PC）
III.通用寄存器组（GPRs）	IV.多路选择器（MUX）
A.仅Ⅰ、Ⅱ	B.仅Ⅰ、Ⅳ	C.仅Ⅱ、Ⅲ	D.仅Ⅰ、Ⅱ、Ⅳ
二、综合应用题
01.某计算机的数据通路结构如下图所示，写出实现ADD R1，（R2）的微操作序列（取指令及指令执行的过程，包括PC自增的过程）。
216	2027年计算机组成原理考研复习指导
02.设CPU内部结构如下图所示，此外还设有B、C、D、E、H、L六个寄存器（图中未画出），它们各自的输入端和输出端都与内部总线相通，并分别受控制信号控制（如Bin受寄存器B的输入控制；Bout受寄存器B的输出控制），假设ALU的结果直接送入寄存器Z。要求从取指令开始，写出完成下列指令的微操作序列及所需的控制信号。
ADD B, C	(B)+(C)→B
SUB ACC, H	(ACC)-(H)→ACC
03.设有如下图所示的单总线结构，分析指令ADD(R0)，R1[即实现((R0))+(R1)→(R0)]的指令流程和控制信号。
第5章	中央处理器	217
04.	右图是一个简化的CPU与主存连接结构示意
图（图中省略了所有的多路选择器）。其中有
一个累加寄存器（ACC）、一个状态寄存器
和其他4个寄存器：存储器地址寄存器
（MAR）、存储器数据寄存器（MDR）、程
序计数器（PC）和指令寄存器（IR），各部
件及其之间的连线表示数据通路，箭头表示信
息传递方向。
要求：
1）请写出图中a、b、c、d四个寄存器的名称。
2）简述图中取指令的数据通路。
3）简述数据在运算器和主存之间进行存/取访问的数据通路（假设地址已在MAR中）。
4）简述完成指令LDA X的数据通路（X为主存地址，LDA的功能为(X)→ACC）。
5）简述完成指令ADD Y的数据通路（Y为主存地址，ADD的功能为(ACC)+(Y)→ACC）。
6）简述完成指令STAZ的数据通路（Z为主存地址，STA的功能为(ACC)→Z）。
05.	某机主要功能部件如下图所示，其中M为主存，MDR为存储器数据寄存器，MAR为
存储器地址寄存器，IR为指令寄存器，PC为程序计数器（并假设当前指令地址在PC中），R0~R3为通用寄存器，C、D为暂存器。
218	2027年计算机组成原理考研复习指导
1）请补充各部件之间的主要连接线（总线自己画），并注明数据流动方向。
2）画出“ADD(R1),(R2)+”指令周期流程图，该指令的含义是进行求和运算，源操作数地址在R1中，目的操作数寻址方式为自增型寄存器间接寻址方式（先取地址后加1），并将相加结果写回R2寄存器。
06.已知单总线计算机结构如下图所示，其中M为主存，XR为变址寄存器，EAR为有效地址寄存器，LATCH为暂存器。假设指令地址已存在于PC中，请给出ADD X,D指令周期信息流程和相应的控制信号。说明：
1）ADD X,D指令字中，X为变址寄存器XR，D为形式地址，指令的功能是将变址寻址得到的操作数和ACC中的操作数相加，结果送回ACC。
2）寄存器的输入/输出均采用控制信号控制，如PC_{i}表示PC的输入控制信号，MDR_{o}表示MDR的输出控制信号。
3）凡需要经过总线的传送，都需要注明，如(PC)\rightarrow MAR，相应的控制信号为PC_{o}和MAR_{i}。
07.【2009统考真题】某计算机字长16位，采用16位定长指令字结构，部分数据通路结构如下图所示。图中所有控制信号为1时表示有效，为0时表示无效。例如，控制信号MDRinE为1表示允许数据从DB打入MDR，MDRin为1表示允许数据从总线打入MDR。假设MAR的输出一直处于使能状态。加法指令“ADD(R1),R0”的功能为(R0)+((R1))\rightarrow(R1)，即将RO中的数据与R1的内容所指主存单元的数据相加，并将结果送入R1的内容所指主存单元中保存。
第5章	中央处理器 219
下表给出了上述指令取指和译码阶段每个节拍（时钟周期）的功能和有效控制信号，请按表中描述方式用表格列出指令执行阶段每个节拍的功能和有效控制信号。
时__钟	功能	有效控制信号
C1	MAR←(PC)	PCout, MARin
C2	MDR←M(MAR)PC←(PC)+1	MemR,MDRinEPC+1
C3	IR←(MDR)	MDRout, IRin
C4	指令译码	无
08.【2015统考真题】某16位计算机的主存按字节编码，存取单位为16位；采用16位定长指令字格式；CPU采用单总线结构，主要部分如下图所示。图中R0~R3为通用寄存器；T为暂存器；SR为移位寄存器，可实现直送(mov)、左移一位(left)和右移一位(right)三种操作，控制信号为SRop,SR的输出由信号SRout控制;ALU可实现直送A(mova)、A加B(add)、A减B(sub)、A与B(and)、A或B(or)、非A(not)、A加l(inc)七种操作，控制信号为ALUop.
回答下列问题：
1）图中哪些寄存器是程序员可见的？为何要设置暂存器T?
2）控制信号ALUop和SRop的位数至少各是多少？
3）控制信号SRout所控制部件的名称或作用是什么？
4）端点①~⑨中，哪些端点须连接到控制部件的输出端？
5）为完善单总线数据通路，需要在端点①~⑨中相应的端点之间添加必要的连线。写出连线的起点和终点，以正确表示数据的流动方向。
6）为什么二路选择器MUX的一个输入端是2?
SRout
CPU
①
（中央处理器）
移位寄存器
SRop
②
R0
MAR
SR
主存
ALUop
ALU
③
R1
MDR
1
B
R2
PC
④
T
Tin
⑦
⑤
MUX
R3
IR
⑧
0
MUXop
CPU
内部总线
控制部件
主存总线
2
⑨
⑥
09.【2015统考真题】上题中描述的计算机，某部分指令执行过程的控制信号如下所示。
220 2027年计算机组成原理考研复习指导
PCout=1, MARin=1, Tin=1, MEMop= read
MUXop=①, ALUop= add, SRop=②
SRout=1, PCin=1
取指阶段
MDRout, IRin=1
执行阶段
shl R2. R1
sub R0. R2.(R1)
Rlout-1, Tin-1, ALUop-③SRop-④
Rlout-1, MARin=1, MEMop=⑤
SRout=1, R2in=1
R2out=1, Tin=1
MDRout=1, MUXop=1, ALUop=⑥, SRop=⑦
注：值为0的寄存器输入/输出控制信号以及值为任意的其他控制信号均未在图中标出。
⑧=1, ROin=1
该机指令格式如下图所示，支持寄存器直接和寄存器间接两种寻址方式，寻址方式位分别为0和1，通用寄存器R0~R3的编号分别为0，1，2和3.
指令操作码	目的操作数	源操作数1	源操作数2
OP	Md	Rd	Msl	Rsl	Ms2	Rs2
其中：Md、Msl、Ms2为寻址方式位, Rd、Rs1、Rs2为寄存器编号。
三地址指令：	源操作数1 OP源操作数2→ 目的操作数地址
二地址指令（末3位均为0）:	OP 源操作数1 →目的操作数地址
单地址指令（末6位均为0）:	OP 目的操作数→目的操作数地址
回答下列问题：
1)该机的指令系统最多可定义多少条指令？
2)假定inc、shl和sub指令的操作码分别为01H、02H和03H,则以下指令对应的机器代码各是什么？
① inc R1	; (R1)+1→R1
② shl R2, Rl	; (R1)<<1→R2
③ sub R3,(R1),R2	; ((R1))-(R2)→R3
3)假设寄存器X的输入和输出控制信号分别为Xin和Xout，其值为1表示有效，为0表示无效（如PCout=1表示PC内容送总线）；存储器控制信号为MEMop，用于控制存储器的读(read)和写(write)操作。写出本题第一幅图中标号①~⑧处的控制信号或控制信号的取值。
4)指令“sub R1,R3,(R2)”和“inc R1”的执行阶段至少各需要多少个时钟周期？
10.【2022统考真题】某CPU中部分数据通路如下图所示，其中，GPRs为通用寄存器组；FR为标志寄存器，用于存放ALU产生的标志信息；带箭头虚线表示控制信号，如控制信号Read、Write分别表示主存读、主存写，MDRin表示内部总线上的数据写入MDR,MDRout表示MDR的内容送给内部总线。
系统总线
MDRin
PCin
送CU等部件
MAR
MARin
MDR
PC
Read
MDRout
PCout
IR
IRin
Write
主存
内部总线
16
16
Y
Yin
A
B
GRRout
ALU
、
GPRs
✗
ALUop
rd-
rs
16
F
Zout
FR
SFOF|…
z
GPRin
第5章	中央处理器	221
请回答下列问题。
1)设ALU 的输入端A、B及输出端F的最高位分别为A₁₅、B₁₅及F₁₅，FR 中的符号标志和溢出标志分别为SF和OF，则SF 的逻辑表达式是什么？A加B、A减B时OF的逻辑表达式分别是什么？要求逻辑表达式的输入变量为A₁₅、B₁₅及F₁₅。
2)为什么要设置暂存器Y和Z?
3)若GPRs的输入端 rs、rd分别为所读、写的通用寄存器的编号，则GPRs中最多有多少个通用寄存器？ rs和rd来自图中的哪个寄存器？已知GPRs内部有一个地址译码器和一个多路选择器， rd应连接地址译码器还是多路选择器？
4)取指令阶段（不考虑PC增量操作）的控制信号序列是什么？若从发出主存读指令到主存读出数据并传送到MDR 共需5个时钟周期，则取指令阶段至少需要几个时钟周期？
5)图中控制信号由什么部件产生？图中哪些寄存器的输出信号会连到该部件的输入端？
5.3.6 答案与解析
一、单项选择题
01. C
对 CPU 而言，数据通路的基本结构分为总线结构和专用数据通路结构，其中总线结构又分为单总线结构、双总线结构、多总线结构。
02. D
数据通路中的部件包括组合逻辑元件和时序逻辑元件。数据通路的功能由控制部件送出的控制信号决定。数据通路中一个重要的组合逻辑元件为ALU，用于执行各类算术和逻辑运算；另一个重要的元件为通用寄存器，属于时序逻辑元件。
03. C
操作元件的输出仅取决于当前的输入，不受时钟信号的控制，也没有存储数据的功能。状态元件的最大特点是具有存储数据的功能。算术逻辑部件和译码器都不具有存储功能，属于操作元件；移位寄存器和存储器数据寄存器属于不同功能的寄存器，具有存储功能，属于状态元件。
04. D
因为 ALU 是一个组合逻辑元件，所以其运算过程中必须保持两个输入端的内容不变。又因为CPU内部采用单总线结构，所以为了得到两个不同的操作数，ALU 的一个输入端与总线相连，另一个输入端需通过一个寄存器与总线相连。此外，ALU 的输出端也不能直接与内部总线相连，否则其输出又会通过总线反馈到输入端，影响运算结果，因此输出端需通过一个暂存器（用来暂存结果的寄存器）与总线相连。
05. C
三态门可视为一种控制开关，由控制端决定信号线的通断，能输出到内部总线的部件均通过一个三态门与内部总线相连，用于控制该部件与内部总线之间数据通路的连接与断开。
06. B
当 CPU 内部电路采用总线连接方式时，总线上信号流动的原则如下：每个时刻只有一个器件发出信息（否则会导致总线冲突），每个时刻可以有一个或多个器件接收信息。
07. A
CPU 通过时钟信号定时执行指令，但并非每个时钟周期都会执行一条新指令。在多周期 CPU中，指令的执行被划分为多个阶段，每个时钟周期开始执行一个阶段，选项A错误。每个阶段的操
2027年计算机组成原理考研复习指导
作通常由时钟信号的上升沿或下降沿触发，称为边沿触发，并且决定了状态元件（如寄存器）的状态改变。为确保每个阶段都在一个时钟周期内完成，时钟周期必须足够长，以便数据能在最慢的组合逻辑电路中传输，因此时钟周期通常根据相邻状态单元之间最长的组合逻辑延迟来确定。
08. A
说法Ⅰ不一定：主存访问受存储器速度限制，通常需要多个时钟周期。说法Ⅱ一定：单周期CPU的每条指令在一个时钟周期内完成。说法Ⅲ一定：在CPU内部数据通路中，数据从一个状态元件传送到另一个状态元件的操作由时钟同步，耗时等于一个时钟周期。说法Ⅳ一定：流水段寄存器之间的数据传递由时钟边沿触发，严格对应一个时钟周期。说法Ⅴ不一定：ALU运算由组合逻辑实现，其延迟由电路决定，在单周期CPU中必须小于一个时钟周期，以满足单周期设计约束。
09. A
单周期CPU要求所有指令在一个时钟周期内完成，其时钟周期由最慢指令决定；加入复杂指令会显著延长时钟周期，拖累整体性能。而多周期CPU 可将复杂指令分解为多个节拍，每节拍使用标准周期，不影响主频，更易支持复杂操作。单周期CPU需大量专用通路实现并行，硬件冗余高、利用率低；多周期CPU通过部件复用，资源利用更高效。
10. C
多周期CPU中的指令通常需要多个时钟周期才能完成，CPI>1；单周期CPU的每条指令在一个时钟周期内完成，CPI=1。单周期CPU的时钟周期取决于最复杂指令的耗时，通常比多周期CPU的时钟周期长。在一条指令的执行过程中，单周期CPU的每个控制信号保持不变，每个部件只能使用一次；多周期CPU的控制信号可能发生改变，同一个部件可使用多次。
11. C
单周期CPU需要在一个时钟周期内并行完成取指、运算和访存，而单总线结构无法同时传输多路数据；其时钟周期由最慢指令决定，通常远大于多周期 CPU，总执行时间未必更短。多周期CPU通过分时复用，在不同节拍访问同一存储器，实现指令与数据共存；而单周期CPU需要在同一时钟周期内取指和访存，必须采用分离的指令/数据存储器，选项 C 正确。由于需要专用通路和冗余硬件以支持并行操作，单周期CPU的芯片面积与成本通常高于采用部件复用的多周期CPU。
12. B
单总线结构通过一条共享总线分时串行传输数据，硬件简单、状态少、控制逻辑简洁；但因同一时刻仅能传输一次数据，性能较低，且容易引发总线冲突。相比之下，专用通路结构采用独立连线支持并行操作，性能更高、冲突更少，也相应带来了更大的硬件规模。
13. D
读/写控制信号线决定了是从存储器读还是向存储器写，显然选项A、B、C都正确。
14. C
单周期 CPU 在一个时钟周期内完成整条指令的执行：指令从存储器读出后，其各字段(如opcode、 rs、 rt、 imm)通过组合逻辑直接驱动控制单元、寄存器堆和 ALU 等部件，解析与执行同步进行，无须经由IR 暂存；若设置IR，则取指到IR至少需要一个时钟周期，违背单周期设计原则。此外，PC每周期无条件更新为下一条指令地址，始终写入，无须“写使能”信号。
15. A
单周期处理器中所有指令的指令周期为一个时钟周期，选项D正确。因为每条指令的CPI为1，要考虑比较慢的指令，所以处理器的时钟频率较低，选项B正确。单总线数据通路将所有寄存器的输入/输出端都连接在一条公共通路上，一个时钟内只允许一次操作，无法完成指令的所有操作，选项A错误。控制信号是CU根据指令操作码发出的信号，对于单周期处理器来说，每条指令的执行
第5章中央处理器	223
只有一个时钟周期，而在一个时钟周期内控制信号并不会变化；若是多周期处理器，则指令的执行需要多个时钟周期，在每个时钟周期控制器会发出不同信号，选项C正确。
16. D
时钟信号的宽度称为时钟周期，时钟周期的倒数为机器主频。时钟信号由机器脉冲源发出的脉冲信号经整形和分频后形成，时钟周期以相邻状态单元间组合逻辑电路的最大延迟为基准确定。对于单周期CPU，一个指令周期就是一个时钟周期，每个时钟周期执行一条新指令；对于多周期CPU，每个指令周期（包含若干时钟周期）执行一条新指令；对于流水线CPU，只有在理想情况下才能实现每个时钟周期执行一条新指令，选项D的描述有误。
17. C
指令执行过程中数据所经过的路径，包括路径上的部件，称为数据通路。ALU、通用寄存器、状态寄存器、Cache、MMU、浮点运算逻辑、异常和中断处理逻辑等，都是指令执行过程中数据流经的部件，都属于数据通路的一部分。数据通路中的数据流动路径由控制部件控制，控制部件根据每条指令功能的不同，生成对数据通路的控制信号。选项C错误。
18. B
组合逻辑元件（操作元件）不含存储信号的记忆单元，任何时刻产生的输出仅取决于当前的输入，加法器、算术逻辑单元(ALU)、译码器、多路选择器、三态门等都属于操作元件。时序逻辑元件（状态元件）包含存储信号的记忆单元，各类寄存器和存储器，如通用寄存器组、程序计数器、状态/移位/暂存/锁存寄存器等，都属于状态元件。
二、综合应用题
01.【解答】
实现ADD R1,(R2)的微操作序列如下：
微操作
(PC)→MAR
M→MDR
(PC)+1→PC
(MDR)→IR
(R1)→LA
(R2)→MAR
M→MDR
(MDR)→LB
(LA)+(LB)→R1
02.【解答】
两条指令的微操作序列和控制信号如下。
(1) ADD B,C 指令。
微操作	控制信号
(PC)→MAR	PCout, MARin
(PC)+1→PC	+1
M(MAR)→MDR	MDRin
MDR→IR	MDRout, IRin
(B)→Y	Bout, Yin
(Y)+(C)→Z	Cout, ALUin, “+”
(Z)→B	Zout, Bin
(2) SUB ACC,H 指令。
微操作	控制信号
(PC)→MAR	PCout, MARin
(PC)+1→PC	+1
M(MAR)→MDR	MDRin
224 2027年计算机组成原理考研复习指导
MDR→IR	MDRout, IRin
(ACC) →Y	ACCout, Yin
(Y)−(H) →Z	Hout, ALUin, "-"
(Z) →ACC	Zout, ACCin
注：Y是与ALU的一个输入端相连接的暂存器。
03.【解答】
指令ADD(R0),R1的功能是把R0的内容作为地址送到主存中取得一个操作数，再与R1中的内容相加，最后将结果送回主存，即实现（(R0)）+(R1)→(R0).其流程和控制信号如下。
1）取指周期：公共操作。
时	序	微	操	作	有效控制信号	具体功能
1	(PC)→MAR	PCout, MARin	将PC经内部总线送至MAR
2	M(MAR)→MDR, Read	MemR, MARout, MDRinE	主存通过数据总线将MAR所指单元的内容送至MDR
3	(MDR)→IR	MDRout, IRin	将MDR的内容送至IR
4	指令译码	操作字开始控制CU
5	(PC)+1→PC	当PC加1有效时，使PC内容加1
2）取数周期：完成取数操作，被加数在主存中，加数已经放在寄存器R1 中。
时	序	微	操	作	有效控制信号	具体功能
1	(R0)→MAR	ROout, MARin	将R0中的地址（形式地址）送至存储器地址寄存器
2	M(MAR)→MDR	MemR, MARout, MDRinE	主存通过数据总线将MAR所指单元的内容（有效地址）送至MDR中
3	(MDR)→Y	MDRout, Yin	将MDR中数据通过数据总线送至Y
3）执行周期：完成加法运算，并将结果返回主存。
时序	微	操	作	有效控制信号	具体功能
1	(R1)+(Y)→Z	Rlout, ALUin, CU向ALU发ADD控制信号	R1的内容和Y的内容相加，结果送至寄存器Z
2	(Z)→MDR	Zout,MDRin	将运算结果送至MDR
3	(MDR)→M(MAR)	MemW, MDRoutE,MARout	向主存写入数据
04.【解答】
1）b单向连接微控制器，由微控制器的作用可以推出b是IR;a和c直接连接主存，只可能是MDR和MAR,c到主存是单向连接，a和主存双向连接，根据指令执行的特点，MAR只单向给主存传送地址，而MDR既存放从主存中取出的数据，又存放将要写入主存的数据，因此c为MAR,a为MDR.d具有自动加1的功能，且单向连接MAR,为PC.因此,a为MDR,b为IR,c为MAR,d为PC.
2）将指令地址从 PC 送入MAR，在相关的控制下从主存中取出指令送至 MDR，然后将MDR中的指令送至IR，最后流向微控制器。取指令的数据通路为
PC→MAR→主存→MDR→IR
3）根据MAR中的地址从主存取数据，将取出的数据送至MDR，然后将MDR中的数据送至ALU进行运算，运算的结果送至ACC。存储器读的数据通路为
MAR（先置数据地址），主存→MDR→ALU→ACC
将ACC中的结果送至MDR，再将MDR中的数据写入主存。存储器写的数据通路为MAR（先置数据地址）,ACC→MDR→主存
4）指令LDAX的数据通路为
第5章	中央处理器	225
X→MAR→主存→MDR→ALU→ACC
5）指令 ADD Y 的数据通路为
6）指令 STA Z 的数据通路为（ACC 中的数据需放在主存中）
Z→MAR, ACC→MDR→主存
05.【解答】
1）各功能部件的连接关系及数据通路如下图所示。
2）分析过程如下：
•取指令地址送到 IR 并译码。
•取源操作数和目的操作数。
•将源操作数和目的操作数相加送到 MAR，随之送到以前目的操作数所在内存的地址。
•将寄存器 R2 的内容加1。
取指周期流程如下图所示。
06.【解答】
ADD X, D 指令周期信息流程和相应的控制信号见下表。
226 2027年计算机组成原理考研复习指导
周	期	微	操	作	有效控制信号
取指周期	(PC)→MAR	PC₀,MARᵢ
M(MAR)→MDR(PC)+1→PC	MAR.,R/W, MDR;+1
(MDR)→IR	MDR₀,IRᵢ
执行周期	(XR)+ Ad(IR)→EAR	XRₒ,IRₒ,+,EARᵢ
(EAR)→MAR	EAR., MAR;
M(MAR)→MDR	MAR., R/W, MDR;
(MDR)→X	MDR₀,Xᵢ
(ACC)+(X)→LATCH	ACC₀,Xₒ,Kᵢ=+,LATCHᵢ
(LATCH)→ACC	LATCH₀,ACC₁
注：题目中的D即为Ad(IR).
07.【解答】
题干已给出取值和译码阶段每个节拍的功能和有效控制信号，我们应以了解取指阶段中数据通路的信息流动为突破口，读懂每个节拍的功能和有效控制信号，然后应用到解题思路中，包括划分执行步骤、确定完成的功能、需要的控制信号。
先分析题干中提供的示例（本部分解题时不做要求）：
取指令的功能是根据PC的内容所指的主存地址，取出指令代码，经过MDR，最终送至IR.这部分和后面的指令执行阶段的取操作数、存运算结果的方法是相通的。
Cl: (PC)→MAR
在读/写存储器前，必须先将地址（这里为(PC)）送至MAR.
C2: M(MAR)→MDR,(PC)+1→PC
读/写的数据必须经过MDR，指令取出后PC自增1.
C3: (MDR)→IR
然后将读到的MDR中的指令代码送至IR进行后续操作。
指令“ADD(R1),R0”的操作数一个在主存中，一个在寄存器中，运算结果在主存中。根据指令功能，要读出R1的内容所指的主存单元，必须先将R1的内容送至MAR，即(R1)→MAR.而读出的数据必须经过MDR,即M(MAR)→MDR.
因此，将R1的内容所指的主存单元的数据读出到MDR的节拍安排如下：
C5: (R1)→MAR
C6: M(MAR)→MDR
ALU一端是寄存器A,MDR或RO中必须有一个先写入A中，如MDR.
C7: (MDR)→A
然后执行加法操作，并将结果送入寄存器AC.
C8: (A)+(R0)→AC
之后将加法结果写回到R1的内容所指的主存单元，注意MAR中的内容没有改变。
C9: (AC)→MDR
C10: (MDR)→M(MAR)
有效控制信号的安排并不难，只需看数据是流入还是流出，如流入寄存器X就是Xin，流出寄存器X就是Xout。还需注意其他特殊控制信号，如PC+1、Add等。
于是得到参考答案如下表所示。
第5章	中央处理器 227
时	钟	功能	有效控制信号
C5	MAR←(R1)	Rlout, MARin
C6	MDR←M(MAR)	MemR, MDRinE
C7	A←(MDR)	MDRout, Ain
C8	AC←(A)+(R0)	ROout, ADD, ACin
C9	MDR←(AC)	ACout, MDRin
C10	M(MAR)←(MDR)	MDRoutE, MemW
本题答案不唯一，若在C6执行M(MAR)→MDR的同时，完成(R0)→A[选择将(R0)写入A],并不会发生总线冲突，这种方案可节省1个节拍，见下表。
时	钟	功	能	有效控制信号
C5	MAR←(R1)	Rlout, MARin
C6	MDR←M(MAR), A←(R0)	MemR, MDRinE, R0out, Ain
C7	AC←(MDR)+(A)	MDRout,ADD,ACin
C8	MDR←(AC)	ACout, MDRin
C9	M(MAR)←(MDR)	MDRoutE, MemW
08.【解答】
1）程序员可见寄存器为通用寄存器(R0〜R3)和PC.因为采用了单总线结构，因此若无暂存器T，则ALU的A、B端口会同时获得两个相同的数据，使数据通路不能正常工作。
2）ALU共有7种操作，其操作控制信号ALUop至少需要3位；移位寄存器有3种操作，其操作控制信号SRop至少需要2位。
3）信号 SRout 所控制的部件是一个三态门，用于控制移位器与总线之间数据通路的连接与断开。
4）端口①、②、③、⑤、⑧须连接到控制部件输出端。
5）连线1,⑥→⑨;连线2,⑦→④.
6）因为每条指令的长度为16位，按字节编址，所以每条指令占用2个内存单元，顺序执行时，下条指令地址为(PC)+2.MUX的一个输入端为2，可便于执行(PC)+2操作。
09.【解答】
1）指令操作码有7位，因此最多可定义：2^{7} = 1 2 8条指令。
2）各条指令的机器代码如下：
①“inc R1”的机器码为0000001001000000, 即0240H.
②“shl R2, R1”的机器码为00000100 10001000, 即0488H.
③“sub R3,(R1),R2”的机器码为0000011011101010, 即06EAH.
3）各标号处的控制信号或控制信号取值如下：
①0; ②mov; ③mova; ④left; ⑤read; ⑥sub; ⑦mov; ⑧SRout.
4）指令“subR1,R3,(R2)”的执行阶段至少包含4个时钟周期；指令“inc R1”的执行阶段至少包含2个时钟周期。
10.【解析】
1）符号标志SF表示运算结果的正负性，因此S F = F_{1 5}。
对于加法运算A+B→F，若A、B为负，且F为正，则说明发生溢出；或者，若A、B为正，且F为负，也说明发生溢出。因此，加运算时，溢出标志对于减法运算A-B→F，若A为负、B为正，且F为正，则说明发生溢出；或者，若A为正、B为负，且F为负，也说明发生溢出。因此，减运算时，溢出标志O F = \overline{A_{1 5}}\cdot B_{1 5}\cdot F_{1 5} +
228	2027年计算机组成原理考研复习指导
A_{15}\cdot\overline{B_{15}}\cdot\overline{F_{15}}。
2）因为在单总线结构中，每一时刻总线上只有一个数据有效，而ALU有两个输入端和一个输出端。因此，当ALU运算时，需要先用暂存器Y缓存其中一个输入端的数据，再通过总线传送另一个输入端的数据。与此同时，ALU的输出端产生运算结果，但总线正被占用，因此需要暂存器Z，以缓存ALU的输出端数据。
3）由图可知，rs和rd都是4bit，因此GPRs中最多有2^{4}=16个通用寄存器；rs和rd来自指令寄存器（IR）；rd表示寄存器编号，应连接地址译码器。
4）取指阶段需要根据程序计数器（PC）取出主存中的指令，并将指令写入指令寄存器（IR）中。控制信号序列如下：
①	PCout,MARin	//将指令的地址写入MAR
②	Read	//读主存，并将读出的数据写入MDR
③	MDRout,IRin	//将MDR的内容写入指令寄存器（IR）
步骤①需要1个时钟周期，步骤②需要5个时钟周期，步骤③需要1个时钟周期，因此取指令阶段至少需要7个时钟周期。
5）图中控制信号由控制部件（CU）产生。指令寄存器（IR）和标志寄存器（FR）的输出信号会连到控制部件的输入端。
5.4	控制器的功能和工作原理
5.4.1	控制器的结构和功能
在计算机硬件系统中（见图5.12），主要由执行部件、主存储器、输入/输出设备及控制器组成。各组件通过数据总线、地址总线和控制总线相互连接，其中虚线框内为控制器。
各部件的主要连接关系如下：
1）执行部件经由数据总线与主存及I/O设备交换数据。
2）输入/输出设备通过接口电路接入系统总线。
3）主存及I/O设备根据地址总线上的地址信号判断是否被选中，并依据控制总线上的读/写等控制信号，通过数据总线完成数据传输。
4）控制器通过地址总线发送指令地址（PC的值）访问主存，并将获取的指令通过数据总线送入指令寄存器（IR），由控制器解析并控制执行。
第5章	中央处理器	229
控制器是计算机的指挥中心，其主要职责包括：
1)取出待执行的指令并计算下一条指令的位置(更新PC)。
2)对指令的操作码进行解码，产生对应的时序信号和控制信号，以协调各部件工作。
3)管理CPU、主存和I/O设备间的数据流向及时序，确保指令正确执行。
依据微操作控制信号的生成方式不同，控制器可分为硬布线控制器和微程序控制器。尽管两者都包含PC和IR，但在指令执行步骤的表现形式以及控制信号的生成机制上有着本质区别。
5.4.2 硬布线控制器
硬布线控制器由复杂的组合逻辑电路和触发器构成，也称组合逻辑控制器。它根据指令需求、当前时序和内部状态，按时间顺序生成一系列微操作控制信号，以完成指令的执行。指令的操作码是决定控制单元(CU)行为的关键：CU作为处理器的“指挥中心”，依据操作码生成相应的控制信号，协调寄存器、ALU、存储器等硬件组件的工作。
为简化CU的设计，通常将指令寄存器(IR)中的n位操作码通过译码电路转换为2ⁿ个输出信号。每种操作码经译码后，会唯一地激活一条输出信号线，用于触发对应的控制逻辑。若将操作译码器和节拍发生器从CU中分离，则可得到如图5.13所示的简化控制单元结构。
CU的输入主要包括三类信号：
1)操作译码器输出的指令信息，与节拍信号共同用于生成相应的微操作控制信号。
2)时钟脉冲，其频率即机器主频，用于划分节拍，确保控制信号按时发出。
3)执行单元反馈的状态标志，使CU能根据CPU当前状态动态调整控制逻辑。
在图5.13中，节拍发生器在每个时钟周期内产生节拍信号，使不同的微操作控制信号C₁能够按序发出。由于某些指令(如条件转移)的执行不仅取决于操作码，还受状态标志影响，CU必须综合操作码译码结果、节拍信号和状态标志，生成相应的控制信号，并发送至CPU内部数据通路或外部控制总线。
硬布线控制器通过组合逻辑电路实现，其性能主要受限于电路延迟。设计时，先用逻辑表达式描述各控制信号，经化简后实现为硬件电路。该方法虽响应速度快，但灵活性差：修改或新增指令需重新设计电路，复杂且耗时。同时，随着指令系统功能增强，微操作控制信号的数量急剧增加，导致电路规模庞大、调试困难。为克服这些缺点，微程序设计方法应运而生。
5.4.3 微程序控制器
微程序控制器采用存储逻辑实现，其核心思想是：将控制器所需的微操作控制信号组织为微指令，并将执行每条机器指令所需的微指令序列(微程序)预先存入一个专用的高速存储器中。运行时，控制器通过依次读取微指令，生成相应的微操作控制信号，从而完成指令的执行。
1.微程序控制的基本概念
微程序的设计思想是将每条机器指令编写为一段微程序。该微程序由若干条微指令组成，每条
230	2027年计算机组成原理考研复习指导
微指令可产生一个或多个微命令。因此，执行一条机器指令的过程，实质上就是顺序执行其对应微程序的过程。这些微程序预先存放在专用的控制存储器 (Control Memory,CM)中。
微程序设计涉及以下基本术语：
(1) 微命令与微操作
在微程序控制的计算机中，控制部件向执行部件发出的最基本控制信号称为微命令，它是构成控制序列的最小单位。例如，使能某个寄存器的写入信号、打开数据通路中的控制门等。执行部件接收到微命令后所执行的具体动作称为微操作，二者一一对应。
微命令可分为两类：相容性微命令是指可同时有效、协同完成某一功能的微命令；互斥性微命令是指在同一时刻不允许同时有效的微命令。
注	意
硬布线控制器中同样存在微命令与微操作的概念，只是其实现方式不同。
(2) 微指令与微周期
微指令是若干微命令的集合，通常包含两个字段：
① 操作控制字段（又称微操作码字段）：用于生成当前步骤所需的微操作控制信号。
② 顺序控制字段（又称下址字段）：用于确定下一条微指令的地址。
微周期是执行一条微指令所需的基本时间单位，通常为一个时钟周期。
综上，机器指令、微程序、微指令、微命令与微操作之间的层次关系如图5.14所示。
一条机器指令
一个微程序
微指令1
微指令2
微指令n
微命令1
微命令2
微命令m
微操作
微操作
微操作
图5.14 机器指令、微程序、微指令、微命令与微操作之间的层次关系
(3)主存储器与控制存储器
考点追踪	主存储器和控制存储器的区别 (2017)
主存储器用于存放程序和数据，位于CPU外部，通常用RAM实现。控制存储器用于存放微程序，位于CPU内部，通常用ROM实现。控制存储器中每个存储单元的地址称为微地址。
(4) 程序与微程序
微程序和程序是两个不同的概念。程序是指令的有序集合，由软件开发者编写，用于完成特定功能，最终存放在主存或辅存中；微程序是微指令的有序集合，由计算机体系结构设计者编写，用于解释和执行机器指令，固化于控制存储器中。微程序本质上是机器指令的硬件级解释逻辑。对程序员而言，微程序的存在完全透明，无须了解其内部结构。
为准确理解微程序控制器的工作机制，需要区分以下关键寄存器：
① 地址寄存器 (MAR)，存放主存读/写地址。
② 微地址寄存器 (μPC或CMAR)，存放待执行微指令在控制存储器中的微地址。
第5章	中央处理器
③ 指令寄存器（IR），存放从主存读出的当前机器指令。
④ 微指令寄存器（μIR或CMDR），存放从控制存储器读出的当前微指令。
2.微程序控制器的组成和工作过程
(1)微程序控制器的基本组成
图5.15展示了微程序控制器的基本结构，其主要由以下部件构成：
① 微地址形成部件，根据机器指令的操作码生成对应微程序的入口地址，并依据当前微指令的顺序控制字段及状态条件，产生后续微地址，确保微指令有序执行。
② 微指令地址寄存器，接收微地址形成部件提供的微地址，作为CM 的读地址。
③ 控制存储器，微程序控制器的核心部件，用于存放所有机器指令对应的微程序。
④ 微指令寄存器，暂存从 CM 中读出的微指令，并将其操作控制字段和顺序控制字段分别送至执行单元和微地址形成部件。
(2)微程序控制器的工作过程
微程序控制器的工作过程是指计算机在微程序控制下执行机器指令的流程，具体如下：
① 执行取指令公共操作。系统启动或每条指令执行完毕后，将取指微程序的入口地址（通常为CM 的0号单元）送入μPC。随后，从CM 中读取首条取指微指令并送入μIR。完成取指微程序后，从主存中取出的机器指令即被存入指令寄存器（IR）中。
② 生成当前指令的微程序入口地址：根据IR 中机器指令的操作码，通过微地址形成部件产生对应微程序的起始微地址，并送入μPC。
③ 顺序执行微程序：从CM 逐条读取微指令，送入μIR 并执行，直至该微程序执行完毕。
④ 返回循环：当前机器指令对应的微程序执行结束后，控制器自动转移回取指微程序的入口（步骤①），重新开始处理下一条机器指令。
整个流程不断循环，直至整个程序执行完毕。
(3)微程序和机器指令
一般而言，一条机器指令对应一个微程序。由于所有指令的取指操作相同，可将取指操作的微命令统一编写为一个公共的取指微程序，专门负责从主存读取指令并送入IR。此外，还可以为间址、中断处理等公共操作分别编写独立的微程序。因此，控制存储器中存储的微程序总数 = 机器指令条数+公共微程序数（如取指、间址、中断等）。
3.微指令的编码方式
微指令的编码方式也称微指令的控制方式，是指对微指令操作控制字段进行组织和表示的方法，其目标是在保证执行速度的前提下，尽可能缩短微指令字长，从而节省控制存储器空间。
(1)直接编码（直接控制）方式
如图5.16所示，直接编码方式无须译码。微指令的操作控制字段中，每一位直接对应一个微命令。设计微指令时，若需发出某个微命令，只需将对应位设为 1，否则设为 0。每个微命令独立控制数据通路中的一个微操作。
232	2027年计算机组成原理考研复习指导
控制信号
下地址
操作控制
图5.16 直接编码方式
该方式的优点是结构简单、直观，微命令可并行发出，执行速度快；缺点是微指令字长过长，若有n个微命令，则操作控制字段需要n位，导致控制存储器容量急剧膨胀。
(2) 字段直接编码方式
考点追踪	字段直接控制的编码方式(2012)
如图5.17所示，字段直接编码将操作控制字段划分为若干互斥段。互斥性微命令被归入同一字段，相容性微命令则分配到不同字段。每个字段独立编码，经译码后在其所属的互斥微命令集中激活一个微命令。各字段之间相互独立，编码含义互不影响。
控制信号
译码
译码
译码
下地址
操作控制
图5.17 字段直接编码方式
微命令字段分段需遵循以下原则：
① 互斥性微命令应分配在同一字段，而相容性微命令应分布在不同字段。
② 每个字段的位数不宜过多，以避免译码电路过于复杂或引入较大延迟。
③ 每个字段通常还需预留一个编码表示“本字段无操作”。例如，当字段长度为 3 位时，最多只能表示7个互斥的微命令，通常用000表示无操作。
该方式显著缩短了微指令字长，但因需要译码，执行速度略低于直接编码。
(3) 字段间接编码方式
字段间接编码进一步压缩微指令长度。其基本思想是：某个微命令字段的实际含义，由另一个字段的编码共同决定。例如，字段A的编码001本身无固定意义，只有结合字段B的值（如B=0表示ALU操作，B=1表示存储器操作），才能确定001究竟代表加法还是写内存。
这种方法可以进一步缩短微指令字长，减少控制存储器的容量需求。然而，由于译码线路更为复杂，时间开销较大，因此仅适用于特定场合。
现举例说明。假设有两类互斥操作：ALU操作（加、减、与、或，共4种）和存储器操作（读、写、取指、间址，共4种）。在这8个微命令中，ALU操作彼此互斥，存储器操作彼此互斥，但ALU与存储器操作相容（可同时发生，如“加法 +写内存”）。直接编码需8位，每位对应一个微命令；字段直接编码将其分为两个字段，每个字段3位（含无操作状态），共需6位；而字段间接编码仅用一个3位的操作字段，再加一个1位的类型字段指示其类别（例如，操作字段 =001、类型字段 =0表示ALU加法，操作字段 =001、类型字段 =1表示主存读），总共仅需4位。
4.微指令的地址形成方式
为保证微指令流的连续执行，每条微指令必须指明其下一条微指令的地址。该地址通常在当前微指令从控制存储器中取出后立即生成，可通过以下两种基本方式形成：
第5章	中央处理器 233
①	增量方式（计数器方式），下条微地址由微程序计数器(μPC)自动加1生成，适用于微程序中的顺序执行段。
②	断定方式（下址字段方式），在当前微指令中显式指定下条微地址。图5.15所示的微程序控制器即采用断定方式，其微指令包含下址字段，可直接给出下条微地址。
在实际运行中，下条微地址的确定取决于以下三种典型情形：
①	微程序入口地址的形成，一条机器指令从主存取出并送入指令寄存器(IR)后，其操作码经微地址形成部件生成对应微程序的首条微指令地址，并送入μPC.
②	顺序执行，在无转移的微程序段中，通常采用增量方式，由μPC+1自动生成下条微地址；若采用断定方式，则需在每条微指令的下址字段中显式填入顺序地址。
③	条件分支，当需要根据状态标志或外部条件选择不同执行路径时，微地址形成部件结合当前微指令的下址字段指定的转移目标地址与条件信号来确定下条微地址。
5.微指令的格式
微指令格式与其编码方式密切相关，通常分为水平型微指令和垂直型微指令两类。
考点追踪	微指令后继地址字段位数与微指令条数的关系 (2014)
(1)水平型微指令
从编码方式看，直接编码、字段直接编码和字段间接编码都属于水平型微指令。水平型微指令的基本格式如图 5.18 所示，其操作控制字段中，每一位（或每一字段）直接对应一个微命令，置1表示有效，置0表示无效。一条水平型微指令可同时定义并执行多个并行的微操作。
A₁	A₂	An-1	An	判断测试字段	后继地址字段
操作控制	顺序控制
图5.18 水平型微指令的基本格式
其优点是并行能力强、执行效率高、微程序短；缺点是微指令字长长，编写微程序困难。
(2)垂直型微指令
采用类似机器指令的结构，在微指令中设置微操作码字段，通过译码产生控制信号。垂直型微指令的基本格式如图5.19所示。一条垂直型微指令通常显式定义一个基本微操作。
μOP	Rd	Rs
微操作码	目的地址	源地址
图5.19 垂直型微指令的基本格式
其优点是微指令短、格式规整，编写微程序简单；缺点是微程序长，执行速度慢，效率低。
水平型微指令与垂直型微指令的比较：
①	水平型微指令并行能力强、灵活性强、效率高；垂直型在这些方面则表现较差。
②	单条水平型微指令完成更多工作；垂直型需要多条微指令完成同等任务，耗时更长。
③	水平型微指令字长长但编写的微程序短；垂直型则微指令字长短而微程序长。
④	水平型微指令编写微程序的难度大；而垂直型类似于机器指令，更易于理解和编写。
6.硬布线控制器和微程序控制器的特点
考点追踪硬布线控制器和微程序控制器的特点 (2009)
(1)硬布线控制器的特点
硬布线控制器的优点在于其运行速度主要取决于电路延迟，因此执行速度快。然而，由于控
234 2027年计算机组成原理考研复习指导
制部件被实现为专门生成固定时序控制信号的组合逻辑电路，设计时以使用最少硬件资源并实现最高速度为目标。一旦设计完成，通常难以通过软件手段扩展或修改功能。
(2)微程序控制器的特点
与硬布线控制器相比，微程序控制器具有结构规整、灵活性强和易于维护的优势。其设计基于存储程序原理，便于对微程序进行修改与扩展。不过，由于每条微指令均需从控制存储器中读取，导致指令执行所需的微周期数增加，从而影响整体运行速度。
为便于比较，下面以表格的形式对比二者的不同，见表5.2.
表5.2微程序控制器与硬布线控制器的对比
对比项	类	别
微程序控制器	硬布线控制器
工作原理	微操作控制信号以微程序的形式存放在控制存储器中，执行指令时读出即可	微操作控制信号由组合逻辑电路根据当前的指令码、状态和时序即时产生
执行速度	慢	快
规整性	较规整	烦琐、不规整
应用场合	CISC CPU	RISC CPU
易扩充性	易扩充修改	扩充修改困难
5.4.4 本节习题精选
一、单项选择题
01. 取指令操作（	）。
A.受到上一条指令的操作码控制
B.受到当前指令的操作码控制
C.受到下一条指令的操作码控制
D.是控制器固有的功能，不需要在操作码控制下进行
02.在组合逻辑控制器中，微操作控制信号的形成主要与（	）信号有关。
A.指令操作码和地址码	B.指令译码信号和时钟
C.操作码和条件码	D.状态信息和条件
03.在微程序控制器中，形成微程序入口地址的是（	）。
A.机器指令的地址码字段	B.微指令的微地址码字段
C.机器指令的操作码字段	D.微指令的微操作码字段
04.下列不属于微指令结构设计所追求目标的是（	）。
A.提高微程序的执行速度	B.提高微程序设计的灵活性
C.缩短微指令的长度	D.增大控制存储器的容量
05.微程序控制器的执行速度比硬布线控制器慢，主要是因为（	）。
A.增加了从磁盘存储器读取微指令的时间
B.增加了从主存读取微指令的时间
C.增加了从指令寄存器读取微指令的时间
D.增加了从控制存储器读取微指令的时间
06.下列关于微指令的说法中，错误的是（	）。
I.字段直接编码方式可用较少的二进制位数表示较多的微操作命令。若有两组互斥的微命令，每组微命令的个数分别为4和9，则分别只需要2位和4位即可
第5章	中央处理器	235
Ⅱ. 直接编码方式不用进行译码操作，微指令字段中的每一位都代表一个微命令
Ⅲ. 垂直型微指令用较长的微程序结构换取较短的微指令结构，所以在执行效率和灵活性两方面都高于水平型微指令
Ⅳ. 在字段间接编码方式中，某个字段的译码输出需要依靠另外某个字段的输出
A. Ⅱ	B. Ⅰ、Ⅱ	C. Ⅰ、Ⅲ	D. Ⅱ、Ⅲ、Ⅳ
07. 微程序控制存储器属于（	）的一部分。
A. 主存	B. 外存	C. CPU	D. 缓存
08. 下列说法中，正确的是（	）。
A. 采用微程序控制器是为了提高速度
B. 控制存储器由高速RAM电路组成
C. 微指令计数器决定指令执行顺序
D. 一条微指令存放在控制器的一个控制存储器单元中
09. 假设计算机A要求应用在实时性要求较高的场合，计算机B要求有较好的灵活性和可修改性，则两台计算机的控制器应采用的设计方式分别是（	）。
A. 计算机A和B都应采用硬布线控制器
B. 计算机A和B都应采用微程序控制器
C. 计算机A应采用硬布线控制器，计算机B应采用微程序控制器
D. 计算机A应采用微程序控制器，计算机B应采用硬布线控制器
10. 在微程序控制器中，控制部件向执行部件发出的某个控制信号称为（	）。
A. 微程序	B. 微指令	C. 微操作	D. 微命令
11. 在微程序控制器中，机器指令与微指令的关系是（	）。
A. 每条机器指令由一条微指令来执行
B. 每条机器指令由若干微指令组成的微程序来执行
C. 若干机器指令组成的程序可由一个微程序来执行
D. 每条机器指令由若干微程序来执行
12. 水平型微指令与垂直型微指令相比，（	）。
A. 前者一次只能完成一个基本操作
B. 后者一次只能完成一个基本操作
C. 两者都是一次只能完成一个基本操作
D. 两者都能一次完成多个基本操作
13. 垂直型微指令的特点是（	）。
A. 控制信号经过编码产生	B. 强调并行控制功能
C. 采用微操作码	D. 微指令格式垂直表示
14. 下列关于微命令的描述中，正确的是（	）。
A. 同一个时钟周期中，可以同时出现的微命令叫相容性微命令
B. 同一个时钟周期中，可以同时出现的微命令叫互斥性微命令
C. 在执行过程中可能引起总线冲突的微命令叫互斥性微命令
D. 同一个时钟周期中，不允许同时出现的微命令叫相容性微命令
15. 在微程序控制方式中，以下说法正确的是（	）。
Ⅰ. 采用微程序控制器的处理器称为微处理器
Ⅱ. 每条机器指令由一段微程序来执行
236	2027年计算机组成原理考研复习指导
Ⅲ.在微指令的编码中，效率最低的是直接编码方式
Ⅳ.水平型微指令能充分利用数据通路的并行结构
A. I、II	B. II、IV	C. I、III	D. III、IV
16.下列说法中，正确的是（	）。
I.微程序控制方式和硬布线控制方式相比较，前者可以使指令的执行速度更快
Ⅱ.若采用微程序控制方式，则可用μPC取代PC
Ⅲ.控制存储器可以用ROM元件实现
Ⅳ.指令周期也称CPU时钟周期
A. I、III	B. II、III	C.只有III	D. I、III、IV
17.通常一条指令对应一个微程序，一个微程序的周期对应一个（	）。
A.指令周期	B.主频周期	C.时钟周期	D.工作周期
18.下列部件中属于控制部件的是（	）。
I.指令寄存器Ⅱ.操作控制器Ⅲ.程序计数器Ⅳ.状态条件寄存器
A. I、III、IV	B. I、II、III	C. I、II、IV	D. I、II、III、IV
19.为了确定下一条微指令的地址，通常采用断定方式，其基本思想是（	）。
A.用程序计数器(PC)来产生后继微指令地址
B.用微程序计数器(μPC)来产生后继微指令地址
C.通过后继微指令地址字段由设计者指定或转移控制字段控制产生后继微指令地址
D.通过指令中指定一个专门字段来控制产生后继微指令地址
20.下图是某微程序控制器的基本结构，μPC是一个8位寄存器，μIR是一个32位寄存器，一条机器指令平均由4条不同的微指令组成（不含取指部分），则下列描述中错误的是（	）。
微命令
译码
来自主存
μIR
转移控制
IR
控制存储器
起始和转移
条件码
CS
地址发生器
CLK
μPC
“+1”
A.微指令的地址形成方式是增量法	B.条件码来自标志寄存器
C.最多有64条不同的机器指令	D.控制存储器的容量为1KB
21.【2009统考真题】相对于微程序控制器，硬布线控制器的特点是（	）。
A.指令执行速度慢，指令功能的修改和扩展容易
B.指令执行速度慢，指令功能的修改和扩展难
C.指令执行速度快，指令功能的修改和扩展容易
D.指令执行速度快，指令功能的修改和扩展难
22.【2012统考真题】某计算机的控制器采用微程序控制方式，微指令中的操作控制字段采用字段直接编码法，共有33个微命令，构成5个互斥类，分别包含7、3、12、5和6个微命令，则操作控制字段至少有（	）。
A.5位	B.6位	C.15位	D.33位
第5章中央处理器
237
23.【2014统考真题】某计算机采用微程序控制器，共有32条指令，公共的取指令微程序包含2条微指令，各指令对应的微程序平均由4条微指令组成，采用断定法（后继地址字段法）确定下条微指令地址，则微指令中后继地址字段的位数至少是（	）。
A. 5 B. 6 C. 8 D. 9
24.【2017统考真题】下列关于主存储器(MM)和控制存储器(CS)的叙述，错误的是（	）。
A. MM在CPU外, CS在CPU内
B. MM按地址访问，CS按内容访问
C. MM存储指令和数据，CS存储微指令
D. MM用RAM和ROM实现，CS用ROM实现
25.【2019统考真题】某指令的功能为R[r2]←R[r1]+M[R[r0]]，其两个源操作数分别采用寄存器、寄存器间接寻址方式。对于下列给定部件，该指令在取数及执行过程中需要用到的是（	）。
I.通用寄存器组(GPRs) II.算术逻辑单元(ALU)
III.存储器(Memory) IV.指令译码器(ID)
A.仅I、II B.仅I、II、III C.仅II、III、IV D.仅I、III、IV
26.【2021统考真题】下列寄存器中，汇编语言程序员可见的是（	）。
I.指令寄存器 II.微指令寄存器
III.基址寄存器 IV.标志/状态寄存器
A.仅I、II B.仅I、IV C.仅II、IV D.仅III、IV
27.【2021统考真题】通常情况下，将汇编语言程序中实现特定功能的指令序列定义成一条伪指令(pseudoinstruction)。在下列选项中，CPU能理解并直接执行的是（	）。
I.伪指令 II.微指令 III.机器指令 IV.汇编指令
A.仅I、IV B.仅II、III C.仅III、IV D.仅I、III、IV
二、综合应用题
01.若某机主频为200MHz，每个指令周期平均为2.5个CPU周期，每个CPU周期平均包括2个主频周期，问：
1)该机平均指令执行速度为多少MIPS?
2)若主频不变，但每条指令平均包括5个CPU周期，每个CPU周期又包含4个主频周期，平均指令执行速度又为多少MIPS?
3)由此可得出什么结论?
02.某机有80条指令，平均每条指令由4条微指令组成（包含取指微指令），其中有一条取指微指令是所有指令公用的。已知微指令长度为32位，请估算控制存储器CM容量。
03.某微程序控制器中，采用水平型直接控制（编码）方式的微指令格式，后续微指令地址由微指令的后继地址字段给出。已知机器共有28个微命令，6个互斥的可判定的外部条件，控制存储器的容量为512×40位。试设计其微指令的格式，并说明理由。
04.某机共有52个微操作控制信号，构成5个相斥类的微命令组，各组分别包含5、8、2、15、22个微命令。已知可判定的外部条件有两个，微指令字长28位。
1)按水平型微指令格式设计微指令，要求微指令的后继地址字段直接给出后继微指令地址。
2)指出控制存储器的容量。
238	2027年计算机组成原理考研复习指导
05.设CPU中各部件及其相互连接关系如下图所示，其中W是写控制标志；R是读控制标志；R1、R2是暂存器。
W
R
存储器
MAR
IR
CPU
ACC
R1
ALU
R2
1)写出指令ADD#a(#为立即寻址特征，隐含的操作数在ACC寄存器中)在执行阶段所完成的微操作命令及节拍安排。
2)假设要求在取指周期实现(PC)+1→PC,且由ALU完成此操作(ALU能对它的一个源操作数完成加1运算)。以最少的节拍写出取指周期全部微操作命令及节拍安排。
5.4.5答案与解析
一、单项选择题
01.D
取指令阶段完成的任务是将现行指令从主存中取出并送至指令寄存器，这个操作是公共的操作，是每条指令都要进行的，与具体的指令无关，所以不需要操作码的控制。
02.B
CU的输入信号来源如下：①经指令译码器译码产生的指令信息；②时序系统产生的节拍信号；③来自执行单元的反馈信息即标志。前两者是主要因素。
03.C
执行公用的取指微程序从主存中取出机器指令后，由机器指令的操作码字段指出各个微程序的入口地址(初始微地址)。
04.D
微指令的设计目标和指令结构的设计目标类似，都是基于执行速度、灵活性和指令长度这三个主要方面考虑的。而控制存储器容量的大小与微指令的设计目标无关。
05.D
在微程序控制中，控制存储器中存放有微指令，在执行时需要从中读出相应的微指令，从而增加了时间消耗。
06.C
字段直接编码方式为了缩短微指令字长而牺牲了速度，当微命令个数为4时需要3位，2位会导致每个编码都输出一个微命令，而不能表示不输出，说法Ⅰ错误。说法Ⅱ正确。垂直型微指令的缺点是微程序长、执行速度慢、工作效率低，说法Ⅲ错误。在字段间接编码方式中，一个字段的某些微命令要由另一个字段的某些微命令来解释，即依赖另一个字段的译码输出，说法Ⅳ正确。
07.C
微程序控制存储器用来存放微程序，是微程序控制器的核心部件，属于CPU的一部分，而不属于主存。
08.D
硬布线控制器采用硬件电路，速度较快，但设计难度大、成本高。微程序控制器的速度较慢，
第5章	中央处理器
但灵活性高。通常控制存储器采用ROM 元件实现。微指令计数器决定了微指令执行的顺序。
09. C
实时性要求较高的场合通常需要能快速地响应和执行，硬布线控制器由硬件直接实现控制逻辑，速度较快，非常适用于实时性要求较高的场合。灵活性和可修改性要求高时，适合采用微程序控制器，因为微程序控制器可很方便地通过修改微程序来灵活调整控制逻辑。
10. D
在微程序控制器中，控制部件向执行部件发出的控制信号称为微命令，微命令执行的操作称为微操作。微指令则是若干微命令的集合，若干微指令的有序集合称为微程序。
11. B
在一个 CPU 周期中，一组实现一定功能的微命令的组合构成一条微指令，有序的微指令序列构成一段微程序，微程序的作用是实现一条对应的机器指令。
12. B
一条水平型微指令能定义并执行几种并行的基本操作；一条垂直型微指令只能定义并执行一种基本操作。
13. C
垂直型微指令是一种微指令格式，相比于水平型微指令而言的，并不是指令格式垂直表示，在微指令中设置了微操作码字段，结构类似于机器指令格式。控制信号经过编码产生是一种控制字段的编码方式，属于水平型微指令，强调并行控制功能是一种控制字段的设计目标，适合水平型微指令而不适合垂直型微指令。
14. A
在同一个CPU 周期中，可以同时出现的微命令叫相容性微命令，不允许同时出现的微命令叫互斥性微命令。不允许同时出现的原因有可能是会引起总线冲突，也有可能是其他原因。
15. B
微处理器是相对于一些大型处理器而言的，与微程序控制器没有必然联系。不管是采用微程序控制器，还是采用硬布线控制器，微机的CPU 都是微处理器，说法I错误。微程序的设计思想就是将每条机器指令编写成一个微程序，每个微程序包含若干微指令，每条微指令对应一个或几个微操作命令，说法Ⅱ正确。直接编码方式中每位代表一个微命令，不需要译码，因此执行效率最高，只是这种方式会使得微指令的位数大大增加，说法Ⅲ错误。一条水平型微指令能定义并执行几种并行的基本操作，因此能够更充分利用数据通路的并行结构，说法Ⅳ正确。
16. C
微程序控制方式采用编程方式来执行指令，而硬布线控制方式则采用硬件方式来执行指令，因此硬布线控制方式速度较快，说法I错误。μPC无法取代PC，因为它只在微程序中指向下一条微指令地址的寄存器。因此它也必然不可能知道这段微程序执行完毕后下一条是什么指令，说法Ⅱ错误。每条微指令执行时所发出的控制信号是事先设计好的，不需要改变，因此存放所有控制信号的存储器应为ROM，说法Ⅲ正确。指令周期是从一条指令启动到下一条指令启动的间隔时间，而时钟周期是计算机内部最基本、最小的时间单位，说法Ⅳ错误。
17. A
一条指令对应一个微程序，所以一个微程序的周期对应一个指令周期。
18. B
CPU 控制器主要由三个部件组成：指令寄存器、程序计数器和操作控制器。状态条件寄存器通常属于运算器的部件，保存由算术指令和逻辑指令运行或测试的结果建立的各种条件码内容，
240	2027年计算机组成原理考研复习指导
如运算结果进位标志(CF)、运算结果溢出标志(OF)等。
19. C
断定法是指在微指令(后继地址字段)中直接明确指出下一条微指令的地址，这样相当于每条都是转移微指令，此外，还有一些其他方法如条件测试和转移控制字段，也用于控制微指令的寻址。因此，后继微指令地址可由微程序设计者指定，或者根据微指令所规定的转移控制字段控制产生。
20. C
图中μPC根据时钟信号进行自增“+1”操作，因此微指令的地址形成方式是增量(计数器)法。转移微指令根据标志寄存器中的标志位来决定下一条微指令的地址。μPC的位数是8位，能够指向256条微指令，其中包括若干取指微指令，因此机器指令的条数小于256/4=64，选项C错误。控制存储器的容量为微指令所占用的存储空间，即256×32b=1KB。
21. D
微程序控制器采用了“存储程序”的原理，每条机器指令对应一个微程序，因此修改和扩充容易，灵活性好，但每条指令的执行都要访问控制存储器，所以速度慢。硬布线控制器采用专门的逻辑电路实现，其速度主要取决于逻辑电路的延迟，因此速度快，但修改和扩展困难，灵活性差。
22. C
字段直接编码法将微命令字段分成若干小字段，互斥性微命令组合在同一字段中，相容性微命令分在不同字段中，每个字段还要留出一个状态，表示本字段不发出任何微命令。5个互斥类，分别包含7、3、12、5和6个微命令，需要3、2、4、3和3位，共15位。
23. C
计算机共有32条指令，各个指令对应的微程序平均为4条，则指令对应的微指令为32×4=128条，而公共微指令还有2条，整个系统中微指令的条数共为128+2=130条，所以需要[log2130]=8位才能寻址到130条微指令。
24. B
主存储器(MM)在CPU外，用于存储指令和数据，由RAM和ROM实现(主要是RAM)。控制存储器(CS)用来存放构成指令系统的所有微指令，是一种只读型存储器，机器运行时只读不写，在CPU的控制器内。控制存储器按照微指令的地址访问。
25. B
该指令的两个源操作数分别采用寄存器、寄存器间接寻址方式，因此在取数阶段需要用到通用寄存器组(GPRs)和存储器(Memory)；在执行阶段，两个源操作数相加需要用到算术逻辑单元(ALU)。而指令译码器(ID)用于对操作码字段进行译码，向控制器提供特定的操作信号，在取数及执行阶段用不到。
26. D
汇编语言程序员可见的寄存器有基址寄存器(用于实现多道程序设计或者编制浮动程序)和状态/标志寄存器、程序计数器(PC)及通用寄存器组；而MAR、MDR、IR是CPU的内部工作寄存器，对汇编语言程序员不可见。微指令寄存器属于微程序控制器的组成部分，它是硬件设计者的任务，对汇编语言程序员是透明的(不可见的)。
27. B
高级语言程序、汇编语言程序都需要通过翻译程序来处理，生成机器语言程序后才能被CPU执行。机器指令能被CPU理解并直接执行。微指令是CPU控制单元用于实现机器指令的更低层次的指令。在微程序控制的CPU中，一条机器指令对应一个微程序，微程序是微指令的有序序列，
第5章中央处理器	241
用来控制CPU实现机器指令的过程，因此微指令也能被CPU理解并直接执行。
二、综合应用题
01.【解答】
1)主频为200MHz,所以主频周期=1/200MHz=0.005μs。
每个指令周期平均为2.5个CPU周期，每个CPU周期平均包括2个主频周期，所以一条指令的执行时间=2×2.5×0.005μs=0.025μs。
该机平均指令执行速度=1/0.025=40MIPS。
2)每条指令平均包括5个CPU周期，每个CPU周期又包含4个主频周期，所以一条指令的执行时间=4×5×0.005μs=0.1μs。
该机平均指令执行速度=1/0.1=10MIPS
3)由此可见，指令的复杂程度会影响平均指令执行速度。
02.【解答】
总的微指令条数=(4-1)×80+1=241条，每条微指令占一个控制存储器单元，控制存储器CM的容量为2的n次幂，而241刚好小于256,所以CM的容量=256×32位=1KB。
03.【解答】
水平型微指令由操作控制字段、判别测试字段和后继地址字段三部分构成。因为微指令采用直接控制(编码)方式，所以其操作控制字段的位数等于微命令数，为28位。又因为后继微指令地址由后继地址字段给出，所以其后继地址字段的位数可根据控制存储器的容量(512×40位)确定为9位(512=2⁹)。当微程序出现分支时，后续微指令地址的形成取决于状态条件——6个互斥的可判定外部条件，因此状态位应编码成3位。非分支时的后续微指令地址由微指令的后继地址字段直接给出。微指令的格式如下图所示。
操作控制字段	判别测试字段	后继地址字段
28位	3位	9位
04.【解答】
1)根据5个互斥类的微命令组，各组分别包含5、8、2、15、22个微命令，考虑到每组必须增加一种不发送命令的情况，条件测试字段应包含一种不转移的情况，则5个控制字段分别需给出6、9、3、16、23种状态，对应3、4、2、4、5位(共18位)，条件测试字段取2位。根据微指令字长为28位，后继地址字段取28-18-2=8位，则其微指令格式如下图所示。
5个	8个	2个	15个	22个	2个
微命令	微命令	微命令	微命令	微命令	判断条件	后继地址
条件测试	后继地址
3位	4位	2位	4位	5位	2位	8位
2)根据后继地址字段为8位，微指令字长为28位，得出控制存储器的容量为2⁸×28位。
05.【解答】
1)含有ACC的立即寻址，一个操作数隐藏在ACC中，立即寻址的加法指令执行周期的微操作命令及节拍安排如下：
T₀ Ad(IR)→R1	立即数→R1
T₁ (R1)+ (ACC)→R2	ACC通过总线送ALU
T₂ (R2)→ACC	结果→ACC
242	2027年计算机组成原理考研复习指导
2)因为(PC)+1→PC需要由ALU完成，所以PC的值可作为ALU的一个源操作数，在ALU做加1运算得到(PC)+1后，结果送至与ALU输出端相连的R2，然后送至PC。
此题的关键是要考虑总线冲突的问题，因此，取指周期的微操作命令及节拍安排如下：
T₀ (PC)→MAR,1→R PC通过总线送MAR
T₁ M(MAR)→MDR,(PC)+1→R2 PC通过总线送ALU完成加1
T₂ (MDR)→IR,OP(IR)→微操作命令形成部件 MDR通过总线送IR
T₃ (R2)→PC R2通过总线送PC
5.5异常和中断机制
现代计算机配备了完善的异常和中断处理系统。CPU内部设有异常检测和响应逻辑，外部设备接口则包含中断请求和控制逻辑，操作系统中集成了相应的异常/中断服务程序。这些硬件电路与软件程序紧密结合，共同完成异常和中断的处理过程。
5.5.1异常和中断的基本概念
考点追踪异常事件的性质(2015)
异常(也称内中断)是指CPU在执行指令过程中，由其内部检测到的同步事件，例如除零错误、非法操作码、页缺失等。这类事件由当前指令直接引发，具有确定性和可重现性。
中断(也称外中断)则是由外部设备(如I/O控制器)发起的异步事件，用于通知CPU外设状态发生变化(如数据就绪或传输完成)。中断的发生与当前指令无关，具有随机性。
考点追踪异常响应的时机(2023)
两者的处理流程大致如下：当CPU执行用户程序的第i条指令时，若该指令触发异常，CPU通常会在其执行过程中或完成时立即响应；而外部中断则仅在第i条指令完整执行结束后才被检测(指令执行期间不会采样中断信号)。响应发生后，CPU暂停当前程序，保存现场，并转移至相应的服务程序。处理完成后，若事件可恢复，系统将通过执行异常或中断返回指令，恢复上下文并继续原程序；异常通常需重新执行第i条指令(例如缺页异常需在页面调入后重试访存操作)，而中断则从第i+1条指令开始继续执行；若异常属于不可恢复的致命错误(如非法指令)，操作系统将终止该用户进程。
异常和中断的处理流程大致相同，这也是为什么有些教材将它们统称为中断的原因。
5.5.2异常和中断的分类
1.异常的分类
异常是由CPU内部产生的意外事件，可分为硬故障中断和程序性异常。硬故障中断是由硬件逻辑功能出现异常引起的，如存储器校验错、总线错误等。程序性异常也称软件中断，是指在CPU内部因执行指令而引起的异常事件。如除零、溢出、断点、单步跟踪、非法指令、栈溢出、地址越界、缺页等。按异常发生原因和返回方式的不同，可分为故障、自陷和终止。
(1)故障(Fault)
考点追踪异常或中断处理后指令重新执行的断点(2021)
故障是指在指令启动之后、执行完成之前被检测到的异常事件。CPU在尚未提交该指令结果时即响应故障，并通常尝试在处理后重新执行同一条指令。典型的故障包括：指令译码时遇到非
第5章	中央处理器	243
法操作码、访存时发生缺页、执行除法指令时发现除数为零等。对于可恢复的故障（如缺页），操作系统在处理完毕后（如将页面调入内存），然后返回并重新执行引发故障的指令；而对于不可恢复的故障（如非法指令、除零），则无法继续执行，通常会终止当前进程。
(2) 自陷(Trap)
考点追踪	自陷的原理和性质(2020)
自陷是一种预先安排的、用于主动转入操作系统内核的同步事件，也称陷阱或陷入。与故障不同，陷阱是在指令正常执行完毕之后才被触发的，因此 CPU 能够完整提交该指令的结果。典型应用包括：x86计算机架构中的断点调试与单步跟踪机制、系统调用指令(如 syscall)，以及MIPS 架构中的条件自陷指令(如 teq)。它就像程序中预先布设的一个“陷阱”：通过特殊指令(如断点指令)或特定控制标志(如单步跟踪标志)显式设置。当执行到此类指令时，CPU 会根据其类型自动转移至相应的处理程序。处理完成后，CPU 总是从自陷指令的下一条指令继续执行。故障异常和自陷异常属于程序性异常(软件中断)。
(3) 终止(Abort)
终止是指在指令执行过程中发生严重的硬件故障(如控制器出错、存储器校验错、总线错误等)，导致系统无法继续正常运行，程序因此被迫终止。此时，CPU 会转移至相应的异常服务程序，通常用于记录错误信息或重启系统。与故障和自陷不同，终止异常并非由某条特定指令明确引发，其发生具有不可预测性，往往反映底层硬件或系统状态的严重损坏。
终止异常和外中断属于硬件中断。
2. 中断的分类
考点追踪	对中断和异常事件的判断(2009、2016、2020、2025)
中断是指由外部设备或事件发起的异步请求，典型的中断源包括I/O设备(如键盘输入)、定时器(如周期性时钟中断)等。这些设备通过专用的中断请求信号线向 CPU 发出中断请求。CPU 在每条指令执行结束后检查中断请求线；若检测到有效请求，则进入中断响应周期。
中断可分为可屏蔽中断和不可屏蔽中断。
(1) 可屏蔽中断
此类中断通过可屏蔽中断请求线 INTR 发送。CPU 可通过中断控制器中的中断屏蔽寄存器选择性地屏蔽或允许特定中断源，被屏蔽的中断请求将不会传递至 CPU。
(2) 不可屏蔽中断
此类中断通过专用的不可屏蔽中断请求线 NMI 发送，无法被软件屏蔽，用于处理高优先级事件，如电源掉电、内存校验错等。NMI 确保 CPU 能及时响应这些关键故障。
尽管中断和异常的处理流程相似，但二者存在以下两个重要差异：
1) 触发时机：异常(如缺页、除零等)由当前执行的指令直接引发，具有同步性；而中断由外部事件异步触发，与任何特定指令无关，且不会打断当前指令的执行。
2) 检测机制：异常由 CPU 内部逻辑在指令执行过程中自动检测或由软件显式触发；中断则依赖外部硬件通过中断请求线通知 CPU，再进一步确定中断源及类型。
此外，中断还可按其他维度分类：按服务程序入口地址的获取方式，分为向量中断(硬件直接提供服务程序入口地址)和非向量中断(通过软件轮询确定中断源)；按是否允许嵌套处理，分为单重中断(服务期间禁止新中断)和多重中断(允许高优先级中断嵌套)。
5.5.3异常和中断响应过程
当 CPU 在执行指令过程中检测到异常，或在指令边界处采样到中断请求时，将启动异常或
244	2027年计算机组成原理考研复习指导
中断响应过程。该过程指从事件发生到转移至相应处理程序之间的硬件自动操作序列，主要包括关中断、保存断点和程序状态、以及识别事件类型并转移至处理程序三个阶段。
(1) 关中断
为确保上下文保存的原子性，在响应异常或中断的初始阶段，CPU会自动屏蔽可屏蔽中断（通常通过清零标志寄存器中的IF位）。IF=0表示关中断，IF=1表示开中断。需要注意的是，不可屏蔽中断和部分高优先级异常仍可能在此期间发生，具体行为取决于体系结构设计。
(2) 保存断点和程序状态
为支持处理完成后正确返回原程序，CPU必须保存两类关键上下文信息：①断点（返回地址），对于异常通常为当前指令地址，对于中断则为指令执行完毕后的下一条指令地址；②程序状态字(PSW)，包含条件码、中断允许标志、特权级等运行状态。这些信息通常被压入内核栈，既保障了上下文的安全性，又天然支持中断与异常的嵌套处理。
(3)识别事件类型并转移至处理程序
现代处理器普遍采用硬件向量机制（称为向量中断）来识别和响应异常与中断：每类事件都被分配唯一的类型号；系统初始化时，将对应服务程序的入口地址（称为中断向量）按类型号顺序填入中断向量表；当事件发生时，CPU自动获取类型号，并以此为索引直接访问向量表，获取目标地址并转移至相应处理程序，全程无须软件介入。
相比之下，早期系统常采用软件轮询方式（称为非向量中断）：CPU响应请求后转移至统一入口，操作系统需要依次读取各设备的状态寄存器，通过查询确定中断源。该方式依赖软件判别、效率较低，现代系统已极少使用。
整个响应过程由硬件自动完成，具有高度原子性。响应结束后，CPU开始执行对应服务程序的第一条指令。后续处理逻辑（如缺页页面调入、系统调用分发等）由操作系统内核的软件实现，因此，完整的异常与中断处理是软硬件紧密协同的结果。
5.5.4 本节习题精选
单项选择题
01. 以下关于“自陷”(Trap) 异常的叙述中，错误的是（	）。
A.“自陷”是人为预先设定的一种特定处理事件
B. 可由访管指令或自陷指令的执行进入“自陷”
C. 一定是出现某种异常情况才会发生“自陷”
D.“自陷”发生后CPU将进入操作系统内核程序并执行
02. 指令执行结果出现异常而引起的中断是（	）。
A. I/O中断	B. 机器校验中断	C. 故障	D. 外部中断
03. 访问主存时发生的校验错误属于（	）。
A. 故障	B. 自陷	C. 终止	D. 外中断
04. 下列关于异常和中断响应的叙述中，错误的是（	）。
A. 异常事件检测由CPU在执行每一条指令的过程中进行
B. 中断请求检测由CPU在每条指令执行结束、取下条指令之前进行
C. CPU检测到异常事件后所做的处理和检测到中断请求后所做的处理完全相同
D. CPU在中断响应时会关中断、保存断点和程序状态并转到相应的中断服务程序
05. 下列给出的事件中，无须异常处理程序进行处理的是（	）。
A. 缺页故障	B. Cache缺失	C. 地址越界	D. 除数为0
06. CPU响应中断的时间是（	）。
A. 一条指令执行结束	B. I/O设备提出中断
第5章	中央处理器	245
C.取指周期结束	D.指令周期结束
07.下列选项中，不属于外部中断事件的是（	）。
A.采样定时时间到	B.无效操作码
C.打印机缺纸	D.键盘缓冲满
08.下列关于异常/中断机制与进程上下文切换机制的叙述中，错误的是（	）。
A.进程上下文切换和异常/中断响应两者都会产生异常控制流
B.进程上下文切换后，CPU执行的是另一个进程的代码
C.响应异常/中断请求后，CPU执行的是内核程序的代码
D.进程上下文切换和异常/中断响应处理都通过执行内核程序实现
09.异常或中断处理结束后，返回到被中断原程序继续执行的指令地址称为“断点”，下列关于“断点”的说法中，错误的是（	）。
A.“陷阱”类异常的断点为陷阱指令下一条指令的地址
B.“故障”类异常的断点为当前发生异常的指令的地址
C.外部中断的断点总是当前刚执行完的指令的地址
D.“终止”类异常的断点可以是当前指令或下一条指令的地址
10.【2015统考真题】内部异常（内中断）可分为故障（fault）、陷阱（trap）和终止（abort）三类。下列有关内部异常的叙述中，错误的是（	）。
A.内部异常的产生与当前执行指令相关
B.内部异常的检测由CPU内部逻辑实现
C.内部异常的响应发生在指令执行过程中
D.内部异常处理后返回到发生异常的指令继续执行
11.【2016统考真题】异常是指令执行过程中在处理器内部发生的特殊事件，中断是来自处理器外部的请求事件。下列关于中断或异常情况的叙述中，错误的是（	）。
A.“访存时缺页”属于中断	B.“整数除以0”属于异常
C.“DMA传送结束”属于中断	D.“存储保护错”属于异常
12.【2020统考真题】下列关于“自陷”（Trap，也称陷阱）的叙述中，错误的是（	）。
A.自陷是通过陷阱指令预先设定的一类外部中断事件
B.自陷可用于实现程序调试时的断点设置和单步跟踪
C.自陷发生后CPU将转去执行操作系统内核相应程序
D.自陷处理完成后返回到陷阱指令的下一条指令执行
13.【2021统考真题】异常事件在当前指令执行过程中进行检测，中断请求则在当前指令执行后进行检测。下列事件中，相应处理程序执行后，必须回到当前指令重新执行的是（	）。
A.系统调用	B.页缺失	C.DMA传送结束	D.打印机缺纸
5.5.5答案与解析
单项选择题
01.C
自陷是人为设定的特殊中断机制，不是出现某些异常情况而产生的，选项C错误。
02.C
异常是CPU执行指令过程中发生的与当前指令执行有关的意外事件，而中断请求则是CPU外部的I/O部件或时钟等向CPU发出的与当前指令执行无关的意外事件。指令执行结果出现异常
246 2027年计算机组成原理考研复习指导
与当前指令执行有关，如运算溢出等，属于内中断中的故障。
03. C
若在执行指令的过程中发生严重错误，如控制器出错、存储器校验错等，则程序将无法继续执行，只能终止。严重情况下，甚至要调出中断服务程序来重启系统。
04. C
CPU对于异常和中断的响应处理大体是一致的，都需要保存断点和程序状态字并转到相应的处理程序去执行，但有些细节并不一样。例如，检测到中断请求后，CPU必须通过“中断回答”信号启动中断控制器进行中断查询，以确定当前发出的优先级最高的中断请求，并通过数据线获取相应的中断类型号；而对于异常，CPU无须进行中断回答。
05. B
缺页、地址越界和除数为 0 都是执行某条指令时可能发生的故障，需要调出操作系统内核中相应的异常处理程序来处理，而Cache缺失则由CPU硬件实现，无须调出异常处理程序进行处理。
06. A
中断周期用于响应中断，若有中断，则在指令的执行周期后进入中断周期。
07. B
无效操作码是由CPU在对某条指令译码时发现的，因此是内部异常。采样定时时间到、打印机缺纸、键盘缓冲满都与当前指令的执行无关，是由CPU外部的中断源发出的中断请求。
08. D
在硬件层，CPU中有检测异常和中断事件并将控制转移到操作系统内核执行的机制；在操作系统层，内核能通过进程的上下文切换将一个进程的执行转移到另一个进程的执行，它们都会产生异常控制流。响应异常/中断请求后，CPU执行的是异常/中断服务程序，是操作系统的内核程序。进程上下文切换由操作系统的内核程序实现，而异常/中断的响应则由硬件实现。
补充知识
CPU所执行指令的地址序列称为CPU的控制流。在程序正常执行时，通过顺序执行指令或转移指令得到的控制流称为正常控制流。在正常执行过程中，因遇到异常或中断事件而引起用户程序的正常执行被打断所形成的意外控制流，称为异常控制流。
09. C
外部中断请求信号的检测总是在一条指令执行完之后，取下一条指令之前。因此，若检测到有外部中断请求，则响应中断请求并转到中断服务程序执行后，应返回到原来被中断的程序中已经执行完成的指令的下一条指令执行，而不返回到刚执行完的指令执行。
10. D
内部异常是指来自CPU内部产生的中断，如非法指令、地址非法、校验错、页面失效、运算溢出和除数为零等，以上都是在指令的执行过程中产生的，选项A正确。内部异常的检测是由CPU自身完成的，不必通过外部的某个信号通知CPU，选项B正确。内部异常不能被屏蔽，一旦出现应立即处理，选项C正确。对于非法指令、除数为零等异常，无法通过异常处理程序恢复故障，因此不能回到原断点执行，必须终止进程的执行，选项D错误。
11. A
中断是指来自CPU执行指令以外的事件，如设备发出的I/O结束中断，表示设备输入/输出已完成，希望处理机能向设备发出下一个输入/输出请求，同时让完成输入/输出后的程序继续运行。异常也称内中断，指源自CPU执行指令内部的事件。
第5章	中央处理器	247
12. A
自陷是一种内部异常，选项A错误。在x86计算机中，用于程序调试的“断点设置”功能是通过自陷机制实现的，选项B正确。执行到自陷指令时，无条件或有条件地自动调出操作系统内核程序进行执行，选项C正确。CPU执行陷阱指令后，会自动地根据不同陷阱类型进行相应的处理，然后返回到陷阱指令的下一条指令执行，选项D正确。
13. B
系统调用属于自陷，“断点”为自陷指令的下一条指令地址。DMA传送结束后，DMA控制器需要向CPU发送中断请求，属于外中断，外中断的“断点”为下一条指令地址。打印机缺纸同样属于外中断。页缺失属于内部异常中的故障，“断点”为发生故障的指令地址，执行完缺页异常处理程序之后必须返回发生故障的指令重新执行。
5.6	指令流水线
前面介绍的单周期处理器采用串行方式执行指令，同一时刻仅有一条指令处于执行状态，导致各功能部件的利用率较低。现代计算机普遍采用指令流水线技术，使多条指令在CPU的不同功能部件中并发执行，从而显著提升硬件资源的并行利用率和程序的整体执行效率。
5.6.1	指令流水线的基本概念
提升处理器并行性的主要途径有两类：①时间上的并行，将一个任务分解为多个子阶段，各阶段由专用功能部件依次处理，并允许多个任务在不同阶段同时推进，即流水线技术。②空间上的并行，在一个处理器内配置多个相同的功能部件，使其并行工作，称为超标量处理器。
一条指令的执行过程可划分为若干有序阶段，每个阶段由特定的功能部件完成。若将这些阶段视为流水线的各级（或称流水段），则整个指令执行流程便构成一条指令流水线。
典型的五段流水线将指令执行划分为以下阶段^{\enclose{circle}{1}}：
•取指（IF）：从指令存储器或缓存中读取指令。
•译码/读寄存器（ID）：对指令进行译码，并从寄存器堆中读取操作数。
•执行/计算地址（EX）：执行算术逻辑运算或计算有效地址。
•访存（MEM）：访问主存储器，完成数据的读或写操作。
•写回（WB）：将执行结果写回寄存器堆。
通过重叠执行，可在第k条指令处于译码阶段时，启动第k+1条指令的取指阶段，从而实现多条指令在不同流水段中的并行推进。图5.20展示了五段流水线的理想执行时序。
①不同的教材有不同的划分举例，本书参考了历年统考真题中的划分。
248	2027年计算机组成原理考研复习指导
在理想情况下（无冒险、无停顿），每个时钟周期均有一条新指令进入流水线，同时有一条指令完成执行，此时每条指令的平均时钟周期数（CPI）趋近于1。
考点追踪	流水线对指令集的要求（2011）
为便于高效实现指令流水线，指令集应具备以下特征：
1)指令长度统一：简化取指与译码逻辑，避免因变长指令导致取指周期不确定。
2)指令格式规整：确保源操作数寄存器字段位置固定，支持在译码前预取操作数。
3)采用LOAD/STORE架构：仅允许加载（LOAD）和存储（STORE）指令访问主存，其他指令仅操作寄存器，有利于流水段功能划分与调度。
4)数据与指令按边界对齐存放：确保单次访存即可获取完整操作数，避免跨周期访问，保障流水段的原子性与时序规整性。
5.6.2流水线的基本实现
1.流水线设计的原则
在单周期实现中，尽管并非所有指令都需要完整经历全部5个阶段，但时钟周期必须以执行时间最长的指令路径为基准。因此，单周期CPU的时钟频率受限于数据通路中的最长路径。
考点追踪	流水线时钟周期的设计（2009、2025）
流水线设计遵循以下原则：
1)流水段的数量以最复杂指令所需的功能段数为准；
2)每个流水段的时长以最耗时的操作为准。
例如，某条指令的各阶段延迟如下：①取指200ps;②译码100ps;③执行150ps;④访存200ps;⑤写回100ps,该指令在单周期处理器中的总执行时间为750ps。按流水线设计原则，时钟周期需要取各段的最大延迟，即200ps。因此，每条指令从进入流水线到流出需经历5个周期，总延迟为1000ps，大于单周期实现的750ps。这表明：流水线并不能缩短单条指令的执行延迟。然而，对于包含N条指令的程序，单周期处理器总耗时为N×750ps，而流水线处理器总耗时为(N+4)×200ps。当N较大时，流水线的吞吐率显著更高，整体执行效率大幅提升。
2.流水线的逻辑结构
每个流水段之后都需设置一个流水段寄存器，用于锁存该段的输出结果，确保其能在下一个时钟周期供下一流水段使用，如图5.21所示。所有寄存器和数据存储器均采用统一时钟CLK同步：每来一个时钟脉冲，各段处理完成的数据便锁存至段尾寄存器，作为后续段的输入；同时，当前段接收前一段经寄存器传递过来的数据，从而实现指令在流水线中的逐级推进。
程序	取指	流水段	译码	流水段	执行	流水段	访存	流水段	写回
计数器	IF	寄存器	ID	寄存器	EX	寄存器	MEM	MEM/WB
CLK
图5.21流水线的逻辑结构图
一条指令依次流经IF、ID、EX、MEM、WB五个流水段。当第一条指令进入WB段时，各流水段分别包含一条不同的指令，此时流水线达到满载状态，最多可同时有5条指令处于不同的执行阶段。
第5章	中央处理器 249
考点追踪	存在流水段寄存器时延的时钟周期的设计 (2018)
注	意
流水段寄存器本身也引入一定时延。但在考试中，若无明确说明，则可忽略寄存器时延。
3.流水线的时空图表示
流水线的执行过程常用时空图直观表示，如图5.22所示。
空间S/
I₁
I₂
I₃
14
I₅
I₆
WB
I₁
I₂
I₃
I₄
I₅
I₆
MEM
I₁
I₂
I₃
I₄
I₅
I₆
I₇
EX
I₁
I₂
I₃
I₄
I₅
I₆
I₇
I₈
ID
I₁
I₂
I₃
I₄
I₅
I₆
I₇
I₈
I,
IF
I₁
I₂
I₃
I₄
I₅
I₆
I₇
I₈
I₉
110
0
T
2T
3T
4T
5T
6T
7T
8T
9T
10T
时间T
图5.22 一个5段指令流水线的时空图
考点追踪	流水线执行4条指令所需的时钟周期数 (2012)
图中，横轴表示时间（单位为时钟周期T），纵轴表示流水段（空间）。指令I₁在时刻0进入流水线，于时刻5T完成；指令I₂在时刻 T进入流水线，于时刻6T完成；以此类推，从时刻5T起，每个周期结束时均有一条指令完成。例如，到时刻10T时，已有I₁至I₆共6条指令完成执行。相比之下，若采用单周期实现(每条指令需约3.75个时钟周期，因750ps÷200ps=3.75),在10T内仅能完成约2~3条指令。可见，流水线通过重叠执行，显著提升了指令吞吐率。
值得注意的是，流水线的高效性依赖于连续、无中断的指令流。而程序执行天然具有顺序性和连续性，因此非常适合采用流水线技术。
4.流水线的吞吐率分析
考点追踪	流水线吞吐率的计算 (2013)
流水线的吞吐率 (Throughput,TP)是指单位时间内流水线完成的任务数（或输出结果的数量），是衡量流水线性能的重要指标。其基本定义式为
T P = n / T_{k}
其中，n为任务总数，Tₖ为完成这n个任务所需的总时间。
设流水线共有k段，时钟周期为Δt。在理想条件下（任务连续输入、无阻塞），完成n个任务所需的时间为(k+n-1)Δt, 因此吞吐率可表示为TP=n/[(k+n-1)Δt]。当任务数量n趋于无穷大时，启动阶段（前k-1个周期）的影响可忽略不计，此时吞吐率达到理论最大值l/Δt.
5.6.3 MIPS指令集的流水段分析
每条MIPS指令的前两个功能段相同：
·取指 (IFetch):从指令存储器中取出指令并计算PC +4.
● 寄存器/译码(Reg/Dec)：从寄存器堆中读取操作数并对指令进行译码。
后续功能段则根据具体指令类型有所不同。
1. R型指令的功能段划分
R型指令属于寄存器-寄存器型(RR型)指令，其操作数和结果均位于通用寄存器中。典型的R型指令从寄存器Rs和Rt读取源操作数，在ALU中完成指定运算，并将结果写入目的寄存
250 2027年计算机组成原理考研复习指导
器Rd.如图5.23所示,R型指令在流水线中经过IFetch和Reg/ Dec阶段后，进入：
·执行 (Exec) : 在ALU中完成运算。
●写回(Write) : 将ALU的结果写入寄存器堆中的Rd.
时钟周期
1	2	3	4
Ifetch	Reg/ Dec	Exec	Write
图5.23 R型指令的功能段划分
2.Ⅰ型指令的功能段划分
Ⅰ型指令包含16位立即数，用于立即数运算、内存访问或条件分支，是RISC处理器实现常量操作和地址计算的重要手段。Ⅰ型运算类指令先对16位立即数进行符号扩展（或零扩展），再与Rs的内容在ALU中运算，结果写入寄存器Rt。其功能段划分与R型指令的完全相同。
3. lw指令的功能段划分
lw指令的功能为R[Rt]← M[R[Rs]+SEXT(imm16)], 即从内存中读取一个字并写入寄存器Rt.它将Rs的值与符号扩展(Sign Extension)后的16位立即数相加，形成有效地址，再从该地址读取数据。如图5.24所示,lw指令在流水线中经过IFetch和Reg/Dec阶段后，进入：
·执行 (Exec) : 计算内存地址（R[Rs]+SEXT(imm16)）.
·访存 (Mem)：从数据存储器中读取一个字。
●写回(Write)：将读取的数据写入寄存器堆中的Rt.
时钟周期
1	2	3	4	5
Ifetch	Reg/ Dec	Exec	Mem	Write
图5.24 lw指令的功能段划分
4. sw指令的功能段划分
sw指令的功能为M[R[Rs]+SEXT(imm16)]←R[Rt],即将寄存器Rt中的数据写入内存。如图5.25所示,sw指令在流水线中经过IFetch和Reg/ Dec阶段后，进入：
·执行 (Exec) : 计算内存地址（R[Rs]+SEXT(imm16)）.
·访存 (Mem)：将Rt中的数据写入数据存储器中指定地址。
时钟周期
1	2	3	4
Ifetch	Reg/ Dec	Exec	Mem
图5.25 sw指令的功能段划分
5. beq指令的功能段划分
beq指令的功能为：若R[Rs]=R[Rt],则PC←PC+4+SEXT(imm16)×4.它比较两个寄存器的值，若相等，则转移至目标地址，否则顺序执行。目标地址由当前PC加4后，再加上符号扩展并左移2位的16位立即数得到。beq指令在流水线中经过IFetch和Reg/Dec阶段后，进入：
·执行(Exec):比较Rs与Rt,并计算分支目标地址（PC+4+SEXT(imm16)×4）.
·访存(Mem)：若比较结果为相等，则将目标地址写入PC.
需要注意的是，beq指令的Mem段并非真正的内存访问，而是将写PC操作安排在该段，以便与lw、sw等指令对齐。由于写PC的延迟小于存储器访问，因此可在Mem段完成。
6. j指令的功能段划分
j指令是无条件转移指令，其功能是直接将目标地址送入PC。除两个公共功能段外，j指令
第5章	中央处理器 251
仅需一个功能段用于更新PC，该操作可合并到Exec段完成。具体如下：
• 执行 (Exec):计算目标地址并更新PC.
从上述分析可见，lw指令最复杂，需5个功能段。为统一流水线结构，其他指令通过插入“空”段（不执行实际操作的阶段）对齐至5段。插入空段需遵循两个原则：
·每条指令对任一功能部件至多使用一次（如同一条指令不能多次使用寄存器的写口）。
• 相同功能部件必须在固定阶段使用（如寄存器写回总在第5阶段）。
因此,R型和I型运算指令在Write前插入空Mem段，使其Write段与lw指令对齐;sw和beq指令在Exec后插入空Write段;j指令插入空Mem和Write段。通过上述对齐，所有指令均适配于5个功能段，因此该处理器可采用5段流水线设计。
5.6.4流水线的冒险与处理
考点追踪	导致流水线阻塞的各种原因 (2010、2025)
在指令流水线中，某些情况可能导致后续指令无法正确执行，从而引起流水线阻塞，这种现象称为流水线冒险。根据成因不同，可分为结构冒险、数据冒险和控制冒险三种类型。
不同类型指令在各流水段的操作如表5.3所示。
表5.3不同类型指令在各流水段中的操作
指	令	流	水	段
IF	ID	EX	MEM	WB
ALU	取指	译码读寄存器堆	执行	结果写回寄存器堆
取/存	取指	译码读寄存器堆	计算访存有效地址	访存（读/写）	将读出的数据写入寄存器堆/一
转移	取指	译码读寄存器堆	计算转移目的地址，设置条件码	若条件成立，将转移目的地址送PC
这几类指令将在下面介绍流水线冲突时涉及。
1.结构冒险
考点追踪	解决结构冒险的办法 (2016)
结构冒险（又称资源冲突）是指不同指令在同一时刻争用同一功能部件所引发的冲突，其本质是硬件资源的物理限制。例如，在指令与数据共享同一存储器的系统中，第i条LOAD指令在第4个时钟周期处于MEM段（访问数据存储器），而第i+3条指令在同一周期处于IF段（取指令），两者同时访存，引发冲突。此时可暂停后续指令的取指操作一个周期，如表5.4所示。当然，若第i条指令不是访存指令，则其在MEM段不访问存储器，也就不会发生访存冲突。
表5.4用暂停后续指令的方法解决访存冲突
指	令	时钟周期
1	2	3	4	5	6	7	8	9
LOAD指令	IF	ID	EX	MEM	WB
指令i+1	IF	ID	EX	MEM	WB
指令i+2	IF	ID	EX	MEM	WB
指令i+3	停顿	IF	ID	EX	MEM	WB
指令i+4	IF	ID	EX	MEM
解决结构冒险的主要方法有：
1）遵循功能部件使用原则：确保每个功能部件在每条指令中至多使用一次，且总在固定阶段使用（如寄存器写回操作统一安排在WB段），可避免部分结构冲突。
252 2027年计算机组成原理考研复习指导
2）增加硬件资源：例如，将寄存器堆的读口与写口分离，支持在一个周期的前半拍写、后半拍读；或将指令存储器与数据存储器分离。现代处理器的L1 Cache通常采用指令Cache与数据Cache分离的设计，从根本上消除了取指与数据访存之间的资源竞争。
2.数据冒险
考点追踪	指令流水的数据冒险(2012、2014、2016、2019、2023)
数据冒险又称数据相关，其根本原因是：后面指令用到前面指令的结果时，前面指令的结果还未产生或写回。在按序发射、按序完成的流水线中，所有数据冒险都是因为前一条指令写结果之前，后面指令就需要读取而造成的，称为写后读(Read After Write,RAW) 冲突。
注	意
在非乱序执行①的流水线中（统考常涉及这种方式），只可能出现RAW冲突。
例如，考虑下列两条指令：
I1 add R1,R2,R3	# (R2)+(R3)→R1
I2 sub R4,R1,R5	# (R1)-(R5)→R4
在RAW冲突中，I2的源操作数R1正是I1的目的操作数。在非流水线中，I1先写入R1,I2再读取R1，顺序自然成立。但在流水线中，I2在ID流水段就要读取R1，而I1要到WB段才将结果写回寄存器堆，导致I2读取的是R1 的旧值，如表5.5所示。
表5.5 add和sub指令发生写后读 (RAW) 冲突
指令	时钟周期
1	2	3	4	5	6
add	IF	ID	EX	MEM	WB
sub	IF	ID	EX	MEM	WB
读R1	写R1
可采用以下方法解决RAW冲突。
考点追踪	解决数据冲突的办法 (2024)
(1)延迟执行相关指令
将数据相关的指令及其后续指令都暂停若干时钟周期，直至前一条指令的结果可被安全读取。可分为软件插入空操作(nop)指令和硬件自动插入气泡（阻塞）两种方法。
由表5.5可见，add指令在第5个时钟周期才将结果写回R1，而sub指令在第3个时钟周期就需读取R1，发生RAW冲突。若不采取措施，sub指令将使用错误的旧值。为此，可让sub指令延迟3个时钟周期，使其ID段发生在add指令的WB段之后，如表5.6所示。
表5.6用延迟相关指令的办法来解决RAW冲突
指	令	时钟周期
1	2	3	4	5	6	7	8	9
add	IF	ID	EX	MEM	WB
sub	阻塞	阻塞	阻塞	IF	ID	EX	MEM	WB
此外，若寄存器堆支持在一个时钟周期的前半个时钟周期写入、后半个时钟周期读出，则add__
①	统考只考查过“按序发射，按序完成”的方式，即指令按顺序进入流水线，先流入的指令先流出流水线。
第5章	中央处理器 253
指令在WB段写入的值可在同一个时钟周期被sub指令在ID段读取。此时，add指令的WB段与sub指令的ID段可重叠执行，从而仅需延迟2个时钟周期。
(2)采用转发（旁路）技术
设置相关转发通路，使后续指令无须等待前一条指令将计算结果写回寄存器堆，而是将其在执行阶段生成的中间结果直接转发至ALU的输入端。如表5.7所示，add指令在EX段结束时已计算出R1的新值，并暂存于EX/MEM流水段寄存器中。当sub指令进入EX段时，其所需的R1值可直接从该流水段寄存器转发至ALU，从而确保使用的是最新结果。
表5.7 用转发技术来解决RAW冲突
指	令	时钟周期
1	2	3	4	5	6
add	IF	ID	EX	MEM	WB
sub	IF	ID	EX	MEM	WB
增加转发通路后，相邻的两条运算类指令之间，以及相隔一条无关指令的两个运算类指令之间的数据相关所引发的RAW冲突，均可通过转发有效消除。
(3) load-use数据冒险的处理
若load指令与其后紧邻的运算类指令存在数据相关，则无法通过转发技术解决，这种情况称为load-use数据冒险。考虑以下两条指令：
I1 load r2,12(r1)	# M[(r1)+12]→(r2)
I2 add r4,r3,r2	# (r3)+(r2)→(r4)
load指令在MEM段结束时才从存储器读出数据，并暂存于MEM/WB流水段寄存器；而紧随其后的add指令在其EX段（与load指令的MEM段处于同一周期）就需要R2的值。由于此时load指令尚未完成访存，结果不可用，因此add指令只能读取R2的旧值。
对于load-use数据冒险，最简单的做法是由编译器在add指令前插入一条nop指令。这样，add指令的EX段就能通过转发机制，从MEM/WB流水段寄存器中获取load指令的最新结果，如表5.8所示。当然，最好的办法是在程序编译时进行优化，通过调整指令顺序以避免 load-use相关的发生。
表5.8 用延迟加转发技术来解决load-use冲突
指	令	时钟周期
1	2	3	4	5	6	7
load	IF	ID	EX	MEM	WB
add	阻塞	IF	ID	EX	MEM	WB
3.控制冒险
考点追踪	分析指令之间的控制冒险 (2014、2023)
指令通常按顺序执行，但在遇到转移、返回、中断或异常等事件时，程序计数器(PC)的值会被修改，导致流水线断流，这种现象称为控制冒险（又称控制冲突）。
对于由分支指令引起的冲突，最简单的处理方法是推迟后续指令的执行。通常将因流水线阻塞产生的延迟时钟周期数称为延迟损失时间片C。在下列指令中，假设R2存放常数N,R1 的初值为1.bne指令在EX段完成条件计算，但直到MEM段结束（第5个时钟周期末）才确定是否更新PC，因此从分支指令进入流水线到转移决策完成，共产生3个时钟周期延迟（记位C=3）.
254 2027年计算机组成原理考研复习指导
为避免错误执行后续指令，可在分支指令后插入C条nop指令，如表5.9所示。
I1 loop: add R1,R1,1	#(R1)+1→R1
I2	bne R1,R2, loop	# if(R1)!=(R2) goto loop
表5.9用插入空操作的办法解决控制冲突
指	令	时钟周期
1	2	3	4	5	6	7	8	9	10
add	IF	ID	EX	MEM	WB
bne	IF	ID	EX	MEM	WB
add	IF	ID	EX	MEM	WB
解决控制冒险的主要方法包括：
1）延迟分支处理：对于由分支指令引起的冲突，可由软件在分支指令后插入若干nop指令，或由硬件自动阻塞（插入气泡）。插入nop指令的数量等于分支延迟周期数。
2）分支预测技术：尽早生成转移目标地址并预测转移方向，以减少流水线清空。静态预测采用简单规则，总是预测转移发生或不发生；动态预测根据程序运行时的转移历史动态调整预测策略，准确率更高。若预测错误，则需清空已进入流水线的错误路径指令，并从正确目标地址重新取指；若分支延迟周期数为3，此时将损失3个时钟周期。
注	意
Cache缺失、中断或异常的发生也会引起流水线阻塞。
5.6.5 高级流水线技术
有两种主要策略可用于提升指令级并行度：一是多发射技术，通过配置多个内部功能部件，使流水线在每个时钟周期能同时处理多条指令，处理器一次可发射多条指令进入流水线执行；二是超流水线技术，通过增加流水线级数，使更多指令在流水线中重叠执行。
1.超标量流水线技术（动态多发射）
考点追踪	超标量流水线的特性 (2017)
每个时钟周期可并发发射多条独立指令，为此需配置多个功能部件，如图5.26所示。在简单的超标量处理器中，指令按顺序发射。但为了提升并行性能，多数现代超标量处理器结合动态调度技术（如动态分支预测等），支持乱序执行，即指令的执行顺序可不同于程序顺序。
IF ID EX WB
0
1
2
3
4
5
6
7
8
9
10
11
12
13
t
图5.26 超标量流水线技术
2.超长指令字技术（静态多发射）
由编译器挖掘指令间的并行性，并将多条可并行执行的指令打包成一条超长指令字，其中包含多个操作码字段，分别控制不同的处理部件。由于并行性由软件静态确定，控制相对简单。
第5章中央处理器
3.超流水线技术
超流水线通过进一步细分流水段来缩短时钟周期，从而提高主频和指令吞吐率。然而，流水级数增加会带来更大的流水段寄存器开销和更高的控制复杂度，因此流水线深度并非越多越好。
考点追踪基本流水线与超标量流水线CPU的CPI(2020)
在理想情况下：超流水线CPU在流水线充满后，每个时钟周期完成一条指令，CPI=1，但主频更高；多发射CPU每个时钟周期可完成多条指令，CPI<1，但硬件成本更高、控制更复杂。
5.6.6本节习题精选
一、单项选择题
01.下列关于流水线CPU的叙述中，正确的是（	）。
A.流水线技术通过复制多个功能部件实现空间并行处理
B.只有精简指令集(RISC)处理器才能采用流水线技术
C.流水线CPU必须采用多核结构才能工作
D.流水线是一种通过时间并行性提高指令执行效率的技术
02.流水段CPU是由一系列称为“段”的处理电路组成的。一个m段流水线稳定时的CPU的吞吐能力，与m个并行部件的CPU的吞吐能力相比，（	）。
A.具有同等水平的吞吐能力	B.不具备同等水平的吞吐能力
C.吞吐能力大于前者的吞吐能力	D.吞吐能力小于前者的吞吐能力
03.设指令由取指、分析、执行3个子部件完成，并且每个子部件的时间均为△t，若采用常规标量单流水线处理机（处理机的度为1），连续执行12条指令，共需（	）。
A.12△t	B.14△t	C.16△t	D.18△t
04.设指令由取指、分析、执行3个子部件完成，并且每个子部件的时间均为△t，若采用度为4的超标量流水线处理机，连续执行20条指令，只需（	）。
A.3△t	B.5△t	C.7△t	D.9△t
05.设指令流水线把一条指令分为取指、分析、执行3部分，3部分执行时间不等长，且3部分的时间分别是t取指=2ns，t分析=2ns，t执行=1ns，则100条指令全部执行完毕需（	）。
A.163ns	B.183ns	C.193ns	D.203ns
06.下列关于指令流水线设计的叙述中，错误的是（	）。
A.指令执行过程中的各个子功能都需要包含在某个流水段中
B.所有子功能都必须按一定的顺序经过流水段
C.虽然各个子功能所用实际时间可能不同，但经过每个流水段的时间都一样
D.任何时候各个流水段的功能部件都不可能执行空操作
07.下列关于流水段寄存器的叙述中，正确的是（	）。
A.指令译码得到的控制信号需通过流水段寄存器传递到下一个流水段
B.每个流水段之间的流水段寄存器位数一定相同
C.每个流水段之间的流水段寄存器存放的信息一定相同
D.用户程序可以通过指令指定访问哪个流水段寄存器
08.下列关于流水线数据通路的描述中，错误的是（	）。
A.每个流水段由执行指令子功能的功能部件和流水段寄存器组成
B.控制信号仅作用在功能部件上，时钟信号仅作用在流水段寄存器上
C.在没有阻塞的情况下，PC的值在每个时钟周期都会改变
256	2027年计算机组成原理考研复习指导
D.取指令阶段和指令译码阶段不需要控制信号的控制
09.下列关于结构冒险的叙述中，正确的是（	）。
I.结构冒险是指多条指令在同一时钟周期争用同一个硬件资源
II.规定每条指令只能在指定流水段访问特定功能部件，可减少结构冒险
III.通过重复设置功能部件（如多个ALU）可以避免结构冒险
IV.将数据Cache与指令Cache分离，可解决取指和取数同时访存引起的结构冒险
A.Ⅰ、Ⅱ、Ⅳ	B.Ⅰ、Ⅱ、Ⅲ	C.Ⅰ、Ⅲ、Ⅳ	D.Ⅰ、Ⅱ、Ⅲ和Ⅳ
10.指令流水线中出现数据相关时流水线将受阻，（	）可部分解决数据相关问题。
A.增加硬件资源	B.采用旁路技术
C.采用分支预测技术	D.以上都可以
11.下列关于数据冒险和转发技术的叙述中，正确的是（	）。
I.并非所有数据冒险都能通过转发技术解决
II.五段流水线中load-use数据冒险会引起至少一个时钟周期的阻塞
III.前面的分支指令和后面的ALU运算指令之间肯定不会发生数据冒险
A.Ⅰ、Ⅱ	B.Ⅰ、Ⅲ	C.Ⅱ、Ⅲ	D.Ⅰ、Ⅱ、Ⅲ
12.下列关于数据冒险的叙述中，正确的是（	）。
I.数据冒险是指后面指令用到的数据还未来得及由前面的指令产生
II.在发生数据冒险的指令之间插入空操作指令能避免数据冒险
III.采用转发（旁路）技术可以解决一部分数据冒险现象
IV.通过编译器调整指令顺序可解决部分数据冒险
A.Ⅰ、Ⅱ、Ⅳ	B.Ⅰ、Ⅱ、Ⅲ	C.Ⅰ、Ⅲ、Ⅳ	D.Ⅰ、Ⅱ、Ⅲ和Ⅳ
13.下列指令序列中，指令I1和I3、I2和I3之间发生数据相关。假定采用“取指、译码/取数、执行、访存、写回”五段流水线方式，那么在采用转发技术时，需要在指令I3之前加入（	）条空操作指令才能使这段程序不发生数据冒险。
I1:add r1,r0,1	#(r1)+(r0)+1
I2:load r3,12(r2)	#(r3)←M[(r2)+12]
I3:add r5,r3,r1	#(r5)←(r3)+(r1)
A.3	B.2	C.0	D.1
14.下面关于控制冒险的描述中，错误的是（	）。
I.无条件转移指令不会发生控制冒险
II.在分支指令加入若干空操作指令可以避免控制冒险
III.采用转发（旁路）技术，可以解决部分控制冒险
IV.中断或异常也会引起控制冒险
V.流水段的数量与控制冒险引发的开销无关
A.Ⅰ、Ⅳ、Ⅴ	B.Ⅲ、Ⅴ	C.Ⅰ、Ⅲ、Ⅳ	D.Ⅰ、Ⅲ、Ⅴ
15.下列关于分支预测的叙述中，正确的是（	）。
I.分支预测技术可用于处理控制冒险和数据冒险
II.使用静态预测技术时，每次的预测结果是一样的
III.动态预测技术通常比静态预测技术的预测成功率高
IV.若预测错误，已被错误放入流水线执行的指令必须被舍弃
A.Ⅰ、Ⅱ、Ⅲ	B.Ⅰ、Ⅱ、Ⅳ	C.Ⅱ、Ⅲ、Ⅳ	D.Ⅰ、Ⅱ、Ⅲ、Ⅳ
16.下列关于指令流水线和指令执行效率的叙述中，错误的是（	）。
A.加倍增加流水段个数不能成倍提高指令执行效率
第5章中央处理器
B.为了提高指令吞吐率，流水段个数应无限制地增加
C.增加流水段个数，可以提高处理器的时钟频率
D.随着流水段个数的增加，流水段之间缓存开销的比例增大
17.下列关于超标量流水线的描述中，不正确的是（	）。
A.在一个时钟周期内一条流水线可执行一条以上的指令
B.一条指令分为多段指令由不同电路单元完成
C.超标量通过内置多条流水线来同时执行多个处理器，其实质是以空间换取时间
D.超标量流水线仅仅是指运算操作并行
18.关于流水线技术的说法中，错误的是（	）。
A.超标量技术需要配置多个功能部件和指令译码电路等
B.与超标量技术和超流水线技术相比，超长指令字技术对优化编译器要求更高，而无其他硬件要求
C.在按序流动的流水线中，只可能出现RAW相关
D.超流水线技术相当于将流水线再分段，从而提高每个周期内功能部件的使用次数
19.【2009统考真题】某计算机的指令流水线由4个功能段组成，指令流经各功能段的时间（忽略各功能段之间的缓存时间）分别为90ns、80ns、70ns和60ns，则该计算机的CPU周期至少是（	）。
A.90ns	B.80ns	C.70ns	D.60ns
20.【2010统考真题】下列不会引起指令流水线阻塞的是（	）。
A.数据旁路	B.数据相关	C.条件转移	D.资源冲突
21.【2011统考真题】下列指令系统的特点中，有利于实现指令流水线的是（	）。
I.指令格式规整且长度一致	II.指令和数据按边界对齐存放
III.只有LOAD/STORE指令才能对操作数进行存储访问
A.仅I、II	B.仅II、III	C.仅I、III	D.I、II、III
22.【2013统考真题】某CPU主频为1.03GHz，采用4级指令流水线，每个流水段的执行需要1个时钟周期。假定CPU执行了100条指令，在其执行过程中，没有发生任何流水线阻塞，此时流水线的吞吐率为（	）。
A.0.25×10⁹条指令/秒	B.0.97×10⁹条指令/秒
C.1.0×10⁹条指令/秒	D.1.03×10⁹条指令/秒
23.【2014统考真题】采用指令Cache与数据Cache分离的主要目的是（	）。
A.降低Cache的缺失损失	B.提高Cache的命中率
C.降低CPU平均访存时间	D.减少指令流水线资源冲突
24.【2016统考真题】在无转发机制的五段基本流水线(取指、译码/读寄存器、运算、访存、写回寄存器)中，下列指令序列存在数据冒险的指令对是（	）。
I1: add R1,R2,R3;(R2)+(R3)→R1
I2: add R5,R2,R4;(R2)+(R4)→R5
I3: add R4,R5,R3;(R5)+(R3)→R4
I4: add R5,R2,R6;(R2)+(R6)→R5
A.I1和I2	B.I2和I3	C.I2和I4	D.I3和I4
25.【2017统考真题】下列关于超标量流水线特性的叙述中，正确的是（	）。
I.能缩短流水线功能段的处理时间
II.能在一个时钟周期内同时发射多条指令
III.能结合动态调度技术提高指令执行并行性
258	2027年计算机组成原理考研复习指导
A.仅II	B.仅I、III	C.仅II、III	D.I、II和III
26.【2017统考真题】下列关于指令流水线数据通路的叙述中，错误的是（	）。
A.包含生成控制信号的控制部件
B.包含算术逻辑运算部件(ALU)
C.包含通用寄存器组和取指部件
D.由组合逻辑电路和时序逻辑电路组合而成
27.【2018统考真题】若某计算机最复杂指令的执行需要完成5个子功能，分别由功能部件A~E实现，各功能部件所需时间分别为80ps、50ps、50ps、70ps和50ps，采用流水线方式执行指令，流水段寄存器延时为20ps，则CPU时钟周期至少为（	）。
A.60ps	B.70ps	C.80ps	D.100ps
28.【2019统考真题】在采用“取指、译码/取数、执行、访存、写回”5段流水线的处理器中，执行如下指令序列，其中s0、s1、s2、s3和t2表示寄存器编号。
I1:add s2,s1,s0	//R[s2]←R[s1]+R[s0]
I2:load s3,0(t2)	//R[s3]←M[R[t2]+0]
I3:add s2,s2,s3	//R[s2]←R[s2]+R[s3]
I4:stores2,0(t2)	//M[R[t2]+0]←R[s2]
下列指令对中，不存在数据冒险的是（	）。
A.I1和I3	B.I2和I3	C.I2和I4	D.I3和I4
29.【2020统考真题】下列给出的处理器类型中，理想情况下，CPI为1的是（	）。
I.单周期CPU II.多周期CPU III.基本流水线CPU IV.超标量流水线CPU
A.仅I、II	B.仅I、III	C.仅II、IV	D.仅III、IV
30.【2023统考真题】在采用“取指、译码/取数、执行、访存、写回”5段流水线的RISC处理器中，执行如下指令序列（第一列为指令序号），其中s0、s1、s2、s3和t2表示寄存器编号。
I1	add s2,s1,s0	//R[s2]←R[s1]+R[s0]
I2	load s3,0(s2)	//R[s3]←M[R[s2]+0]
I3	beq t2,s3,L1	//if R[t2]=R[s3] jump to L1
I4	addi t2,t2,20	//R[t2]←R[t2]+20
I5 L1:……
若采用转发（旁路）技术处理数据冒险，采用硬件阻塞方式处理控制冒险，则在指令I1~I4的执行过程中，发生流水线阻塞的指令有（	）。
A.仅I3	B.仅I2、I4	C.仅I3、I4	D.仅I2、I3、I4
31.【2024统考真题】对于采用“取指、译码/取数、执行、访存、写回”5段流水线的RISC数据通路，下列关于指令流水线数据冒险处理的叙述中，错误的是（	）。
A.相邻两条指令中的操作数相关可能引起数据冒险
B.在数据相关的指令间插入“气泡”能避免数据冒险
C.所有数据冒险都可以通过加入转发（旁路）电路解决
D.所有数据冒险都能通过调整指令顺序和插入nop指令解决
32.【2025统考真题】下列关于CPI和CPU时钟周期的叙述中，错误的是（	）。
A.不同类型指令的CPI可能不一样
B.程序的CPI与Cache缺失率无关
C.单周期CPU的时钟周期以最耗时指令所用时间为准
D.流水线CPU的时钟周期以最长流水段所用时间为准
第5章	中央处理器 259
33.【2025统考真题】下列关于CPU中的数据通路和控制器的叙述中，错误的是（	）。
A.通用寄存器组中应该包含程序计数器
B.控制器中一定包含指令操作码的译码电路
C.单周期CPU中的控制器比多周期CPU中的更简单
D.流水线CPU需解决数据相关和控制相关等冒险问题
二、综合应用题
01.【2012统考真题】某16位计算机中，有符号整数用补码表示，数据Cache和指令Cache分离.下表给出了指令系统中的部分指令格式，其中 Rs和Rd表示寄存器，mem表示存储单元地址，(x)表示寄存器x或存储单元x的内容。
表指令系统中部分指令格式
名称	指令的汇编格式	指令功能
加法指令	ADD Rs, Rd	(Rs)+(Rd)→Rd
算术/逻辑左移	SHL Rd	2*(Rd)→Rd
算术右移	SHR Rd	(Rd)/2→Rd
取数指令	Load Rd, mem	(mem)→Rd
存数指令	Store Rs, mem	(Rs)→mem
该计算机采用5段流水方式执行指令，各流水段分别是取指(IF)、译码/读寄存器(ID)、执行/计算有效地址(EX)、访问存储器(M)和结果写回寄存器(WB)，流水线采用“按序发射，按序完成”方式，未采用转发技术处理数据相关，且同一寄存器的读和写操作不能在同一个时钟周期内进行。请回答下列问题：
1）若int型变量x的值为-513,存放在寄存器R1中，则执行“SHR R1”后,R1中的内容是多少（用十六进制表示）？
2）若在某个时间段中，有连续的 4 条指令进入流水线，在其执行过程中未发生任何阻塞，则执行这4条指令所需的时钟周期数为多少？
3）若高级语言程序中某赋值语句为x=a+b,x、a和b均为 int型变量，它们的存储单元地址分别表示为[x]、[a]和[b]。该语句对应的指令序列及其在指令流中的执行过程如下所示。
I1	LOAD	R1, [a]
I2	LOAD	R2, [b]
I3	ADD	R1, R2
I4	STORE	R2, [x]
指	令	时	钟
1	2	3	4	5	6	7	8	9	10	11	12	13	14
I₁	IF	ID	EX	M	WB
I₂	IF	ID	EX	M	WB
I₃	IF	ID	EX	M	WB
I₄	IF	ID	EX	M	WB
则这4条指令执行过程中I3的ID段和I4的IF段被阻塞的原因各是什么？
4）若高级语言程序中某赋值语句为x = x^{ * }2 + a ,x和a均为unsigned int类型的变量，它们的存储单元地址分别表示为[x]、[a]，则执行这条语句至少需要多少个时钟周期？要求模仿上图画出这条语句对应的指令序列及其在流水线中的执行过程示意图。
260 2027年计算机组成原理考研复习指导
02.【2014统考真题】某程序中有循环代码段P:	"for(inti=0;i<N;i++) sum+=A[i];".假设编译时变量sum和i分别分配在寄存器Rl和R2中。常量N在寄存器R6中，数组A的首地址在寄存器R3中。程序段P的起始地址为08048100H，对应的汇编代码和机器代码如下表所示。
编	号	地址	机器代码	汇编代码	注	释
1	08048100H	00022080H	loop:sl l R4,R2,2	(R2)<<2→R4
2	08048104H	00083020H	add R4,R4,R3	(R4)+(R3)→R4
3	08048108H	8C850000H	load R5,0(R4)	（(R4)+0）→R5
4	0804810CH	00250820H	add R1,R1,R5	(R1)+(R5)→R1
5	08048110H	20420001H	add R2,R2,1	(R2)+1→R2
6	08048114H	1446FFFAH	bne R2,R6, loop	if(R2)! =(R6) goto loop
执行上述代码的计算机M采用32位定长指令字，其中分支指令bne采用如下格式：
31	26	25	21	20	16 15	0
OP	Rs	Rd	OFFSET
OP为操作码；Rs和Rd为寄存器编号；OFFSET为偏移量，用补码表示。
请回答下列问题，并说明理由。
1）M的存储器编址单位是什么？
2）已知 sll指令实现左移功能，数组A中每个元素占多少位？
3）表中bne 指令的OFFSET 字段的值是多少？已知 b ne 指令采用相对寻址方式，当前PC内容为 bne指令地址，通过分析表中指令地址和 bne指令内容，推断 bne指令的转移目标地址计算公式。
4）若M采用如下“按序发射、按序完成”的5级指令流水线：IF（取值）、ID（译码及取数）、EXE（执行）、MEM（访存）、WB（写回寄存器），且硬件不采取任何转发措施，分支指令的执行均引起3个时钟周期的阻塞，则P 中哪些指令的执行会由于数据相关而发生流水线阻塞？哪条指令的执行会发生控制冒险？为什么指令 l的执行不会因为与指令5的数据相关而发生阻塞？
03.【2014统考真题】假设对于上题中的计算机M和程序P的机器代码，M采用页式虚拟存储管理；P开始执行时，(R1)=(R2)=0,(R6)=1000, 其机器代码已调入主存但不在Cache中；数组A未调入主存，且所有数组元素在同一页，并存储在磁盘的同一个扇区。请回答下列问题并说明理由。
1）P执行结束时，R2的内容是多少？
2）M的指令Cache和数据Cache分离。若指令Cache共有16行,Cache和主存交换的块大小为32B，则其数据区的容量是多少？若仅考虑程序段P的执行，则指令Cache的命中率为多少？
3）P在执行过程中，哪条指令的执行可能发生溢出异常？哪条指令的执行可能产生缺页异常？对于数组A的访问，需要读磁盘和TLB至少各多少次？
5.6.7 答案与解析
一、单项选择题
01. D
流水线通过将指令执行划分为多个阶段并重叠处理，实现时间并行性，其核心是分时复用同
第5章	中央处理器	261
一套功能部件；而复制多个功能部件以支持同时执行多条指令，属于多发射或超标量技术，体现的是空间并行性。选项A将空间并行的特征错误归因于流水线。不仅RISC处理器，CISC处理器（如x86计算机）也广泛采用流水线技术。流水线完全可在单核CPU中实现，无须多核支持。
02. A
吞吐能力是指单位时间内完成的指令数。m段流水线在第m个时钟周期后，每个时钟周期都可以完成一条指令；而m个并行部件在m个时钟周期后能完成全部的m条指令，等价于平均每个时钟周期完成一条指令。因此两者的吞吐能力等同。
03. B
单流水线处理机执行12条指令的时间为(3+(12-1))△t=14△t。
04. C
这个超标量流水线处理机可以发送4条指令，所以执行指令的时间为(3+(20-4)/4)△t=7△t。
05. D
每个功能段的时间设定为取指、分析和执行部分的最长时间2ns，第一条指令在第5ns时执行完毕，其余的99条指令每隔2ns执行完一条，所以100条指令全部执行完毕所需的时间为(5+99×2) ns=203ns。
06. D
指令执行过程中的各个子功能都需要包含在某个流水段中，每条指令都会依次进入所有流水段进行处理。不同指令的复杂度不同，所需的功能段不同，但为了保证指令流水线正常运行，流水段个数以最复杂指令所用的功能段个数为准，流水段长度以最复杂的操作所花的时间为准。因此，其他指令可以通过加入“空操作”功能段向最复杂的指令靠齐。
07. A
在某个时钟周期内，不同的流水段受不同指令的控制信号控制，执行不同指令的不同功能段，在指令译码阶段由控制器产生指令各流水段的所有控制信号，分别在随后的各个时钟周期内被使用，因此随后各流水段寄存器都要保存相应的控制信号，并通过流水段寄存器传递到下一个流水段，选项A正确。不同流水段寄存器存放的信息不同，因此流水段寄存器位数不一定相同，流水段寄存器对用户程序是透明的，用户程序不能通过指令指定访问哪个流水段寄存器。
08. B
在流水线数据通路中，时钟信号不仅作用在流水段寄存器上，还要作用在PC、各类寄存器、存储器等状态元件上。每条指令的取指令阶段和指令译码阶段的功能都相同，是公共流水段，且控制信号是指令译码之后才产生的，因此这两个阶段不需要控制信号。
09. D
结构冒险是指多条指令在同一时钟周期争用同一硬件资源。规定每条指令仅在指定流水段访问特定功能部件，可使资源使用有序化，从而减少结构冒险；通过重复设置功能部件（如多个ALU）能支持多指令并行访问，直接避免资源冲突；将指令Cache与数据Cache分离，可解决取指（IF阶段）与访存（MEM阶段）同时访问存储器引起的结构冒险。因此，四个说法均正确。
10. B
处理数据相关问题有两种方法：一种是暂停相关指令的执行，即暂停流水线，直到能够正确读出寄存器操作数为止；另一种是采用专门的数据通路，直接把结果送到 ALU 的输入端，这种方法称为旁路技术。
11. A
部分数据冒险可以通过转发技术解决，但有些数据冒险不行，例如 load-use类型的数据冒险（当下一条指令需要用到本条指令的访存结果时）。load-use类型的数据冒险会引起一个或多个时钟周期的阻塞，需要添加空操作指令解决。若ALU运算指令的某个操作数是分支指令转移后的执行结果，就会发生数据冒险。例如，分支指令“sltr1,r2,r3”，其含义是若(r2)<(r3)，则r1=1；否
262 2027年计算机组成原理考研复习指导
则r1=0。若紧挨着一条ALU 运算指令要用到r1的值，则会发生数据冒险。
12. D
插入空操作指令，使相关指令延迟执行，可以避免数据冒险。采用转发技术，将数据通路中生成的中间数据直接转发到 ALU 的输入端，可以解决部分数据冒险，但不能解决 load-use 类型的数据冒险。通过编译器调整相关指令的顺序，也可以解决部分数据冒险。
13. D
转发技术可以解决部分数据冒险，但不能解决 load-use 类型的数据冒险。分析上述指令序列，指令I1 在EX段结束时已得到 r1 的新值，采用转发技术后，指令I3 在 ALU 中用到的r1 值可以直接从 EX/MEM 流水段寄存器中取，可以解决指令I1 和I3 的数据冒险。指令I2 和I3 是 load-use 类型的数据冒险， load指令只在 MEM段结束时才能取到主存中的数据，然后送 MEM/WB 流水段寄存器，在WB段的前半个时钟周期才能将新值写入 r3，但随后的 add 指令在 EX段就要取 r3 的值，因此会发生数据冒险。需要在 add 指令之前插入一条空操作指令，这样在 add 指令的 EX 段就可从 MEM/WB 流水段寄存器中取出 load 指令的最新结果。
14. D
直接转移指令的转移目标地址在执行阶段才确定，会发生控制冒险，说法Ⅰ错误。插入空操作指令可使条件转移指令的结果在取下一条有效指令之前确定，从而避免控制冒险，说法Ⅱ正确。采用转发技术，可以解决的是数据冒险，说法Ⅲ错误。中断或异常会改变程序的执行流程，也会引起控制冒险，说法 Ⅳ 正确。流水段的数量越多，意味着在转移结果确定之前，可能取出更多的错误指令，从而需要更多的时间和资源来处理这些错误指令，说法Ⅴ错误。
15. C
分支预测技术用于处理控制冒险。静态预测技术假定分支总是不发生或者总是发生，每次预测结果是一样的。动态预测技术根据之前条件转移的比较结果来预测，根据局部性原理，其预测成功率通常比静态预测技术高。预测错误时，已被错误放入流水线执行的指令必须被舍弃。
16. B
适当增加流水段的个数，会使得每个流水段内的操作更简单，流水段的延迟更小，缩短了时钟周期，从而可以提高时钟频率。但是，流水段之间的流水段寄存器也随之增多，增加了流水段之间的额外缓存开销，因此加倍增加流水段个数不能成倍提高指令执行效率，且流水段个数也不能无限制地增加。此外，随着流水段个数的增加，也将导致流水段的控制逻辑更复杂。
17. D
超标量流水线不仅指运算操作并行，还包括取指、译码、访存、写回等其他操作，超标量技术使CPU 在同一时间内执行多条指令，从而发挥更大的效率，选项D错误。
18. B
要实现超标量技术，要求 CPU 中配置多个功能部件和指令译码电路，以及多个寄存器和总线，以便实现同时执行多个操作，选项A正确。超长指令字技术不仅对优化编译器要求更高，还需要更多的硬件资源，如寄存器、功能部件、指令译码电路等，选项B错误。流水线按序流动，肯定不会出现读后写(WAR)相关和写后写(WAW)相关；只可能出现没等到上一条指令写入而当前指令就读寄存器的错误，选项C正确。由超流水线技术的定义可知选项D正确。
19. A
时钟周期应以各功能段的最长执行时间为准，否则用时长的流水段将不能正确完成。
20. A
采用流水线方式，相邻或相近的两条指令可能因为存在某种关联，后一条指令不能按照原指定的时钟周期运行，从而使流水线断流。有三种相关可能引起指令流水线阻塞：①结构相关，也称资源相关；②数据相关；③控制相关，主要由转移指令引起。
第5章	中央处理器 263
数据旁路技术的主要思想是，不必等某条指令的执行结果送回到寄存器，再从寄存器中取出该结果，而是直接将执行结果送到其他指令所需的地方，这样可以使流水线不发生停顿。
21. D
指令长度一致、按边界对齐存放、仅Load/Store指令访存，这些都是RISC的特征，它们使取指令、取操作数的操作简化且时间长度固定，能够有效地简化流水线的复杂度。
22. C
采用4级流水执行100条指令，在执行过程中共使用4+(100-1)=103个时钟周期，如下图所示。CPU的主频是1.03GHz,即每秒有1.03G个时钟周期。流水线的吞吐率为1.03G×100/103=1 . 0 × 1 0^{9}条指令/秒。
S
I₁
I₂
I₃
I99
I100
---
时钟4
1
2
3
99
100
时钟3
1
2
3
99
100
时钟2
1
2
3
99
100
时钟1
1
2
3
99
100
100
3
t
23. D
把指令Cache与数据Cache分离后，取指和取数分别到不同的Cache中寻找，则指令流水线中取指部分和取数部分就可以很好地避免冲突，即减少了指令流水线的冲突。
24. B
数据冒险即数据相关，指在一个程序中存在必须等前一条指令执行完才能执行后一条指令的情况，此时这两条指令即为数据相关。当多条指令重叠处理时就会发生冲突。首先这两条指令发生写后读相关，且两条指令在流水线中的执行情况（发生数据冒险）如下表所示。
指	令	时	钟
1	2	3	4	5	6	7
I2	取指	译码/读寄存器	运算	访存	写回
I3	取指	译码/读寄存器	运算	访存	写回
指令I2在时钟5时将结果写入寄存器R5，但指令I3在时钟3时读R5。本来指令I2应先写入R5，指令I3后读R5，结果变成指令I3先读R5，指令I2后写入R5，因此发生数据冲突。
25. C
超标量是指在CPU中有一条以上的流水线，并且每个时钟周期内可以完成一条以上的指令，其实质是以空间换时间。说法Ⅰ错误，它不影响流水线功能段的处理时间；说法Ⅱ、Ⅲ正确。
26. A
数据在功能部件之间传送的路径称为数据通路，包括数据通路上流经的部件，如程序计数器、ALU、通用寄存器、状态寄存器、异常和中断处理逻辑等。数据通路由控制部件控制，控制部件根据每条指令功能的不同生成对数据通路的控制信号。因此，不包括控制部件。
27. D
指令流水线中每个流水段的时间单位为一个时钟周期，题中指令流水线的指令需要用到A~E五个部件，所以每个流水段时间应取最大部件时间80ps，此外还有流水段寄存器延时20ps，因此CPU时钟周期至少是100ps.
28. C
画出这四条指令在流水线中执行的过程如下图所示。
264 2027年计算机组成原理考研复习指导
指	令	1	2	3	4	5	6	7	8	9	10	11	12	13	14
add s2,s1,s0	取指译码/取数	执行	访存写回
load s3,0(t2)	取指	译码/取数执行访存写回
add s2,s2,s3	取指	译码/取数执行	访存写回
store s2,0(t2)	取指	译码/取数执行访存	写回
数据冒险即数据相关，指在程序中存在必须等前一条指令执行完才能执行后一条指令的情况，此时这两条指令即为数据相关。其中Ⅱ和I3、I2和I3、I3和I4均发生了写后读相关，因此必须等相关的前一条指令执行完才能执行后一条指令。只有I2和I4不存在数据冒险。
29. B
CPI表示执行指令所需的时钟周期数。对于一个程序或一台机器来说，其CPI是指执行该程序或机器指令集中的所有指令所需的平均时钟周期数。对于单周期CPU，令指令周期 =时钟周期，CPI=1，说法Ⅰ正确。对于多周期CPU,CPU的执行过程分成几个阶段，每个阶段用一个时钟完成，每种指令所用的时钟数可以不同，CPI>1，说法Ⅱ错误。对于基本流水线CPU，让每个时钟周期流出一条指令，CPI=1，说法Ⅲ正确。超标量流水线CPU在每个时钟周期内并发执行多条独立的指令，每个时钟周期流出多条指令，CPI<1，说法IV错误。
30. C
I2和II之间存在数据冒险，II在WB段才将新值写回寄存器R[s2]，但I2的EX段就要读R[s2]以计算访存的有效地址，Ⅱ在EX段结束时就已生成R[s2]的新值，被存放在EX/MEM流水段寄存器中，采用转发技术后，可直接从该寄存器中取出数据送到ALU的输入端，这样I2执行时ALU用的是R[s2]的新值，解决了I2和I1之间的数据冒险。I3和I2之间存在数据冒险，属于load-use数据冒险，用转发技术无法解决I3和I2的数据相关问题，原因在于I2的功能是从内存中取数，只有在MEM段结束时才能从主存中得到R[s3]的新值，但I3的EX段就要用到R[s3]，因此无法用转发技术解决，I3仍需阻塞一个时钟周期，等到I2的MEM段结束后，从I2的MEM/WB流水段寄存器中取到R[s3]的新值。I4和I3之间存在控制冒险,beq指令在EX段设置条件码，在MEM段控制是否将转移地址送到PC，这之后才能开始根据PC内容取指令，因此I4需要进行硬件阻塞。综上所述，I3和I4的执行需要被阻塞，指令执行过程如下。
I1	IF	ID	EX	MEM	WB
I2	IF	ID	EX	MEM	WB
I3	IF	ID	阻塞	EX	MEM	WB
I4/I5	阻塞	阻塞	阻塞	阻塞	IF	ID	EX	MEM	WB
31. C
对于load-use数据冒险，即后一条指令y需要使用前一条访存指令x从主存中取出的数据，由于指令y中所需的数据在指令x的访存阶段(MEM)结束时才可使用，即使有转发电路，指令y在执行阶段也无法获得所需的数据，只能通过插入nop指令或调整指令顺序解决。
32. B
CPI（每条指令平均时钟周期数）受多种因素影响。发生Cache缺失时，CPU可能需要等待从主存读取数据，这会插入多个空闲周期，从而显著提高程序的平均CPI。因此CPI与Cache缺失率密切相关。选项A、C和D均正确。
33. A
程序计数器(PC)是专用寄存器，用于存放下一条指令的地址，不属于通用寄存器组，后者
第5章	中央处理器 265
由程序员或编译器用于临时数据存储，选项A错误。选项C具有一定的迷惑性：单周期CPU在一个时钟周期内完成整条指令，控制器只需根据操作码一次性生成全部控制信号，逻辑相对简单；而多周期CPU需分多个周期执行指令，控制器要在不同阶段动态产生控制信号，设计更复杂——尽管单周期性能较差（受限于最慢指令），但其控制器确实更简单。
二、综合应用题
01.【解答】
1）x的机器码为|[x]*=1111 1101 1111 111B, 即指令执行前(R1)=FDFFH,右移1位后为1111 1110 1111 1111B, 即指令执行后(R1)=FEFFH.
2）每个时钟周期只能有一条指令进入流水线，从第5 个时钟周期开始，每个时钟周期都会有一条指令执行完毕，因此至少需要4+(5-1)=8个时钟周期。
3）I₃的ID段被阻塞的原因：因为I₃与I₁和I₂都存在数据相关，需等到I₁和I₂将结果写回寄存器后，I₃才能读寄存器内容，所以I₃的ID段被阻塞。I₄的IF段被阻塞的原因：因为I₄的前一条指令I₃在ID段被阻塞，所以I₄的IF段被阻塞。若I₄的IF段不被阻塞，则会覆盖指令寄存器的内容，导致I₃的译码结果出错。
注意：要求“按序发射，按序完成”，因此，第二问中下一条指令的IF段可以和上一条指令的ID段并行，以免因上一条指令发生冲突而导致下一条指令先执行完。
4）因2*x操作有左移和加法两种实现方法，因此x = x^{ * }2 + a对应的指令序列为
I1 LOAD	R1, [x]
I2LOAD	R2, [a]
I3	SHL	R1	//或者	ADD	R1, R1
I4	ADD	R1, R2
I5	STORE	R2, [x]
这5条指令在流水线中执行过程如下图所示。
时间单元
指	令	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17
I1	IF	ID	EX	M	WB
I2	IF	ID	EX	M	WB
I3	IF	ID	EX	M	WB
I4	IF	ID	EX	M	WB
I5	IF	ID	EX	M	WB
因此执行x = x^{ * }2 + a语句最少需要17个时钟周期。
02.【解答】
该题为计算机组成原理的综合题型，涉及指令系统、存储管理和 CPU 三部分内容，特别是五段式流水线应引起考生的高度重视。整个指令执行过程中各流水段的时间是相同的，由统一的时钟控制。各流水段在5.6.1节中介绍过，这里讨论流水段发生阻塞的情况：
①	若本条指令的源寄存器是上一条指令的目的寄存器，若不采取任何措施，则本条指令取到的将是寄存器的旧值，这就是RAW数据冒险。这时有3个时钟周期的阻塞，使本指令ID应在上一条指令WB段后。本题中,I1在WB段结束才将结果写回R4,而I2在ID段就需要取R4的值，如下图所示。
指	令	1	2	3	4	5	6	7	8	9
I₁	IF	ID	EX	M	WB
I₂	IF	ID	EX	M	WB
266	2027年计算机组成原理考研复习指导
第三条指令阻塞了3个时钟周期。
② 转移指令(JMP)(bra)：流水线默认直接取下一条指令，若指令为JMP或JC(条件转移)，在没有分支预测的情况下，默认有3个时钟周期的阻塞使下一条指令IF在分支指令M后(分支指令在M段才会确定是否更新PC)。本题中，I6是分支指令，其后一条指令被阻塞3个时钟周期，若转移条件成立，则转到I1执行，反之顺序执行I7。本题最后一问是分析为什么I1的执行不会因为与I5的数据相关而阻塞，可以从两个角度来分析：第一，I6与I5存在数据冒险，从而I6的ID段被阻塞3个时钟周期，不论I6是不是分支指令，I1的IF段都会被阻塞，从而ID段也会相应地推迟。第二，因为I6是分支指令，后续指令会阻塞3个时钟周期，从而也能消除I1和I5的数据冒险。

指令	1	2	3	4	5	6	7	8	9	10	11	12	13
I_{5}	IF	ID	EX	M	WB								
I_{6}		IF				ID	EX	M	WB				
I_{1}/I_{7}						阻塞	阻塞	阻塞	IF	ID	EX	M	WB

在了解上面的基础知识后，我们再看这道大题。
1)已知计算机M采用32位定长指令字，即一条指令占4B，观察表中各指令的地址可知，每条指令的地址差为4个地址单位，即4个地址单位代表4B，一个地址单位就代表了1B，所以该计算机是按字节编址的。
2)在二进制中某数左移两位相当于乘以4，由该条件可知，数组间的数据间隔为4个地址单位，而计算机按字节编址，所以数组A中的每个元素占4B。
3)由表可知，bne指令的机器代码为1446FFFAH，根据题目给出的指令格式，后2B的内容为OFFSET字段，所以该指令的OFFSET字段为FFFAH，用补码表示，值为-6。系统执行到bne指令时，PC自动加4，PC的内容为08048118H，而转移的目标是08048100H，两者相差了18H，即24个单位的地址间隔，所以偏移地址的一位即是真实转移地址的-24/-6=4位。可知bne指令的转移目标地址计算公式为(PC)+4+OFFSET×4。
4)由数据相关导致阻塞的指令为第2、3、4、6条，因为第2、3、4、6条指令都与各自前一条指令发生数据相关。第6条指令会发生控制冒险。
当前循环的第5条指令与下次循环的第1条指令虽然有数据相关，但由于第6条指令后有3个时钟周期的阻塞，消除了该数据相关(或者解释如下：第6条指令因为与第5条指令存在数据冒险，导致后续I1的执行也相应地推迟，因此消除了该数据冒险)。
03.【解答】
该题继承了上题中的相关信息，统考中首次引入此种设置，具体考查程序的运行结果、Cache的大小和命中率的计算，以及磁盘和TLB的相关计算，是一道比较综合的题型。2015年同样出现了23分大题的设定，希望读者对其足够重视。
1)R2中装的是i的值，循环条件是i<N(1000)，即当i自增到不满足这个条件时跳出循环，程序结束，所以此时R2的值为1000。
2)Cache共有16行，每块32字节，所以Cache数据区的容量为16×32B=512B。
P共有6条指令，占24B，小于主存块大小32B，其起始地址为08048100H，对应一块的开始位置，由此可知所有指令都在一个主存块内。读取第一条指令时会发生Cache缺失，因此将P所在的主存块调入Cache的某一行，以后每次读取指令时，都能在指令Cache中命中。因此在1000次循环中，只会发生1次指令访问缺失，所以指令Cache的命中率为(1000×6-1)÷(1000×6)=99.98%。
3)指令4为加法指令，即对应sum+=A[i]，当数组A中元素的值过大时，会导致这条加
第5章	中央处理器	267
法指令发生溢出异常；而指令2、5虽然都是加法指令，但它们分别为数组地址的计算指令和存储变量i的寄存器进行自增的指令，而i最大到达1000，所以它们都不会产生溢出异常。
只有访存指令可能产生缺页异常，即指令3可能产生缺页异常。因为数组A在磁盘的一页上，而一开始数组并不在主存中，第一次访问数组时会导致访盘，把A调入内存，而以后数组A的元素都在内存中，不会导致访盘，所以该程序共访盘一次。
每访问一次内存数据，就查一次TLB，共访问数组1000次，所以此时又访问1000次TLB，还要考虑到第一次访问数组A，即访问A[0]时，会多访问一次TLB（第一次访问A[0]时会先查一次TLB，然后产生缺页，处理完缺页中断后，会重新访问A[0]，此时又查TLB），所以访问TLB的次数一共是1001次。
5.7 多处理器的基本概念
考点追踪	多处理器的基本概念(2022)
5.7.1 SISD、SIMD、MIMD的基本概念
根据指令流和数据流的数量，计算机体系结构可分为四类：SISD、SIMD、MISD和MIMD。常规的单处理器属于SISD，而常规的多处理器属于MIMD。
1.单指令流单数据流(SISD)结构
SISD是传统的串行计算机结构，通常包含一个处理器和一个存储器。处理器在任一时刻仅执行一条指令，并按指令流规定的顺序依次执行。为提升性能，部分SISD计算机采用指令流水线技术，设置多个功能部件，并以多模块交叉方式组织存储器。
2.单指令流多数据流(SIMD)结构
SIMD采用数据级并行技术，由一个指令控制单元和多个处理单元组成。所有处理单元同时执行同一条指令，但各自拥有独立的地址寄存器，因而可以操作不同的数据。例如，在处理数组的for循环时，一条SIMD指令可以在16个ALU中并行运算16对数据，仅需一次运算时间即可完成。然而，在处理包含条件分支(如switch或case语句)的代码时，SIMD效率显著降低，因为各处理单元需要根据不同的数据执行不同的操作，难以保持同步。
向量处理器是SIMD的典型实现之一。它通过专用指令直接操作一维数组(向量)：将数据从存储器加载到向量寄存器，以流水化方式批量处理，再将结果写回。该结构在数值模拟等规则计算场景中具有显著的性能优势。
3.多指令流单数据流(MISD)结构
MISD指多个指令流同时处理同一数据流。尽管在理论上存在，但在通用计算机中极为罕见，几乎没有实际应用。
4.多指令流多数据流(MIMD)结构
MIMD同时执行多条指令，分别处理多个不同的数据流，是目前主流的并行计算模型。MIMD可分为两类：①多计算机系统，每个节点拥有私有存储器和独立的地址空间，无法通过普通的访存指令直接访问其他节点的内存，需依赖消息传递进行通信，也称消息传递型MIMD；②多处理器系统，通常指共享存储多处理器系统(见5.7.4节)，具有统一的全局地址空间，所有处理器可通过普通的访存指令访问系统中的任意存储单元，也称共享存储型MIMD。
268 2027年计算机组成原理考研复习指导
总体而言，SIMD属于数据级并行，适用于规则、同构的数据处理；而MIMD支持线程级或任务级并行，并行程度更高，适用范围更广。
5.7.2硬件多线程的基本概念
在传统 CPU 中，线程切换涉及保存和恢复寄存器上下文等操作，频繁切换将引入显著性能开销。为减少这一开销，硬件多线程技术应运而生。支持该技术的处理器为每个线程配备独立的通用寄存器组、程序计数器(PC)等关键状态部件。线程切换时，只需激活对应线程的寄存器组，无须将上下文写入或从内存读出，从而大幅降低切换延迟。
硬件多线程主要有三种实现方式：细粒度多线程、粗粒度多线程和同时多线程(SMT).
1.细粒度多线程
处理器在每个时钟周期切换线程，交替执行不同线程的指令。由于各线程彼此独立，其指令可在连续周期中交错执行，有效提升功能部件的利用率。例如，在时钟周期i执行线程A的指令，在周期i+1执行线程B的指令。
2.粗粒度多线程
处理器连续执行同一线程的指令序列，仅当该线程因高延迟事件(如Cache缺失)导致流水线阻塞时，才切换至另一线程。此时需清空被阻塞的流水线，并为新线程重新填充流水线，因此切换开销通常大于细粒度多线程。
上述两种方式均在同一时刻仅执行一个线程的指令，不支持真正的指令级并行，其核心目标是通过线程切换隐藏长延迟操作，提升资源利用率。
3.同时多线程
SMT 在单个时钟周期内可同时发射并执行来自多个不同线程的多条指令，既利用了指令级并行，又实现了线程级并行。它通常构建于支持超标量和乱序执行的现代微架构之上，通过共享执行单元、缓存等硬件资源，在维持高单线程性能的同时，显著提升整体吞吐率。
图5.27给出了三种硬件多线程实现方式的调度示例。
时钟	CPU
i	发射线程A的指令j、j+1
i+1	发射线程B的指令k、k+1
i+2	发射线程A的指令j+2、j+3
i+3	发射线程B的指令k+2、k+3
时钟	CPU
i	发射线程A的指令j、j+1
i+1	发射线程A的指令j+2、j+3, 发现Cache缺失
i+2	线程调度，从A切换到B
i+3	发射线程B的指令k、k+1
i+4	发射线程B 的指令k+2、k+3
(a)细粒度多线程示例	(b)粗粒度多线程示例
时钟	CPU
i	发射线程A的指令j、j+1, 线程B的指令k、k+1
i+1	发射线程A的指令j+2，线程B的指令k+2，线程C的指令m
i+2	发射线程A的指令j+3, 线程C的指令m+1、m+2
(c)同时多线程示例
图5.27 三种硬件多线程方式的调度示例
Intel处理器中的超线程(Hyper-Threading)技术是SMT的典型代表。它在一个物理核心中维护两套完整的线程状态部件（包括寄存器组、程序计数器等），而高速缓存、ALU等执行资源则由两个逻辑核心共享，从而在单核上实现接近双核的并发处理能力（实际提升10%~30%）.
第5章	中央处理器	269
5.7.3多核处理器的基本概念
多核处理器(Multi-core Processor)是指将多个独立的处理单元集成到单个CPU芯片中，每个处理单元称为一个核(core)，也称片上多处理器。每个核通常配备私有的L1 Cache（有时还包括L2），而多个核则共享更高层级的Cache（如L3）；所有核通过互连网络共享主存储器。图5.28展示了一种简化的双核结构，其中各核仅拥有私有缓存，不共享任何缓存层级。
CPU核1	CPU核2
CPU状态	CPU状态
中断逻辑	中断逻辑
执行单元	执行单元
Cache	Cache
内存
图5.28不共享缓存(Cache)的双核CPU结构
在多核系统中，要充分发挥硬件的并行计算能力，必须采用多线程（或多进程）模型，确保每个核在运行时均有可执行的线程。与单核系统中的多线程不同，多核架构支持多线程在物理上同时执行：每个核独立运行一个线程，实现真正的并行处理。而单核系统若采用细粒度或粗粒度多线程，其多个线程以时间交错方式执行，任一时刻仅有一个线程处于运行状态；但若支持同时多线程（SMT），则可在单个核上并发执行来自不同线程的多条指令。
下面通过一个直观的例子说明相关概念。假设需将四块石头滚到马路对面，滚动每块石头需1分钟。串行处理器（单核）逐一滚动，共需4分钟；双核处理器相当于两名工人，每人负责两块石头，耗时2分钟；向量处理器则如同使用一根长木板同时推动四块石头，由于对所有石头施加完全相同的操作，理论上只需1分钟即可完成。由此可见，多核处理器通过增加处理单元数量实现任务级并行，而向量处理器则通过单指令作用于多数据实现数据级并行。
5.7.4共享内存多处理器的基本概念
具有共享单一物理地址空间的多处理器系统称为共享内存多处理器（Shared Memory multi-Processor, SMP）。在SMP系统中，所有CPU均可通过常规的访存指令访问内存中的任意位置，并通过读/写共享变量进行通信。需要注意的是，尽管物理地址空间是统一的，各CPU仍在各自独立的虚拟地址空间中运行程序，操作系统负责将虚拟地址映射到统一的物理地址空间。
SMP系统根据内存访问延迟的特性可分为两类：
●统一存储访问（UMA）多处理器。所有CPU访问任意内存单元的延迟基本相同，与发起请求的CPU及目标地址无关。
●非统一存储访问（NUMA）多处理器。内存访问延迟取决于请求CPU与目标内存的物理位置关系。通常，主存被划分为多个区域，分别连接到不同的CPU。
早期的计算机系统普遍采用北桥架构：内存控制器集成于北桥芯片，CPU通过前端总线（FSB）连接北桥以访问内存。随着多核与多处理器技术的发展，多个CPU对前端总线的争用使其成为系统性能瓶颈。为突破这一限制，NUMA架构应运而生：内存控制器被集成到各CPU内
270	2027年计算机组成原理考研复习指导
部，每个CPU直接连接一部分物理内存（称为本地内存）；各CPU之间通过高速互连总线（如Intel的QPI）相互连接，可访问其他CPU的远程内存。在NUMA架构下，访问本地内存的延迟显著低于访问远程内存，因此程序性能对数据布局较为敏感。
由于多个CPU可能同时访问同一共享变量，必须引入同步机制以确保操作的原子性与数据一致性。否则，可能读取到另一CPU更新过程中的中间值，导致错误结果。常用方法是对共享变量使用互斥锁：任一时刻仅允许一个CPU持有该锁，其余CPU须等待其释放后方可访问。
第3章讨论的Cache一致性主要针对单处理器系统中Cache与主存的数据同步。而在SMP系统中，多个CPU的Cache可能同时缓存同一物理内存地址的副本，因此其Cache一致性要求更为严格：任意时刻，所有CPU对该地址的Cache副本必须保持一致。这一目标通常由硬件一致性协议保障，通过及时传播写操作或无效化其他CPU中的副本，维护全局数据一致性。
5.7.5本节习题精选
单项选择题
01.当前设计高性能计算机的重要技术途径是（	）。
A.提高CPU主频	B.扩大主存容量
C.采用非冯·诺依曼结构	D.采用并行处理技术
02.按照Flynn提出的计算机系统分类方法，多处理机属于（	）。
A.SISD	B.SIMD	C.MISD	D.MIMD
03.从体系结构的角度来看，阵列处理机属于（	）结构。
A.SISD	B.SIMD	C.MIMD	D.MISD
04.以下机器中，不属于SIMD结构的是（	）。
A.并行处理机	B.阵列处理机	C.向量处理机	D.标量流水线处理机
05.具有一个控制部件和多个处理单元的计算机系统属于（	）结构。
A.SISD	B.SIMD	C.MISD	D.MIMD
06.下列关于超线程（HT）技术的描述中，正确的是（	）。
A.超线程技术可以让四核的Intel Core i7处理器变成八核
B.超线程技术是一项硬件技术，能使系统性能大幅提升，与操作系统和应用软件无关
C.含有超线程技术的CPU需要芯片组的支持才能发挥技术优势
D.超线程技术模拟出的每个CPU核都具有独立的资源，各自工作互不干扰
07.双核CPU和超线程CPU的共同点是（	）。
A.都有两个内核	B.都能同时执行两个运算
C.都包含两个CPU	D.都不会出现争抢资源的现象
08.下列关于双核技术的叙述中，正确的是（	）。
A.双核是指主板上有两个CPU
B.双核是利用超线程技术实现的
C.双核是指在CPU上集成两个运算核心
D.双核CPU是时间并行的并行计算
09.下列有关多核CPU和单核CPU的描述中，错误的是（	）。
A.双核的频率为2.4GHZ，那么其中每个核心的频率也是2.4GHZ
B.同等性能下，采用双核CPU可以降低计算机系统的功耗和体积
C.多核CPU共用一组内存，数据共享
D.所有程序在多核CPU上运行速度都快
第5章	中央处理器	271
10. 下列关于多核CPU的描述中，正确的是（	）。
A. 各核心完全对称，拥有各自的 Cache
B. 任何程序都可以同时在多个核心上运行
C. 一颗CPU中集成了多个完整的执行内核，可同时进行多个运算
D. 只有使用了多核CPU的计算机，才支持多任务操作系统
11. 下列关于多核处理器的说法中，不正确的是（	）。
A. 多核处理器并不能使单线程程序的执行速度加快
B. 多核处理器在 Flynn分类法中属于MIMD系统
C. 多核处理器实际上就是在一个CPU上集成了多个控制核心
D. 多核处理器通常比单核处理器的能耗更高
12.【2022统考真题】下列关于并行处理技术的叙述中，不正确的是（	）。
A. 多核处理器属于MIMD结构
B. 向量处理器属于SIMD结构
C. 硬件多线程技术只可用于多核处理器
D. SMP中所有处理器共享单一物理地址空间
5.7.6 答案与解析
单项选择题
01. D
单纯提高CPU主频已难以为继，受限于功耗和散热；扩大主存容量虽能支持更大的程序，却无法直接加快计算速度；非冯·诺依曼结构目前仍处于探索阶段。相比之下，并行处理技术通过同时执行多个任务或操作，有效突破了性能瓶颈，已成为现代高性能计算机的核心设计途径。
02. D
 Flynn分类法将计算机体系结构分为SISD、SIMD、MISD和MIMD四类。常规的单处理器属于SISD，常规的多处理机属于MIMD。
03. B
阵列处理机包含一个计算阵列，此阵列由多个处理单元组成。它使用单一的控制部件控制多个处理单元，使每个处理单元对各自的数据进行同样的操作，属于SIMD结构。
04. D
A、B和C通常可理解为同一种概念，是SIMD结构。标量流水线处理机是SISD结构。
05. B
单指令流多数据流（SIMD）结构的计算机通常由一个指令控制部件、多个处理单元组成，不同处理单元执行的同一条指令所处理的数据可以不同。
06. C
超线程技术是在一个CPU中，提供两套线程处理单元，让单个处理器实现线程级并行。虽然采用超线程技术能够同时执行两个线程，但是当两个线程同时需要某个资源时，其中一个线程必须暂时挂起，直到这些资源空闲后才能继续运行。因此，超线程的性能并不等于两个CPU的性能。而且，超线程技术的CPU需要芯片组、操作系统（如Windows 98不支持超线程技术）和应用软件的支持，才能发挥该项技术的优势。双核技术是指将两个一样的CPU集成到一个封装内（或者直接将两个CPU做成一个芯片），而超线程技术在CPU内部仅复制必要的线程资源来让两个线程同时运行，能并行执行两个线程，模拟实体双核。仅选项C正确。
07. B
超线程技术在CPU内部仅复制必要的线程资源，共享CPU的高速缓存和功能部件，让两个线
272	2027年计算机组成原理考研复习指导
程可以并行执行，模拟双核CPU。当两个线程同时需要某个共享资源时，其中一个线程必须暂时挂起，直到这些资源空闲后才能继续运行。仅选项B正确。
08. C
双核是指将两个CPU核心集成到一个封装中，核心也称内核，是CPU 最重要的组成部分，选项C正确。主板上有两个CPU属于多处理器。超线程技术是模拟实体双核，不能算作真正意义上的双核。时间并行是指流水线技术，空间并行则是指硬件资源的重复，空间并行导致了两类并行机的产生，按Flynn分类法分为SIMD 和MIMD。
09. D
多核CPU的核心通常都是对称的，因此2.4GHz双核CPU中两个核的主频也是2.4GHz。早期 CPU 性能提升主要靠提高主频，导致功耗增大，发热量大，而且当主频提高到一定程度后，CPU性能的提升不再明显，后来转到增加CPU核心的方向，将2个核心集成到一个芯片内，提供等同双CPU的性能，这显然也降低了CPU的体积。选项C显然正确。在多核CPU上运行一个不支持多线程的程序，显然不能发挥多核CPU 的优势，选项D错误。
10. C
多核CPU的各核心既可以有独自的 Cache，又可以共享同一个 Cache。只有支持多线程的并行处理程序才能同时在多个核心上运行，发挥多核的优势。选项 C 正确。多任务系统也称多道程序系统，可以运行在单核CPU上，宏观上并行，微观上串行。
11. C
单线程程序只有一个执行流，因此多核处理器并不能使其执行速度加快。多核处理器属于Flynn分类法的MIMD 系统。多核处理器是在一个CPU上集成了多个执行内核而非控制核心的处理器，选项C错误。多核处理器可在一个时钟周期内处理多个并行任务，因此能耗通常更高。
12. C
MIMD 结构分为多计算机系统和多处理器系统。向量处理器是 SIMD 的变体，属于 SIMD 结构。硬件多线程技术在一个核中处理多个线程，可用于单核处理器，选项C错误。共享内存多处理器(SMP)具有共享的单一物理地址空间，所有核都可通过存取指令来访问同一片主存地址空间。
5.8 本章小结
本章开头提出的问题的参考答案如下。
1)指令和数据均存放在内存中，计算机如何从时间和空间上区分它们是指令还是数据？
指令和数据在计算机中均以二进制形式共存于同一内存，内存本身无法区分二者。计算机通过 CPU 的工作阶段从时间上区分指令与数据：取指发生在取指阶段，取操作数则发生在执行阶段。在空间上，CPU 根据当前阶段将读出的内容送至不同部件：取指阶段的数据锁存至指令寄存器供译码，执行阶段的数据写入通用寄存器并送入 ALU 运算。因此，指令与数据的区分并不由内存决定，而由CPU 的控制信号在特定时序下引导其流向不同寄存器来实现。
2)什么是指令周期和时钟周期？它们之间有何关系？
指令周期是指CPU从内存中取指并完成执行所需的全部时间。在多周期CPU中，它包含多个时钟周期；在单周期 CPU 中，则恰好等于一个时钟周期。时钟周期是主时钟的一个节拍，也是CPU操作最基本的时序单位。因此，指令周期与时钟周期的关系取决于处理器结构。
3)什么是微指令？它和第4章谈到的指令有什么关系?
第5章	中央处理器	273
微指令是微程序控制方式中的基本控制单元。控制单元发出的最基本控制信号称为微命令，一组用于完成特定微操作的微命令构成一条微指令；若干微指令按序排列形成微程序，用以解释并执行一条机器指令。在微程序控制器中，每条机器指令通常对应一个微程序，而该微程序由多条微指令组成，每条微指令可并行发出多个微命令。
4)什么是指令流水线？指令流水线相对于传统体系结构的优势是什么？
指令流水线是一种将指令执行划分为若干有序阶段，并让多条指令的各个阶段在时间上重叠执行的技术。每个阶段由专用功能部件完成；当前一条指令进入下一阶段时，后续指令便可进入当前阶段，从而实现功能部件的持续利用。与非流水线结构相比，它并不缩短单条指令的执行延迟，但能显著提升单位时间内完成的指令数（吞吐率）。由于仅需增加少量流水线寄存器等硬件即可获得数倍的吞吐率提升，因此成为现代处理器广泛采用的并行处理技术。
5.9常见问题和易混淆知识点
1.流水线越多，并行度就越高。是否流水段越多，指令执行越快？
并非流水段越多，指令执行就越快。原因如下：
1)流水段增加会引入更多的流水线寄存器，其延迟限制了时钟周期的进一步缩短；同时，段数增多也导致单条指令从进入至流出所需的时钟周期数增加。此外，存在数据或控制冒险时，流水线需要插入停顿，而段数越多，潜在的性能损失就越显著。
2)随着流水段数的增加，用于处理结构冲突、数据冒险和控制转移的控制逻辑急剧复杂化，不仅增加硬件开销，还可能成为新的性能瓶颈。
2.读后写(WAR)相关和写后写(WAW)相关的概念
在非按序执行的流水线中，由于允许后进入流水线的指令超越先进入的指令先完成执行，因此不仅可能发生RAW相关，也可能发生WAR和WAW相关。
1)读后写(Write After Read,WAR)相关。指当前指令需先读取寄存器的值，后续指令才能向该寄存器写入。若执行顺序颠倒，即写操作发生在读操作之前，则当前指令将读到错误的新值。在下列指令中，寄存器R1可能存在此类相关：当I2在I1读取R1之前写入该寄存器时，I1会错误地读取I2写入的新值。
I1 add R3,R1,R2 #(R1)+(R2)→R3
I2 sub R1,R4,R5 #[(R4)-(R5)→R1
在WAR相关中，指令I2的目的操作数是指令I1的源操作数。
2)写后写(Write After Write,WAW)相关。指当前指令应先写入寄存器，后续指令再写入同一寄存器，以保证最终结果为后者；若执行顺序颠倒，导致后一条指令先完成写操作，则寄存器的最终值将违背程序语义。在下列指令中，寄存器R1可能存在此类相关：当I2在I1之前写入R1时，R1的最终值将错误地变为I1的结果，而非I2的结果。
I1 add R1,R2,R3 #[(R2)+(R3)→R1
I2 sub R1,R4,R5 #[(R4)-(R5)→R1
在WAW相关中，指令I2和指令I1的目的操作数相同。
第6章
总线
【考纲内容】
总线的基本概念
总线的组成及性能指标
总线事务和定时
【复习提示】
本章的知识点较少，通常以选择题的形式出现，特别是总线的特点、猝发传输方式、性能指标、定时方式及常见的总线标准等。总线带宽的计算也可能结合其他章节出综合题。
在学习本章时，建议读者思考以下问题：
1)引入总线结构有什么好处？
2)引入总线结构会导致什么问题？如何解决？
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
6.1 总线概述
早期计算机中，各部件通过专用连线直接互连，称为分散连接。随着I/O设备种类和数量不断增加，这种连接方式在扩展性和灵活性方面面临挑战。为提升系统的可扩展性与连接灵活性，计算机体系结构逐步演进为采用总线连接方式，并进一步催生了各类标准化总线规范。
总线是一组可供多个部件分时共享的公共信息传输线路。其核心特征是：
·分时性：任一时刻仅允许一个部件向总线发送信息，多个发送方需要分时使用总线。
·共享性：多个部件可同时挂接在总线上，并能同时接收总线上传输的信息。
6.1.1 总线的分类
考点追踪	总线相关的概念与特点(2016、2017)
1)内部总线。内部总线指芯片内部的总线，也称片内总线，用于CPU芯片内部各寄存器之间以及寄存器与ALU之间的连接。
2)系统总线。指计算机系统内各功能部件(如CPU、主存、I/O接口)之间相互连接的总线。根据所传输信息的内容不同，系统总线可分为以下三类：
考点追踪	数据总线上传输的内容(2011)
①数据总线用于在各部件之间双向传输数据信息，包括指令、操作数、状态字、中断类型号等。其位数反映了CPU一次能并行传送的数据位数。
②地址总线用于指定要访问的主存单元或I/O端口的地址。它是单向总线，其位数决定了系
第6章总线	275
统最大可寻址空间。为减少芯片引脚数量并降低成本，部分硬件架构采用地址线与数据线复用设计，此时地址与数据信息分时在同一组物理线路上传输。
③控制总线用于传输各种协调与控制信号，以确保各部件同步、有序地工作。典型信号包括：时钟、复位、总线请求/允许、中断请求/响应、存储器读/写、I/O读/写、传输确认等。控制总线由若干单向或双向信号线组成，其具体构成取决于系统设计需求。
3)I/O总线。用于连接主机与其内部的各类I/O控制器(如显卡、网卡等)，通常采用标准化内部总线协议，如PCI、AGP、PCI Express等。
4)通信总线。用于主机与外部I/O设备之间或不同计算机系统之间的通信。这类总线需要适应不同的传输距离、速率和电气规范，典型代表包括RS-232、USB等。
*6.1.2常见的总线标准①
总线标准是国际上制定的、用于互连计算机各功能模块的规范，是构建计算机系统时必须遵循的接口协议。典型的总线标准包括ISA、EISA、VESA、PCI、AGP、PCI-Express、USB等。它们的主要区别是总线宽度、带宽、时钟频率、寻址能力、是否支持突发传送等。
考点追踪总线标准的英文缩写(2010)
1)ISA, Industry Standard Architecture,工业标准体系结构。最早的系统总线标准，传输速率低、CPU占用率高、占用较多中断资源。属于系统总线、并行总线。
2)EISA, Extended Industry Standard Architecture,扩展的ISA。在ISA基础上扩展，支持多主控器和突发传送，且完全兼容ISA。属于系统总线、并行总线。
考点追踪区分设备总线和局部总线(2013)
3)VESA, Video Electronics Standards Association,视频电子标准协会。一种32位局部总线标准，为满足多媒体PC对高速图像数据传输的需求而设计。属于局部总线、并行总线。局部总线是一种位于CPU与ISA总线之间的高速扩展总线，旨在将高速外部设备(如显卡、磁盘控制器)从低速ISA总线迁移至更接近CPU的数据通路，以提升I/O性能。
4)PCI, Peripheral Component Interconnect,外部设备互连。高性能的32位或64位总线，广泛用于显卡、声卡、网卡等扩展卡。PCI总线是一个与处理器时钟频率无关的高速外围总线，支持即插即用。属于局部总线、并行总线。
5)AGP, Accelerated Graphics Port,加速图形接口。专为图形卡设计的高速接口，允许显卡直接高效访问系统主存，用于加速3D图形和视频处理。属于局部总线、并行总线。
考点追踪PCI-E总线的特点(2017)
6)PCI-E, PCI-Express。采用高速串行点对点连接，由多条通道组成(如×1、×16)，支持全双工通信，传输速率远超PCI和AGP。属于局部总线、串行总线。
7)RS-232C。一种用于数据终端设备(DTE)与数据通信设备(DCE)之间进行串行二进制通信的标准接口。属于设备总线、串行总线。
考点追踪USB总线的特点(2012)
8)USB, Universal Serial Bus,通用串行总线。用于连接外部I/O设备，支持即插即用、热插拔和多设备级联，广泛应用于键盘、鼠标、移动存储等。属于设备总线、串行总线。
9)PCMCIA, Personal Computer Memory Card International Association。主要用于笔记本电脑
①本节内容已于2021年从统考大纲中删除，仅供学习参考。
276 2027年计算机组成原理考研复习指导
的扩展卡标准，支持即插即用。属于设备总线、并行总线。
10）IDE,Integrated Drive Electronics,集成设备电路。更准确称为ATA,是连接主板与硬盘/光驱的传统并行接口。属于设备总线、并行总线。
11）SCSI,Small Computer System Interface,小型计算机系统接口。一种高性能的系统级设备接口，常用于服务器硬盘等。属于设备总线、并行总线。
12）SATA,Serial Advanced Technology Attachment,串行高级技术附件。IDE/ATA的串行替代标准，采用高速串行传输。属于设备总线、串行总线。
6.1.3 总线的性能指标
1）总线传输周期。指完成一次完整总线事务（如一次读或写操作）的总时间，通常由若干总线时钟周期组成，简称总线周期。
2）总线时钟频率。即总线基础时钟信号的频率，是总线时钟周期的倒数。早期总线的时钟与CPU时钟同频，随着CPU的快速发展，现代总线的时钟通常独立于CPU时钟。
3）总线工作频率。总线工作频率指总线每秒能进行的有效数据传输次数。早期总线每个时钟周期仅传输一次数据，此时总线工作频率等于时钟频率。现代总线一个时钟周期内可以传送2次、4次甚至更多次数据。因此，总线工作频率可达时钟频率的2倍、4倍等。
4）总线宽度。即总线中数据线的条数，决定了每次能并行传输的数据位数。
考点追踪   总线带宽的分析与计算(2009、2013、2014、2018—2020、2024、2025)
5）总线带宽。总线带宽指总线在单位时间内所能传输的最大数据量。计算公式为总线带宽 =总线宽度×总线工作频率
例如，若某总线的时钟频率为11MHz，每个时钟周期可传送2次数据(工作频率为11×2=22MHz),总线宽度为16位（2字节），则总线带宽：= 2 × 2 2 × 1 0^{6} = 4 4 M B / s 。
注	意
计算带宽（最大数据传输率）时，应依据总线的物理参数（宽度、时钟频率、每周期传输的次数），反映其理论峰值传输能力，无须考虑具体总线事务中的地址/命令开销或突发传输细节。仅在求平均数据传输率时，才需要分析事务时序。切勿将“两个设备间一次通信的有效速率”误当作“总线带宽”。
总线最主要的性能指标为总线宽度、总线工作频率和总线带宽。
6）总线复用。指同一组信号线在不同时间段传输不同类型的信息。例如，地址/数据线复用中，数据线在初期传输地址，后期传输数据。因此可减少引脚数量，节省硬件成本。
7）总线寻址能力。由地址线的位数决定，表示CPU能访问的最大地址空间。例如，16位地址线可寻址2^{1 6} = 6 5 5 3 6个存储单元；若每个单元为1B，则最大寻址空间为64KB.
6.1.4 总线的结构
总线是计算机系统中各功能部件之间传递信息的公共通道，其结构设计直接影响系统的整体性能和扩展能力。随着处理器速度的不断提升，总线结构经历了从简单共享到分层并行，再到高度集成的演进过程，核心目标始终是提升带宽、降低延迟、打破通信瓶颈。
1.早期共享总线结构
在计算机发展的早期阶段，普遍采用单总线结构：CPU、主存储器和各类I/O设备均挂接在同一条系统总线上，如图6.1所示。这种结构实现简单、成本低廉，但所有设备必须分时竞争总
第6章总线
线使用权，导致频繁的传输冲突，效率低下，难以满足高速外设的数据吞吐需求。
CPU 主存显卡磁盘接口
系统总线
I/O接口
BIOS 计时器 DMA控制器 中断控制器 I/O设备
图6.1单总线结构示意图
为缓解CPU与主存之间的通信压力，后续引入了双总线结构，增设一条专用的存储总线，使CPU与主存的数据交换独立于I/O通路。尽管主存访问效率有所提升，但I/O设备若需要与主存交换数据，仍要通过CPU中转，形成了新的性能瓶颈。
进一步改进的三总线结构增加了DMA(直接内存访问)总线，允许高速I/O设备通过DMA控制器直接与主存通信，无须CPU干预。这一设计显著提升了I/O的吞吐能力。然而，传统总线固有的共享式、广播式特性，仍然限制了系统的并发性和可扩展性。
2.传统分层总线：南北桥结构
为突破早期共享总线的性能瓶颈，主流PC系统逐步转向分层次的多总线结构，典型代表是Intel在Pentium 4及早期Core系列处理器平台上广泛采用的南北桥结构，如图6.2所示。
CPU
FSB总线
PCI总线	北桥芯片	内存总线
图形卡	(MCH)	内存
桥间总线
USB总线	南桥芯片	SATA总线
USB设备	(ICH)	磁盘
ISA总线	串行总线
BIOS	其他外设
图6.2南北桥结构示意图
该结构将系统划分为两个功能区域：
1)北桥芯片(Memory Controller Hub, MCH)作为高速枢纽，连接CPU、主存和显卡，负责高带宽数据传输。
2)南桥芯片(I/O Controller Hub, ICH)是一个I/O控制器集线器，负责管理USB、SATA、以太网等低速I/O接口，并提供扩展槽支持。
在这一结构中，CPU与北桥之间的互连通道称为前端总线(Front Side Bus, FSB)，也称系统总线。CPU通过FSB连接至北桥，再经由北桥分别与主存(通过存储器总线)和显卡通信。而各类I/O设备(如USB设备、网卡、磁盘等)则通过各自的设备控制器接入南桥，北桥与南桥之间通过专用的桥间总线互连，最终形成从I/O到CPU和主存的完整数据通路。
尽管该结构实现了存储通路与I/O通路的物理分离，但所有数据(包括内存访问、显卡通信
278	2027年计算机组成原理考研复习指导
以及I/O传输）最终仍需要通过前端总线汇聚至CPU。因此，FSB成为整个系统的唯一高性能通道，其共享式特性反而演变为新的性能瓶颈，严重制约了系统整体吞吐能力的进一步提升。
3.现代集成化总线结构
自 Intel Core i7 处理器起，总线结构迎来新的转变：北桥芯片的核心功能(如内存控制器)被集成到CPU 内部，传统北桥随之消失，系统互连方式转向片上集成与点对点互连。
这一转变带来三大重要优势：
1)内存访问路径缩短。CPU 可通过片上存储器控制器直接访问主存，无须经过北桥中转。同时，普遍支持多通道DDR内存(如双通道、三通道)，各通道并行工作，理论带宽近似为单通道的整数倍。例如，三通道DDR3-1333的峰值带宽可达单通道的3倍。
2) 处理器间高速互连。多核 CPU 内核之间、多 CPU 芯片之间通过 QPI (QuickPath Interconnect)等点对点高速串行链路实现数据交换。QPI不仅用于CPU间通信，还用于连接CPU与IOH (输入/输出集线器，类似于早期的南桥)，大幅提升了互连效率。
3)I/O通路直连。高速外设(如显卡、SSD)通过PCIe通道直接接入CPU,绕过南桥；低速设备则由集成度更高的PCH (Platform Controller Hub,新一代南桥)统一管理。
6.1.5 本节习题精选
一、单项选择题
01.挂接在总线上的多个部件()。
A.只能分时向总线发送数据，并只能分时从总线接收数据
B.只能分时向总线发送数据，但可同时从总线接收数据
C.可同时向总线发送数据，并同时从总线接收数据
D.可同时向总线发送数据，但只能分时从总线接收数据
02.在计算机系统中，多个系统部件之间信息传送的公共通路称为总线，就其所传送的信息的性质而言，下列()不是在公共通路上传送的信息。
A.数据信息	B.地址信息	C.系统信息	D.控制信息
03.系统总线用来连接()。
A.寄存器和运算器部件	B.运算器和控制器部件
C.CPU、主存和外设部件	D.接口和外部设备
04.计算机使用总线结构便于增减外设，同时()。
A.减少信息传输量	B.提高信息的传输速度
C.减少信息传输线的条数	D.提高信息传输的并行性
05.间址寻址第一次访问内存所得到的信息经系统总线的()传送到 CPU。
A.数据总线	B.地址总线	C.控制总线	D.总线控制器
06.系统总线中地址线的功能是()。
A.选择主存单元地址	B.选择进行信息传输的设备
C.选择外存地址	D.指定主存和I/O设备接口电路的地址
07.系统总线中控制线的主要功能是()。
A.提供时序信号
B.提供主存和I/O模块的回答信号
C.提供定时信号、操作命令和各种请求/回答信号等
第6章总线	279
D.提供数据信息
08.不同信号在同一条信号线上分时传输的方式称为（	）。
A.总线复用方式	B.并串行传输方式
C.并行传输方式	D.串行传输方式
09.主存通过（	）来识别信息是地址还是数据。
A.总线的类型	B.存储器数据寄存器(MDR)
C.存储器地址寄存器(MAR)	D.控制单元(CU)
10.在32位总线系统中，若时钟频率为500MHz，传送一个32位字需要5个时钟周期，则该总线的数据传输速率是（	）。
A.200MB/s	B.400MB/s	C.600MB/s	D.800MB/s
11.传输一幅分辨率为640像素×480像素、颜色数量为65536的照片（采用无压缩方式），假设有效数据的传输速率为56kb/s，则大约需要的时间是（	）。
A.34.82s	B.43.86s	C.85.71s	D.87.77s
12.某总线有104根信号线，其中数据线(DB)为32根，若总线工作频率为33MHz，则其理论最大传输速率为（	）。
A.33MB/s	B.64MB/s	C.132MB/s	D.164MB/s
13.在一个16位的总线系统中，若时钟频率为100MHz，总线周期为5个时钟周期传输一个字，则总线带宽是（	）。
A.4MB/s	B.40MB/s	C.16MB/s	D.64MB/s
14.下列信号中，可在系统总线中的控制总线上传输的有（	）。
I.存储器和I/O设备的地址信息	II.存储器和I/O设备的时序信号、控制信号
III.存储器和I/O设备的响应信号	IV.存储器中存放的数据
A.I和IV	B.II和III	C.I、II和III	D.II、III和IV
15.总线中，有些信息是单向传输的，有些信息是双向传输的，下列说法中正确的是（	）。
A.数据信息是单向传输的，由内存或外设传送至CPU
B.地址信息是单向传输的，由CPU发送至内存或外设
C.控制信息是双向传输的，由CPU发送至内存或外设，也可反向
D.状态信息是双向传输的，由CPU发送至内存或外设，也可反向
16.【2009统考真题】假设某系统总线在一个总线周期中并行传输4字节信息，一个总线周期占用2个时钟周期，总线时钟频率为10MHz，则总线带宽是（	）。
A.10MB/s	B.20MB/s	C.40MB/s	D.80MB/s
17.【2010统考真题】*下列选项中的英文缩写均为总线标准的是（	）。
A.PCI、CRT、USB、EISA	B.ISA、CPI、VESA、EISA
C.ISA、SCSI、RAM、MIPS	D.ISA、EISA、PCI、PCI-Express
18.【2011统考真题】在系统总线的数据线上，不可能传输的是（	）。
A.指令	B.操作数	C.握手（应答）信号	D.中断类型号
19.【2012统考真题】*下列关于USB总线特性的描述中，错误的是（	）。
A.可实现外设的即插即用和热拔插	B.可通过级联方式连接多台外设
C.是一种通信总线，连接不同外设	D.同时可传输2位数据，数据传输速率高
20.【2013统考真题】*下列选项中，用于设备和设备控制器之间互连的接口标准是（	）。
A.PCI	B.USB	C.AGP	D.PCI-Express
280	2027年计算机组成原理考研复习指导
21.【2014统考真题】某同步总线采用数据线和地址线复用方式，其中地址/数据线有32根，总线时钟频率为66MHz，每个时钟周期传送两次数据（上升沿和下降沿各传送一次数据），该总线的最大数据传输速率（总线带宽）是（	）。
A. 132MB/s	B. 264MB/s	C. 528MB/s	D. 1056MB/s
22.【2019统考真题】某计算机采用3通道存储器总线，配套的内存条型号为DDR3-1333，即内存条所接插的存储器总线的工作频率为1333MHz，总线宽度为64位，则存储器总线的总带宽大约是（	）。
A. 10.66GB/s	B. 32GB/s	C. 64GB/s	D. 96GB/s
23.【2020统考真题】QPI总线是一种点对点全双工同步串行总线，总线上的设备可同时接收和发送信息，每个方向可同时传输20位信息（16位数据+4位校验位），每个QPI数据包有80位信息，分2个时钟周期传送，每个时钟周期传递2次。因此，QPI总线带宽为：每秒传送次数×2B×2。若QPI时钟频率为2.4GHz，则总线带宽为（	）。
A. 4.8GB/s	B. 9.6GB/s	C. 19.2GB/s	D. 38.4GB/s
24.【2024统考真题】某存储器总线的时钟频率为420MHz，总线宽度为64位，每个时钟周期传送2次数据；其总线事务支持突发传送方式，最多传送8次数据，第1个时钟周期传送地址和读/写命令，从第4个至第7个时钟周期连续传送8次数据。该总线的总线带宽（最大数据传输率）为（	）。
A. 3.84GB/s	B. 6.72GB/s	C. 30.72GB/s	D. 53.76GB/s
25.【2025统考真题】某处理器总线采用同步、并行传输方式，每个总线时钟周期传送4次数据(quadpumped技术)。若该总线的工作频率为1333MHz（实际单位是MT/s，表示每秒传送1333M次），总线宽度为64位，则总线带宽约为（	）。
A. 10.66GB/s	B. 42.66GB/s	C. 85.31GB/s	D. 341.25GB/s
二、综合应用题
01.某总线的时钟频率为66MHz，在一个64位总线中，总线数据传输的周期是7个时钟周期传输6个字的数据块。
1)总线的数据传输速率是多少？
2)若不改变数据块的大小，而将时钟频率减半，这时总线的数据传输速率是多少？
02.某总线支持二级Cache块传输方式，若每块6个字，每个字长4字节，时钟频率为100MHz。
1)读操作时，第一个时钟周期接收地址，第二、三个为延时周期，另用4个周期传送一个块。读操作的总线传输速率为多少？
2)写操作时，第一个时钟周期接收地址，第二个为延时周期，另用4个周期传送一个块，写操作的总线传输速率是多少？
3)设在全部的传输中，70%的时间用于读，30%的时间用于写，该总线在本次传输中的平均传输速率是多少？
6.1.6	答案与解析
一、单项选择题
01. B
为了使总线上的数据不发生“冲突”，挂在总线上的多个设备只能分时地向总线发送数据，即某个时刻只能有一个设备向总线传送数据，而从总线接收数据的设备可以有多个，因为接收数
第6章总线	281
据的设备不会对总线产生“干扰”。
02. C
总线包括数据线、地址线和控制线，传送的信息分别为数据信息、地址信息和控制信息。
03. C
系统总线用于连接计算机中的各个功能部件（如CPU、主存和I/O设备）。
04. C
计算机使用总线结构便于增减外设，同时减少信息传输线的条数。但相对于专线结构，实际上也降低了信息传输的并行性及信息的传输速度。
05. A
间址寻址首次访问内存所得到的信息是操作数的有效地址，该地址作为数据通过数据总线传送至CPU，地址总线是用于CPU选择主存单元地址和I/O端口地址的单向总线，不能回传。
地址总线由单向的多根信号线组成，可用于CPU向主存、外设传送地址信息；数据总线由双向的多根信号线组成，CPU既可以沿着这些线从主存或外设读入数据，又可以发送数据；控制总线上传输控制信息，包括控制命令和反馈信号等。
06. D
地址总线上的代码用来指明CPU要访问的存储单元或I/O端口的地址。
07. C
系统总线中控制线的主要功能是提供定时信号、操作命令和各种请求/回答信号等。
08. A
串行传输是指数据的传输在一条线路上按位进行，并行传输是指每个数据位有一条单独的传输线，所有数据位同时传输。不同信号在同一条信号线上分时传输的方式，称为总线复用。
09. A
地址和数据在不同的总线上传输，根据总线传输信息的内容进行区分，地址在地址总线上传输，数据在数据总线上传输。
10. B
总线带宽=总线宽度×总线频率，本题中的总线宽度为32位，即4B，总线频率为500MHz/5=100MHz，因此总线的数据传输速率为4B×(500MHz/5)=400MB/s。
11. D
65536=2¹⁶色，因此颜色深度为16位，占据的存储空间为640×480×16=4915200位。有效传输时间=4915200÷(56×10³)s≈87.77s。
12. C
数据总线32根，因此每次传输32位，即4B数据，总线工作频率为33MHz，因此理论最大传输速率为33×4=132MB/s。
13. B
时钟频率为100MHz，因此时钟周期=1/100MHz=0.01μs，总线周期=5个时钟周期=5×0.01μs=0.05μs，总线工作频率=1/0.05=20MHz，因总线是16位的，即2B，因此总线带宽=20×(16/8)=40MB/s。
14. B
控制总线主要用来传输计算机内各种控制信号，控制信号包括存储器和I/O设备的时序信号和响应信号，说法Ⅱ、Ⅲ正确。存储器和I/O设备的地址信息通过地址总线传输，说法Ⅰ错误。存储器中存放的数据通过数据总线传输，说法IV错误。
282	2027年计算机组成原理考研复习指导
15. B
总线中，数据总线是双向传输的，数据信息既可由CPU传送至内存或外设，又可由内存、外设传送至CPU，选项A错误。地址总线是单向传输的，地址信息只能由CPU发送至内存或外设，选项B正确。控制信息和状态信息也是单向传输的，它们的传输方向正好相反，控制信息通过控制总线由CPU发送至内存或外设，而状态信息则通过状态总线由内存或外设发送至CPU。
16. B
总线带宽是指单位时间内总线上传输数据的位数，通常用每秒传送信息的字节数来衡量，单位为B/s。由题意可知，在1个总线周期（=2个时钟周期）内传输了4字节信息，时钟周期=1/10MHz=0.1μs,因此总线带宽为4B÷(2×0.1μs)=4B÷(0.2×10⁻⁶s)=20MB/s。
17. D
选项A中的CRT表示阴极射线管显示器；选项B中的CPI表示每条指令的时钟周期数；选项C中的RAM表示半导体随机存储器、MIPS表示每秒执行多少百万条指令数。
18. C
取指令时，指令便是在数据线上传输的。操作数显然在数据线上传输。中断类型号用于指出中断向量（中断服务程序的入口地址）的地址，CPU响应某一外部中断后，就会从数据总线上获取该中断源的中断类型号，然后据此计算对应中断向量在中断向量表（存放在内存中）的位置。而握手（应答）信号属于总线定时的控制信号，应在控制总线上传输。
19. D
USB的特点有：①即插即用；②热插拔；③有很强的连接能力，采用菊花链形式将众多外设连接起来；④有很好的可扩充性，一个USB控制器可扩充高达127个外部USB设备；⑤高速传输，速率可达480Mb/s。USB是串行总线，不能同时传输2位数据，选项D错误。
20. B
USB是一种连接外部设备的I/O总线标准，属于设备总线，是设备和设备控制器之间的接口。而PCI、AGP、PCI-E作为计算机系统的局部总线标准，通常用来连接主存、网卡、视频卡等。
21. C
数据线有32根，也就是一次可以传送32b/8=4B的数据，66MHz意味着有66M个时钟周期，而每个时钟周期传送两次数据，可知总线每秒传送的最大数据量为66M×2×4B=528MB，所以总线的最大数据传输速率为528MB/s。
22. B
由题目可知，计算机采用3通道存储器总线，存储器总线的工作频率为1333MHz，即1s内传送1333M次数据，总线宽度为64位即单条总线工作一次可传输8字节，因此存储器总线的总带宽为3×8×1333MB/s,约为32GB/s。
23. C
每个时钟周期传送2次，所以每秒传送的次数=时钟频率×2=2.4G×2/s。
总线带宽=每秒传送次数×2B×2=2.4G×2×2B×2/s=19.2GB/s。
题中已给出总线带宽公式，降低了难度。公式中的“×2B”是因为每次传输16位数据。
注意，计算总线带宽或数据传输速率时，是否包含校验位、控制位等开销并无统一标准，要以题干为准。尽管QPI每周期实际传输20位（含4位校验），但本题明确按16位有效数据计算带宽。无特别说明时，通常默认仅计入有效用户数据，不含额外开销。
24. B
总线带宽（最大数据传输率）是理想情况（所有总线周期都在传送数据）下，不需考虑每个总
第6章总线 283
线事务的具体情况，而计算(平均)数据传输率才需考虑每个总线事务的具体情况。因此，题中“其总线事务支持……连续传送8次数据。”这句话属于干扰条件。根据定义，总线带宽=总线宽度×总线时钟频率×每个时钟周期传送数据的次数=64bit×420MHz×2=6.72GB/s。
25. A
总线带宽=每秒传输次数×每次传输的数据量。题中每秒传输1333M次，每次传输64位(8字节)。因此，带宽=1333M×8B/s=10664MB/s,约为10.66GB/s。
二、综合应用题
01.【解答】
1)总线周期为7个时钟周期，总线频率为66/7MHz。
总线在一个完整的操作周期中传输了一个数据块，总线在一个周期内传输的数据量为64bit/8×6=48B，所以总线的宽度为48B，传输速率为48B×66/7MHz=452.6MB/s。
2)时钟频率减半时的总线频率为(66/7)/2MHz，因数据块大小不变，因此总线宽度仍为48B，传输速率为48B×33/7MHz=226.3MB/s。
注意总线周期和时钟周期的联系与区别，总线周期通常由多个时钟周期组成。
02.【解答】
1)读操作的时钟周期数：1+2+4=7
对应的频率： 100MHz/7
总线宽度： 6×4B=24B
所以数据传输速率=总线宽度/读操作时间=24×(100MHz/7)=343MB/s。
2)写操作的时钟周期数：1+1+4=6
对应的频率： 100MHz/6
总线宽度： 6×4B=24B
所以数据传输速率=总线宽度/写操作时间=24×(100MHz/6)=400MB/s。
3)平均传输速率=343×70%+400×30%=360.1MB/s。
6.2总线事务和定时
6.2.1总线事务
在总线上，主设备(如CPU、DMA控制器)与从设备(如主存、I/O设备)之间完成一次完整的信息交换过程，称为一个总线事务。总线事务的类型由操作性质决定，典型的包括存储器读(从主存取数据至处理器)、存储器写(向主存写入数据)、I/O读/写、中断响应等。
每个总线事务通常包含三个基本阶段(依据历年真题)：
1)地址传送阶段：主设备将目标地址和操作类型(读/写)通过总线传送给从设备。
2)从设备响应阶段(也称数据准备阶段)：从设备根据地址准备数据(该阶段的耗时由设备特性决定，若题中未明确提及，则通常可忽略)。
3)数据传送阶段：完成实际数据在总线上的传输。
(1)非突发传输与突发传输
总线上连续数据的传输可采用非突发或突发两种方式。
284 2027年计算机组成原理考研复习指导
考点追踪	非突发传输的时间分析(2023)
非突发传输方式：每次仅传输一个数据单元（通常为一个总线宽度的数据）。每次传输都必须独立经历完整的三阶段流程——先发送地址，等待从设备准备数据，再传输数据。因此，即使连续读取多个相邻数据，也需要重复发送地址，导致地址开销大、效率较低。
考点追踪	突发传输的特点与时间分析(2012—2014)
突发传输方式：用于高效传输连续成块的数据。事务开始时，主设备仅发送数据块的首地址；随后，在不释放总线的前提下，连续传送多个数据单元。后续地址由硬件自动递增生成（如首地址+1、首地址+2……），无须重复使用地址线。
因此，在相同总线宽度和时钟频率下，突发传输省去了多次地址传送开销，显著提升了有效带宽，广泛应用于高速存储器访问(如SDRAM行读取、Cache块填充)等场景。简言之，非突发方式是“一次地址，一次数据”，突发方式是“一次地址，多次数据”。
(2)串行传输与并行传输
数据在总线上的物理传输可采用串行或并行两种方式。
串行传输方式：数据按比特位依次顺序传输，通常仅使用一条双向线路或两条单向线路（发送/接收各一）。优点是引脚少、布线简单、抗干扰能力强，适合长距离通信(如USB、PCIe、SATA)。在串行传输中，根据收发双方的时序协调方式，又可分为同步串行通信和异步串行通信。
1）同步串行通信：由发送方时钟直接控制接收方时钟，实现位同步。收发双方的时钟严格一致，仅在数据块首尾添加开始和结束标记，传输效率高，但硬件实现复杂，成本较高。
考点追踪	异步串行通信方式的特点(2016)
2）异步串行通信：收发双方使用独立时钟，无须严格同步。每个字符独立传输，并通过起始位（逻辑0）标识开始，停止位（逻辑1）标识结束。当通信线路空闲时，保持逻辑1状态；发送方要传送字符时，先发送一个逻辑0作为起始位。接收方检测到该逻辑低电平后，便开始接收数据。数据位从最低位开始逐位发送；发送完数据位后，可选择性地发送一位奇偶校验位，用于简单的差错检测；随后发送停止位，表示该字符的结束。
并行传输方式：利用多条数据线同时传输多个比特位（如32位、64位总线），理论上单周期即可完成一个字的传输，短距离内延迟低、吞吐高。但随着频率的提高，信号串扰和时序偏移问题加剧，限制了工作频率的提升。因此，并行传输更适合板级或芯片级的短距离通信（如早期PCI、内存总线）。
注	意
并行传输并不总是比串行传输更快。受限于电气特性，并行总线的工作频率难以持续提高；而串行传输可通过提升频率等方式实现更高的总带宽。因此，现代高速接口多采用串行化设计。
6.2.2 总线定时
总线定时是指总线上主设备与从设备在交换数据时，用于协调双方操作时序的控制协议。其实质是一种时序规则，主要有同步、异步、半同步和分离式四种方式。
考点追踪	各种总线定时方式的特点 (2015、2021)
1.同步定时方式
同步定时方式采用系统统一的时钟信号来协调发送方和接收方的传送定时关系。时钟产生相
第6章总线
等的时间间隔，每个间隔构成一个总线周期，每次数据传送在一个总线周期内完成。由于采用统一时钟，所有操作必须严格在固定周期内进行，总线周期连续进行。
优点：传送速度快，具有较高的传输速率；总线控制逻辑简单。
缺点：主从设备之间属于强制性同步，所有操作严格受时钟节拍约束；缺乏应答或握手机制，无法根据从设备的实际状态动态调整时序，可靠性较差。
适用场景：适用于总线长度较短，且所连接各部件的存取时间比较接近的系统。
2.异步定时方式
异步定时方式不依赖统一的时钟信号，而是通过主从设备之间的握手信号实现定时控制：主设备发出“请求”信号；从设备准备就绪后，发出“回答”信号。
优点：总线周期长度可变，能可靠连接工作速度差异较大的设备，自适应性强。
缺点：控制逻辑复杂，因多次信号交互，整体传输速率较低。
根据“请求”与“回答”信号的撤销是否互锁，异步定时可分为三类：
1)不互锁方式。主设备发出“请求”后，在预设时延t₁后自行撤销；从设备收到请求后立即发出“回答”，并在时延t₂后自动撤销。双方无互锁关系，如图6.3(a)所示。
2)半互锁方式。主设备必须收到“回答”后才撤销“请求”（存在互锁）；但从设备发出“回答”后，无须确认“请求”是否撤销，在时延t₃后自动撤销（无互锁），如图6.3(b)所示。
3)全互锁方式。主设备需收到“回答”才撤销“请求”；从设备需确认“请求”已撤销后才撤销“回答”。双方完全互锁，可靠性最高，如图6.3(c)所示。
请求
回答
t₂
t₂
(a)不互锁
(b)半互锁
(c)全互锁
图6.3请求和回答信号的互锁
适用场景：适用于连接速度差异大、对可靠性要求较高而对速率要求不苛刻的系统。
3.半同步定时方式
半同步定时方式结合了同步与异步的优点：地址、命令、数据的发送严格参照系统时钟前沿（如上升沿）；接收方通常在时钟后沿（如下降沿）进行识别；同时增设一条 Wait信号线，允许慢速从设备反馈准备状态。主设备在时钟上升沿检测 Wait信号状态。若Wait无效（高电平），表示数据未就绪，主设备将插入等待周期；直到 Wait有效（低电平），才从数据线读取数据。
优点：在统一时钟下工作，控制比异步方式简单，可靠性较高。
缺点：系统时钟频率受限于最慢设备，整体速度不高。
适用场景：适用于包含多种速度差异较大设备、但性能要求不高的简单系统。
上述三种定时方式均采用“独占式事务模型”：从主设备发起请求到传送结束，总线全程被该事务占用。然而，在从设备准备数据阶段，总线虽被占用却处于空闲状态，造成资源浪费。
4.分离式定时方式
分离式定时方式将一个总线事务拆分为两个独立子阶段：请求阶段与应答阶段，两阶段之间
286	2027年计算机组成原理考研复习指导
释放总线。请求阶段：主设备A获得总线使用权，发送地址和命令后立即释放总线，供其他设备使用。应答阶段：从设备B准备好数据后，主动申请总线，并以主设备身份将数据发回给A。两个子阶段均为单向信息流，且总线在准备期间可被其他事务使用。
优点：显著减少总线空闲等待时间，提高总线利用率。
缺点：控制逻辑复杂，协议开销大，对总线仲裁和事务管理机制要求高。
适用场景：适用于多主设备竞争激烈且从设备响应延迟较大的高性能系统。
6.2.3	本节习题精选
单项选择题
01. 下列有关同步总线事务的描述中，错误的是（	）。
A. 一个总线事务需多个总线时钟周期完成
B. 总线事务开始时，先将地址和读/写命令发送到总线
C. “存储器读”总线事务中，地址与数据通常分时传输
D. 一次总线事务只能完成一次数据交换
02. 在不同速度的设备之间传送数据，（	）。
A. 必须采用同步控制方式
B. 必须采用异步控制方式
C. 可以选用同步控制方式，也可选用异步控制方式
D. 必须采用应答方式
03. 同步控制方式是（	）。
A. 只适用于CPU控制的方式
B. 只适用于外部设备控制的方式
C. 由统一的时序信号控制的方式
D. 所有指令执行时间都相同的方式
04. 同步通信之所以比异步通信具有较高的传输速率，是因为（	）。
A. 同步通信不需要应答信号且总线长度较短
B. 同步通信用一个公共的时钟信号进行同步
C. 同步通信中，各部件的存取时间较接近
D. 以上各项因素的综合结果
05. 下列选项中，属于同步传输特点的是（	）。
A.需要应答信号
B.各部件的存取时间比较接近
C.总线长度较长
D.总线周期长度可变
06. 在异步总线中，传送操作（	）。
A.由设备控制器控制
B. 由CPU控制
C.由统一时序信号控制
D.按需分配时间
07. 总线的异步通信方式是（	）。
A.既不采用时钟信号，又不采用“握手”信号
B.只采用时钟信号，不采用“握手”信号
C.不采用时钟信号，只采用“握手”信号
D.既采用时钟信号，又采用“握手”信号
08. 在各种异步通信方式中，（	）的速度最快。
A.全互锁
B.半互锁
C.不互锁
D.速度均相等
09. 在下列各种情况下，最应采用异步传输方式的是（	）。
第6章总线 287
A. I/O接口与打印机交换信息 B. CPU与主存交换信息
C. CPU和PCI总线交换信息 D.由统一时序信号控制方式下的设备
10.假设某存储器总线采用同步通信方式，时钟频率为50MHz，总线以突发方式传输8个字，以支持块长为8个字（每个字4B）的Cache行的读/写。若全部访问都为读操作，访问顺序是1个时钟周期接收地址，3个时钟周期等待存储器读数，8个时钟周期用于传输8个字。则该存储器的数据传输速率为（	）。
A. 114.3MB/s B. 126MB/s C. 133.3MB/s D. 144.3MB/s
11.某I/O设备采用异步串行通信方式向主机传送7位ASCII字符。通信规程要求每个字符后附加1位奇校验位。若要求每秒传送480个字符，则该设备在异步串行线路上每秒传输的比特数为（	）。
A. 3360 B. 38400 C. 3840 D. 4800
12.下列关于计算机总线的叙述中，正确的是（	）。
A.现代高速总线普遍采用并行同步方式以提高带宽
B.突发传输过程中，CPU需在每个时钟周期通过地址线发送待访问字的完整地址
C.计算机系统中的所有总线共享同一时钟信号与控制协议
D.采用总线事务分离技术可避免总线空闲等待，提升总线利用率
13.【2012统考真题】某同步总线的时钟频率为100MHz，宽度为32位，地址/数据线复用，每传输一个地址或数据占用一个时钟周期。若该总线支持突发（猝发）传输方式，则一次“主存写”总线事务传输128位数据所需要的时间至少是（	）。
A. 20ns B. 40ns C. 50ns D. 80ns
14.【2014统考真题】一次总线事务中，主设备只需给出一个首地址，从设备就能从首地址开始的若干连续单元读出或写入多个数据。这种总线事务方式称为（	）。
A.并行传输 B.串行传输 C.突发传输 D.同步传输
15.【2015统考真题】下列有关总线定时的叙述中，错误的是（	）。
A.异步通信方式中，全互锁协议最慢
B.异步通信方式中，不互锁协议的可靠性最差
C.同步通信方式中，同步时钟信号可由各设备提供
D.半同步通信方式中，握手信号的采样由同步时钟控制
16.【2016统考真题】下列关于总线设计的叙述中，错误的是（	）。
A.并行总线传输比串行总线传输速度快
B.采用信号线复用技术可减少信号线数量
C.采用突发传输方式可提高总线数据传输速率
D.采用分离事务通信方式可提高总线利用率
17.【2017统考真题】下列关于多总线结构的叙述中，错误的是（	）。
A.靠近CPU的总线速度较快 B.存储器总线可支持突发传送方式
C.总线之间须通过桥接器相连 D.PCI-Express×16采用并行传输方式
18.【2018统考真题】下列选项中，可提高同步总线数据传输速率的是（	）。
I.增加总线宽度 II.提高总线工作频率
III.支持突发传输 IV.采用地址/数据线复用
A.仅I、II B.仅I、II、III C.仅III、IV D.I、II、III和IV
19.【2021统考真题】下列关于总线的叙述中，错误的是（	）。
288 2027年计算机组成原理考研复习指导
A.总线是在两个或多个部件之间进行数据交换的传输介质
B.同步总线由时钟信号定时，时钟频率不一定等于工作频率
C.异步总线由握手信号定时，一次握手过程完成一位数据交换
D.突发(Burst)传送总线事务可以在总线上连续传送多个数据
20.【2023统考真题】某存储器总线宽度为 64 位，总线时钟频率为 1GHz，在总线上传输一个数据或地址需要一个时钟周期，不支持突发传送方式。若通过该总线连接 CPU 和主存，主存每次准备一个64位数据需要6ns，主存块大小为32B，则读取一个主存块所需的时间是（	）。
A. 8ns	B. 11ns	C. 26ns	D. 32ns
6.2.4 答案与解析
单项选择题
01. D
同步总线事务通常包括地址/命令阶段和数据阶段，需要多个时钟周期完成；事务开始时，主设备先将地址和读/写命令发送到总线；地址与数据一般分时传输，不会同时出现在总线上。现代同步总线支持突发传输，允许一次总线事务连续传输多个数据单元，因此选项D错误。
02. C
在不同速度的设备之间传送数据时，既可采用同步方式，又可采用异步方式。异步方式主要用于在不同的设备间进行通信，两种速度不同的设备使用同一时钟进行控制时，采用同步控制方式同样可以进行数据的传送，但不能发挥快速设备的高速性能。
03. C
同步控制是指由统一时序控制的通信方式，同步通信采用公共时钟，有统一的时钟周期。同步控制既可用于 CPU 控制，又可用于高速的外部设备控制。
04. D
同步通信采用统一的时钟，每个部件发送或接收信息都在固定的总线传送周期中，一个总线传送周期结束，开始下一个总线传送周期。它适用于总线长度较短且各部件的存取时间较接近的情况，因此具有较高的传输速率。选项A、B、C都是正确原因。
05. B
各部件的存取时间比较接近时，最适合采用同步传输，以发挥其优势。
06. D
异步总线即采用异步通信方式的总线。在异步方式下，没有公用的时钟，完全依靠传送双方相互制约的“握手”信号来实现定时控制。传送操作是由双方按需求分配时间的。
07. C
异步通信方式也称应答方式，没有公用的时钟信号，也没有固定的时间间隔，完全依靠传送双方相互制约的“握手”信号来实现定时控制。
08. C
在全互锁、半互锁和不互锁三种“握手”方式中，只有不互锁方式的请求信号和回答信号没有相互的制约关系，主设备发出请求信号后，不必等待回答信号的到来，便自己撤销了请求信号，所以速度最快。
09. A
异步通信方式依靠“握手”信号来实现定时控制，能保证两个工作速度相差很大的部件或设
第6章总线
备之间可靠地进行信息交换。I/O接口与打印机的速度差异较大，应采用异步传输方式。
10. C
一次总线事务传输的数据量为8×4B=32B，所需时钟周期数为1+3+8=12，每个时钟周期为1/50MHz，总时间为12×(1/50MHz)=0.24μs。数据传输速率为32B÷[(12×(1/50MHz))s]=133.3MB/s。
11. D
异步串行通信规范规定，一个完整字符帧包含1位起始位、数据位(本题为7位ASCII码)、1位校验位(可选，本题指定为奇校验)和1位停止位，其中起始位与停止位为必需的控制信号。因此，每个字符帧共占用1+7+1+1=10位，每秒传输的比特数为10×480=4800。
12. D
现代高速总线(如PCIe、USB、SATA)普遍采用串行差分传输，而非并行同步方式。突发传输只需提供首地址，后续地址由设备自动递增，无须CPU逐周期发送完整地址。不同总线(如处理器总线、内存总线、PCIe)通常采用不同的时钟信号，且控制协议各不相同。总线事务分离技术解耦请求与数据响应，使总线在等待期间处理其他事务，减少空闲，提升利用率。
13. C
因为总线频率为100MHz，所以时钟周期为10ns。总线位宽与存储字长都是32位，因此每个时钟周期可传送一个32位存储字。猝发传输可以连续传送地址连续的数据，因此总传送时间为：传送地址10ns,传送128位数据40ns,共需50ns。
14. C
猝发(突发)传输是在一个总线周期中，可以传输多个存储地址连续的数据，即一次传输一个地址和一批地址连续的数据，并行传输是在传输中有多个数据位同时在设备之间进行的传输，串行传输是指数据的二进制代码在一条物理信道上以位为单位按时间顺序逐位传输的方式，同步传输是指传输过程由统一的时钟控制。
15. C
同步通信方式采用系统统一的时钟信号，而不是由各设备提供，否则无法实现统一的时钟。
16. A
并行总线通常比串行总线传输速率快，但这不是绝对的。在时钟频率较低的情况下，并行总线因为可以同时传输若干比特，速率确实比串行总线快。但是，随着技术的发展，时钟频率越来越高，并行总线之间的相互干扰越来越严重，当时钟频率提高到一定程度时，传输的数据已无法恢复。而串行总线因为线少，线间干扰容易控制，反而可通过不断提高时钟频率来提高传输速率，选项A错误。总线复用是指一种信号线在不同的时间传输不同的信息，它可使用较少的线路传输更多的信息，从而节省空间和成本，选项B正确。突发传输是指在一个总线周期中，可以传输多个存储地址连续的数据，即一次传输一个地址和一批地址连续的数据，选项C正确。分离事务通信是总线复用的一种，相比单一的传输线路可以提高总线的利用率，选项D正确。
17. D
多总线结构用速率高的总线连接高速设备，用速率低的总线连接低速设备。一般来说，CPU是计算机的核心，是计算机中速度最快的设备之一，选项A正确。突发传送方式把多个数据单元作为一个独立传输处理，从而最大化设备的吞吐量。现实中一般用支持突发传送方式的总线来提高存储器的读/写效率，选项B正确。各总线通过桥接器相连，后者起流量交换作用。PCI-Express总线都采用串行数据包传输数据。
18. B
总线数据传输速率=总线工作频率×总线宽度，说法I和Ⅱ会影响总线数据传输速率。采用
290	2027年计算机组成原理考研复习指导
突发（猝发）传输方式，可在一个总线周期内传输存储地址连续的多个数据字，因此能提高传输速率。采用地址/数据线复用只是减少了线的数量，节省了成本，并不能提高传输速率。
19. C
总线是在两个或多个设备之间进行通信的传输介质，选项A正确。同步总线是指总线通信的双方采用同一个时钟信号，但是一次总线事务不一定在一个时钟周期内完成，即时钟频率不一定等于工作频率，选项B正确。异步总线采用握手的方式进行通信，每次握手的过程完成一次通信，但是一次通信往往会交换多位而非一位数据，选项C错误。突发传送总线事务是指发送方在传输完地址后，连续进行若干次数据的发送，选项D正确。
20. D
每次传输需经过传输地址、准备数据和传输数据三个过程，分别需要1ns（时钟频率为1GHz，因此时钟周期为1ns）、6ns和1ns，共8ns。总线宽度为64位，所以每次传输的数据为64位，主存块大小为32B，所以读取一个主存块需要传输4次，即8ns×4=32ns。
6.3	本章小结
本章开头提出的问题的参考答案如下。
1)引入总线结构有什么好处？
引入总线结构具有以下主要优点：
① 简化系统结构，便于设计与制造。
② 大幅减少连线数量，利于布线、缩小体积，并提高可靠性。
③ 统一接口标准，所有设备采用相似的总线接口，简化硬件设计。
④ 支持模块化与灵活扩展，便于系统升级、配置和功能扩充。
⑤ 简化软件编程，设备通过不同接口地址进行访问，驱动逻辑统一。
⑥ 便于故障诊断、维护与成本控制。
2)引入总线结构会导致什么问题？如何解决？
引入总线后，多个设备需分时共享同一组信号线，当多个主设备同时请求使用总线时，将引发总线竞争，导致通信冲突。为解决这一问题，系统需配置总线仲裁部件，以某种方式选择一个主设备获得总线控制权，只有获得总线控制权的设备才能开始数据传送。
6.4	常见问题和易混淆知识点
1. 一个总线在某一时刻可以有多对主从设备进行通信吗？
不可以。在任一总线周期内，总线上只能有一个主设备控制总线，并选择一个从设备进行一对一通信，或向所有从设备广播（一对多）。由于总线是共享通路，若多对主从设备同时通信，则会导致数据冲突，破坏传输正确性。因此，同一时刻不能存在多对并发的主从通信。
第 7 章输入/输出系统
【考纲内容】
扫一扫
(一)I/O接口 (I/O控制器)
I/O接口的功能和基本结构；I/O端口及其编址
(二)I/O方式
程序查询方式
视频讲解
程序中断方式：中断的基本概念；中断响应过程；中断处理过程；多重中断和中断屏蔽的概念
DMA方式： DMA控制器的组成； DMA传送过程
【复习提示】
I/O方式是本章的重点和难点，每年不但会以选择题的形式考查基本概念和原理，而且可能以综合题的形式考查，特别是各种I/O方式效率的相关计算，中断方式的各种原理、特点、处理过程、中断屏蔽，DMA方式的特点、传输过程、与中断方式的区别等。
在学习本章时，建议读者思考以下问题：
1)I/O设备有哪些编址方式？各有何特点?
2) CPU 响应中断应具备哪些条件?
建议读者在学习过程中尝试回答这些问题，本章末尾将提供参考答案。
7.1 I/O系统基本概念①
*7.1.1 输入/输出系统
从主机的视角来看，输入是指将信息从外部设备传送到主机，输出则是将信息从主机传送到外部设备。输入/输出系统的核心任务，是对各类信息的输入与输出过程进行有效控制。
I/O系统涉及以下几个基本概念：
1)外部设备。包括输入设备、输出设备，以及需通过I/O 接口访问的外部存储设备。
2)接口。位于外设与主机之间的逻辑部件，负责协调数据传输过程中的速度匹配、电平转换和格式适配等工作。
3)输入设备。用于向计算机输入命令、文本或数据的装置，如键盘、鼠标等。
4)输出设备。用于将计算机处理结果输出到外部介质的装置，如显示器、打印机等。
5)外存设备。指除内存和CPU缓存以外的存储器，如硬磁盘、光盘、固态硬盘等。
通常，I/O 系统由I/O 硬件和I/O 软件两部分构成：
① 本节内容2021年已从统考大纲中删除，仅供学习参考。
292	2027年计算机组成原理考研复习指导
1)I/O软件。主要包括设备驱动程序、I/O管理程序以及用户应用程序等，负责实现CPU与I/O设备之间的信息交换。
2)I/O硬件。包括外部设备、设备控制器、I/O接口以及I/O总线等。其中，设备控制器负责控制外设的具体操作，I/O接口则实现与主机总线的连接。
*7.1.2 外部设备
常见的外部设备主要包括键盘、鼠标、显示器、打印机、磁盘存储器和光盘存储器等。
1.输入设备
(1)键盘
键盘是最常用的输入设备，用于输入字符、数字及各种控制命令。
(2)鼠标
鼠标是一种定位输入设备，能够将用户的操作映射为屏幕上的光标位置，实现人机交互。
2.输出设备
(1)显示器
按显示器类型，显示器可分为阴极射线管(CRT)、液晶显示器(LCD)和发光二极管(LED)等。显示器以点阵方式工作，其主要性能参数包括：
1)屏幕尺寸：以对角线长度表示，单位为英寸，常见规格为12~32英寸。
2)分辨率：分辨率指屏幕上可显示的像素总数，常表示为“宽度×高度”，如1920×1080等。
3)色彩深度：表示每个像素所能呈现的颜色数量。在黑白显示器中体现为灰度级(如8位对应256级)；在彩色显示器中，通常采用24位真彩色(约1677万种颜色)或更高。
4)刷新机制：由于像素发光持续时间极短，必须周期性重绘整屏图像，以维持画面稳定。
5)刷新频率：刷新频率指每秒刷新屏幕的次数。人眼通常在刷新频率高于30Hz时才不会感知闪烁，现代显示器一般支持60~120Hz。
考点追踪显存刷新带宽的计算(2010)
6)显示存储器(VRAM，即刷新存储器)：用于存储一帧完整的图像数据。其容量与带宽可按以下公式计算：
VRAM容量=分辨率×色彩深度(位数)
VRAM带宽=分辨率×色彩深度(位数)×帧频
(2)打印机
打印机用于将计算机的输出结果打印到纸张等介质上。按工作原理可分为以下几类：
1)针式打印机。属于点阵式击打打印机，通过打印针撞击色带在纸张上形成字符。其优点是支持多层复写(如发票打印)、耗材便宜；缺点是噪声大、分辨率低、速度慢。
2)喷墨式打印机。通过精确喷射微小墨滴形成图像，基于青、品红、黄三基色的混合原理实现高质量彩色打印，广泛应用于家庭和办公场景。
3)激光打印机。结合激光扫描与静电成像技术。计算机输出的数字信号经调制后控制激光束，在感光鼓上形成静电潜像，再经过显影、转印和定影等步骤，将图像牢固地呈现在纸张上。其特点是打印速度快、质量高、处理能力强，广泛应用于办公环境。
3.外部存储器(辅存)
(1)磁表面存储器
利用磁性材料涂覆在金属或塑料基片上存储信息，典型代表包括硬盘、软盘、磁带和磁鼓等。
第7章输入/输出系统	293
(2)固态硬盘(SSD)
采用Flash存储器作为存储介质，无机械运动部件，具有读/写速度快、抗震性强、功耗低等优势，广泛应用于轻薄型笔记本电脑及高性能计算设备中。
(3)光盘存储器
利用聚焦激光束以非接触方式在盘片上读/写信息。一个完整的光盘系统由光盘片、光盘驱动器和光盘控制器组成，常见类型包括CD、DVD等。
*7.1.3本节习题精选
单项选择题
01.在微型机系统中，I/O设备通过（	）与主板的系统总线相连接。
A.DMA控制器	B.设备控制器	C.中断控制器	D.I/O端口
02.显示汉字采用点阵字库，若每个汉字用16×16的点阵表示，7500个汉字的字库容量是（	）。
A.16KB	B.240KB	C.320KB	D.1MB
03.CRT的分辨率为1024×1024像素，像素的颜色数为256，则刷新存储器的每单元字长为（	），总容量为（	）。
A.8B,256MB	B.8bit,1MB	C.8bit,256KB	D.8B,32MB
04.【2010统考真题】假定一台计算机的显示存储器用DRAM芯片实现，若要求显示分辨率为1600×1200，颜色深度为24位，帧频为85Hz，显存总带宽的50%用来刷新屏幕，则需要的显存总带宽至少约为（	）。
A.245Mb/s	B.979Mb/s	C.1958Mb/s	D.7834Mb/s
*7.1.4答案与解析
单项选择题
01.B
I/O设备不可能直接与主板总线相连，它总是通过设备控制器来相连的。
02.B
每个汉字占用16×16/8=32B，则汉字的字库容量=7500×32B=240000B≈240KB。
03.B
刷新存储器中存储单元的字长取决于显示的颜色数，颜色数为m，字长为n，二者的关系为2ⁿ=m。本题中的颜色数为256=2⁸，因此刷新存储器单元字长为8位。刷新存储器的容量是每个像素点的位数和像素点个数的乘积，因此刷新存储器的容量为1024×1024×8bit=1MB。
04.D
刷新所需带宽=分辨率×颜色深度×帧频=1600×1200×24bit×85Hz=3916.8Mb/s，显存总带宽的50%用来刷新屏幕，于是需要的显存总带宽至少为3916.8/0.5=7833.6Mb/s≈7834Mb/s。
7.2I/O接口
I/O接口（也称I/O控制器）是主机与外部设备之间的交接界面，用于实现二者之间的信息交换。由于外设种类繁多，在工作方式、数据格式和工作速度等方面存在显著差异，接口正是为弥合这些异构性而设置的。
294	2027年计算机组成原理考研复习指导
7.2.1	I/O接口的功能
考点追踪	I/O接口的定义与特性(2021)
I/O接口的主要功能如下：
1)地址译码与设备选择。当CPU发出I/O操作请求时，会同时提供目标外设的地址码。接口对地址进行译码，产生设备选择信号，确保主机仅与指定外设通信。
2)通信联络与时序协调。主机与外设的工作速度通常不匹配。接口通过握手信号或状态轮询机制，动态协调双方操作节奏，确保数据传输可靠有序。
3)数据缓冲。接口设有数据缓冲寄存器，用于暂存传输数据，避免因速度不匹配导致的数据丢失。
4)信号格式转换。主机与外设在电平标准、数据格式或信号类型上可能存在差异。接口需完成电平转换、并/串或串/并转换、模/数或数/模转换等，以实现物理兼容。
5)控制命令与状态信息传递。CPU 通过向接口的控制寄存器写入命令字（如“启动”）控制外设；外设通过状态寄存器反馈状态（如“就绪”）。当外设需要主动通知CPU（如数据到达）时，接口可向CPU发出中断请求，由CPU适时响应处理。
7.2.2	I/O接口的基本结构
考点追踪	I/O端口与CPU交换的内容(2015)
图7.1所示为I/O接口的通用结构。I/O接口在主机侧通过I/O总线与CPU和内存相连，其内部主要包括三类寄存器：数据缓冲寄存器用于暂存CPU与外设之间传送的数据；状态寄存器用于记录接口及外设的当前状态；控制寄存器用于保存CPU发给外设的控制命令。由于状态寄存器仅被CPU读取，控制寄存器仅被CPU写入，二者的访问方向相反且访问时间错开，因此在某些设计中可复用同一端口地址：读操作访问状态，写操作访问控制。
主机侧（系统总线）设备侧（接口电缆）
外设界面
数据缓冲寄存器
控制逻辑
数据状态控制
数据线
状态/控制寄存器
地址线
地址译码和
外设界面
数据
I/O控制逻辑
控制逻辑
状态
控制线
控制
图7.1一个I/O接口的通用结构
考点追踪	I/O接口的数据线上传输的内容(2012)
I/O接口中的数据线传送的是读/写数据、状态信息、控制信息以及中断类型号（在向量中断中）；地址线指定要访问的I/O接口内部寄存器的端口地址；控制线传送的是读/写控制信号（用于区分寄存器访问方向），以及中断请求与响应信号、总线仲裁信号和设备握手信号。
I/O接口中的I/O控制逻辑的功能：①对控制寄存器中的命令字进行译码，并将生成的控制信号经外设界面控制逻辑送至外设。②输出时，将数据缓冲寄存器的内容发送给外设；输入时，将外设数据写入数据缓冲寄存器。③实时采集外设状态，并更新至状态寄存器。
第7章	输入/输出系统 295
对上述寄存器的访问通过专用指令完成，这类指令称为I/O指令。在采用独立I/O地址空间的体系结构(如x86),I/O指令通常为特权指令，仅限操作系统内核使用。
7.2.3 I/O接口的类型
从不同角度，I/O接口可分为以下类型。
1）按数据传送方式（外设与接口一侧），可分为并行接口（一字节或一个字的所有位同时传送）和串行接口（一位一位有序传送），接口需完成相应的并/串或串/并格式转换。
2）按主机访问I/O设备的控制方式，可分为程序查询接口、中断接口和DMA接口等。
3）按功能灵活性，可分为可编程接口（通过编程改变接口功能）和不可编程接口。
7.2.4 I/O端口及其编址
考点追踪	I/O端口的定义及相关特性 (2014)
I/O端口是指I/O接口电路中可被CPU直接访问的寄存器，主要包括：数据端口（支持CPU进行读/写操作）、状态端口（仅支持读操作）和控制端口（仅支持写操作）。
注	意
端口与接口是两个不同概念：端口是接口内部可寻址的寄存器。
为使CPU能够访问各个I/O端口，必须对端口进行编址，每个端口对应一个唯一的端口地址。常见的编址方式有两种：独立编址与统一编址。
(1)独立编址（I/O映射方式）
考点追踪   I/O指令的作用(2017)
独立编址为I/O端口建立一个独立于主存的地址空间。I/O端口地址与内存地址在逻辑上完全分离，地址值可以相同，但由于属于不同地址空间，不会发生冲突。CPU通过专用的I/O指令(如x86中的IN和OUT)访问I/O端口，指令中的地址字段指定端口号。
优点：I/O端口数量远少于内存单元，所需地址线较少，译码电路简单，寻址速度快；使用专用I/O指令，使程序中I/O操作清晰可辨，便于阅读与调试。
缺点：I/O指令功能有限，通常仅支持简单的数据传输，程序设计灵活性较差；CPU需同时提供存储器读/写和I/O读/写两组控制信号，增加了控制逻辑的复杂性。
(2)统一编址（存储器映射方式）
统一编址将部分主存地址空间分配给I/O端口，使I/O端口与内存单元共享同一地址空间。通过地址范围即可区分访问目标（如高地址段映射到I/O设备），因此无须专用I/O指令，CPU使用普通的访存指令（如加载和存储指令）即可访问I/O端口。
优点：无须专用I/O指令，使得编程更加灵活；I/O端口可获得较大的编址空间；I/O访问的保护机制可由虚拟存储管理系统统一实现，无须额外硬件支持。
缺点：I/O端口占用主存地址空间，减少了系统可用内存容量；由于需根据完整地址判断是否为I/O区域，译码电路相对复杂，可能降低译码速度。
7.2.5 本节习题精选
单项选择题
01.在统一编址的方式下，区分存储单元和I/O设备是靠（	）。
296 2027年计算机组成原理考研复习指导
A.不同的地址码 B.不同的地址线
C.不同的控制线 D.不同的数据线
02.下列功能中，属于I/O接口的功能的是（	）。
I.数据格式的转换 II.I/O过程中错误与状态检测
III.I/O操作的控制与定时 IV.与主机和外设通信
A. I和IV B. I、III和IV C. I、II和IV D. I、II、III和IV
03.下列关于I/O端口和接口的说法中，正确的是（	）。
A.在统一编址方式下，对主存单元和I/O端口的存储保存措施是独立的
B.在统一编址方式下，主存单元和I/O端口是靠不同的地址线来区分的
C.在独立编址方式下，主存单元和I/O端口是靠不同的地址线来区分的
D.在独立编址方式下，CPU需要设置专门的输入/输出指令访问I/O端口
04.下列属于I/O接口中寄存器的有（	）。
I.指令寄存器 II.控制寄存器 III.状态寄存器
V.数据缓冲寄存器 IV.存储器地址寄存器
A. I、II、III和V B. II、III和IV C. II、III和V D. II、III、IV和V
05.I/O的编址方式采用统一编址方式时，进行输入/输出的操作的指令是（	）。
A.控制指令 B.访存指令 C.输入/输出指令 D.都不对
06.下列关于I/O指令的说法中，错误的是（	）。
A.I/O指令是CPU系统指令的一部分
B.I/O指令是机器指令的一类
C.I/O指令反映CPU和I/O设备交换信息的特点
D.I/O指令的格式和通用指令的格式相同
07.下列叙述中，正确的是（	）。
A.只有I/O指令可以访问I/O设备
B.在统一编址下，不能直接访问I/O设备
C.访问存储器的指令一定不能访问I/O设备
D.只有在具有专门I/O指令的计算机中，I/O设备才可以单独编址
08.在内存地址空间与接口地址空间统一编址的计算机中，不需要的指令是（	）。
A.数据传送类(如MOV指令)
B.算术、逻辑运算类(如ADD、SUB、AND和OR指令)
C.输入/输出类(如IN和OUT指令)
D.程序控制类(如条件转移指令和子程序调用指令)
09.在统一编址的情况下，就I/O设备而言，其对应的I/O地址不可取的是（	）。
A.要求固定在地址高端 B.要求固定在地址低端
C.要求相对固定在地址的某部分 D.可以随意在地址的任何地方
10.磁盘驱动器向盘片磁道记录数据时采用（	）方式写入。
A.并行 B.串行 C.并行-串行 D.串行-并行
11.采用中断方式进行打印控制时，在打印控制接口和打印机之间交换的信息不包括（	）。
A.打印字符点阵信息 B.打印控制信息
C.打印机状态信息 D.中断请求信息
12.主机和外设之间的正确连接通路是（	）。
A.CPU和主存—I/O总线—通信总线(电缆)—I/O接口—外设
B.CPU和主存—I/O总线—I/O接口—通信总线(电缆)—外设
第7章输入/输出系统	297
C. CPU和主存—I/O接口—I/O总线—通信总线(电缆)—外设
D. CPU和主存—I/O接口—通信总线(电缆)—I/O总线—外设
13.下列有关I/O接口功能和结构的叙述中，错误的是()。
A. I/O接口中主机侧数据宽度与设备侧数据宽度总是一样的
B. I/O接口是像显卡或网卡之类的一种外设控制逻辑
C. CPU可以从I/O接口读取状态信息，以了解接口和外设的状态
D. CPU可以向I/O接口传送用来对设备进行控制的命令
14.【2012统考真题】下列选项中，在I/O总线的数据线上传输的信息包括()。
I. I/O接口中的命令字Ⅱ. I/O接口中的状态字Ⅲ.中断类型号
A.仅I、II	B.仅I、III	C.仅II、III	D.I、II、III
15.【2014统考真题】下列有关I/O接口的叙述中，错误的是()。
A.状态端口和控制端口可以合用同一个寄存器
B. I/O接口中CPU可访问的寄存器称为I/O端口
C.采用独立编址方式时，I/O端口地址和主存地址可能相同
D.采用统一编址方式时，CPU不能用访存指令访问I/O端口
16.【2017统考真题】I/O指令实现的数据传送通常发生在()。
A. I/O设备和I/O端口之间	B.通用寄存器和I/O设备之间
C. I/O端口和I/O端口之间	D.通用寄存器和I/O端口之间
17.【2021统考真题】下列选项中，不属于I/O接口的是()。
A.磁盘驱动器	B.打印机适配器	C.网络控制器	D.可编程中断控制器
7.2.6答案与解析
单项选择题
01.A
在统一编址的情况下，没有专门的I/O指令，因此用访存指令来实现I/O操作，区分存储单元和I/O设备是靠它们各自不同的地址码。
02.D
I/O接口的功能有：①选址功能、②传送命令功能、③传送数据功能、④反映I/O设备工作状态的功能。选项Ⅰ可参考唐朔飞老师的《计算机组成原理》教材，为设置接口的原因之一，也是接口应具有的功能；说法Ⅱ属于④；说法Ⅲ属于②；说法Ⅳ属于③。
03.D
在统一编址方式下，I/O端口和主存使用相同的地址空间，因此存储保存措施是通过相同的机制来实现的。在独立编址方式下，I/O端口和主存使用不同的地址空间，CPU访问I/O端口时需要专门的输入/输出指令，例如IN和OUT指令，而不能直接使用主存操作指令。两种编址方式都是通过相同的地址总线进行访问的，通过不同的编址策略和控制信号来区分。
04.C
I/O接口中的寄存器主要有数据缓冲寄存器、控制寄存器和状态寄存器。
05.B
统一编址时，直接使用指令系统中的访存指令来完成输入/输出操作；独立编址时，则需要使用专门的输入/输出指令来完成输入/输出操作。
06.D
I/O指令是指令系统的一部分，是机器指令的一类，但其为了反映与I/O设备交互的特点，
2027年计算机组成原理考研复习指导
格式和其他通用指令相比有所不同。
07. D
在统一编址的情况下，访存指令也可访问 I/O设备，选项A、B、C错误。在独立编址的方式下，访问I/O地址空间必须通过专门的 I/O指令，选项D 正确。
08. C
统一编址方式把I/O端口当作存储器的单元进行地址分配，CPU 不需要设置专门的I/O指令(输入/输出类指令)，用统一的访存指令就可以访问I/O端口。
09. D
在统一编址方式下，指令靠地址码区分内存和I/O设备，若随意在地址的任何地方编址，则会给编程造成极大的混乱，选项D错误。选项A、B、C的做法都是可取的。
10. B
磁盘驱动器向盘片磁道记录数据时采用串行方式写入。
11. D
打印机的中断控制过程通常是：CPU先将需要打印的字符送到打印控制接口(也称打印适配器)中，打印控制接口再将字符转换为点阵信息，然后通过电缆传送到打印机，以控制打印针头在何处进行打印。同时，打印控制接口需要将“初始化”“选通”“自动走纸”等打印控制信息通过电缆传送到打印机，并通过电缆把打印机的“联机”“忙”“缺纸”等状态信号取到打印控制接口，以供CPU 读取。中断请求信号是打印控制接口通过中断控制器发送给 CPU 的，因此不在打印控制接口和打印机之间进行交换，选项D错误。
12. B
CPU 和主存通过I/O总线和 I/O接口连接，I/O接口通过通信总线和外设相连。
13. A
I/O接口中主机侧通过 I/O总线与主机相连，设备侧通过通信总线(电缆)与外设相连。显然，I/O总线中的数据线宽度和连接设备的电缆中的数据线宽度不一定相同。
14. D
I/O总线分为三类：数据线、控制线和地址线。数据缓冲寄存器和命令/状态寄存器的内容都是通过数据线来传送的；地址线用以传送与 CPU 交换数据的端口地址；而控制线用于给I/O端口发送读/写信号，仅用于对端口进行读/写控制。中断类型号用于指出中断向量的地址，CPU 响应某一外部中断后，就从数据总线上获取该中断源的中断类型号，然后据此计算对应中断向量在中断向量表(存放在内存中)的位置。因此说法Ⅰ、Ⅱ和Ⅲ均正确。
15. D
采用统一编址时，CPU访存和访问I/O端口用的是一样的指令，所以访存指令可访问 I/O端口，选项D 错误。其他三个选项均为正确陈述。
16. D
I/O端口是指I/O接口中用于缓冲信息的寄存器，由于主机和I/O设备的工作方式和工作速度有很大差异，I/O端口应运而生。在执行一条指令时，CPU 使用地址总线选择所请求的I/O端口，使用数据总线在 CPU 寄存器和端口之间传输数据。
17. A
I/O接口即I/O控制器，其功能是接收主机发送的I/O控制信号，并实现主机和外部设备之间的信息交换。磁盘驱动器是由磁头、磁盘和读/写电路等组成的，也就是我们平常所说的磁盘本身，选项A 错误。选项 B、C和 D 均为I/O控制器。
第7章输入/输出系统	299
7.3 I/O方式
输入/输出系统实现主机与I/O设备之间的数据传送，可采用不同的控制方式。各种方式在硬件代价、系统性能及适用场景等方面各有侧重。常用的I/O方式包括程序查询、程序中断和DMA等，其中前两种方式高度依赖CPU执行程序指令来完成控制。
7.3.1 程序查询方式
在程序查询方式中，数据交换的控制完全由CPU通过执行程序实现。接口电路通常包含一个数据缓冲寄存器（数据端口）和一个设备状态寄存器（状态端口）。主机进行I/O操作时，首先读取设备状态，并据此决定是立即传送数据还是继续等待。
考点追踪程序查询方式的特点(2023)
程序查询方式的工作流程如下（见图7.2）：
①CPU执行初始化程序，预置传送参数（如起始地址、数据量等）。
②向I/O接口发送命令字，启动外设。
③循环读取外设状态寄存器。
④若设备未就绪，则继续查询；若就绪，则执行一次数据传送。
⑤修改地址和计数器参数。
⑥判断传送是否完成，若未完成则返回步骤③，直至计数器归零。
根据查询策略的不同，程序查询方式可分为两类：
1)独占查询。一旦启动外设，CPU便连续不断地查询其状态，直至操作完成。在此期间，CPU无法执行其他任务，处于忙等待状态，导致CPU与外设完全串行工作。
2)定时查询。CPU以固定时间间隔周期性地查询外设状态。每次查询时，若设备已就绪，则传送一个数据单元，随后返回用户程序继续执行。查询间隔需根据外设的数据传输速率合理设置，以避免数据丢失。
考点追踪定时查询的特点、效率分析及计算(2011、2018)
【例7.1】假设计算机主频为500MHz，CPI为4，某外设的数据传输速率为2MB/s，其I/O接口配备一个32位数据缓冲寄存器。采用定时查询方式，每次查询操作执行10条指令。问：CPU最多间隔多长时间查询一次，才能避免数据丢失？此时CPU用于该外设I/O的时间占总时间的百分比至少为多少？
解：
由于端口缓冲区容量有限，必须在外设填满该缓冲区前完成读取，否则新数据将覆盖未读取的旧数据，造成丢失。外设填满（4字节）缓冲区所需时间为4B÷2MB/s=2μs。因此，CPU最多每隔2μs就需查询一次，即每秒至少查询1s÷2μs=5×10⁵次。每次查询执行10条指令，每条指令
300	2027年计算机组成原理考研复习指导
平均消耗4个时钟周期，故每秒用于I/O的时钟周期数为5×10^{5}×10×4=2×10^{7}；CPU主频为500MHz（每秒5×10\square个时钟周期），因此I/O时间占比为(2×10^{7})÷(5×10\square)=4\%。
程序查询方式的优点是设计简单、硬件开销小。缺点是CPU需耗费大量时间进行查询与等待，且在同一时间段内只能与一台外设通信，导致CPU与外设串行工作，效率很低。
7.3.2	程序中断方式
1.程序中断的基本概念
程序中断是指在计算机执行程序的过程中，当出现某些急需处理的外部事件或内部异常时，CPU暂停当前程序的执行，转去处理该事件或异常；处理完毕后，再返回到原程序的断点处继续执行。中断技术最初被用于实现主机与I/O设备之间的异步通信。
考点追踪	中断方式的特点（2022、2023）
随着计算机系统的发展，中断技术被赋予了多种重要功能，主要包括：
①实现CPU与I/O设备的并行工作。
②处理硬件故障和软件异常。
③支持人机交互（如键盘输入、鼠标点击）。
④支撑多道程序与分时操作系统的任务切换。
⑤满足实时系统对快速响应的需求。
⑥实现用户程序向操作系统的切换（如通过软中断或系统调用指令）。
⑦在多处理器系统中协调各处理器间的通信与任务迁移。
中断的基本工作思想：当前进程发起I/O操作时，会启动相应外设，并主动进入阻塞状态；CPU随即转而执行就绪队列中的另一进程，实现外设与CPU的并行工作。外设完成数据准备后，主动向CPU发出中断请求。CPU响应后，暂停当前指令流，保存现场，并转入中断服务程序，完成主机与外设之间的数据传送。数据传送结束后，CPU恢复被中断进程的现场，并返回断点处继续执行。此后，外设与CPU再次并行工作，如图7.3所示。
考点追踪	程序中断的效率分析及相关计算（2009、2014、2016、2018、2019）
【例7.2】假设计算机主频为500MHz，CPI为4，某外设的数据传输速率为40MB/s，其I/O接口配备一个32位数据缓冲寄存器。在中断I/O方式下，若每次中断响应与中断处理共需至少400个时钟周期，则该外设能否采用中断I/O方式？为什么？
解：
中断响应与中断处理所需时间为400×1/500M=0.8\mu s。外设填满(4B)缓冲区所需时间为4B÷40MB/s=0.1\mu s。由于外设准备数据的时间(0.1\mu s)远小于中断处理时间(0.8\mu s)，若采用每32位触发一次中断的方式，则新数据将在CPU处理完前次中断前就已到达，导致缓冲区被覆盖而丢失数据。因此，该高速外设不适合直接使用单字中断方式。
第7章	输入/输出系统 301
2.程序中断的工作流程
考点追踪	中断工作流程中的相关细节 (2017、2018、2021、2024)
(1)中断请求
中断源是指能够向CPU发出中断请求的设备或事件。一台计算机允许多个中断源同时存在，且各中断源发出请求的时间具有随机性。为记录并区分不同的中断请求，中断系统为每个中断源设置一个中断请求标记触发器：当其状态为“1”时，表示该中断源有中断请求。这些触发器可组成中断请求标记寄存器，该寄存器可集中置于CPU内部，也可分散在各个中断源中。
考点追踪	可屏蔽中断和不可屏蔽中断的特点 (2020)
通过INTR信号线发出的是可屏蔽中断，通过NMI信号线发出的是不可屏蔽中断。可屏蔽中断的优先级较低，在关中断状态下不被响应；不可屏蔽中断用于处理紧急且关键的硬件事件（如电源掉电、总线错误等），其优先级最高，且不受中断允许标志的影响。
(2)中断响应判优
中断响应优先级是指 CPU 响应多个同时发生的中断请求的先后顺序。由于中断请求具有随机性，当多个中断源同时提出请求时，需通过中断判优逻辑确定优先响应哪个中断源的请求。中断响应的判优通常由硬件排队器（或中断查询程序）实现。
一般来说，①不可屏蔽中断>可屏蔽中断；②在I/O传送类中断请求中，高速设备>低速设备；输入设备>输出设备；实时设备>普通设备。
注	意
中断优先级包括响应优先级和处理优先级。响应优先级由硬件线路或查询顺序固定决定，不可动态更改；处理优先级可通过中断屏蔽技术动态调整，以支持多重中断（中断嵌套）。二者的关系可概括为：只有未被屏蔽的中断请求，才会被送入中断判优电路参与响应优先级的判定。
(3)CPU响应中断的条件
考点追踪CPU响应中断的条件(2023)
CPU仅在满足特定条件时才会响应中断请求，并经过一些特定的操作，转去执行中断服务程序。CPU响应中断必须满足以下三个条件：
①	存在有效的中断请求。
② CPU处于开中断状态（中断允许标志为1；异常和不可屏蔽中断不受此限制）。
③	当前指令已执行完毕（异常不受此限制），且无更高优先级任务待处理。
注	意
I/O设备的就绪时间是随机的，而CPU仅在每条指令执行结束时统一采样中断请求信号（前提是开中断）。因此，CPU响应I/O中断的时机总是发生在某条指令执行完成之后。此处所述中断特指I/O中断，不包括异常。
(4)中断响应过程
CPU响应中断后，由硬件自动完成一系列操作（称为中断隐指令），随后转入中断服务程序。中断隐指令并非指令系统中的真实指令，而是对硬件自动操作的统称，主要包括以下步骤：
1）关中断。CPU响应中断后，首先关闭中断允许标志，禁止响应任何可屏蔽中断（包括更高优先级者），以防止在保存断点和现场时被新中断打断；否则，现场信息可能不完整，导致中断返回后无法正确恢复原程序的执行。
302	2027年计算机组成原理考研复习指导
2)保存断点。为保证中断返回后能正确恢复原程序执行，需将程序计数器(PC)和程序状态字(PSW)等关键现场信息保存至栈或专用寄存器中①。
中断与异常的差异：中断发生于指令执行完成后，断点为下一条指令地址；故障类异常(如缺页、除零)因指令未完成，处理后需重新执行当前指令，断点为当前指令地址；陷阱类异常(如系统调用)在指令成功执行后触发，断点为下一条指令地址。
3)引出中断服务程序。通过识别中断源，将对应中断服务程序的入口地址送入程序计数器PC。识别方法主要有硬件向量法和软件查询法，本节主要讨论更常用的硬件向量中断法。
(5) 中断向量
中断识别分为向量中断和非向量中断两类。非向量中断采用软件查询法，已在第5章介绍。
考点追踪	中断向量表的数据结构(2023)
在向量中断中，每个中断源被分配一个唯一的中断类型号，该类型号对应一个中断服务程序的入口地址，此地址称为中断向量。系统将所有中断向量集中存放在内存的特定区域，该区域称为中断向量表。
CPU 响应中断后，首先在中断响应阶段从数据总线获取该中断源的中断类型号，然后据此计算出对应中断向量在中断向量表中的地址；接着从中断向量表中读取该中断向量，并送入程序计数器PC，从而转入对应的中断服务程序。这种基于中断向量表实现转移的方法称为中断向量法，采用该方法的中断即为向量中断。
注	意
中断请求和响应信号通过I/O总线的控制线传输，而中断类型号则在中断响应阶段由中断控制器经数据总线提供给 CPU，用于定位中断向量表中的相应表项。
(6) 中断处理过程
不同计算机的中断处理过程各具特色，图7.4所示为一个支持中断嵌套的典型处理流程。
中断隐指令（硬件自动）完成
保存现场和中断屏蔽字
开中断
执行中断服务程序
中断服务程序完成
关中断
恢复现场和中断屏蔽字
开中断
中断返回
图7.4一个支持中断嵌套的典型处理流程
① x86机器保存PC和PSW到内存栈中； MIPS机器没有PSW，只保存PC到特定寄存器中。
第7章输入/输出系统 303
中断处理流程如下：
①	关中断。防止在保存关键信息过程中被新中断打断。
②	保存断点。由硬件自动将断点信息保存至栈或专用寄存器。
③	中断服务程序寻址。通过中断类型号获取服务程序入口地址，并送入PC.
④	保存现场和中断屏蔽字。通过软件指令将现场信息和中断屏蔽字压入栈中，以便后续恢复。现场信息是指CPU 中可能被中断服务程序修改且需恢复的寄存器内容。
注	意
断点与现场信息均不可被中断服务程序破坏。由于现场信息用指令可直接访问，因此由软件在进入中断服务程序时显式保存。而断点信息由硬件在中断响应阶段自动保存。
⑤	开中断。由开中断指令实现，允许更高优先级的中断请求被响应，从而实现中断嵌套。
⑥	执行中断服务程序。
⑦	关中断。由关中断指令实现，确保在恢复现场和中断屏蔽字的过程中不被中断。
⑧	恢复现场和中断屏蔽字。从栈中恢复寄存器内容及中断屏蔽状态。
⑨	开中断、中断返回。中断服务程序的最后一条指令通常为中断返回指令，用于恢复断点现场并返回原程序继续执行。
考点追踪	中断隐指令的功能(2012)
其中，①~③由中断隐指令（硬件自动）完成；④~⑨由中断服务程序（软件）完成。
考点追踪	单重中断的处理流程(2010)
注	意
对于单重中断（不支持嵌套），上述流程中省略⑤（开中断）和⑦（关中断）即可。
3.多重中断和中断屏蔽技术
在CPU执行中断服务程序的过程中，若出现新的更高优先级中断请求，而CPU不予响应，则称为单重中断，如图7.5(a)所示；若CPU暂停当前中断服务程序，转去处理新中断，则称为多重中断（也称中断嵌套），如图7.5(b)所示。
中断服务
中断服务
中断服务
主程序
主程序
程序1
程序2
程序3
栈
响应
响应
响应
响应
K3+1
中断服务程序
请求-
请求
\frac{\mathrm{K 1}}{\mathsf{K 1} + 1}
请求
2 \xrightarrow{K 2}{K 2 + 1 \mid}
请求
3 \xrightarrow{K 3}{K 3 + 1}\mid
K2+1
K1+1
返回
返回
返回
返回
(a)单重中断
(b)多重中断
图7.5单重中断和多重中断示意图
在图7.5(b)中，CPU执行主程序时收到中断请求1。由于主程序未屏蔽任何中断，CPU响应中断该请求，将主程序断点保存至栈中，并转入中断服务程序1。在执行中断服务程序1期间，若发生优先级更高的中断请求2,CPU会暂停中断服务程序1，将其断点保存至栈中，并转入中
304 2027年计算机组成原理考研复习指导
断服务程序2。类似地，更高优先级的中断请求3可打断中断服务程序2。当中断请求3处理完毕后，CPU从栈顶恢复断点，返回至中断服务程序2的断点(K3+1)处继续执行。以此类推，直至所有中断处理完毕，最终返回主程序的断点(K1+1)处继续执行。
考点追踪	多重中断的中断屏蔽字相关的性质(2017、2020、2021、2024)
中断处理优先级是指多重中断的实际处理顺序，可通过中断屏蔽技术动态调整。若不使用屏蔽技术，则处理优先级与响应优先级（中断请求被CPU识别的先后顺序）一致。现代计算机普遍采用中断屏蔽技术，通过设置中断屏蔽字寄存器实现灵活的优先级控制。
图7.6所示为一个简单的可编程中断控制器。来自I/O总线的外设中断请求信号(IRi)首先被记录在中断请求寄存器中。中断屏蔽字寄存器的每一位对应一个中断源：置1时屏蔽对应的中断请求，置0时允许其通过。在送入中断判优电路前，每个中断请求信号会与其对应屏蔽位的取反值进行逻辑“与”操作——仅当屏蔽位为0时，该中断请求才被允许参与仲裁。因此，被屏蔽的中断无法进入判优电路，而未被屏蔽的中断则按固定的响应优先级次序处理。
中断请求寄存器
响应优先级
IRO
0
中断编号
IR1
1
处理优先级
DBus
中断判优电路
IR2
1
IR3
1
CBus
需要注意的是：中断屏蔽字通常在进入中断服务程序时由软件加载，用于控制后续中断的嵌套行为。因此，中断屏蔽仅在CPU执行中断服务程序期间生效；而在主程序运行阶段，中断响应仍由主程序所设置的屏蔽状态决定（通常为全开放）。此外，即使在中断服务程序执行期间，若有多个未屏蔽中断同时到达，其处理顺序仍由中断判优电路的
中断请求
0
1
0
0
中断屏蔽字寄存器
图7.6一个简单的可编程中断控制器
响应优先级决定。
关于中断屏蔽字的设置及多重中断程序执行的轨迹，下面通过实例说明。
【例7.3】假设某机有4个中断源A、B、C、D，其硬件响应优先级为A>B>C>D.现要求通过中断屏蔽技术，将实际中断处理优先级调整为A>D>C>B.
1）写出每个中断源对应的中断屏蔽字。
2）若CPU在执行用户程序时，A、C、D同时发出中断请求；随后在执行C的中断服务程序期间，B又发出中断请求。试分析CPU的程序执行轨迹。
解：
1）中断处理优先级调整为A>D>C>B后，A的处理优先级最高，需要屏蔽所有中断（包括自身），屏蔽字设为1111;D的次高，只允许被A中断，屏蔽B、C和自身，屏蔽字是0111;C的第三，允许被A和D中断，屏蔽B和自身，屏蔽字为0110;B的最低，允许被A、D、C中断，仅屏蔽自身，屏蔽字为0100；结果如表7.1所示。
表7.1中断源对应的中断屏蔽字
中	断	源	屏	蔽	字
A	B	C	D
A	1	1	1	1
B	0	1	0	0
C	0	1	1	0
D	0	1	1	1
第7章输入/输出系统
2)CPU执行用户程序时，A、C和D同时发出中断请求。根据响应优先级，先响应A。进入A的服务程序前，系统保存现场，加载A的屏蔽字1111，并开中断。由于所有中断均被屏蔽，A的服务程序独占CPU直至完成，随后返回用户程序。重回用户程序后，C和D尚未处理，根据响应优先级，先响应C。但在执行C的服务程序前，系统加载其屏蔽字0110，即允许D打断C，于是CPU响应D。D的处理过程中未出现更高处理优先级的中断请求，D顺利完成后返回被中断的C继续执行。在C的处理过程中，B发出中断请求，但由于C的屏蔽字为0110，B被屏蔽，该请求不予响应。C处理完后返回用户程序。最后，CPU响应B，B处理完后，再次返回用户程序。整个执行轨迹如图7.7所示。
中断服务程序
A,C,D
图7.7 CPU 执行程序的轨迹
从宏观上看，程序中断方式克服了程序查询方式中CPU的忙等待现象，显著提高了CPU利用率。但从微观操作分析，CPU在处理中断时仍需暂停原程序的运行。尤其当高速设备频繁、成批地与主存交换数据时，会不断打断CPU现行程序以执行中断服务程序，造成较大开销。
7.3.3 DMA方式
DMA方式是一种完全由硬件控制的数据传输方法，它具有程序中断方式的优点，即在数据准备阶段，CPU与外设可并行工作。DMA在外设与内存之间建立了一条直接的数据通路，使得信息传送无须经过 CPU，从而显著降低 CPU 在数据传输过程中的负担。正因如此，该方式被称为直接存储器存取，并避免了保存与恢复CPU现场等复杂操作。
考点追踪 DMA方式的使用场景(2025)
DMA特别适用于磁盘、显卡、声卡、网卡等高速设备的大批量数据传输，但其硬件实现开销较高。在DMA方式中，中断的作用仅限于处理故障和正常传输完成的通知。
考点追踪 DMA方式中的数据传输通路(2024)
1. DMA方式的特点
DMA机制在主存与 DMA 控制器之间建立了一条直接的数据通路。由于数据传输不经过CPU，因此无须中断现行程序，从而实现I/O操作与CPU计算的并行执行。
DMA方式的主要特性包括：
1)打破主存与CPU的固定关联，主存既可被CPU访问，又可被外设直接访问。
2)在块数据传输过程中，主存地址的生成与传送字数的计数均由硬件电路自动完成。
3)主存中需设置专用缓冲区，以支持高效的数据交换。
4)支持高速数据传输，且CPU与外设可并行工作，显著提升系统效率。
5)传输开始前需由软件进行预处理，结束后则通过中断机制完成后处理。
306	2027年计算机组成原理考研复习指导
2.DMA控制器的组成
在DMA方式中，对数据传送过程进行控制的硬件称为DMA控制器（DMA接口）。当I/O设备需要进行数据传送时，通过DMA控制器向CPU提出DMA请求，CPU响应后即让出系统总线，由DMA控制器接管总线并执行数据传送。其主要功能如下：
1）接收外设发出的DMA请求，并向CPU发出总线请求信号。
2）在CPU发出总线响应信号后，DMA控制器接管总线控制权，进入DMA操作周期。
3）确定数据传送的主存起始地址及长度，并自动更新主存地址计数器和传送长度计数器。
4）指定数据在主存与外设间的传送方向，发出读/写等控制信号，完成数据传送。
5）在DMA操作结束后，向CPU报告传送完成。
图7.8给出了一个简单的DMA控制器。
●主存地址计数器：存放待传送数据的主存地址。传送前，保存整批数据的起始地址；每传送一个字，其内容自动加1，直至该批数据传送完毕。
●传送长度计数器：记录待传送数据的总长度。传送前，存入整批数据的总字数；每传送一个字，计数值减1，当计数器为0时，表示传送结束。
●数据缓冲寄存器：暂存每次传送的数据。通常，DMA控制器与主存之间以字为单位传送，而与外设之间可能以字节或字为单位。
●DMA请求触发器：当I/O设备准备好数据时，发出DMA请求信号，使其置位。
●控制/状态逻辑：用于设定传送方向、更新传送参数，并协调DMA请求与CPU响应信号。
●中断机构：当一批数据传送完毕后，触发中断并向CPU发出中断请求。
在DMA传送过程中，DMA控制器接管系统总线；传送结束后，将总线控制权交还给CPU，由CPU继续执行后续操作。因此，DMA控制器必须具备控制系统总线的能力。
3.DMA的传送方式
主存与I/O设备之间交换信息时不经过CPU。然而，当I/O设备和CPU同时访问主存时，可能发生冲突。为高效利用主存，DMA与CPU通常采用以下三种方式共享主存。
（1）停止CPU访存
当I/O设备发出DMA请求时，DMA控制器向CPU发送停止信号，使CPU放弃总线控制权并暂停访存，直至DMA完成整块数据的传送（见图7.9）。数据传送结束后，DMA控制器通知CPU恢复主存访问，并交还总线控制权。
第7章	输入/输出系统	307
优点：控制逻辑简单，适用于数据传输速率很高的I/O设备进行成组数据传送。
缺点：DMA访存期间，CPU基本处于空闲状态，资源利用率较低。
（2）周期挪用
考点追踪	周期挪用的特点及挪用次数分析（2012、2020、2022）
对于高速I/O设备，若不及时访存可能导致数据丢失，因此其访存请求具有较高优先级。周期挪用允许I/O设备挪用一个主存存储周期，传送完一个数据字后立即释放总线（见图7.10），属于单字传送方式。当I/O设备发起DMA请求时，可能出现以下三种情况：① CPU当前不在访存，I/O请求无冲突，可直接使用总线；② CPU正在访存，则需等待当前存储周期结束，再释放总线控制权；③ I/O与CPU同时请求访存，发生冲突，此时CPU暂时放弃总线控制权。
优点：既满足了I/O数据传送需求，又较好地发挥了CPU与主存的效率。
缺点：每次挪用均需申请并释放总线控制权，带来一定开销。
（3）DMA与CPU交替访存
将CPU工作周期划分为两个子周期：一个供CPU访存，另一个供DMA访存。这样，在每个CPU周期内，两者可以轮流访问主存（见图7.11）。该方式适用于CPU工作周期长于主存储周期的场景。例如，若CPU工作周期为1.2μs，主存存储周期小于0.6μs，则可将其分为C_{1}和C_{2}两个子周期，其中C_{1}专供DMA访存，C_{2}专供CPU访存。总线控制权通过C_{1}和C_{2}分时固定分配，无须动态申请或释放。
优点：无须总线控制权的申请与释放过程，数据传送速率高。
缺点：硬件控制逻辑较为复杂。
考点追踪	DMA方式的效率分析及相关计算（2011、2018）
【例7.4】假定计算机的主频为500MHz，CPI为4，某外设的数据率为40MB/s，I/O接口中
308	2027年计算机组成原理考研复习指导
的数据端口为32位，采用DMA方式，每次DMA传送块大小为1000B，且DMA预处理和后处理的总时钟周期数为500，则CPU用于该外设I/O的时间占CPU总时间的百分比是多少？
解：
DMA每秒次数为40MB/s÷1000B=40000，在DMA方式中，只有预处理和后处理需要CPU处理，数据传送全程由DMA控制。CPU用于外设I/O的总时间为40000×500=2×10⁷个时钟周期，占CPU总时间的百分比为2×10⁷÷500M=4%。
4. DMA的传送过程
考点追踪DMA方式的传送过程(2019)
图7.12所示为DMA的数据传送流程，分为预处理、数据传送和后处理三个阶段。
CPU
数据传送阶段的细化
预处理：
DMA请求
主存起始地址→AR
I/O设备地址→DAR
传送数据个数→WC
启动I/O设备
允许传送？
Y
数据传送：
主存起始地址送总线
继续执行主程序
数据送I/O设备（或主存）
同时完成一批数据的传送
修改主存地址
修改字计数器
后处理：
中断服务程序
N
做DMA结束处理
数据块传送结束？
Y
继续执行主程序
向CPU申请程序中断
图7.12 DMA的数据传送流程
(1)预处理
由CPU完成必要的初始化工作，包括设置DMA控制器中的主存起始地址、传送方向、传送数据个数，并启动I/O设备。随后，CPU继续执行原程序。当I/O设备准备好待发送（输入）或接收（输出）的数据时，会向DMA控制器发出DMA请求；DMA控制器随即向CPU发出总线请求，申请总线控制权。
(2)数据传送
DMA以数据块为单位进行传送。一旦获得总线控制权，DMA控制器便通过硬件循环自动完成数据的输入或输出操作，整个过程无须CPU干预。
(3)后处理
考点追踪DMA传送结束时的处理(2025)
数据块传送完成后，DMA控制器向CPU发出中断请求。CPU响应后执行中断服务程序，进行后处理工作，如校验数据完整性，若出错则转入诊断程序等。
在DMA方式下，整个数据块的传送过程均由硬件完成，CPU仅在预处理阶段进行初始化，在后处理阶段响应中断，因此用于I/O的开销极小。
第7章输入/输出系统	309
5.DMA方式和中断方式的区别
考点追踪DMA与中断方式的对比(2013、2023)
DMA方式和中断方式的主要区别如下：
①中断方式涉及程序切换，需保存和恢复CPU现场；而DMA方式不中断现行程序，无须保存现场，除预处理和后处理外，完全不占用CPU资源。
②中断请求只能在每条指令执行结束后被响应；而DMA请求可在当前总线周期结束后立即获得响应，无须等待指令完成。
③中断方式的数据传送依赖CPU执行指令完成；DMA方式则由专用硬件直接在主存与外设间传送数据，传输速率高，适用于高速外设的成组数据传输。
④当CPU和DMA控制器同时访问主存时，DMA请求的优先级通常更高。
⑤中断方式具备处理异常事件的能力，而DMA方式仅用于大批量数据的高效传输。
⑥从数据传送来看，中断方式由软件控制传送，DMA方式由硬件直接完成。
7.3.4本节习题精选
一、单项选择题
01.设置中断排队判优逻辑的目的是（	）。
A.产生中断源编码
B.使同时提出的请求中的优先级别最高者得到及时响应
C.使CPU能方便地转入中断服务子程序
D.提高中断响应速度
02.下列关于中断的说法中，错误的是（	）。
A.中断服务程序一般是操作系统模块
B.中断向量方法可提高中断源的识别速度
C.中断向量地址是中断服务程序的入口地址
D.重叠处理中断的现象称为中断嵌套
03.下列关于程序中断方式和DMA方式的叙述中，错误的是（	）。
I.DMA的优先级比程序中断的优先级要高
II.程序中断方式需要保存现场，DMA方式在传输过程中不需要保存现场
III.程序中断方式的中断请求是为了报告CPU数据的传输结束，而DMA方式的中断请求完全是为了传送数据
A.仅Ⅱ	B.Ⅱ、Ⅲ	C.仅Ⅲ	D.Ⅰ、Ⅲ
04.下列关于程序中断方式和DMA方式的说法中，错误的是（	）。
I.程序中断过程是由硬件和中断服务程序共同完成的
II.在每条指令的执行过程中，每个总线周期要检查一次有无中断请求
III.检测有无DMA请求，一般安排在一条指令执行过程的末尾
IV.中断服务程序的最后指令是无条件转移指令
V.中断响应判优是根据中断屏蔽字来确定中断的优先级
A.Ⅰ、Ⅲ、Ⅳ	B.Ⅱ、Ⅲ、Ⅳ、ⅤC.Ⅱ、Ⅳ、Ⅴ	D.Ⅱ、Ⅲ、Ⅳ
05.能产生DMA请求的总线部件是（	）。
I.高速外设Ⅱ.需要与主机批量交换数据的外设
310	2027年计算机组成原理考研复习指导
Ⅲ.具有DMA接口的设备
A.仅Ⅰ	B.仅Ⅲ	C.Ⅰ、Ⅲ	D.Ⅱ、Ⅲ
06.在具有中断向量表的计算机中，中断向量地址是（	）。
A.子程序入口地址	B.中断服务程序的入口地址
C.中断服务程序入口地址的地址	D.中断程序断点
07.中断响应是在（	）。
A.一条指令执行开始	B.一条指令执行中间
C.一条指令执行之末	D.一条指令执行的任何时刻
08.在下列情况下，可能不发生中断请求的是（	）。
A.DMA操作结束	B.一条指令执行完毕
C.机器出现故障	D.执行“软中断”指令
09.某计算机有4级中断，优先级从高到低为1→2→3→4。若将优先级顺序修改，改后1级中断的屏蔽字为1101，2级中断的屏蔽字为0100，3级中断的屏蔽字为1111，4级中断的屏蔽字为0101，则修改后的优先顺序从高到低为（	）。
A.1→2→3→4	B.3→1→4→2	C.1→3→4→2	D.2→1→3→4
10.下列不属于程序控制指令的是（	）。
A.无条件转移指令	B.有条件转移指令
C.中断隐指令	D.循环指令
11.在中断响应周期中，CPU主要完成的工作是（	）。
A.关中断，保存断点，发中断响应信号并形成向量地址
B.开中断，保存断点，发中断响应信号并形成向量地址
C.关中断，执行中断服务程序
D.开中断，执行中断服务程序
12.下列关于中断I/O方式的叙述中，错误的是（	）。
A.CPU对外部中断的响应不可能发生在一条指令的执行过程中
B.在中断I/O方式下，外设接口中的寄存器和CPU中的寄存器直接交换数据
C.中断请求的是CPU时间，要求CPU执行程序来处理发生的相关事件
D.只要有中断请求发生，一条指令执行结束后CPU就进入中断响应周期
13.当CPU响应中断时，进入“中断响应周期”，采用硬件方法保存并更新程序计数器(PC)内容，而不是由软件完成的，主要是为了（	）。
A.能进入中断处理程序，并能正确返回源程序
B.节省主存空间
C.提高处理机速度
D.易于编制中断处理程序
14.在I/O接口中设置中断触发器保存外设发出的中断请求，是因为（	）。
A.中断不需要立即处理
B.中断设备的处理速度比CPU快
C.CPU无法对发生的中断请求立即进行处理
D.可能有多个中断同时发生
15.在中断响应周期中，由（	）将允许中断触发器置0。
A.关中断指令	B.中断隐指令	C.开中断指令	D.中断服务程序
第7章输入/输出系统	311
16. CPU响应中断时最先完成的步骤是（	）。
A.开中断	B.保存断点	C.关中断	D.转入中断服务程序
17.设置中断屏蔽标志可以改变（	）。
A.多个中断源的中断请求优先级	B.CPU对多个中断请求响应的优先次序
C.多个中断服务程序开始执行的顺序	D.多个中断服务程序执行完的次序
18.在CPU响应中断时，保存两个关键的硬件状态是（	）。
A.PC和IR	B.PC和PSW	C.AR和IR	D.AR和PSW
19.在各种I/O方式中，中断方式的特点是（	），DMA方式的特点是（	）。
A.CPU与外设串行工作，传送与主程序串行工作
B.CPU与外设并行工作，传送与主程序串行工作
C.CPU与外设串行工作，传送与主程序并行工作
D.CPU与外设并行工作，传送与主程序并行工作
20.下列关于程序查询方式及其工作过程的叙述中，正确的是（	）。
A.按启动查询方式的不同，可分为软件查询方式和硬件查询方式
B.CPU主要负责启动外设和查询其状态，不参与数据传送
C.每完成一次数据传送后，会修改主存地址和计数值
D.CPU需要一直查询外设的状态，直到外设准备就绪时才可去执行其他程序
21.在DMA传送方式中，由（	）发出DMA请求，在传送期间总线控制权由（	）掌握。
A.外部设备、CPU	B.DMA控制器、DMA控制器
C.外部设备、DMA控制器	D.DMA控制器、内存
22.下列叙述中，（	）是正确的。
A.程序中断方式和DMA方式中实现数据传送都需要中断请求
B.程序中断方式中有中断请求，DMA方式中没有中断请求
C.程序中断方式和DMA方式中都有中断请求，但目的不同
D.DMA要等指令周期结束时才可以进行周期窃取
23.以下关于DMA方式进行I/O的描述中，正确的是（	）。
A.一个完整的DMA过程，部分由DMA控制器控制，部分由CPU控制
B.一个完整的DMA过程，完全由CPU控制
C.一个完整的DMA过程，完全由DMA控制器控制，CPU不介入任何控制
D.一个完整的DMA过程，完全由CPU采用周期挪用法控制
24.当某五级流水线CPU正在执行某条指令的第二级流水段时，外部设备产生了一个DMA请求，则CPU对该DMA请求响应的时机是（	）。
A.立即响应
B.在该指令的第二级流水段执行完毕后响应
C.在该指令的第三级流水段执行完毕后响应
D.在该指令执行结束后响应
25.关于外中断（故障除外）和DMA，下列说法中正确的是（	）。
A.DMA请求和中断请求同时发生时，响应DMA请求
B.DMA请求、非屏蔽中断、可屏蔽中断都要在当前指令结束之后才能被响应
C.非屏蔽中断请求优先级最高，可屏蔽中断请求优先级最低
D.若不开中断，所有中断请求就不能响应
312	2027年计算机组成原理考研复习指导
26.磁盘和主存进行数据交换时，大致可分为四个过程：①寻道；②旋转；③连续读/写磁盘块；④结束、校验。则下列关于磁盘读/写过程的叙述中，错误的是（	）。
A.在①②④三个阶段都用到了中断处理
B.在第③阶段，DMA控制器向CPU请求的是总线使用权
C.在第③阶段，DMA控制器使用总线的优先级比CPU低
D.在第③阶段，磁盘的读/写和CPU执行其他任务是可以并行执行的
27.中断发生时，程序计数器内容的保存和更新是由（	）完成的。
A.硬件自动	B.进栈指令和转移指令
C.访存指令	D.中断服务程序
28.在DMA方式传送数据的过程中，因为没有破坏（	）的内容，所以CPU可以正常工作（访存除外）。
A.程序计数器	B.程序计数器和寄存器
C.指令寄存器	D.堆栈寄存器
29.在DMA方式下，数据从内存传送到外设经过的路径是（	）。
A.内存→数据总线→数据通路→外设	B.内存→数据总线→DMAC→外设
C.内存→数据通路→数据总线→外设	D.内存→CPU→外设
30.采用周期挪用进行DMA数据传送时，每传送一个数据要占用一个（	）的时间。
A.指令周期	B.中断周期	C.时钟周期	D.存储周期
31.启动一次DMA传送，外设和主机之间将完成一个（	）的数据传送。
A.字节	B.字	C.总线宽度	D.数据块
32.在磁盘存储器进行读/写操作之前，CPU需要对磁盘控制器或DMA控制器进行初始化。在下列选项中，不包含在初始化信息中的是（	）。
A.传送信息所在的主存起始地址	B.传送方向（是读磁盘还是写磁盘）
C.传送信息所在的通用寄存器编号	D.传送数据的字数或字节数
33.【2009统考真题】下列选项中，能引起外部中断的事件是（	）。
A.键盘输入	B.除数为0	C.浮点运算下溢	D.访存缺页
34.【2010统考真题】单重中断系统中，中断服务程序内的执行顺序是（	）。
I.保存现场Ⅱ.开中断Ⅲ.关中断Ⅳ.保存断点V.中断事件处理
Ⅵ.恢复现场Ⅶ.中断返回
A.Ⅰ→Ⅴ→Ⅵ→Ⅱ→Ⅶ	B.Ⅲ→Ⅰ→Ⅴ→Ⅶ
C.Ⅲ→Ⅳ→Ⅴ→Ⅵ→Ⅶ	D.Ⅳ→Ⅰ→Ⅴ→Ⅵ→Ⅶ
35.【2011统考真题】某计算机有五级中断L₄~L₀，中断屏蔽字为M₄M₃M₂M₁M₀，Mᵢ=1(0≤i≤4)表示对L₁级中断进行屏蔽。若中断响应优先级从高到低的顺序是L₀→L₁→L₂→L₃→L₄，且要求中断处理优先级从高到低的顺序为L₄→L₀→L₂→L₁→L₃，则L₁的中断处理程序中设置的中断屏蔽字是（	）。
A.11110	B.01101	C.00011	D.01010
36.【2011统考真题】某计算机处理器主频为50MHz，采用定时查询方式控制设备A的I/O，查询程序运行一次所用的时钟周期数至少为500。在设备A工作期间，为保证数据不丢失，每秒需对其查询至少200次，则CPU用于设备A的I/O的时间占整个CPU时间的百分比至少是（	）。
A.0.02%	B.0.05%	C.0.20%	D.0.50%
第7章输入/输出系统 313
37.【2012统考真题】响应外部中断的过程中，中断隐指令完成的操作，除保存断点外，还包括（	）。
I.关中断 II.保存通用寄存器的内容
III.形成中断服务程序入口地址并送PC
A.仅I、II B.仅I、III C.仅II、III D.I、II、III
38.【2013统考真题】下列关于中断I/O方式和DMA方式比较的叙述中，错误的是（	）。
A.中断I/O方式请求的是CPU处理时间，DMA方式请求的是总线使用权
B.中断响应发生在一条指令执行结束后，DMA响应发生在一个总线事务完成后
C.中断I/O方式下数据传送通过软件完成，DMA方式下数据传送由硬件完成
D.中断I/O方式适用于所有外部设备，DMA方式仅适用于快速外部设备
39.【2014统考真题】若某设备中断请求的响应和处理时间为100ns，每400ns发出一次中断请求，中断响应所允许的最长延迟时间为50ns，则在该设备持续工作过程中，CPU用于该设备的I/O时间占整个CPU时间的百分比至少是（	）。
A.12.5% B.25% C.37.5% D.50%
40.【2015统考真题】在采用中断I/O方式控制打印输出的情况下，CPU和打印控制接口中的I/O端口之间交换的信息不可能是（	）。
A.打印字符 B.主存地址 C.设备状态 D.控制命令
41.【2017统考真题】下列关于多重中断系统的叙述中，错误的是（	）。
A.在一条指令执行结束时响应中断
B.中断处理期间CPU处于关中断状态
C.中断请求的产生与当前指令的执行无关
D.CPU通过采样中断请求信号检测中断请求
42.【2018统考真题】下列关于外部I/O中断的叙述中，正确的是（	）。
A.中断控制器按所接收中断请求的先后次序进行中断优先级排队
B.CPU响应中断时，通过执行中断隐指令完成通用寄存器的保存
C.CPU只有在处于中断允许状态时，才能响应外部设备的中断请求
D.有中断请求时，CPU立即暂停当前指令执行，转去执行中断服务程序
43.【2019统考真题】某设备以中断方式与CPU进行数据交换，CPU主频为1GHz，设备接口中的数据缓冲寄存器为32位，设备的数据传输速率为50kB/s。若每次中断开销（包括中断响应和中断处理）为1000个时钟周期，则CPU用于该设备输入/输出的时间占整个CPU时间的百分比最多是（	）。
A.1.25% B.2.5% C.5% D.12.5%
44.【2019统考真题】下列关于DMA方式的叙述中，正确的是（	）。
I.DMA传送前由设备驱动程序设置传送参数
II.数据传送前由DMA控制器请求总线使用权
III.数据传送由DMA控制器直接控制总线完成
IV.DMA传送结束后的处理由中断服务程序完成
A.仅I、II B.仅I、III、IV C.仅II、III、IV D.I、II、III、IV
45.【2020统考真题】下列事件中，属于外部中断事件的是（	）。
I.访存时缺页 II.定时器到时 III.网络数据包到达
A.仅I、II B.仅I、III C.仅II、III D.I、II和III
314	2027年计算机组成原理考研复习指导
46.【2020统考真题】外部中断包括不可屏蔽中断(NMI)和可屏蔽中断，下列关于外部中断的叙述中，错误的是（	）。
A. CPU处于关中断状态时，也能响应NMI请求
B.一旦可屏蔽中断请求信号有效，CPU就立即响应
C.不可屏蔽中断的优先级比可屏蔽中断的优先级高
D.可通过中断屏蔽字改变可屏蔽中断的处理优先级
47.【2020统考真题】若设备采用周期挪用DMA方式进行输入和输出，每次DMA传送的数据块大小为512字节，相应的I/O接口中有一个32位数据缓冲寄存器。对于数据输入过程，下列叙述中，错误的是（	）。
A.每准备好32位数据，DMA控制器就发出一次总线请求
B.相对于CPU，DMA控制器的总线使用权的优先级更高
C.在整个数据块的传送过程中，CPU不可以访问主存储器
D.数据块传送结束时，会产生“DMA传送结束”中断请求
48.【2021统考真题】下列是关于多重中断系统中CPU响应中断的叙述，错误的是（	）。
A.仅在用户态（执行用户程序）下，CPU才能检测和响应中断
B.CPU只有在检测到中断请求信号后，才会进入中断响应周期
C.进入中断响应周期时，CPU一定处于中断允许（开中断）状态
D.若CPU检测到中断请求信号，则一定存在未被屏蔽的中断源请求信号
49.【2022统考真题】下列关于中断I/O方式的叙述中，不正确的是（	）。
A.适用于键盘、针式打印机等字符型设备
B.外设和主机之间的数据传送通过软件完成
C.外设准备数据的时间应小于中断处理时间
D.外设为某进程准备数据时CPU可运行其他进程
50.【2023统考真题】下列关于硬件和异常/中断关系的叙述中，错误的是（	）。
A.CPU在执行一条指令的过程中检测异常事件
B.CPU在执行完一条指令时检测中断请求信号
C.开中断时CPU检测到中断请求后就进行中断响应
D.外部设备通过中断控制器向CPU发中断结束信号
51.【2023统考真题】下列关于I/O控制方式的叙述中，错误的是（	）。
A.查询方式下，通过CPU执行查询程序进行I/O操作
B.中断方式下，通过CPU执行中断服务程序进行I/O操作
C.DMA方式下，通过CPU执行DMA传送程序进行I/O操作
D.对于SSD、网络适配器等高速设备，采用DMA方式输入/输出
52.【2024统考真题】下列关于中断I/O方式的叙述中，错误的是（	）。
A.中断屏蔽字用于确定中断响应的优先级
B.保存断点和程序状态字在中断响应阶段完成
C.保存通用寄存器和设置新中断屏蔽字由软件实现
D.单重中断方式下中断处理时CPU处于关中断状态
53.【2024统考真题】DMA控制I/O方式下，设备的输入/输出由DMA控制器控制完成，此时，DMA控制器控制的数据传输通路位于（	）。
A.CPU和主存之间	B.CPU和DMA控制器之间
第7章	输入/输出系统 315
C.设备接口和主存之间	D.设备接口和DMA控制器之间
54.【2025统考真题】下列设备中，适合采用DMA输入/输出方式的是（	）。
I.键盘	II. 网卡	Ⅲ。固态硬盘	IV.针式打印机
A. 仅I、II	B. 仅Ⅱ、Ⅲ	C. 仅Ⅱ、IV	D. 仅Ⅲ、Ⅳ
55.【2025统考真题】下列选项中，会触发外部中断请求的事件是（	）。
A. DMA传送结束B.总线事务结束	C.页故障处理结束D.执行断点指令
二、综合应用题
01.在DMA方式下，主存和I/O设备之间有一条物理通路相连吗？
02.假定某I/O设备向CPU传送信息的最高频率为4万次/秒，而相应中断处理程序的执行时间为40μs，则该I/O设备是否可采用中断方式工作？为什么？
03.在程序查询方式的输入/输出系统中，假设不考虑处理时间，每个查询操作需要100个时钟周期，CPU的时钟频率为50MHz.现有鼠标和硬盘两个设备，而且CPU必须每秒对鼠标进行30次查询，硬盘以32位字长为单位传输数据，即每32位被CPU查询一次，传输速率为2 × 2^{2 0}B / s 。求CPU对这两个设备查询所花费的时间比率，由此可得出什么结论？
04.设某计算机有4个中断源1、2、3、4，其硬件排队优先次序按1→2→3→4降序排列，各中断源的服务程序中所对应的屏蔽字如下表所示。
中	断	源	屏	蔽	字
1	2	3	4
1	1	1	0	1
2	0	1	0	0
3	1	1	1	1
4	0	1	0	1
1）给出上述4个中断源的中断处理次序。
2）若4个中断源同时有中断请求，画出CPU执行程序的轨迹。
05.一个DMA接口可采用周期窃取方式把字符（字节）传送到存储器，它支持的最大批量为400B.若存储周期为0.2μs，每处理一次中断需5μs，现有的字符设备的传输速率为9600b/s.假设字符之间的传输是无间隙的，试问DMA方式每秒因数据传输占用处理器多少时间？若完全采用中断方式，又需占处理器多少时间（忽略预处理所需时间）？
06.假设磁盘传输数据以32位的字为单位，传输速率为1MB/s,CPU的时钟频率为50MHz.回答以下问题：
1）采取程序查询方式，假设查询操作需要100个时钟周期，求CPU为I/O查询所花费的时间比率（假设进行足够的查询以避免数据丢失）。
2）采用中断方式进行控制，每次传输的开销（包括中断处理）为80 个时钟周期。求CPU为传输硬盘所花费的时间比率。
3）采用DMA的方式，假定DMA的启动需要1000个时钟周期，DMA完成时后处理需要500个时钟周期。若平均传输的数据长度为4KB(此处K=1000)，试问硬盘工作时CPU将用多少时间比率进行输入/输出操作？忽略DMA申请总线的影响。
07.【2009统考真题】某计算机的CPU主频为500MHz,CPI为5（执行每条指令平均需5个时钟周期）。假定某外设的数据传输速率为0.5MB/s，采用中断方式与主机进行数据传送，以32位为传输单位，对应的中断服务程序包含18条指令，中断服务的其他开销相当于
316	2027年计算机组成原理考研复习指导
2条指令的执行时间。回答下列问题，要求给出计算过程。
1)在中断方式下，CPU用于该外设I/O的时间占整个CPU时间的百分比是多少？
2)当该外设的数据传输速率达到5MB/s时，改用DMA方式传送数据。假定每次DMA传送块大小为5000B，且DMA预处理和后处理的总开销为500个时钟周期，则CPU用于该外设I/O的时间占整个CPU时间的百分比是多少（假设DMA与CPU之间没有访存冲突）？
08.【2012统考真题】假定某计算机的CPU主频为80MHz，CPI为4，平均每条指令访存1.5次，主存与Cache之间交换的块大小为16B，Cache的命中率为99%，存储器总线宽带为32位。回答下列问题。
1)该计算机的MIPS数是多少？平均每秒Cache缺失的次数是多少？在不考虑DMA传送的情况下，主存带宽至少达到多少才能满足CPU的访存要求？
2)假定在Cache缺失的情况下访问主存时，存在0.0005%的缺页率，则CPU平均每秒产生多少次缺页异常？若页面大小为4KB，每次缺页都需要访问磁盘，访问磁盘时DMA传送采用周期挪用方式，磁盘I/O接口的数据缓冲寄存器为32位，则磁盘I/O接口平均每秒发出的DMA请求次数至少是多少？
3)CPU和DMA控制器同时要求使用存储器总线时，哪个优先级更高？为什么？
4)为了提高性能，主存采用4体低位交叉存储模式，工作时每1/4个存储周期启动一个体。若每个体的存储周期为50ns，则该主存能提供的最大带宽是多少？
09.【2016统考真题】假定CPU主频为50MHz，CPI为4。设备D采用异步串行通信方式向主机传送7位ASCII码字符，通信规程中有1位奇校验位和1位停止位，从D接收启动命令到字符送入I/O端口需要0.5ms。回答下列问题，要求说明理由。
1)每传送一个字符，在异步串行通信线上共需传输多少位？在设备D持续工作过程中，每秒最多可向I/O端口送入多少个字符？
2)设备D采用中断方式进行输入/输出，示意图如下所示：
工作	工作	完	工作	完	成	外设D	成	成	成
CPU	启	启
启动	请求	响应	返回	请求	响应	返回	请求	响应
I/O端口每收到一个字符申请一次中断，中断响应需10个时钟周期，中断服务程序共有20条指令，其中第15条指令启动D工作。若CPU需从D读取1000个字符，则完成这一任务所需时间大约是多少个时钟周期？CPU用于完成这一任务的时间大约是多少个时钟周期？在中断响应阶段CPU进行了哪些操作？
10.【2018统考真题】假定计算机的主频为500MHz，CPI为4。现有设备A和B，其数据传输速率分别为2MB/s和40MB/s，对应I/O接口中各有一个32位数据缓冲寄存器。回答下列问题，要求给出计算过程。
1)若设备A采用定时查询I/O方式，每次输入/输出都至少执行10条指令。设备A最多间隔多长时间查询一次才能不丢失数据？CPU用于设备A输入/输出的时间占CPU总时间的百分比至少是多少？
2)在中断I/O方式下，若每次中断响应和中断处理的总时钟周期数至少为400，则设备B能否采用中断I/O方式？为什么？
第7章	输入/输出系统
3)若设备B采用DMA 方式，每次DMA 传送的数据块大小为1000B， CPU用于DMA预处理和后处理的总时钟周期数为500，则CPU用于设备B输入/输出的时间占 CPU总时间的百分比最多是多少？
11.【2022统考真题】假设某磁盘驱动器中有4个双面盘片，每个盘面有20000个磁道，每个磁道有500个扇区，每个扇区可记录512字节的数据，盘片转速为7200rpm（转/分），平均寻道时间为 5ms。请回答下列问题。
1)每个扇区包含数据及其地址信息，地址信息分为3个字段。这3个字段的名称各是什么？对于该磁盘，各字段至少占多少位？
2)一个扇区的平均访问时间约为多少？
3)若采用周期挪用DMA方式进行磁盘与主机之间的数据传送，磁盘控制器中的数据缓冲区大小为 64位，则在一个扇区的读/写过程中，DMA 控制器向 CPU 发送了多少次总线请求？若CPU 检测到 DMA 控制器的总线请求信号时也需要访问主存，则DMA控制器是否可以获得总线使用权？为什么？
7.3.5 答案与解析
一、单项选择题
01. B
当有多个中断请求同时出现时，中断服务程序必须能从中选出当前最需要给予响应的且最重要的中断请求，这就需要预先对所有的中断进行优先级排队，这个工作可由中断判优逻辑来完成，排队的规则可由软件通过对中断屏蔽寄存器进行设置来确定。
02. C
中断服务程序是处理器处理的紧急事件，可理解为一种服务，是事先编好的某些特定的程序，一般属于操作系统的模块，以供调用执行，选项A正确。中断向量由向量地址形成部件，即由硬件产生，且不同的中断源对应不同的中断服务程序，因此通过该方法可以较快速地识别中断源，选项B正确。中断向量是中断服务程序的入口地址，中断向量地址是内存中存放中断向量的地址，即中断服务程序入口地址的地址，选项C错误。重叠处理中断的现象称为中断嵌套，选项D正确。
03. C
当CPU与DMA控制器同时访问主存时，DMA请求通常具有更高的优先级，以确保高速外设数据及时传输，避免丢失；因此，在总线仲裁层面，DMA的优先级高于普通中断请求，说法I正确。程序中断方式需要切换CPU 执行流程，必须保存和恢复现场；而DMA 由专用硬件直接完成数据传送，不经过CPU，不使用其寄存器，因此无须保存现场——正如唐朔飞所编教材《计算机组成原理》中所述：“DMA 方式无须保存现场”，说法Ⅱ正确。说法Ⅲ的情形正好相反。
注	意
DMA 方式对应的中断服务程序确实无须保存现场，因其不涉及CPU寄存器的使用。
04. B
程序中断过程是由硬件（称为中断隐指令）和中断服务程序共同完成的，说法Ⅰ正确。在每条指令执行结束时（而不是执行过程中），CPU 统一扫描各个中断源，检查有无中断请求，说法 Ⅱ错误。CPU会在每个存储周期（总线周期）结束后检查是否有DMA 请求，而不是在一条指令执行过程的末尾，说法Ⅲ错误。中断服务程序的最后指令通常是中断返回指令，与无条件转移指令不同的是，它不仅要修改PC值，而且要将CPU 中的所有寄存器都恢复到中断前的状态，说法Ⅳ错
318	2027年计算机组成原理考研复习指导
误。在中断响应阶段之前，CPU根据中断屏蔽字将所有未被屏蔽的中断请求送到硬件电路(或中断查询程序)进行中断响应判优，中断响应的优先级不是由中断屏蔽字决定的，说法V错误。
05. B
只有具有 DMA 接口的设备才能产生DMA 请求，即使当前设备是高速设备或需要与主机批量交换数据，若没有DMA 接口的话，也不能产生DMA 请求。
06. C
中断向量地址是中断向量表的地址，因为中断向量表保存着中断服务程序的入口地址，所以中断向量地址是中断服务程序入口地址的地址。
07. C
CPU 响应中断必须满足下列3个条件：①CPU 接收到中断请求信号。首先中断源要发出中断请求，同时 CPU 还要收到这个中断请求信号。②CPU 允许中断，即开中断。③一条指令执行完毕。因此中断响应是在指令执行末尾，选项C正确。
08. B
DMA 操作结束、机器出现故障、执行“软中断”指令时都会产生中断请求。一条指令执行完毕可能响应中断请求，但它本身不会引起中断请求。
09. B
屏蔽字“1”表示不可被中断，“0”表示可被中断。由3级中断的屏蔽字可知，它屏蔽所有中断，优先级最高；再由1级中断的屏蔽字可知，它屏蔽除3外的所有中断，优先级次之；以此类推，可知选择选项B。
【另解】“1”越多表示优先级越高，因此屏蔽其他中断源就越多。
10. C
中断隐指令并不是一条由程序员安排的真正的指令，因此不可能把它预先编入程序中，只能在响应中断时由硬件直接执行。中断隐指令不在指令系统中，因此不属于程序控制指令。
11. A
在中断响应周期，CPU 主要完成关中断、保存断点、发中断响应信号并形成中断向量地址的工作，即执行中断隐指令。
12. D
CPU总是在一条指令结束时检查外中断请求，因此对外中断的响应只可能发生在一条指令结束时。中断I/O方式下，CPU执行中断服务程序时会执行相应的I/O指令，实现CPU的通用寄存器和外设接口中的寄存器之间的直接数据交换。中断请求就是要求CPU执行程序来处理发生的相关事件。选项D在下列两种情况下错误：①关中断时，CPU检测不到中断请求，因此不会进入中断响应周期；②当有中断请求的请求源被中断屏蔽字屏蔽时，也不会进入中断响应周期。
13. A
在中断响应周期中，采用硬件方法保存并更新PC内容，而不由软件完成，这样可以避免因为软件保存和恢复PC 内容而造成的时间开销和错误风险，提高中断处理的效率和正确性。
14. C
因为CPU无法对发生的中断请求立即进行处理，因此需要在I/O接口中设置中断触发器，以保存是哪些外设发出了中断请求，等CPU当前的指令周期结束后，响应中断并进行处理。
15. B
允许中断触发器置0表示关中断，在中断响应周期由硬件自动完成，即中断隐指令完成。虽然关中断指令也能实现关中断的功能，但在中断响应周期，关中断是由中断隐指令完成的。在恢复现场和屏蔽字的时候，也需要关中断的操作，此时是由关中断指令来完成的。
第7章输入/输出系统 319
16. C
只有先关中断，才可以保存断点。若先不保存断点，则可能丢失当前程序的断点。同理，在恢复现场前也要关中断。这个过程和操作系统中的信号量PV 操作类似，都是将内部过程变为不可打断的原子操作。
17. D
中断优先级包括响应优先级和处理优先级，中断屏蔽标志改变的是处理优先级。中断响应优先级是由中断查询程序或中断判优电路决定的，它反映的是多个中断同时请求时哪个先被响应，即中断服务程序开始执行的顺序。在多重中断系统中，中断处理优先级决定了本中断是否能打断正在执行的中断服务程序，决定了多个中断服务程序执行完的次序。
18. B
PC的内容是被中断程序尚未执行的第一条指令地址，PSW寄存器保存各种状态信息。CPU响应中断后，需要保存中断的CPU 现场，将PC和PSW压入堆栈，这样等到中断结束后，就可以将压入堆栈的原PC和PSW的内容恢复到相应的寄存器，原程序从断点开始继续执行。
19. B、D
在程序查询方式中，CPU 与外设串行工作，传送与主程序串行工作。在中断方式中，CPU与外设并行工作，当数据准备好时仍需中断主程序以执行数据传送，因此传送与主程序仍是串行的。在DMA方式中，CPU 与外设、传送与主程序都是并行的。
20. C
按启动查询方式的不同，程序查询方式可分为定时查询方式和独占查询方式。在程序查询方式中，由CPU 负责数据的传送。每完成一次数据传送后，将主存地址加1，计数值减1。
21. C
在DMA 方式中，由外部设备向 DMA 控制器发出DMA 请求信号，然后由 DMA 控制器向CPU发出总线请求信号。DMA 控制器在传送期间有总线控制权，此时 CPU 不能响应I/O中断。
22. C
程序中断方式在数据传输时，首先要发出中断请求，此时 CPU 中断正在进行的操作，转而进行数据传输，直到数据传送结束，CPU才返回中断前执行的操作。DMA方式只是在后处理阶段需要用中断方式请求CPU 做结束处理，但在整个数据传送过程，并不需要中断请求，选项A错误。DMA 方式和程序中断方式都有中断请求，但目的不同，程序中断方式的中断请求是为了进行数据传送，而DMA 方式的中断请求是在DMA传送结束后请求CPU做DMA结束处理，选项B错误、选项C正确。CPU对DMA 的响应可在指令执行过程中的任何两个存储周期之间，选项D错误。
23. A
一个完整的DMA过程主要由DMA控制器控制，但也需要CPU参与控制，只是 CPU干预比较少，只需在数据传输开始和结束时干预，从而提高了CPU的效率。
24. B
DMA请求的是总线的使用权，因此CPU对DMA请求的响应时机是一个总线周期结束时。在流水线CPU中，流水段的长度以最复杂的操作所花的时间为准，总线周期（访存时间）通常是耗时最长的，因此通常可认为总线周期、存储周期和流水段长度是等价的。
25. A
DMA连接的是高速设备，其优先级高于中断请求，以防止高速设备数据丢失，选项A正确。DMA 请求的响应时间可以发生在每个总线周期结束时，只要 CPU 不占用总线；中断请求的响应时间只能发生在每条指令执行完毕，选项B错误。DMA的优先级要比外中断（非屏蔽中断、可屏蔽中断）高，选项C错误。若不开中断，则内中断和非屏蔽中断仍可响应，选项D错误。
320	2027年计算机组成原理考研复习指导
26. C
寻道结束后会通过中断方式通知CPU寻道已结束，可进行下一步操作。通过旋转定位到某个扇区后，也会通过中断方式来通知CPU磁盘已准备好，可进行数据读取或写入操作。DMA传输结束后的校验是由中断服务程序完成的。综上所述，①②④都用到了中断处理，选项A正确。DMA控制器中数据缓冲寄存器的个数是有限的，为避免后续到来的数据覆盖掉原有的数据，必须保证已到的数据能被及时送到主存，因此DMA控制器使用总线的优先级比CPU高，选项B正确，选项C错误。DMA的数据传输过程是完全由DMA控制器控制的，可以和CPU完全并行，选项D正确。
27. A
中断发生时，程序计数器内容的保存和更新是由硬件自动完成的，即由中断隐指令完成。
28. B
DMA传送数据时，挪用周期不会改变CPU现场，因此无须占用CPU的PC和寄存器。
29. B
DMA方式的数据传送不经过CPU，但需要经过DMA控制器中的数据缓冲寄存器。输入时，数据由外设(如磁盘)先送往DMA的数据缓冲寄存器，再通过数据总线送到主存。反之，输出时，数据由主存通过数据总线送到DMA的数据缓冲寄存器，然后送到外设。
30. D
当采用周期挪用进行DMA数据传送时，每当CPU收到DMA控制器的总线申请，就将下一个总线周期的总线控制权交给DMA控制器。DMA控制器利用这个总线周期完成一个数据字的传送后，立即将总线控制权交回给CPU，因此这里的总线周期也等于存储周期的长度。
31. D
DMA方式主要用于磁盘等高速设备的成批数据传送，这类高速设备的记录方式多采用数据块组织方式，因此每启动一次DMA传送，外设和主机之间就完成一个数据块的数据传送。
32. C
传送信息所在的通用寄存器编号不包含在初始化信息中，因为数据不是通过CPU中的通用寄存器来传输的，而是直接通过DMA控制器进行数据传输的。
33. A
外部中断是指CPU执行指令以外的事件产生的中断，通常指来自CPU与内存以外的中断。选项A中键盘输入属于外部事件，每次键盘输入CPU都需要执行中断以读入输入数据，所以能引起外部中断。选项B中除数为0属于异常，也就是内中断，发生在CPU内部。选项C中浮点运算下溢将按机器零处理，不会产生中断。而选项D中访存缺页属于CPU执行指令时产生的中断，也不属于外部中断。所以能产生外部中断的只能是输入设备键盘。
34. A
在单级(或单重)中断系统中不允许中断嵌套。中断处理过程为：①关中断；②保存断点；③识别中断源；④保存现场；⑤中断事件处理；⑥恢复现场；⑦开中断；⑧中断返回。其中①~③由硬件完成，④~⑧由中断服务程序完成。
35. D
中断响应优先级是由硬件线路(或查询程序)决定的，不便改动，而中断处理优先级可以利用屏蔽字技术来动态调整。1表示屏蔽该中断源的请求，0表示可以被该中断源中断。从中断处理优先级来看，L₁只能屏蔽L₃和其自身，因此中断屏蔽字M₄M₃M₂M₁M₀=01010。
36. C
每秒至少查询200次，每次查询至少500个时钟周期，则每秒最少占用200×500=100000个时钟周期，因此占CPU时间的百分比为100000/50M=0.20%。
第7章输入/输出系统	321
37. B
在响应外部中断的过程中，中断隐指令完成的操作包括：①关中断；②保存断点；③引出中断服务程序(形成中断服务程序入口地址并送PC)，所以只有说法I、III正确。说法II中保存通用寄存器的内容是在进入中断服务程序后首先进行的操作。
38. D
中断I/O方式：在I/O设备输入每个数据的过程中，由于无须CPU干预，因此可使CPU与I/O设备并行工作。仅当输完一个数据时，才需要CPU花费极短的时间去做一些中断处理。因此中断申请使用的是CPU处理时间，发生的时间是在一条指令执行结束之后，数据在软件的控制下完成传送。而DMA方式与之不同。DMA方式：数据传输的基本单位是数据块，即在CPU与I/O设备之间，每次传送至少一个数据块；DMA方式每次申请的是总线的使用权，所传送的数据是从设备直接送入内存的，或者相反；仅在传送一个或多个数据块的开始和结束时，才需要CPU干预，整块数据的传送是在控制器的控制下完成的。中断I/O方式不适合高速外设；多路型DMA控制器也适合同时为多个慢速外设服务，选项D错误。
39. B
每400ns发出一次中断请求，而响应和处理时间为100ns，其中允许的延迟为干扰信息，因为在50ns内，无论怎么延迟，每400ns仍要花费100ns处理中断，所以该设备的I/O时间占整个CPU时间的百分比为100ns/400ns=25%。
40. B
在程序中断I/O方式中，CPU和打印机直接交换，打印字符直接传输到打印机的I/O端口，不会涉及主存地址。而CPU和打印机通过I/O端口中的状态口和控制口来实现交互。
41. B
多重中断在保存被中断进程现场时关中断，执行中断处理程序时开中断，选项B错误。CPU一般在一条指令执行结束的阶段采样中断请求信号，查看是否存在中断请求，然后决定是否响应中断，选项A、D正确。中断是指来自CPU执行指令以外的事件，选项C正确。
42. C
中断优先级分为响应优先级和处理优先级，响应优先级由硬件排队器(或中断查询程序)决定，处理优先级由屏蔽字决定，而非请求的先后次序决定。中断隐指令完成的工作有：①关中断；②保存断点；③引出中断服务程序，通用寄存器的保存由中断服务程序完成。中断允许状态(开中断后)，才能响应外部设备的中断请求，外部设备通常不能发出不可屏蔽中断，外部设备的中断请求通常是为了输入/输出，这些事件并不是系统级的紧急事件，可以被屏蔽或延迟处理，若允许外部设备发出不可屏蔽中断，则可能影响系统的稳定性和安全性。有中断请求时，若是关中断的状态，或新中断请求的优先级较低，则不能响应新的中断请求。
43. A
设备接口中的数据缓冲寄存器为32位，即一次中断可以传输4B数据，设备数据传输速率为50kB/s,共需要12.5k次中断，每次中断开销为1000个时钟周期,CPU主频为1GHz,则CPU用于该设备输入/输出的时间占整个CPU时间的百分比最多是(12.5k×1000)÷1G=1.25%。
44. D
每类设备都配置一个设备驱动程序，设备驱动程序向上层用户程序提供一组标准接口，负责实现对设备发出各种具体操作指令，用户程序不能直接和DMA打交道。DMA的数据传送过程分为预处理、数据传送和后处理3个阶段。预处理阶段由CPU完成必要的准备工作，数据传送前由DMA控制器请求总线使用权；数据传送由DMA控制器直接控制总线完成；传送结束后，DMA控制器向CPU发送中断请求，CPU执行中断服务程序做DMA结束处理。
322	2027年计算机组成原理考研复习指导
45. C
访存时缺页属于内部异常，说法Ⅰ错误；定时器到时描述的是时钟中断，属于外部中断，说法Ⅱ正确；网络数据包到达描述的是CPU 执行指令以外的事件，属于外部中断，说法Ⅲ正确。
46. B
由CPU 内部产生的异常称为内中断，内中断是不可屏蔽中断。通过中断请求线INTR 和NMI，从CPU外部发出的中断请求称为外中断，通过INTR 信号线发出的外中断是可屏蔽中断，而通过NMI信号线发出的是不可屏蔽中断。不可屏蔽中断即使在关中断（IF=0）情况下也被响应，选项A正确。不可屏蔽中断的优先级最高，任何时候只要发生不可屏蔽中断，都要中止现行程序的执行，转到不可屏蔽中断处理程序执行，选项C正确。CPU 响应中断需要满足3个条件：①中断源有中断请求；②CPU 允许中断及开中断；③一条指令执行完毕，且没有更紧迫的任务。选项B错误。
47. C
周期挪用法由DMA 控制器挪用一个或几个主存周期来访问主存，传送完一个数据字后立即释放总线，是一种单字传送方式，每个字传送完后CPU 可以访问主存，选项C错误。停止CPU访存法则是指在整个数据块的传送过程中，使CPU 脱离总线，停止访问主存。
48. A
中断服务程序在内核态下执行，若只能在用户态下检测和响应中断，则显然无法实现多重中断（中断嵌套），选项A错误。在多重中断中，CPU只有在检测到中断请求信号后（中断处理优先级更低的中断请求信号是检测不到的），才会进入中断响应周期。进入中断响应周期时，说明此时CPU一定处于中断允许状态，否则无法响应该中断。若所有中断源都被屏蔽（说明该中断的处理优先级最高），则CPU不会检测到任何中断请求信号。
49. C
中断I/O方式适用于字符型设备，此类设备的特点是数据传输速率慢，以字符或字为单位进行传输，选项A 正确。若采用中断I/O 方式，当外设准备好数据后，向CPU 发出中断请求，CPU暂时中止现行程序，转去运行中断服务程序，由中断服务程序完成数据传送，选项B正确。若外设准备数据的时间小于中断处理时间，则可能导致数据丢失，以输入设备为例，设备为进程准备的数据会先写入设备控制器的缓冲区（缓冲区大小有限），缓冲区每写满一次，就向CPU 发出一次中断请求，CPU 响应并处理中断的过程，就是将缓冲区中的数据“取走”的过程，因此若外设准备数据的时间小于中断处理时间，则可能导致外设往缓冲区写入数据的速度快于CPU从缓冲区取走数据的速度，从而导致缓冲区的数据被覆盖，进而导致数据丢失，选项C错误。若采用中断I/O方式，则外设为某进程准备数据时，可令该进程阻塞，CPU 运行其他进程，选项D正确。
50. D
选项A 和B 显然正确。开中断时，CPU 在执行完一条指令时检测中断请求信号，若检测到中断请求信号，就立即响应；即便是多重中断，CPU 正在处理某个中断的过程中，因为中断屏蔽字的存在，所以CPU 检测不到处理优先级更低的中断请求信号，若检测到中断请求信号，则说明其处理优先级更高，同样也立即响应，选项C 正确。外设通过中断控制器向 CPU 发中断请求信号，CPU 响应中断请求后开始执行中断服务程序，中断服务程序执行结束后CPU 自行返回（中断服务程序的最后一条指令是返回指令），无须外设发中断结束信号，选项D错误。
51. C
DMA在预处理和后处理阶段需要CPU来处理，而数据传输阶段由DMA控制器完成。
52. A
中断优先级包括响应优先级和处理优先级。响应优先级由硬件线路或查询程序的查询顺序确
第7章输入/输出系统
定，不可动态改变；处理优先级由中断屏蔽字确定，可灵活改变。
53.C
DMA的传送过程：①预处理：CPU完成一些必要的准备工作，由DMA控制器向CPU发总线请求。②数据传送：DMA控制器接管总线后，在设备接口和主存之间进行数据传送，此阶段由DMA控制器控制。③后处理：传送结束后，DMA控制器向CPU发送中断信号，做结束处理。
54.B
DMA（直接内存访问）适用于高速、大块数据传输的设备，因其可在不占用CPU的情况下直接与内存交换数据。网卡和固态硬盘均属于高带宽的块设备，适合采用DMA方式。而键盘和针式打印机是典型的低速字符设备，采用中断或程序查询方式通常更高效。
55.A
外部中断由CPU外部事件触发。DMA控制器完成数据传输后，会向CPU发出中断请求，这是由外部设备发起的硬件中断，属于典型的外部中断。而页故障(缺页异常)和执行断点指令均在指令执行过程中由CPU内部检测并触发，属于内部中断(异常)。总线事务(如一次读/写操作)的完成通常是CPU或主控设备主动发起并等待的结果，一般不会产生中断。
二、综合应用题
01.【解答】
没有。通常所说的DMA方式在主存和I/O设备之间建立一条“直接的数据通路”，使得数据在主存和I/O设备之间直接进行传送，其含义并不是在主存和I/O之间建立一条物理直接通路，而是主存和I/O设备通过I/O设备接口、系统总线及总线桥接部件等相连，建立一个信息可以相互通达的通路，这在逻辑上可视为直接相连的。其“直接”是相对于要通过CPU才能和主存相连这种方式而言的。
02.【解答】
I/O设备传送一个数据的时间为1÷(4×10⁴)s=25μs，所以请求中断的周期为25μs，而相应中断处理程序的执行时间为40μs，大于请求中断的周期，会丢失数据(单位时间内I/O请求数量比中断处理的多，自然会丢失数据)，所以不能采用中断方式。
03.【解答】
1)CPU每秒对鼠标进行30次查询，所需的时钟周期数为100×30=3000。CPU的时钟频率为50MHz，即每秒50×10⁶个时钟周期，因此对鼠标的查询占用CPU的时间比率为[3000÷(50×10⁶)]×100%=0.006%可见，对鼠标的查询基本不影响CPU的性能。
2)对于硬盘，每32位(4B)被CPU查询一次，因此每秒查询次数为2×2²⁰B÷4B=512K；则每秒查询的时钟周期数为
100×512×1024=52.4×10⁶
因此对硬盘的查询占用CPU的时间比率为
[52.4×10⁶÷(50×10⁶)]×100%=105%
可见，即使CPU将全部时间都用于对硬盘的查询，也不能满足磁盘传输的要求，因此CPU一般不采用程序查询方式与磁盘交换信息。
04.【解答】
1)中断屏蔽字“1”表示不可被中断，“0”表示可被中断。根据表中“1”的个数的降序排列可知，4个中断源的处理次序是3→1→4→2。
2)当4个中断源同时有中断请求时，硬件排队的优先次序是1→2→3→4，因此CPU先响应
324	2027年计算机组成原理考研复习指导
1的请求，执行1的服务程序。该程序中设置了屏蔽字1101，因此开中断指令后转去执行3服务程序，且3服务程序执行结束后又回到了1服务程序。1服务程序结束后，CPU还有2、4两个中断源请求未响应。2的响应优先级高于4，因此CPU先响应2的请求，执行2服务程序。在2服务程序中因为设置了屏蔽字0100，意味着1、3、4可中断2服务程序。而1、3的请求已经结束，因此在开中断指令后转去执行4服务程序，4服务程序执行结束后又回到2服务程序的断点处，继续执行2服务程序，直至该程序执行结束。CPU执行程序的轨迹如下图所示。
05.【解答】
根据字符设备的传输速率为9600b/s，得每秒能传输
9600/8=1200B，即1200个字符（本题中字符、字节不加以区分）
1）若采用DMA方式，传输1200个字符共需1200个存储周期，考虑到每传400个字符需中断处理一次，因此DMA方式每秒因数据传输占用处理器的时间是 
5\mu s×(1200/400)=15\mu s
2）若采用中断方式，每秒因数据传输占用处理器的时间是 
5\mu s×1200=6000\mu s
06.【解答】
1）采用程序查询方式，硬盘传输速率为1MB/s，一个字为32bit=4B，每秒查询的次数为1MB/4B=2.5×10^{5}，每秒查询所需的总时钟周期数为2.5×10^{5}×100=2.5×10^{7}。
CPU的时钟频率为50MHz。
因此，I/O查询所花费的时间比率为2.5×10^{7}÷50M=2.5×10^{7}÷(5×10^{7})=50\%。
2）采用中断方式时，每传输一个字便进行一次中断处理。
每秒产生的中断次数为1MB/4B=2.5×10^{5}次。
每秒用于传输的开销为2.5×10^{5}×80=2×10^{7}个时钟周期。
因此花费的时间比率为(2×10^{7})÷(5×10^{7})=40\%。
3）采用DMA方式时，CPU所花时间仅为启动时间和后处理时间。
每传输一次数据CPU所花的时间为1000+500=1500个时钟周期。
DMA平均传送长度为4000B，每秒产生的DMA次数为1MB/s÷(4×10^{3}B)=250。
因此，CPU为DMA所花费时间的比率为(1500×250)÷50M=0.75\%。
07.【解答】
1）按题意，外设每秒传送0.5MB，中断时每次传送32bit=4B。由于CPI为5，在中断方式下，CPU每次用于数据传送的时钟周期为5×18+5×2=100（中断服务程序+其他开销）。
为达到外设0.5MB/s的数据传输速率，外设每秒申请的中断次数为0.5MB/4B=125000。
1秒内用于中断的开销为100×125000=12500000=12.5M个时钟周期。
CPU用于外设I/O的时间占整个CPU时间的百分比为12.5M/500M=2.5%。
2）当外设数据传输速率提高到5MB/s时改用DMA方式传送，每次DMA传送一个数据块，
第7章 输入/输出系统 325
大小为 5000B，则 1 秒内需产生的 DMA 次数为 5MB/5000B=1000。
CPU 用于 DMA 处理的总开销为 1000×500=500000=0.5M 个时钟周期。
CPU 用于外设 I/O 的时间占整个 CPU 时间的百分比为 0.5\mathrm{\sim M}/ 500\mathrm{\sim M}=0.1\%。
08.【解答】
本题涉及多个考点：计算机的性能指标、存储器的性能指标、DMA 的性能分析、DMA 方式的特点及多体交叉存储器的性能分析。
1)平均每秒 CPU 执行的指令数为 80M/4=20M，因此 MIPS 数为 20。平均每条指令访存 1.5次，因此平均每秒 Cache 缺失的次数=20\mathrm{\sim M}×1.5×(1-99\%)=300\mathrm{\sim K}。当 Cache 缺失时，CPU 访问主存，主存与 Cache 之间以块为传送单位，此时主存带宽为 16\mathrm{\sim B}×300\mathrm{\sim k}/\mathrm{s}=4.8\mathrm{\sim MB}/\mathrm{s}。在不考虑 DMA 传送的情况下，主存带宽至少达到 4.8MB/s 才能满足 CPU 的访存要求。
2)题中假定在 Cache 缺失的情况下访问主存，平均每秒产生缺页中断 300000×0.0005\% =1.5次。因为存储器总线宽度为 32 位，所以每传送 32 位数据，磁盘控制器发出一次 DMA 请求，因此平均每秒磁盘 DMA 请求的次数至少为 1.5×4\mathrm{\sim KB}/4\mathrm{\sim B}=1.5\mathrm{\sim K}=1536。
3)CPU 和 DMA 控制器同时要求使用存储器总线时，DMA 请求的优先级更高。因为，若DMA 请求得不到及时响应，I/O 传输数据可能丢失。
4)4 体交叉存储模式能提供的最大带宽为 4×4\mathrm{\sim B}/50\mathrm{\sim ns}=320\mathrm{\sim MB}/\mathrm{s}。
09.【解答】
1)每传送一个 ASCII 码字符，需要传输的位数有 1 位起始位、7 位数据位（ASCII 码字符占 7 位）、1 位奇校验位和 1 位停止位，因此总位数为 1+7+1+1=10。
I/O 端口每秒最多可接收 1000/0.5=2000 个字符。
2)一个字符传送时间包括：设备 D 将字符送 I/O 端口的时间、中断响应时间和中断服务程序前 15 条指令的执行时间。时钟周期为 1÷50\mathrm{\sim MHz}=20\mathrm{\sim ns}，设备 D 将字符送 I/O 端口的时间为 0.5\mathrm{\sim ms}/20\mathrm{\sim ns}=2.5×10^{4} 个时钟周期。一个字符的传送时间约为 2.5×10^{4}+10+15×4=25070个时钟周期。完成 1000 个字符传送所需的时间约为 1000×25070=25070000 个时钟周期。CPU 用于该任务的时间约为 1000×(10+20×4)=9×10^{4} 个时钟周期。
在中断响应阶段，CPU 主要进行以下操作：关中断、保存断点和程序状态、识别中断源。
10.【解答】
1)程序定时向缓存端口查询数据，由于缓存端口大小有限，必须在传输完端口大小的数据时访问端口，以防止部分数据未被及时读取而丢失。设备 A 准备 32 位数据所用的时间为 4\mathrm{\sim B}/2\mathrm{\sim MB}=2\mathrm{\sim \mu s}，所以最多每隔 2\mu\mathrm{\sim s} 必须查询一次，每秒的查询次数至少是 1\mathrm{\sim s}/2\mathrm{\sim \mu s}=5×10^{5}，每秒 CPU 用于设备 A 输入/输出的时间至少为 5×10^{5}×10×4=2×10^{7} 个时钟周期，占整个 CPU 时间的百分比至少是 2×10^{7}÷500\mathrm{\sim M}=4\%。
2)中断响应和中断处理的时间为 400×(1/500\mathrm{\sim M})=0.8\mathrm{\sim \mu s}，这时只需判断设备 B 准备 32 位数据要多久，若准备数据的时间小于中断响应和中断处理的时间，则数据被刷新，造成丢失。经过计算，设备 B 准备 32 位数据所用的时间为 4\mathrm{\sim B}/40\mathrm{\sim MB}=0.1\mathrm{\sim \mu s}，因此设备 B 不适合采用中断 I/O 方式。
3)在 DMA 方式中，只有预处理和后处理需要 CPU 处理。设备 B 每秒的 DMA 次数最多为 40\mathrm{\sim MB}/s÷1000\mathrm{\sim B}=40000，CPU 用于设备 B 输入/输出的时间最多为 40000×500=2×10^{7} 个时钟周期，占 CPU 总时间的百分比最多为 (2×10^{7})/500\mathrm{\sim M}=4\%。
11.【解析】
1)3 个字段的名称为柱面号（或磁道号）、磁头号（或盘面号）、扇区号。每个盘面有 20000个磁道，因此该磁盘共有 20000 个柱面，柱面号字段至少占 \left\lceil\log_{2}20000\right\rceil =15位；该磁盘
326	2027年计算机组成原理考研复习指导
共有4个盘片，每个盘片有2个盘面，因此磁头号字段至少占log₂(4×2)=3位；每个磁道有500个扇区，因此扇区号字段至少占[log₂500]=9位。
2)一个扇区的访问时间由寻道时间、延迟时间、传输时间三部分组成。平均寻道时间为5ms，平均延迟时间等于磁盘转半圈所需要的时间，平均传输时间等于一个扇区划过磁头下方所需要的时间。而该磁盘转一圈的时间为(60×10³)/7200≈8.33ms，因此一个扇区的平均访问时间约为5+8.33/2+8.33/500≈9.18ms。
3)磁盘控制器中的数据缓冲区每充满一次，DMA控制器就需要发出一次总线请求，将这64bit 数据通过总线传送到主存，因此，在一个扇区的读/写过程中，DMA 控制器向 CPU发送了512B/64bit =64次总线请求。采用周期挪用DMA 方式，因此当CPU 和DMA 控制器都需要访问主存时，DMA 控制器可以优先获得总线使用权。因为一旦磁盘开始读/写，就必须按时完成数据传送，否则数据缓冲区中的数据会发生丢失。
7.4	本章小结
本章开头提出的问题的参考答案如下。
1)I/O设备有哪些编址方式？各有何特点？
I/O设备的编址方式主要有统一编址和独立编址。统一编址是指将主存地址空间的一部分分配给I/O端口，CPU可使用普通访存指令直接访问I/O设备，编程简便；但会占用主存地址空间，减少可用主存容量。独立编址是指I/O地址空间与主存地址空间相互独立，I/O端口不占用主存资源；但访问I/O设备需使用专用I/O指令(如IN、OUT)，增加了指令集的复杂性。
2)CPU响应中断应具备哪些条件?
① CPU内部的中断屏蔽触发器处于开放状态。
② 外设发出中断请求，且其接口中的中断请求触发器置为“1”，以维持中断请求信号。
③ 外设接口的中断允许触发器为“1”，才能将中断请求送达CPU。
当上述三个条件同时满足时，CPU在当前指令执行结束后响应中断。
7.5	常见问题和易混淆知识点
1.在开中断情况下，CPU检测到中断就一定会立即响应吗？
是的。在开中断状态下，CPU总在每条指令执行结束时采样中断请求。一旦检测到中断请求，即表明该请求未被屏蔽且有效，CPU 必定会立即响应。
需要说明的是：在单重中断系统中，进入中断服务程序后通常会自动关中断，此后即使有新的中断请求也无法被检测，但这不属于“开中断”情形，违背题设前提。而在多重中断系统中，高优先级中断可在低优先级的中断服务程序执行期间被检测并响应，因其未被屏蔽。
2.向量中断、中断向量、向量地址三个概念是什么关系?
中断向量：中断向量指中断服务程序的入口地址。每个中断源对应一个唯一的中断服务程序，其入口地址即为该中断源的中断向量。系统通常将所有中断向量集中组织成一张中断向量表；也有系统在表中存放转移指令，构成中断向量转移表。
向量地址：向量地址指中断向量表(或转移表)中某一项的内存起始地址。它通常由中断类
第7章	输入/输出系统
327
型号（也称中断号）乘以表项长度计算得出。例如，若表项占4字节，中断类型号为5，则向量地址为5×4=20（假设表从0开始）。因此，向量地址是CPU用于定位中断向量的“索引位置”。
向量中断：是一种能够自动识别中断源并快速转移至对应服务程序的中断处理方式。当中断发生时，中断源（或中断控制器）向CPU 提供中断类型号，CPU据此生成向量地址，并从向量表中取出对应的中断向量（入口地址），直接转移执行相应的中断服务程序。
3.程序中断和调用子程序有何区别？
虽然程序中断和子程序调用都会引起程序执行流程的转移，但二者在本质上存在显著差异，主要体现在以下几个方面：
1)触发时机：子程序调用由程序员通过CALL 指令主动发起，发生时刻和位置是确定的；而中断由外部设备或内部事件随机触发，CPU 只在每条指令执行结束时采样中断请求，一旦条件满足便转入中断处理，具有明显的异步性和不可预测性。
2)服务关系：子程序完全为主程序服务，二者构成主从关系：主程序在需要时调用子程序，执行完毕后返回主程序继续运行。中断服务程序通常与主程序无直接关联，是为响应外部事件（如数据到达、定时器溢出等）而执行的独立任务，二者属于平行关系。
3)实现机制：子程序调用是纯软件行为，只需利用堆栈保存返回地址，无须额外硬件支持；而中断处理依赖软硬件协同，需借助中断请求线、中断控制器和优先级判优电路等硬件，才能完成中断请求的接收、判优、响应和断点保护等操作。
4)嵌套级别：子程序可多层嵌套，嵌套深度主要受限于系统堆栈空间；中断嵌套则受优先级机制约束——只有更高优先级的中断才能打断当前正在执行的中断服务程序。出于硬件复杂性和实时性考虑，实际系统中中断优先级通常较少，嵌套层次有限。
购买王道书，就上
王道官方考研书店
wangdao.taobao.com
淘
参考文献
[1] 袁春风。计算机系统基础[M]. 北京：机械工业出版社，2018.
[2] 袁春风。计算机组成与系统结构[M]. 北京：清华大学出版社，2015.
[3] 袁春风。计算机系统基础习题解答与教学指导[M]. 北京：机械工业出版社，2019.
[4] 唐朔飞。计算机组成原理[M]. 北京：高等教育出版社，2008.
[5] 唐朔飞。计算机组成原理：学习指导与习题解答[M]. 北京：高等教育出版社，2012.
[6] 布莱恩特，奥哈洛伦，等。深入理解计算机系统[M]. 3版。龚奕利，贺莲，译。北京：机械工业出版社，2016.
[7] 李春葆，肖忠付，杭小庆。计算机组成原理联考辅导教程[M]. 北京：清华大学出版社，2010.
[8] 全国考研计算机大纲配套教材专家委员会。全国硕士研究生入学统一考试计算机专业基础综合考试大纲解析[M]. 北京：高等教育出版社，2014.
[9] 徐爱萍。计算机组成原理考研指导[M]. 北京：清华大学出版社，2003.
[10] 谭志虎。计算机组成原理（微课版）[M]. 北京：人民邮电出版社，2022.
购买王道书，就上
王道官方考研书店
wangdao.taobao.com
淘