禅与计算机 禅与计算机
首页
  • Java基础

    • 聊一聊java一些核心知识点
    • 聊聊java面向对象核心知识点
    • 聊聊Java中的异常
    • 聊聊Java中的常用类String
    • 万字长文带你细聊Java注解本质
    • 来聊聊Java的反射机制
    • 深入解析Java泛型的魅力与机制
    • Java集合框架深度解析与面试指南
    • Java常用集合类HashMap深度解析
    • LinkedHashMap源码到面试题的全解析
    • 深入解析CopyOnWriteArrayList的工作机制
    • Java基础IO总结
    • Java三大IO模型小结
    • Java BIO NIO AIO详解
    • Java进阶NIO之IO多路复用详解
    • Java8流式编程入门
    • 一文速通lambda与函数式编程
    • Java8函数式方法引用最佳实践
  • Java并发编程

    • Java并发编程基础小结
    • 深入理解Java中的final关键字
    • 浅谈Java并发安全发布技术
    • 浅谈Java并发编程中断的哲学
    • Java线程池知识点小结
    • 浅谈Java线程池中拒绝策略与流控的艺术
    • synchronized关键字使用指南
    • 深入源码解析synchronized关键字
    • 详解JUC包下的锁
    • 详解并发编程中的CAS原子类
    • LongAdder源码分析
    • AQS源码解析
    • 深入剖析Java并发编程中的死锁问题
    • Java并发容器总结
    • 详解Java并发编程volatile关键字
    • 并发编程ThreadLocal必知必会
    • CompletableFuture基础实践小结
    • CompletableFuture异步多任务最佳实践
    • 硬核详解FutureTask设计与实现
    • 线程池大小设置的底层逻辑与场景化方案
    • 来聊一个有趣的限流器RateLimiter
  • JVM相关

    • 从零开始掌握 JVM
    • JVM核心知识点小结
    • JVM指令集概览:基础与应用
    • JVM类加载器深度解析
    • JVM方法区深度解析
    • Java内存模型JMM详解
    • Java对象大小的精确计算方法
    • 逃逸分析在Java中的应用与优化
    • 从零开始理解JVM的JIT编译机制
    • G1垃圾回收器:原理详解与调优指南
    • JVM故障排查实战指南
    • JVM内存问题排错最佳实践
    • JVM内存溢出排查指南
    • 简明的Arthas使用教程
    • 简明的Arthas配置及基础运维教程
    • 基于Arthas Idea的JVM故障排查与指令生成
    • 基于arthas量化监控诊断java应用方法论与实践
    • 深入剖析arthas技术原理
  • 深入理解Spring框架

    • Spring 核心知识点全面解析
    • Spring核心功能IOC详解
    • Spring AOP 深度剖析与实践
    • Spring 三级缓存机制深度解析
    • 深入 Spring 源码,剖析设计模式的落地实践
    • 探索 Spring 事务的奥秘
    • 深入解析Spring Bean的生命周期管理
    • 解读 Spring Boot 核心知识点
    • Spring Boot 启动优化实战:1分钟到13秒的排查与优化之路
    • Spring Boot自动装配原理及实践
    • 一文快速上手Sharding-JDBC
    • sharding-jdbc如何实现分页查询
    • 基于DynamicDataSource整合分库分表框架Shardingsphere
  • 计算机组成原理

    • 计算机硬件知识小结
    • CPU核心知识点小结
    • 浅谈CPU流水线的艺术
    • 从Java程序员视角聊聊CPU缓存
    • CPU任务调度和伪共享问题小结
    • CPU MESI缓存一致性协议
    • CPU内存管理机制
    • 内存深度解析
    • 磁盘存储原理
    • 详解计算机启动步骤
    • CPU南北桥架构与发展史
    • CPU中断机制与硬件交互详解
  • 操作系统

    • 如何实现一个高性能服务器
    • Linux文件结构与文件权限
    • Linux常见压缩指令小结
    • Linux核心系统调用详解
    • Linux进程管理
    • Linux线程管理
    • 进程与线程深度解析
    • Linux进程间通信机制
    • 零拷贝技术原理与实践
    • CPU缓存一致性问题深度解析
    • IO任务与CPU调度艺术
  • 计算机网络

    • 网卡通信原理详解
    • 网卡数据包处理指南
    • 基于抓包详解TCP协议
  • 编码最佳实践

    • 浅谈现代软件工程TDD最佳实践
    • 浅谈TDD模式下并发程序设计与实现
    • 面向AI编程新范式Trae后端开发环境搭建与实践
    • 基于提示词工程的Redis签到功能开发实践
    • 基于Vibe Coding的Redis分页查询实现
    • 告别AI无效对话:资深工程师的提示词设计最佳实践
  • 实用技巧与配置

    • Mac常用快捷键与效率插件指南
    • Keynote技术科普短视频制作全攻略
  • 写作

    • 写好技术博客的5大核心原则:从认知科学到AI工具的全流程指南
  • 开发工具

    • IDEA配置详解与高效使用指南
  • Nodejs
  • 博客搭建
  • Redis

    • Redis核心知识小结
    • 解锁Redis发布订阅模式
    • 掌握Redis事务
    • Redis主从复制技术
    • Redis的哨兵模式详解
    • 深度剖析Redisson分布式锁
    • 详解redis单线程设计思路
    • 来聊聊Redis所实现的Reactor模型
    • Redis RDB持久化源码深度解析
    • 来聊聊redis的AOF写入
    • 来聊聊Redis持久化AOF管道通信的设计
    • 来聊聊redis集群数据迁移
    • Redis SDS动态字符串深度解析
    • 高效索引的秘密:redis跳表设计与实现
    • 聊聊redis中的字典设计与实现
  • MySQL

    • MySQL基础知识点小结
    • 解读MySQL 索引基础
    • MySQL 索引进阶指南
    • 解读MySQL Explain关键字
    • 探秘 MySQL 锁:原理与实践
    • 详解MySQL重做日志redolog
    • 详解undoLog在MySQL MVCC中的运用
    • MySQL二进制日志binlog核心知识点
    • MySQL高效插入数据的最佳实践
    • MySQL分页查询优化指南
    • MySQL流式查询的奥秘与应用解析
    • 来聊聊分库分表
    • 来聊聊大厂常用的分布式ID生成方案
  • ElasticSearch

    • 从Lucene到Elasticsearch:进化之路
    • ES 基础使用指南
    • ElasticSearch如何写入一篇文档
    • 深入剖析Elasticsearch文档读取原理
    • 聊聊ElasticSearch性能调优
    • Spring借助Easy-Es操作ES
  • Netty

    • 一文快速了解高性能网络通信框架Netty
    • Netty网络传输简记
    • 来聊聊Netty的ByteBuf
    • 来聊聊Netty消息发送的那些事
    • 解密Netty高性能之谜:NioEventLoop线程池阻塞分析
    • 详解Netty中的责任链Pipeline如何管理ChannelHandler
    • Netty Reactor模型常见知识点小结
    • Netty如何驾驭TCP流式传输?粘包拆包问题全解
    • Netty解码器源码解析
  • 消息队列

    • 一文快速入门消息队列
    • 消息队列RocketMQ入门指南
    • 基于RocketMQ实现分布式事务
    • RocketMQ容器化最佳实践
    • RocketMQ常见问题与深度解析
    • Kafka快速安装与使用指南
  • Nginx

    • Linux下的nginx安装
    • Nginx基础入门总结
    • Nginx核心指令小结
    • Nginx进程结构与核心模块初探
    • Nginx应用进阶HTTP核心模块配置
    • Nginx缓存及HTTPS配置小记
    • nginx高可用实践简记
    • Nginx性能优化
  • 微服务基础

    • 微服务基础知识小结
    • 分布式事务核心概念小结
    • OpenFeign核心知识小结
    • 微服务组件Gateway核心使用小结
    • 分布式事务Seata实践
    • 用 Docker Compose 完成 Seata 的整合部署
  • Nacos

    • Nacos服务注册原理全解析
    • Nacos服务订阅流程全解析
    • Nacos服务变更推送流程全解析
    • 深入解析SpringCloud负载均衡器Loadbalancer
    • Nacos源码环境搭建与调试指南
  • Seata

    • 深度剖析Seata源码
  • Docker部署

    • 一文快速掌握docker的理念和基本使用
    • 使用docker编排容器
    • 基于docker-compose部署微服务基本环境
    • 基于docker容器化部署微服务
    • Gateway全局异常处理及请求响应监控
    • Docker图形化界面工具Portainer最佳实践
  • Go基础

    • 一文带你速通Go语言基础语法
    • 一文快速掌握Go语言切片
    • 来聊聊go语言的hashMap
    • 一文速通go语言类型系统
    • 浅谈Go语言中的面向对象
    • go语言是如何实现协程的
    • 聊聊go语言中的GMP模型
    • 极简的go语言channel入门
    • 聊聊go语言基于epoll的网络并发实现
    • 写给Java开发的Go语言协程实践
  • mini-redis实战

    • 来聊聊我用go手写redis这件事
    • mini-redis如何解析处理客户端请求
    • 实现mini-redis字符串操作
    • 硬核复刻redis底层双向链表核心实现
    • 动手复刻redis之go语言下的字典的设计与落地
    • Go 语言下的 Redis 跳表设计与实现
    • Go 语言版 Redis 有序集合指令复刻探索
  • 项目编排

    • Spring脚手架创建简记
    • Spring脚手架集成分页插件
    • Spring脚手架集成校验框架
    • maven父子模块两种搭建方式简记
    • SpringBoot+Vue3前后端快速整合入门
    • 来聊聊Java项目分层规范
  • 场景设计

    • Java实现文件分片上传
    • 基于时间缓存优化浏览器轮询阻塞问题
    • 基于EasyExcel实现高效导出
    • 10亿数据高效插入MySQL最佳方案
    • 从开源框架中学习那些实用的位运算技巧
  • CI/CD

    • 基于NETAPP实现内网穿透
    • 基于Gitee实现Jenkins自动化部署SpringBoot项目
    • Jenkins离线安装部署教程简记
    • 基于Nexus搭建Maven私服基础入门
    • 基于内网的Jenkins整合gitlab综合方案简记
  • 监控方法论

    • SpringBoot集成Prometheus与Grafana监控
    • Java监控度量Micrometer全解析
    • 从 micrometer计量器角度快速上手promQL
    • 硬核安利一个监控告警开源项目Nightingale
  • Spring AI

    • Spring AI Alibaba深度实战:一文掌握智能体开发全流程
    • Spring AI Alibaba实战:JVM监控诊断Arthas Agent的工程化构建与最佳实践
  • 大模型评测

    • M2.7 真能打!我用两个真实场景测了测,结果有点意外
    • Qoder JetBrains插件评测:祖传代码重构与接口优化实战
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

sharkchili

计算机禅修者
首页
  • Java基础

    • 聊一聊java一些核心知识点
    • 聊聊java面向对象核心知识点
    • 聊聊Java中的异常
    • 聊聊Java中的常用类String
    • 万字长文带你细聊Java注解本质
    • 来聊聊Java的反射机制
    • 深入解析Java泛型的魅力与机制
    • Java集合框架深度解析与面试指南
    • Java常用集合类HashMap深度解析
    • LinkedHashMap源码到面试题的全解析
    • 深入解析CopyOnWriteArrayList的工作机制
    • Java基础IO总结
    • Java三大IO模型小结
    • Java BIO NIO AIO详解
    • Java进阶NIO之IO多路复用详解
    • Java8流式编程入门
    • 一文速通lambda与函数式编程
    • Java8函数式方法引用最佳实践
  • Java并发编程

    • Java并发编程基础小结
    • 深入理解Java中的final关键字
    • 浅谈Java并发安全发布技术
    • 浅谈Java并发编程中断的哲学
    • Java线程池知识点小结
    • 浅谈Java线程池中拒绝策略与流控的艺术
    • synchronized关键字使用指南
    • 深入源码解析synchronized关键字
    • 详解JUC包下的锁
    • 详解并发编程中的CAS原子类
    • LongAdder源码分析
    • AQS源码解析
    • 深入剖析Java并发编程中的死锁问题
    • Java并发容器总结
    • 详解Java并发编程volatile关键字
    • 并发编程ThreadLocal必知必会
    • CompletableFuture基础实践小结
    • CompletableFuture异步多任务最佳实践
    • 硬核详解FutureTask设计与实现
    • 线程池大小设置的底层逻辑与场景化方案
    • 来聊一个有趣的限流器RateLimiter
  • JVM相关

    • 从零开始掌握 JVM
    • JVM核心知识点小结
    • JVM指令集概览:基础与应用
    • JVM类加载器深度解析
    • JVM方法区深度解析
    • Java内存模型JMM详解
    • Java对象大小的精确计算方法
    • 逃逸分析在Java中的应用与优化
    • 从零开始理解JVM的JIT编译机制
    • G1垃圾回收器:原理详解与调优指南
    • JVM故障排查实战指南
    • JVM内存问题排错最佳实践
    • JVM内存溢出排查指南
    • 简明的Arthas使用教程
    • 简明的Arthas配置及基础运维教程
    • 基于Arthas Idea的JVM故障排查与指令生成
    • 基于arthas量化监控诊断java应用方法论与实践
    • 深入剖析arthas技术原理
  • 深入理解Spring框架

    • Spring 核心知识点全面解析
    • Spring核心功能IOC详解
    • Spring AOP 深度剖析与实践
    • Spring 三级缓存机制深度解析
    • 深入 Spring 源码,剖析设计模式的落地实践
    • 探索 Spring 事务的奥秘
    • 深入解析Spring Bean的生命周期管理
    • 解读 Spring Boot 核心知识点
    • Spring Boot 启动优化实战:1分钟到13秒的排查与优化之路
    • Spring Boot自动装配原理及实践
    • 一文快速上手Sharding-JDBC
    • sharding-jdbc如何实现分页查询
    • 基于DynamicDataSource整合分库分表框架Shardingsphere
  • 计算机组成原理

    • 计算机硬件知识小结
    • CPU核心知识点小结
    • 浅谈CPU流水线的艺术
    • 从Java程序员视角聊聊CPU缓存
    • CPU任务调度和伪共享问题小结
    • CPU MESI缓存一致性协议
    • CPU内存管理机制
    • 内存深度解析
    • 磁盘存储原理
    • 详解计算机启动步骤
    • CPU南北桥架构与发展史
    • CPU中断机制与硬件交互详解
  • 操作系统

    • 如何实现一个高性能服务器
    • Linux文件结构与文件权限
    • Linux常见压缩指令小结
    • Linux核心系统调用详解
    • Linux进程管理
    • Linux线程管理
    • 进程与线程深度解析
    • Linux进程间通信机制
    • 零拷贝技术原理与实践
    • CPU缓存一致性问题深度解析
    • IO任务与CPU调度艺术
  • 计算机网络

    • 网卡通信原理详解
    • 网卡数据包处理指南
    • 基于抓包详解TCP协议
  • 编码最佳实践

    • 浅谈现代软件工程TDD最佳实践
    • 浅谈TDD模式下并发程序设计与实现
    • 面向AI编程新范式Trae后端开发环境搭建与实践
    • 基于提示词工程的Redis签到功能开发实践
    • 基于Vibe Coding的Redis分页查询实现
    • 告别AI无效对话:资深工程师的提示词设计最佳实践
  • 实用技巧与配置

    • Mac常用快捷键与效率插件指南
    • Keynote技术科普短视频制作全攻略
  • 写作

    • 写好技术博客的5大核心原则:从认知科学到AI工具的全流程指南
  • 开发工具

    • IDEA配置详解与高效使用指南
  • Nodejs
  • 博客搭建
  • Redis

    • Redis核心知识小结
    • 解锁Redis发布订阅模式
    • 掌握Redis事务
    • Redis主从复制技术
    • Redis的哨兵模式详解
    • 深度剖析Redisson分布式锁
    • 详解redis单线程设计思路
    • 来聊聊Redis所实现的Reactor模型
    • Redis RDB持久化源码深度解析
    • 来聊聊redis的AOF写入
    • 来聊聊Redis持久化AOF管道通信的设计
    • 来聊聊redis集群数据迁移
    • Redis SDS动态字符串深度解析
    • 高效索引的秘密:redis跳表设计与实现
    • 聊聊redis中的字典设计与实现
  • MySQL

    • MySQL基础知识点小结
    • 解读MySQL 索引基础
    • MySQL 索引进阶指南
    • 解读MySQL Explain关键字
    • 探秘 MySQL 锁:原理与实践
    • 详解MySQL重做日志redolog
    • 详解undoLog在MySQL MVCC中的运用
    • MySQL二进制日志binlog核心知识点
    • MySQL高效插入数据的最佳实践
    • MySQL分页查询优化指南
    • MySQL流式查询的奥秘与应用解析
    • 来聊聊分库分表
    • 来聊聊大厂常用的分布式ID生成方案
  • ElasticSearch

    • 从Lucene到Elasticsearch:进化之路
    • ES 基础使用指南
    • ElasticSearch如何写入一篇文档
    • 深入剖析Elasticsearch文档读取原理
    • 聊聊ElasticSearch性能调优
    • Spring借助Easy-Es操作ES
  • Netty

    • 一文快速了解高性能网络通信框架Netty
    • Netty网络传输简记
    • 来聊聊Netty的ByteBuf
    • 来聊聊Netty消息发送的那些事
    • 解密Netty高性能之谜:NioEventLoop线程池阻塞分析
    • 详解Netty中的责任链Pipeline如何管理ChannelHandler
    • Netty Reactor模型常见知识点小结
    • Netty如何驾驭TCP流式传输?粘包拆包问题全解
    • Netty解码器源码解析
  • 消息队列

    • 一文快速入门消息队列
    • 消息队列RocketMQ入门指南
    • 基于RocketMQ实现分布式事务
    • RocketMQ容器化最佳实践
    • RocketMQ常见问题与深度解析
    • Kafka快速安装与使用指南
  • Nginx

    • Linux下的nginx安装
    • Nginx基础入门总结
    • Nginx核心指令小结
    • Nginx进程结构与核心模块初探
    • Nginx应用进阶HTTP核心模块配置
    • Nginx缓存及HTTPS配置小记
    • nginx高可用实践简记
    • Nginx性能优化
  • 微服务基础

    • 微服务基础知识小结
    • 分布式事务核心概念小结
    • OpenFeign核心知识小结
    • 微服务组件Gateway核心使用小结
    • 分布式事务Seata实践
    • 用 Docker Compose 完成 Seata 的整合部署
  • Nacos

    • Nacos服务注册原理全解析
    • Nacos服务订阅流程全解析
    • Nacos服务变更推送流程全解析
    • 深入解析SpringCloud负载均衡器Loadbalancer
    • Nacos源码环境搭建与调试指南
  • Seata

    • 深度剖析Seata源码
  • Docker部署

    • 一文快速掌握docker的理念和基本使用
    • 使用docker编排容器
    • 基于docker-compose部署微服务基本环境
    • 基于docker容器化部署微服务
    • Gateway全局异常处理及请求响应监控
    • Docker图形化界面工具Portainer最佳实践
  • Go基础

    • 一文带你速通Go语言基础语法
    • 一文快速掌握Go语言切片
    • 来聊聊go语言的hashMap
    • 一文速通go语言类型系统
    • 浅谈Go语言中的面向对象
    • go语言是如何实现协程的
    • 聊聊go语言中的GMP模型
    • 极简的go语言channel入门
    • 聊聊go语言基于epoll的网络并发实现
    • 写给Java开发的Go语言协程实践
  • mini-redis实战

    • 来聊聊我用go手写redis这件事
    • mini-redis如何解析处理客户端请求
    • 实现mini-redis字符串操作
    • 硬核复刻redis底层双向链表核心实现
    • 动手复刻redis之go语言下的字典的设计与落地
    • Go 语言下的 Redis 跳表设计与实现
    • Go 语言版 Redis 有序集合指令复刻探索
  • 项目编排

    • Spring脚手架创建简记
    • Spring脚手架集成分页插件
    • Spring脚手架集成校验框架
    • maven父子模块两种搭建方式简记
    • SpringBoot+Vue3前后端快速整合入门
    • 来聊聊Java项目分层规范
  • 场景设计

    • Java实现文件分片上传
    • 基于时间缓存优化浏览器轮询阻塞问题
    • 基于EasyExcel实现高效导出
    • 10亿数据高效插入MySQL最佳方案
    • 从开源框架中学习那些实用的位运算技巧
  • CI/CD

    • 基于NETAPP实现内网穿透
    • 基于Gitee实现Jenkins自动化部署SpringBoot项目
    • Jenkins离线安装部署教程简记
    • 基于Nexus搭建Maven私服基础入门
    • 基于内网的Jenkins整合gitlab综合方案简记
  • 监控方法论

    • SpringBoot集成Prometheus与Grafana监控
    • Java监控度量Micrometer全解析
    • 从 micrometer计量器角度快速上手promQL
    • 硬核安利一个监控告警开源项目Nightingale
  • Spring AI

    • Spring AI Alibaba深度实战:一文掌握智能体开发全流程
    • Spring AI Alibaba实战:JVM监控诊断Arthas Agent的工程化构建与最佳实践
  • 大模型评测

    • M2.7 真能打!我用两个真实场景测了测,结果有点意外
    • Qoder JetBrains插件评测:祖传代码重构与接口优化实战
关于
收藏
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 计算机组成原理

    • 计算机硬件知识小结
    • 编程语言是如何完成运算的
    • CPU核心知识点小结
    • 浅谈CPU流水线的艺术
    • 从Java程序员视角聊聊CPU缓存
    • CPU任务调度和伪共享问题小结
    • CPU如何完成计算运算
    • CPU指令封装原理
    • CPU性能优化技术详解
      • 引言
      • CPU分支预测详解
        • 预测思想
        • 分支预测表优化
        • 分支预测技术的运用
      • CPU并行运算的设计推进
        • 重复指令的执行
        • FPU寄存器
        • XMM0~XMM7寄存器的诞生
      • 超线程
        • 资源闲置问题
        • 超线程技术
      • 小结
      • 参考
    • CPU MESI缓存一致性协议
    • CPU内存管理机制
    • 内存深度解析
    • 磁盘存储原理
    • GPU工作原理简析
    • 详解计算机启动步骤
    • CPU南北桥架构与发展史
    • CPU中断机制与硬件交互详解
  • 操作系统

  • 计算机网络

  • 运维

  • 编码最佳实践

  • 计算机基础
  • 计算机组成原理
sharkchili
2026-03-25
目录

CPU性能优化技术详解

[toc]

# 引言

在现代计算系统中,CPU性能是决定程序执行效率的关键因素之一。随着应用程序复杂性的不断增加,对计算性能的要求也越来越高。为了应对这些挑战,CPU设计者们在处理器架构中引入了多种优化技术,以最大化硬件资源的利用效率。

本文将深入探讨三种核心的CPU优化技术:分支预测、并行运算和超线程技术。这些技术从不同角度解决了指令执行过程中的性能瓶颈问题:

  • 分支预测技术通过预测程序控制流的方向,减少因分支指令造成的流水线停顿
  • 并行运算(SIMD)通过单指令多数据流的方式,让一条指令同时处理多个数据元素
  • 超线程技术通过在单个物理核心上模拟多个逻辑处理器,提高CPU资源的整体利用率

理解这些底层优化原理不仅有助于我们编写更高效的代码,还能帮助我们在系统设计和性能调优时做出更明智的决策。接下来,我们将逐一剖析这些关键技术的实现原理和实际应用。

我是 SharkChili ,Java 开发者,Java Guide 开源项目维护者。欢迎关注我的公众号:写代码的SharkChili,也欢迎您了解我的开源项目 mini-redis:https://github.com/shark-ctrl/mini-redis。

为方便与读者交流,现已创建读者群。关注上方公众号获取我的联系方式,添加时备注加群即可加入。

# CPU分支预测详解

# 预测思想

CPU采用流水线设计来避免逐条执行指令的低效问题,即完成读取指令、指令译码、执行指令、数据回写整个流程后再执行下一条指令。在之前的文章中,我们介绍了CPU通过保留站和重排序缓冲区解决了结构冒险(硬件资源竞争)和数据冒险(前后指令结果依赖性)问题。现在还剩下控制冒险问题,即当前指令需要基于之前的结果决定走哪个分支。

设计者们发现,大部分程序逻辑中下一次走的分支都是有迹可循的。例如下面这段循环,它从0到99都会在循环内部执行,只有当i自增到100时才会退出循环:

for (int i = 0; i < 100; i++) {
    //执行业务逻辑
}
1
2
3

因此,设计者们考虑采用一种预测机制,即根据前一次的结果将下一条指令直接预加载。如果预测正确就直接执行,预测错误则重新加载。以上述代码为例,当我们执行i为0时,执行的就是循环内部的指令。按照分支预测的思想,我们认为下一次执行的指令还是循环内部的指令。按照这种思路,分支预测会将循环内部的指令预先加载到内存中:

基于这种方案,设计者们提出在CPU存储电路中建立一张表格,记录每一个分支指令对应的跳转指令信息,由此完成分支预测信息的维护:

但这种情况并不常见。试想下面这个循环,交替执行奇数和偶数判断分支内部的逻辑,按照我们原有的分支预测设计,预加载指令会频繁失效,流水线效率仍然没有得到提升:

				int i = 0;

        while (true) {
            if (i % 2 == 0) {
                //执行业务逻辑
                i++;
            } else {
                //执行其他业务逻辑
            }
        }
1
2
3
4
5
6
7
8
9
10

# 分支预测表优化

针对上述这种以偏概全的欠拟合情况,设计者们考虑在原有表格的基础上增加一个跳转次数的维护。每当分支预测跳转一次,对应的表项就自增一次。同时考虑到CPU缓存空间的限制,一旦发现空间不足,就将跳转频次最小的跳转指令移除,从而避免分支预测表格空间被无效的跳转表项占用,还能进一步提升分支预测的准确率:

现代处理器采用了更加复杂的分支预测技术,如两级自适应预测器、神经网络预测器和TAGE预测器等,能够达到95%以上的预测准确率。这些高级预测器通过分析历史分支模式和上下文信息,能够更好地处理复杂的控制流结构。

# 分支预测技术的运用

了解CPU分支预测设计后,我们在日常编码中就可以尽可能保证循环中的逻辑分支稳定保持在同一个跳转指令上来提升程序运行效率。如下代码,我们创建两个数组并生成随机数填充,执行这样一个累加逻辑:

  1. 如果遍历的数组值大于5000则先*2再累加
  2. 如果小于5000则直接累加

唯一的区别是sortedArray在进行循环累加时会先进行一次排序:

public static void main(String[] args) {
        // 创建测试数据
        int[] sortedArray = new int[10000000];
        int[] unsortedArray = new int[10000000];

        // 随机填充数据
        Random random = new Random();
        for (int i = 0; i < 10000000; i++) {
            int value = random.nextInt(10000);
            sortedArray[i] = value;
            unsortedArray[i] = value;
        }

        
        // 测试有序数组的分支预测,提升array[i] > 5000这段if判断的成功率
        Arrays.sort(sortedArray);
        long startTime = System.currentTimeMillis();
        processArray(sortedArray);
        long sortedTime = System.currentTimeMillis() - startTime;

        // 测试无序数组的分支预测
        startTime = System.currentTimeMillis();
        processArray(unsortedArray);
        long unsortedTime = System.currentTimeMillis() - startTime;

        System.out.println("有序数组处理时间: " + sortedTime + "ms");
        System.out.println("无序数组处理时间: " + unsortedTime + "ms");
        System.out.println("性能差异: " + Math.abs(sortedTime - unsortedTime) + "ms");
    }

    /**
     * 处理数组,包含条件分支
     * @param array 待处理的数组
     */
    public static void processArray(int[] array) {
        long sum = 0;
        for (int i = 0; i < array.length; i++) {
            // 这个条件在有序数组中更容易预测
            if (array[i] > 5000) {
                sum += array[i] * 2;
            } else {
                sum += array[i];
            }
        }
        // 避免JIT优化掉整个循环
        if (sum == Integer.MAX_VALUE) {
            System.out.println("Sum: " + sum);
        }
    }
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49

最终输出结果如下:

有序数组处理时间: 7ms
无序数组处理时间: 24ms
性能差异: 17ms
1
2
3

可以看到,排序后的数组因为数据有序,分支预测会先缓存<5000的逻辑并大量命中处理。当遍历到>5000的逻辑后,分支预测再次被缓存且大量命中,执行效率远高于随机数组:

# CPU并行运算的设计推进

# 重复指令的执行

通过分支预测解决了控制冒险问题后,我们继续探究CPU的优化。接下来我们来看下面这段代码,本质上是对一个数组进行遍历并将每个整数乘2的操作:

int[] arr = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};

        for (int i = 0; i < arr.length; i++) {
            // 左移一位,即乘2操作
            arr[i] = arr[i] << 1;
        }
1
2
3
4
5
6

从CPU指令执行的角度来看,它本质上就是遍历数组后读取每个数组元素,然后进行乘法运算,最后将结果回写。从宏观来看,我们只是想将数组中所有元素都进行相同的修改操作,却需要多次循环,效率非常低下。因此我们思考是否存在一种策略可以让此类操作一次性完成。

答案是并行运算,整体思路是希望一次性加载一批连续的数组数据到寄存器中,一次性完成一致的运算,避免非必要的多次执行:

# FPU寄存器

一开始考虑到资源成本的开销以及方案的可行性,设计者打算借助浮点数运算单元寄存器即MM0~MM7,同时基于这套寄存器还新增了一套MMX指令集负责整数的批量运算:

  1. paddb(Parallel Add Byte):字节数据的并行加法
  2. paddw(Parallel Add Word):字并行加法运算
  3. paddd(Parallel Add Doubleword):32位双字(doubleword)数据进行并行加法运算
  4. paddsb(Parallel Add Signed Byte with Saturation):有符号字节数据进行带饱和处理的并行加法运算
  5. .......

因为一条指令可以处理多个数据,所以我们给这种技术命名为单指令多数据流,即SIMD(Single Instruction Multiple Data)。

# XMM0~XMM7寄存器的诞生

但是问题随之而来,因为我们目前的并行运算是借助浮点寄存器FPU执行整数运算,而涉及图像、视频、深度学习的数据处理都是浮点型并行运算,这套指令集根本无法使用。

于是CPU新增了XMM0~XMM7总共8个128位的寄存器,位宽更大,能容纳更多数据,且补充了浮点数的并行处理指令集。这些寄存器是SSE(Streaming SIMD Extensions)指令集的一部分。

随着技术的发展,现代CPU还支持更宽的向量寄存器:

  • YMM寄存器(256位):AVX指令集
  • ZMM寄存器(512位):AVX-512指令集

这些扩展使得单条指令可以处理更多的数据元素,进一步提升了并行计算的效率。现代编译器通常具备自动向量化能力,能够自动将合适的循环转换为SIMD指令,充分发挥硬件的并行计算能力。

# 超线程

# 资源闲置问题

CPU的SIMD技术提升了大循环这种重复指令的并行运算效率,但是对CPU的资源利用率还不够,原因如下:

  1. 内存速率和CPU缓存不对等,读取内存速率较慢,虽然有缓存,但初次加载问题仍然存在
  2. 尽管乱序执行提升了流水线效率,但这种依赖性的指令并不常见
  3. 运算电路未能充分利用,例如在执行整数运算时,对应的浮点数运算电路就闲置下来了

于是设计者开始考虑,是否存在一种技术可以提升CPU电路的利用率,保证单位时间内尽可能多地执行指令,充分利用CPU电路单元,于是就有了超线程技术。

# 超线程技术

超线程技术的概念非常简单。我们都知道CPU单核执行的最小单位是线程,而每个线程执行时都需要通过寄存器来保存当前的执行上下文。因此,设计者在原有CPU架构的基础上增加一组配套的寄存器来保存运行的上下文信息,保证单位时间内多组运算电路可以执行指令。

有了超线程,CPU资源的利用率就显著提高:

  1. 一条线程执行指令阻塞停顿时,就去处理另一条线程
  2. 一条线程执行整数运算使用ALU,另一条线程就处理浮点数运算(FPU),彼此可以独立执行指令,因为不存在结构冒险,所以互不依赖并独立并发执行

有了超线程技术,单核CPU具备了两个逻辑处理器的并行执行能力。尽管做到了这种优化,但性能表现也仅仅提升了20%~30%,即针对指令加载时、回写等可以并发执行,但针对结构冒险例如同时使用ALU运算时却会阻塞停顿。同时CPU的电路功耗也更大了,所以还需要考虑给CPU降温之类的问题。

需要注意的是,超线程技术在某些安全场景下可能存在风险。由于两个逻辑处理器共享物理核心资源,通过精确的时间测量可能泄露另一个逻辑处理器的信息,这在Spectre和Meltdown等安全漏洞中得到了体现。因此,在高安全性要求的环境中,有时会建议禁用超线程技术。

在实际应用中,超线程技术对多线程应用程序性能提升最为明显,特别是I/O密集型或存在较多分支预测失败的应用程序。但对于计算密集型且资源竞争激烈的应用,超线程可能不会带来显著性能提升,甚至可能因资源争用而降低性能。

# 小结

本文介绍了现代CPU中的三种重要优化技术:

  1. 分支预测:通过预测程序控制流的方向,减少因分支指令造成的流水线停顿,提高指令执行效率。现代处理器采用复杂的预测算法,能够达到95%以上的预测准确率。

  2. 并行运算(SIMD):通过单指令多数据流技术,让一条指令同时处理多个数据元素,大幅提升数据并行处理能力。从MMX到SSE再到AVX指令集的发展,使得向量计算能力不断增强。

  3. 超线程技术:通过在单个物理核心上模拟多个逻辑处理器,提高CPU资源利用率,在一个线程等待时执行另一个线程,提升整体吞吐量。

这些技术相互配合,共同构成了现代高性能处理器的基础。理解这些底层优化原理,有助于我们在编写代码时做出更好的性能优化决策,充分发挥硬件潜力。

我是 SharkChili ,Java 开发者,Java Guide 开源项目维护者。欢迎关注我的公众号:写代码的SharkChili,也欢迎您了解我的开源项目 mini-redis:https://github.com/shark-ctrl/mini-redis。

为方便与读者交流,现已创建读者群。关注上方公众号获取我的联系方式,添加时备注加群即可加入。

# 参考

《趣话计算机底层技术》

编辑 (opens new window)
上次更新: 2026/03/26, 01:05:31
CPU指令封装原理
CPU MESI缓存一致性协议

← CPU指令封装原理 CPU MESI缓存一致性协议→

最近更新
01
基于EasyExcel实现高效导出
03-25
02
从开源框架中学习那些实用的位运算技巧
03-25
03
浅谈分布式架构设计思想和常见优化手段
03-25
更多文章>
Theme by Vdoing | Copyright © 2025-2026 Evan Xu | MIT License | 桂ICP备2024034950号 | 桂公网安备45142202000030
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×
×