百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大话芯片功耗

zhezhongyun 2025-08-06 23:57 3 浏览

点击蓝字

关注我们

来源:数字IC自修室

Power is Power。——Cersei Lannister

大家好,我是海龟先生,本期的封面来自于美剧冰与火之歌,感觉代码写不下去的时候可以听听看该剧的主题曲,还是比较振奋人心的,闲话不多说,欢迎来到数字IC自修室。

随着芯片上晶体管数量的不断增加,上层应用程序复杂度的提升,现今的半导体行业对芯片功耗的关注比以往任何时候都要多,尤其是在手机等移动端设备,如果产品动不动就没电了,那是一件十分令人头痛的事情。另一方面,电池材料相关技术发展十分缓慢,导致目前的电池容量在相同密度下还是和电池体积呈正相关性,因此在做芯片设计的时候从顶层到底层都会采用低功耗(Low Power)技术。可能有些同学会问,那有些正常工作情况下直接和电源相连接的设备是不是不需要考虑功耗?

这个问题包含几个方面的考虑因素。首先地球上的石化能源是有限的,功耗高就意味着在相同的时间内需要消耗更多能源,其次对于高性能计算芯片来说,当功耗超过一定阈值(~150W),就需要使用昂贵的液态冷却或其他热量散发装置,所以出于节约能源,环境保护和帮助客户节约电费的角度来说低功耗设计依旧是必须考虑的因素。那么接下来我们就来简单了解一下芯片中功耗的主要来源以及相应的减少功耗的常用技术。值得注意的一点是尽管IC的前后端设计者通常会采用各种方法来减少功耗,但是应用层和架构层的设计才是最至关重要的,上层的应用和架构没有设计好,即使后端有再多的低功耗辅助技术也不能从根本上解决问题。就好比做一种美食,如果食材本身不新鲜,那无论多好的炊具也无法改善食物的口感。

1.功耗的主要来源

1.1 动态功耗(Dynamic Power)

动态功耗主要包含:

● 门电路开关过程中负载电容(Load capacitance)的充放电功(Switching Power)

● 来自于pMOS和nMOS都部分开启时的短路电流(Short-circuit Power)

以下图的CMOS反相器(Inverter)为例,当输入Vin从1变为0的过程中,nMOS关闭,pMOS开启并给负载电容CL充电,当输入Vin从0变为1的过程中,pMOS关闭,nMOS开启并使负载电容放电,电容充放电的过程中消耗的能量构成了Switching Power.

在充放电的过程中存在一小段窗口pMOS和nMOS都是处在部分开启的状态,因此会有电流直接从VDD流到GND,构成Short-circuitPower。

通过对上面的充放电行为进行物理分析,结合欧姆定律和电容充放电和能量相关公式,我们可以得到充放电功耗:

其中α是翻转系数(Switching Activity Factor),C是负载电容,VDD是工作电压,f是工作频率,这个几个参数对后面我们讨论降低功耗有着至关重要的意义。

1.2 静态功耗(Static Power)

静态功耗主要包含:

● 晶体管关闭状态的漏电功耗(Subthreshold Leakage)

● PN结反向偏置电流功耗(Reverse-Biased Junction Leakage)

● 栅极漏电流功耗(Gate Leakage)

其中Subthreshold Leakage占主导地位。在通用微处理器架构里,时钟网络(Clock Tree)和片上存储器通常会占用大部分的功耗。

2.低功耗技术

2.1 Clock Gating

Clock Gating即把不用的功能模块的时钟信号关闭,通过减少前面讲到过的Switching Activity Factor来降低功耗。具体实现方法如下:

通过与门和Latch(毛刺消除)组成的Clock Gating Cell,Register的Clock端口的时钟随使能信号开关,当时钟关闭时,由该Register所驱动的下游组合逻辑也相应降低了功耗。Clock Gating实现的重点在于找到合适的使能信号,目前的芯片设计Flow中只要符合以下三个条件后端的工具链就会自动生成ICG(Intergated Clock Gating) cell:

● Register Bank的使能信号不可以(简化)为常量0或1;

● 对于不包含Latch的Clock Gating,使能信号必须来自于与被Gate的Register时钟同步的Register;

● Register bank满足用户所指定的最小位宽要求;

关于Switching Activity Factor,还有一点值得一提的是电路中的Glitch,因为实际的Silicon中会有组合逻辑延迟(Propgation Delay),因此对于一个门电路来说,由于输入信号的到达时间会存在差异,所以实际的跳变会变得更加严重,从而增加Switching Activity Factor。因此有条件的话可以在做功耗分析时加入Glitch Power的预估。

2.2 电压域(Voltage Domain)和动态电压频率调节(Dynamic Voltage and Frequency Scaling)2.2.1 Voltage Domain

在上面的公式中,工作电压VDD与动态功耗是平方的关系,所以电压的调整对功耗的影响也十分显著,但是根据alpha-power law,在其余条件不变的情况下,电压的降低会导致延迟的增加,即电路的性能降低。通常来说,整个芯片会根据具体的性能需求被分成几个不同的Voltage Domain,这种方案带来的挑战就是如何处理跨电压域(Voltage Domain Crossings)的信号,常用的解决方案是采用Level Shifter实现:

上图A来自于VDDL Domain,P1,P2,N1,N2均工作在VDDH,其中N1和N2分别接到A和~A,反相器也工作在VDDL,当A=0时,N1关,N2开,Y接地输出0,P1开,X接VDDH,保证P2关闭;当A=1时,N1开,N2关,X接地,P2开,Y接VDDH,P1关。从而达到A到Y不同电压域之间的逻辑转换。

2.2.2 DVFS

对于很多系统来说,处理不同数据和任务对于性能的需求是不一样的,比如我现在正在码文章的时候所消耗的计算资源和我看电影的时候所需要的计算资源是不一样的。利用这个特点,我们可以根据计算任务负荷来动态调整电压和频率至能满足需求的最低程度,这就是DVFS。

DVFS的具体实现方法多种多样,例如Linux里的OnDemand功耗策略,有兴趣的同学可以参考相关文献。

关于频率角度的低功耗,在设计中常采用多时钟域的方法,例如处理器的Bus通常比核心频率要低。由于存在多个时钟域,我们设计中需要考虑跨时钟域信号的同步问题,后续我们会有相关文章详细介绍,通常来说,工作频率为整数倍关系的时钟域之间被认为是同步的,处理相对比较简单。

DVFS实现存在比较大的一个缺点就是切换过程中的时间overhead较大(us级别)。

2.3 Power Gating

Power Gating是减少静态电流非常有效的方法,下图中当Power Gated Block正常工作时,Sleep信号为0,工作电压VDDV通过开启的PMOS接到VDD,当系统进入低功耗模式,Sleep信号变为1,VDDV被断开,整个Power Gated Block关电,这里需要注意此时该Block的输出端值为X,因此如果Output被下游Always On模块使用,为了保证不影响下有逻辑的正常工作,通常会在Interface上加入Isolation Cell,这一过程目前主要由后端的tool自动加入。

Power Gating带来的一个问题是系统状态的恢复,一般来说被Power Gated Block中的Register值在唤醒时要么处于Reset状态,要么已经被保存以便恢复,在设计中通常将重要的讯息保存到State Retention Register或者Memory里的方案。

Power Gating通常针对整个Block(Coarse-grainedpower gating)而非单独的逻辑门,因为Area和Performance的Overhead都比较大。

3. 低功耗架构

早期工艺下的芯片架构设计通常考虑如何最大化每一颗晶体管的性能,但如今随着工艺进入到7nm以下,芯片架构设计越来越关注性能功耗比。

3.1 并行化(Parallelism)和流水线(Pipelining)

并行化和流水线都能在维持相同性能的情况下降低功耗,下图中(a)是原始的设计电路。(b)采用了并行化做法,额外增加一组A和B逻辑,输出端每个时钟周期分别从两组逻辑取得结果,因此每个输入端是需要保证每两个周期提供一个有效结果,即频率变为原来的一半。(c)采用流水线做法,假设A和B被切分成delay相近的两级,那么逻辑的整体频率可以提升至2f,这样以数据吞吐量衡量的性能也就近似为两倍,在维持性能不变的情况下,我们完全可以降低工作电压。

3.2 总线编码(Bus Encoding)

通过给总线上的数据编码通常有助于减少总线上的功耗,常见的方式有

● 反向编码(Bus Invert Coding)

例如总线上需要传输0000->1110转换的数据,这里总线上会有3个bit跳变,但如果我们对第二个数据做取反操作,那么总线上就只有1个bit跳变,这样4个bit的总线最多只可能同时有两个bit跳变,具体实现还需要设计反向条件的算法。

● 异或编码(Transition Signaling)

这种方法仅针对特定的转换率很高的总线,发送端输出编码后bit值为前一个时钟传输bit值和当前时钟传输bit值的异或,接收端解码值为前一个时钟接受到的bit值和当前时钟接收到的bit值得异或,举个简单的例子,如果我们要传输的数据为10100110(跳变5次),那么实际总线上传输的数据为11000100(跳变3次)。

3.3 其他

在设计架构的时候,考虑到Memory的功耗密度(Power Density)通常低于Logic的功耗密度,并且Memory的Leakage控制比较规范化,如果同时有增加Logic或者Memory两种方案,通常增加Memory是对降低功耗比较有利的方案。

另外新型的异构计算架构(Heterogeneous Computing)在性能和功耗方面比单纯通用型处理器架构更加优秀,正所谓“专业的人做专业的事”,同样的AI算法在CPU上跑,不但性能不好,而且时间久功耗也大,因此在可预见的未来,异构计算将会成为趋势。

4. 结语

今天的功耗相关话题就先说到这儿,本文中的图片均来自于Weste&Harris的教材,如果你有任何问题想交流欢迎随时联系作者,我是海龟先生,对芯片行业爱得深沉。

欢迎大家继续关注我们后续文章。

本文作者 | 海龟先生

相关推荐

Chinese vice premier calls for multilateralism at Davos

DAVOS,Switzerland,Jan.21(Xinhua)--ChineseVicePremierDingXuexiangdeliveredaspeechatthe...

用C++ Qt手把手打造炫酷汽车仪表盘

一、项目背景与核心价值在车载HMI(人机交互界面)开发领域,虚拟仪表盘是智能座舱的核心组件。本项目基于C++Qt框架实现一个具备专业级效果的时速表模块,涵盖以下技术要点:Qt图形绘制核心机制(QPa...

系列专栏(八):JS的第七种基本类型Symbols

ES6作为新一代JavaScript标准,已正式与广大前端开发者见面。为了让大家对ES6的诸多新特性有更深入的了解,MozillaWeb开发者博客推出了《ES6InDepth》系列文章。CSDN...

MFC界面开发工具BCG v31.1 - 增强功能区、工具箱功能

点击“了解更多”获取工具亲爱的BCGSoft用户,我们非常高兴地宣布BCGControlBarProfessionalforMFC和BCGSuiteforMFCv31.2正式发布!新版本支...

雅居乐上调出售吉隆坡项目保留金,预计亏损扩大至6.64亿元

1月2日,雅居乐集团(03383.HK)发布有关出售一家附属公司股权披露交易的补充公告。此前雅居乐集团曾公告,2023年11月8日(交易时段后),集团子公司AgileRealEstateDeve...

Full text: Address by Vice Premier Ding Xuexiang's at World Economic Forum Annual Meeting 2025

DAVOS,Switzerland,Jan.21(Xinhua)--ChineseVicePremierDingXuexiangonTuesdaydeliveredasp...

手机性能好不好 GPU玄学曲线告诉你

前言各位在看测试者对手机进行评测时或许会见过“安卓玄学曲线”,所谓中的安卓玄学曲线真名为“ProfileGPURendering”。大多数情况下,在系统“开发者选项中被称为“GPU显示配置文件”或...

小迈科技 X Hologres:高可用的百亿级广告实时数仓建设

通过本文,我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。一、业务介绍小迈科技成立于2015年1月,是一家致力以数字化领先为优势,实现业务高质量自增长的移动互联网科技公司。始...

vue3新特征和所有的属性,方法汇总及其对应源码分析

vue3新特征汇总与源码分析(备注:vue3使用typescript编写)何为应用?constapp=Vue.createApp({})app就是一个应用。应用的配置和应用的API就是app应用...

China's stability redefines global trade in a volatile era

ContainersareunloadedatQingdaoPort,eastChina'sShandongProvince,December10,2024.[Photo/X...

QML 实现图片帧渐隐渐显轮播

前言所谓图片帧渐隐渐显轮播就是,一组图片列表,当前图片逐渐改变透明度隐藏,同时下一张图片逐渐改变透明度显示,依次循环,达到渐隐渐显的效果,该效果常用于图片展示,相比左右自动切换的轮播方式来说,这种方式...

前端惊魂夜:我竟在CSS里写出了JavaScript?

凌晨两点,写字楼里只剩下我工位上的一盏孤灯。咖啡杯见底,屏幕的光映在疲惫的眼镜片上。为了实现一个极其复杂的动态渐变效果,我翻遍了MDN文档,试遍了所有已知的CSS技巧,却始终差那么一口气。“要是CSS...

10 个派上用场的 Flutter 小部件

尝试学习一门新语言可能会令人恐惧和厌烦。很多时候,我们希望我们知道早先存在的某些功能。在今天的文章中,我将告诉你我希望早点知道的最方便的颤振小部件。SpacerSpacer创建一个可调整的空白空...

让我的 Flutter 代码整洁 10 倍的 5 种

如果你曾在Flutter中使用过SingleTickerProviderStateMixin来制作动画,猜猜怎么着?你已经使用过Mixin了——恭喜你,你已经处于一段你甚至不知道的关...

daisyUI - 主题漂亮、代码纯净!免费开源的 Tailwind CSS 组件库

漂亮有特色的CSS组件库,组件代码非常简洁,也支持深度定制主题、定制组件,可以搭配Vue/React等框架使用。关于daisyUIdaisyUI是一款极为流行的CSSUI组件库,...