长期以来,设计人员面临的较大挑战是时序收敛,而功耗则处于次要地位。近年来,以下因素使功耗引起了设计人员的注意:
1)移动应用的兴起让功耗的重要性逐渐显现。大的功耗意味着短的电池寿命。
2)芯片集成度的提高使电源系统设计成为挑战。
随着技术的进步,芯片内的电路密度翻了一番,运行频率是以前的数倍,而片上布线也越来越细,片上电源网络必须以少的功率提供多的功率。联系。线路资源被发送到每个单元。如果做不到这一点,芯片的稳定性和预定的工作频率就会成为问题。IR压降和电源网络消耗的大量路由资源成为困扰后端设计人员的重要问题。现在这种压力正在逐步传递给前端设计人员,在设计阶段需要少的功率。
3)功耗对成本的影响越来越大
功耗决定了芯片的发热情况。封装结构需要及时传递芯片产生的热量,否则温度会升高,电路无法稳定工作。因此,发热量大的芯片需要选择散热良好的封装,或者额外增加风扇等散热系统,这就意味着成本的增加。
由于以上原因,功耗已成为产品的重要指标和制约因素。设计者在设计之初应考虑以下因素:
1)功耗目标的确定
a) 功耗指标在产品应用领域的商业价值;
b) 包装和工艺的成本影响;
c) 评估实施的可行性和复杂性、由此产生的设计风险和时间进程影响;
d) 参考值的选择:根据同类产品、经验值、工具分析确定,并随着设计的深入不断修订。
2)优化计划(策略)设置
在进一步分析之前,我们先来看看功耗的构成。
2 功耗构成
2.1 核心电源
功耗的构成包括四个部分:RAM、ROM、时钟树(clock tree)和核心逻辑电路(Core logic),依次分析。
1)内存
计算 RAM 功耗是一项复杂的任务,幸运的是,内存可以为我们完成这项工作。关键点是每个端口的访问速率,可以通过考虑访问的类型来获得,也可以通过模拟来获得。建议在设计初期生成不同参数(宽度、深度、速度、端口号)的RAM/ROM的功耗数据,方便设计探索。
2)时钟树
时钟树的功耗占整个芯片功耗的40%~60%,因为它的活动率高(**),正负边沿都耗电。
其中,电容包括三部分:寄存器的电容、驱动单元的电容和走线电容。
3)核心逻辑电路
将核心逻辑电路的功耗定义为除时钟树之外的组合和时序单元所消耗的功耗。由两部分组成:
4)宏单元格
大多数芯片都包含模拟宏,例如 PLL,其功耗参数可以在库提供商的数据表中找到。设计人员可以通过划分系统模式来关闭不需要工作的模块以降低功耗。
2.2 IO 电源
IO功耗包括IO单元、外部负载、外部端子等。由于需要驱动板级布线,IO的电容会是内部单元的数百倍,所以功耗比较大。有时,IO的功耗可以占到整体功耗的很大比例,系统架构可能会相应改变,如:重新定义系统的划分,减少芯片与芯片之间的连接;选择不同的IO接口协议以降低能耗。IO功耗通常由系统架构、接口带宽和协议要求决定。一旦选择了库,设计人员可以将空间优化得非常小,但设计人员可以降低内核的功耗。在以下页面中,
3 功耗估算
功耗估算的价值在于尽早定量地查看优化结果,以帮助设计人员进行初始架构探索。在每个阶段,如产品规划、架构开发、代码编写、综合、P
3.1 估计方法
功耗估计可以在设计流程的各个阶段进行,对应于不同形式的设计表征。
阶段越早,抽象级别越高,准确度越差,但反馈给设计者的时间越早,得到估算结果的时间就越少。
1.软件级别
首先,定义一个系统将执行的典型程序。一个典型的程序往往有数百万个机器周期,完整的 RTL 级仿真可能需要几个月的时间,这是不可接受的。解决方案是在高级别对基本构建块的功耗进行建模。
实用的方法是根据具体的硬件平台统计每条指令对应的功耗数据,进行指令级仿真。
2.行为层面
在分析之前,我们首先要了解电路的功耗原理。实际电路的功耗
- 电压:
- Ci 是节点的负载,
——ai是他们节点的
在行为级设计表征中,物理电路单元尚未建立,难点在于电容和活动率的取值。有两个想法:
1)理论估计:
C 是从电路复杂度中获得的,它是通过算术、逻辑运算的数量、状态的数量和转换率来衡量的。
活动率可以从信息论中估计。
2)实验估计:通过快速综合得到寄存器传输级的原型,然后估计电容和活动率。
3.注册传输阶段
第一步是为库中的高级设计组件建立功耗信息公式。方法是通过仿真计算不同环境变量组合下的功耗数据,并绘制成曲线形式。然后,通过对电路结构的静态分析或动态仿真,收集电路运行的概率数据,代入上式,得到各元件的功耗值。最后,将所有组件的功耗值相加,得到总功耗。
4.门平
与寄存器传输阶段不同的是,基本单元是工艺库中的标准单元,功耗方程是通过电路仿真得到的,所以比较准确。
5.晶体管和板层
已获得所有布线电容、单元负载和驱动器。根据晶体管和布线模型的电压和电流方程,可以计算出准确的功耗数据。
3.2 估计过程
由于指令级和行为级估计的准确性太差,而电路级估计耗时太长,在业界实践中很少使用。RTL 和门级估计是常见的选择。实际功率分析的执行必须借助工具。目前,业界通常的选择是使用 RTL 级别的电源和 .
下面以功率为例说明门级估计的步骤。
在 dc 之前电路板设计,设置以下变量:
转变成。saif 文件(注意是csh调用的,不在界面中)
读取 ddc 网表
4 功耗优化
4.1优化原理
显示了几种典型设计的配电数据:
我们的目标是降低时钟树、标准单元和内存的功耗。功耗和性能往往是矛盾的:
1)使时钟变慢(少的转换),但我们想要快的处理。
2)降低 Vdd,但较小的 Vdd 会限制时钟速度。
3)少的电路,但多的晶体管做多的工作。
简而言之,我们希望以较少的精力完成较多的任务。实现方法是细化电路动作的控制,只让刚需要的电路在规定的时间内运行,不浪费一分钱。完成这项任务需要设计人员有效地管理电路的动作。
现代系统是如此复??杂,以至于设计者不得不将其分解成几个层次,一步一步地去掌握:
在每一层,设计者的控制范围和电路动作的手段都是不同的。软件是硬件动作的主调度器,设计人员可以根据具体应用关闭整个模块或减少无效动作。进入架构层,视角转向如何将设置任务合理分配给各个模块,较高效地协调动作,如分布式计算、并行计算等。在逻辑层,考虑如何实现一步操作并仅使所需的电路运行。线路层的视角精准。通过调整平衡信号的到达时间、驱动单元的大小等,使电路的动作能耗降到较低。这里有一个重要的规则,
在高抽象级别比在低抽象级别降低功耗有效。
因此,降低功耗是一项系统工程,需要软件、硬件、电路和工艺的共同努力。在这里,我们将从架构和逻辑的角度进行以下讨论。
4.2 架构注意事项
1)在分体工作模式下,硬件必须能够提供接口,以便软件能够控制电路模块的动作。不工作的模块挂起。
2)分布式计算:将整个任务分成不同的模块,内部处理高活跃度信号。虽然总计算量没有改变,但是对于单个模块来说,时间要求降低了,频率可以降低或降低。
3)并行计算:相同时间的计算量相同,但可以降低频率/压力。(计算量=开关数量,开关数量没有变化,但降低了每个开关的功耗成本)
4):减少每步的计算量,在同等性能??的情况下可以降低运行频率。
5)可编程性和硬连线之间的权衡:可编程性越高,完成相同任务所需的功率就越多。
4.3 RAM 功耗优化
显然,大RAM比小RAM消耗多的电量,将整块RAM分成小块可以降低访问功耗。
值得注意的是,大多数设计人员认为片选信号无效,RAM进入较低功耗。事实上,如果此时它的数据/地址端口信号翻转,会消耗相当大的功率(大约是有功功率消耗的20%)。不访问时,较好的办法是保持片选无效,地址和数据都是常数值。
4.4 个时钟树单元/线
4.4.1时钟门控原理
在一个典型的数字芯片中,时钟网络的功耗可以占到总功耗的50%,这是一个巨大的数字。一个成熟的解决方案是使用时钟门控,它会关闭当前非活动逻辑的时钟树。例如,在以下逻辑中,当 EN 为 0 时,可以关闭右侧 bank 的时钟。
添加时钟门控逻辑有两种方法:手动和自动。
a) 手动方式
在每个 IP 块的时钟根节点添加,可以通过编程产生 EN 信号。
b) 自动方式
> le() 选择时钟门控的方式和条件
> 结构设计
> 选通限定逻辑
> s - 添加到时钟门控单元的时序约束
手动和自动的结合可以达到较佳的效率。
4.4.2 门控单元选择
a) 基于锁存器 ()
设计者可以通过以下le的选择来控制门控单元的选择
选择考虑:
1)latch:用还是不用,这是个问题。
在无锁存方案中,EN信号必须在时钟下降沿之前稳定,否则时钟会出现毛刺,只剩下半个时钟周期让EN产生逻辑。基于锁存器的方案没有这个限制,但是锁存器的引入增加了时序分析和测试的复杂度。因此,选择哪种方案需要设计者权衡。
2)上升沿/下降沿寄存器需要*不同的门控单元
例如,基于锁存器的方案:上升沿 FF 使用与门,下降沿 FF 使用或门
3) 时钟门控单元/正常单元
在库生成期间,可以创建专门的集成时钟门控单元以获得好的时序。
4.4.3 时序分析
通过 le -setup -hold 或 ck *。
该值需要考虑时钟偏差的影响。
4.4.4 配合dft工艺
控制点的位置和控制信号可以通过以下命令来控制:
测试中无法测量EN信号和逻辑中的信号。解决方案是添加观察逻辑。
在测试模式下,观察逻辑允许观察 ENL 信号,而在正常操作模式下,异或树不消耗功率。
3)测试信号连接到**层测试端口
时钟门控单元的测试信号需要连接到**层的测试端口,通过如下命令进行,
如果**层有*端口,则直接连接,否则创建并连接该端口。
深圳市清宝科技有限公司专注于PCB抄板等