所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

数字集成电路中触发器替换功耗降低的贪婪启发式算法

C.N.Kalaivani1和阿斯瓦娅·j·j2
  1. 印度泰米尔纳德邦金奈Dhaanish Ahmed工程学院欧洲经委会系助理教授
  2. 印度泰米尔纳德邦金奈市Dhaanish Ahmed工程学院ECE系PG学生[应用电子学]
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际电气、电子和仪器工程高级研究杂志

摘要

时钟功耗占整个设计电路的很大一部分。本文提出了在不影响原有电路性能的情况下,用更少的多位触发器替换部分触发器来降低功耗和占地面积。提出了各种技术。首先识别那些可以合并的人字拖。接下来构建一个组合表来枚举所有可能的组合。最后,将这些人字拖按层次进行合并。除了降低功率外,还考虑了最小化总线长。根据实验结果,时钟功率可降低20-30%,运行时间也可缩短

关键字

时钟电源降低,合并,线长,替换,多位触发器。

介绍

时钟系统和逻辑部件占芯片总功耗的主导部分,占20-45%。在这个时钟系统中,90%的电力被触发器[1]消耗。这是由于高切换活动。
方程(1)
其中Pclk为时钟功率,fclk为时钟频率,Vdd为电源电压,clk为触发器门电容中包含的开关电容。
在时钟树合成过程中,更少的触发器数量意味着更少的时钟sink数量。因此,所得到的时钟网络将具有更小的功耗和使用更少的路由资源。由于两个触发器消耗相同的时钟,因此将2位触发器替换为两个1位触发器可以降低总功耗。然而,一些触发器的位置在更换后会改变,因此连接触发器的插脚的导线长度也会改变。
在使用多位触发器之前,可以对单位触发器进行检查。图1.1显示了一个单位触发器的例子。单位触发器有两个锁存器(主锁存器和从锁存器)。锁存器需要“Clk”和“Clk’”信号来执行操作,如图1所示。
为了从Clk-> Q得到更好的延迟,从“Clk '”重新生成“Clk”。时钟路径中有两个逆变器。图2显示了将两个1位触发器合并为一个2位触发器的示例。每个1位触发器包含两个逆变器,主锁存器和从锁存器。由于制造规则,人字拖中的逆变器往往是超大的。
随着工艺技术向更小的几何节点发展,时钟驱动程序的最小尺寸可以驱动多个触发器。将单位触发器合并为一个多位触发器可以避免重复逆变器,降低总时钟动态功耗。

文献调查

1) P. Gronowski, W. J. Bowhill, R. P. Preston, M. K. Gowan,和R. l. allmon,“基于多比特触发器的后置功率优化”,IEEE J.固态电路,第33卷,no. 1。5,第676-686页,2012年5月。

概念

将多个1位触发器替换为一个多位触发器,减少总面积和动态功率,最多可减少50%。

缺点

Windows优化技术较大,使得触发器执行速度较慢
2) D. Duarte, V. Narayanan和M. J. Irwin,“功率感知位置”,在《IEEE VLSI计算程序》中。Soc。为基础。计算机协会。,Pittsburgh, PA, Apr. 2005, pp. 52–57.

概念

重点计算不同触发器的空闲时间,并将门控逻辑插入到网络列表中,使总功耗提高25.3%。

缺点

网络开关功率可达到25.4%,从而也可以减少电缆长度。
3) H. Kawagachi和T. Sakurai,“时钟功率中技术缩放的影响”,在VLSI电路挖掘中。科技公司。,Jun. 2003, pp. 97–98.

概念

增加时钟分布和时钟产生电路的灵活性,以消耗40%的总功率。

缺点

时钟倾斜问题可减少30%。
4) W。侯德华,刘德华。Ho,“低功率时钟树的自动注册银行”,在《质量电子程序》。《设计》,圣何塞,2010年3月,第647-652页

概念

在不影响性能和总线长20-30%的情况下,将某些触发器替换为多位触发器。

缺点

采用双位触发器节省时钟功耗11.22%,开关时触发器的更换率为10.43%。
5)千培焕Ho、A. B. Kahng、S. Reda和Q. Wang,“高性能微处理器设计”,载于《自动设计程序》。相依,小君。1998,第795-800页。

概念

专注于高频设计,以实现高性能,并提高电路的复杂性。

缺点

单电源电压系统可降低时钟功率25.45%,多电源电压系统可降低时钟功率26.15%。

算法

设计流程大致可以分为三个阶段。首先使用组合表来组合所有可能的人字拖组合。这个问题的难点在于反复搜索一组可以被一个新的多位触发器所取代的触发器。然而,随着芯片中触发器数量的急剧增加,复杂性将呈指数级增长,这使得该方法不切实际。为了更有效地处理这个问题并获得更好的结果,使用了以下流程图。图3显示了算法中使用的各种方法。
1)为了便于识别可合并的翻转,转换细胞的坐标系统。这样,用来记录可行放置区域的内存也可以减少。
2)为了避免浪费时间寻找不可能的人字拖组合,在真正合并两种人字拖之前,先建立一个组合表。例如,如果一个库只提供三种类型的触发器,分别是1位、2位和3位,以将触发器分为三组。因此,不考虑1位和3位触发器的组合,因为标准库不提供4位触发器的类型。
3)将一个芯片划分为若干个子区域,并在每个子区域进行替换,以降低复杂性。但是,这种方法可能会降低溶液质量。为了解决这一问题,可以采用分层的方法来增强结果

A.区域划分,以识别可合并触发器

为了降低复杂性,首先将整个放置区域划分为若干个子区域,然后利用组合表对每个子区域中的触发器进行替换。然后将几个子区域组合成一个更大的子区域,并再次替换这些人字拖,以便进一步替换邻近子区域中的人字拖。最后,那些带有伪类型的触发器在最后阶段被删除,因为受支持的库不提供伪类型。

B.更换人字拖

在构建组合之后,根据组合表替换人字拖。在库中对应其类型的组合下面的第一个触发器被链接。然后,对于T中的每个组合n,依次合并n的左子和右子下面链接的触发器,从叶到根。根据它的二叉树找到与根的左子和右子相关联的组合。因此,在名为left和lright的列表中,在其左子和右子的组合下面链接的触发器将被检查。然后,对于lleft中的每个触发器f i,选择lright中的最佳触发器fbest,即可以与f i合并且在cbest中记录的代价最小的触发器。对于每一对人字拖,计算组合成本,它们可以与所选的最小成本合并。最后在组合n的列表中添加一个新的触发器f,并删除所选的组成f的触发器。例如,给定一个包含三种类型的触发器(1位、2位和4位)的库,首先构建一个组合表T,如图5所示。
上图说明了这一点
(a)合并前的一组人字拖。
(b)两个1位触发器f1和f2被2位触发器f3取代。
(c)两个1位触发器f4和f5被2位触发器f6取代。
(d)两个2位触发器f7和f8被4位触发器f9取代。
(e)两个2位触发器f3和f6被4位触发器f10取代。
(f)合并后的几组人字拖。
一开始,不同类型的人字拖根据类型分别连接在T的n1、n2、n3下面。假设在n4中组成一个触发器,根据组合表需要两个1位的触发器,然后选择n1中的每一对触发器,并检查它们是否可以组合。如果有几个可能的选择,则选择代价值最小的一对来打破平局。

C.组合表和合并触发器

最后在组合n的列表中添加一个新的触发器f,并移除所选取的构成f的触发器。伪类型是一种中间类型,用于枚举组合表T中所有可能的组合,然后移除属于伪类型的触发器。因此,在应用上述过程之后,如果存在属于伪类型的flop-flop,则执行去替换和替换函数,如图6所示。
数据显示
(a)初始化库登陆组合表T。
(b)在L中加入伪类型,并构建相应的二叉树。
(c)由两个n1组合得到新的组合n3。(d)结合n1和n3得到新的组合n4。
(e)结合n1和n4得到新的组合n6。(f)删除(e)中未使用的组合,得到最后一个组合表。
例如,如果在图中替换后仍然存在一个属于n3的触发器fi(图中最后一个组合表是删除未使用的组合后得到的),那么将fi去替换为两个原本属于n1的触发器。去替换后,不考虑L中对应类型为伪的组合,根据T建立触发器的替换。

各种方法的对照表

该表指定了触发器的各种实现,以优化功率并实现网络交换活动。虽然驱动器是非常宽的设备,但发现对于所有技术,由于漏电所占的时钟功率份额最多为2.5%。减少泄漏的技术优化和动态运行时技术将成为时钟功率的标准,并将继续是总系统功率的主要贡献者。

常规条件数据映射

D触发器

在条件数据映射触发器(CDMFF)中,只使用了5个时钟晶体管,可减少约50%的时钟晶体管数量。这显示了减少时钟晶体管数量以实现低功率的有效性。图7显示了CDMFF的电路图。
在传统的D触发器中,部分时钟能量被内部时钟缓冲区消耗以控制传输门。

时钟对共享触发器设计

为了保证低功耗序列元件的高效和健壮的实现,提出了一种时钟对共享触发器,以使用比CDMFF更少的时钟晶体管,并克服CDMFF中的浮动问题。图8显示了CPSFF的框图。
通过减少晶体管数量,可以降低整体开关延迟、功率和面积消耗。低功耗时钟通晶体管触发器低功耗时钟通晶体管触发器设计比现有的两种触发器设计显示出更少的功率和面积限制。与所有其他电路相比,LCPTFF将具有非常少的时钟延迟。

输出波形

PR_Ratio和WR_Ratio可以通过以下公式计算
方程
方程

结论

芯片中的触发器数量急剧增加,复杂度将呈指数级增长,这使得该方法不切实际。为了更有效地处理这一问题并获得更好的结果,本文采用了以下方法:1)为了便于识别可合并的触发器转换细胞的坐标系统。2)为了避免浪费时间去寻找不可能的人字拖组合,在真正合并两个人字拖之前,先建立一个组合表。3)将芯片划分为多个子区域,并在每个子区域进行替换,以降低复杂性。但这种方法可能会降低溶液质量。为了解决这个问题,可以采用分层的方法来提高结果,减少处理时间。

表格一览

表的图标 表的图标 表的图标
表1 表2 表3

数字一览

数字 数字 数字 数字 数字
图1 图2 图3 图4 图5
数字 数字 数字 数字 数字
图6 图7 图8 图9 图10
数字 数字 数字
图11 图12 图13

参考文献










全球科技峰会