近年來,由于對電子設備的需求不斷增長,低功耗芯片的設計發揮了重要作用,這些電子設備越來越小化,并且功耗越來越低,以支持電池電源。人工智能(AI)的使用 —— 越來越多地出現在可穿戴設備、物聯網設備,以及更普遍的嵌入式系統中——正在給致力于開發具有更密集、更具創新性的架構和制造工藝的低功耗芯片的設計人員帶來嚴峻的挑戰。
需要適當的功率分析技術和工具來幫助工程師設計先進的AI芯片,以滿足其特定要求,例如整體功能,可制造性,成本和可靠性。
低功耗設計的目的是降低電路芯片的整體動態和靜態功耗,這是實現下一代應用的關鍵方面。此過程涉及降低動態和靜態功率。動態功率包括開關和短路功率分析,而靜態功率主要包括漏電流分析。功率方程包括上述三個貢獻,如圖1所示。
28074102.png (36.07 KB, 下載次數: 249)
下載附件
2022-3-24 16:30 上傳
圖 1:功率分量和公式 在IC制造工藝基于90nm至16nm技術的那幾年,設計人員的注意力集中在降低漏電功率上,因為它的重量(85%至95%)大于動態功率(10%至15%)。隨著隨后從16nm到14nm的過渡,功率方程發生了變化;泄漏功率得到了很好的控制,而動態功率則成為一個更重要的問題。首先,這是由于從平面到FinFET晶體管架構的過渡,這是一種建立在基板上的多門器件,其中柵極放置在通道的兩側,三側或四側或纏繞在通道周圍,形成雙柵極甚至多柵極3D結構。
在接下來的幾年中,電子制造領域的不斷進步將導致7,5甚至3nm的制造工藝,再次將泄漏功率的重要性推向前臺。
人工智能的新挑戰人工智能在電子應用中的日益廣泛使用帶來了新型的電力挑戰。性能、功耗和面積 (PPA) 范例仍然是設計人員要實現的目標。不同之處在于,隨著AI芯片的引入,在不犧牲功率的情況下最大化功率變得更加困難。如今,性能實際上受到功耗的限制,并且很難在不擔心散熱和熱管理的情況下將功率可靠地輸送到芯片的每個部分。
矢量的質量(定義為SoC在真實系統中工作時看到的實際活動)對于動態功耗分析和優化至關重要。
"最大的問題是估計工作負載,特別是當SoC在現場運行時,在真實系統上,"低功耗架構師兼Synopsys設計集團研究員Godwin Mabe說。"我們需要了解測量和優化動態功率的工作量。在人工智能方面,沒有預定義的基準。我們需要識別這些工作負載,確保它們被捕獲,并且更早地調試電源。
低功耗設計意味著了解功耗在軟件開發、硬件設計和制造中的影響。它不是一個單步活動,應該在整個芯片設計過程中運行,目的是降低整體動態和靜態功耗。
如圖2所示,設計和驗證方法分為五個主要階段:
靜態功率驗證和探索
動態功率驗證和分析
軟件驅動的功耗分析
電源實現
簽核
28074160.png (74.52 KB, 下載次數: 239)
下載附件
2022-3-24 16:30 上傳
圖 2:設計和驗證階段
仿真的作用
提供SoC功耗估算值是一項艱巨的任務,這要求設計人員設置能夠盡可能忠實地再現真實工作條件的測試臺。能夠滿足這些要求的最佳系統是仿真。
為AI芯片運行功耗分析需要能夠獲取和處理數百千兆字節的合適工具,這些千兆字節由數萬億或數十億個時鐘周期組成。仿真系統中的電源分析有助于解決此問題,因為它只能識別電源分析的感興趣窗口。
"有了AI芯片,兩個新概念出現了,"Maben說。"第一個是驗證調試具有挑戰性,因為它需要很長時間。第二個問題是如何開發可以在芯片啟動時準備就緒的應用軟件。這就是仿真和原型設計概念出現的地方。
憑借其獨特的快速仿真架構、最先進的商用 FPGA 以及基于FPGA的仿真軟件創新,Synopsys的ZeBu Server是業界最快的仿真系統,可提供2×傳統仿真解決方案的性能。ZeBu軟件為用戶提供了快速編譯器、高級調試(包括與Verdi的本機集成)、仿真加速、混合仿真和功耗分析等寶貴工具。
當應用程序在模擬器上運行時,它最終會轉換為SoC的向量。然后,這些矢量可用于運行仿真,從而驗證仿真器中芯片的功能。仿真是獲取工作負載的正確平臺,因為它會生成針對功率分析優化的向量。如圖3所示,PrimePower RTL使用ZeBu EmPower矢量為設計人員提供有用的信息。
28074196.png (114.66 KB, 下載次數: 241)
下載附件
2022-3-24 16:30 上傳
圖 3:概要軟件驅動的 SoC 活動 AI芯片使用大量的數學函數,主要是乘法和矩陣操作,由專用和優化的組合邏輯執行。
"當我們進入這些計算密集型應用的那一刻,設計人員擔心的新概念是較低幾何形狀的故障功率。"毛刺功率占總功率的25%以上,我們知道毛刺功率意味著浪費功率。
故障的數量與SoC執行的操作數量成正比,這使得故障成為AI加速器需要解決的重要問題。有兩種類型的毛刺:慣性毛刺和運輸毛刺。慣性毛刺可以通過架構來解決,而運輸毛刺是由于通過邏輯單元的延遲造成的,導致邏輯門輸入處的到達時間不同。故障正在成為一個非常大的話題,因為它們很難優化,也很難衡量。
Synopsys提供端到端RTL到柵極的毛刺功率分析和優化解決方案。在RTL中,PrimePower RTL(見圖 4)可以計算和報告每個層次結構的毛刺,還可以指向生成最高級別毛刺的RTL源代碼行。PrimePower解決方案還提供使用RTL仿真的延遲/毛刺感知矢量生成,并可以使用零延遲柵極級仿真或與SPICE功率數密切相關的時序感知仿真來執行毛刺功率分析。
"故障正在變得占主導地位,特別是在AI芯片和較低的幾何形狀中,"有像PrimePower RTL這樣的工具,它可以告訴設計人員哪些塊更麻煩,并對其進行排名。然后,架構師可以更改架構,使其不那么容易出現故障。
28074542.png (282.97 KB, 下載次數: 244)
下載附件
2022-3-24 16:30 上傳
圖 4:PrimePower RTL 毛刺功耗分析
|