|
新的 Armv9.3 CPU 集群賦能更智能、更快速、更沉浸式的端側智能,為消費類電子設備帶來全新的 AI 體驗 作者:Arm 終端事業部產品管理高級總監 Stefan Rosinger
隨著用戶期待在不連接云端服務的情況下,能在移動設備上享有更好的即時響應、更智能的個性化服務,更加實時處理的體驗,使其正迅速成為人工智能 (AI) 的強大載體。與此同時,隨著移動端 AI 體驗從快速響應的應用、低延遲的 AI 助手,覆蓋到高級相機功能和實時語音處理,意味著端側 AI 體驗朝向智能化、沉浸式,以及高要求等方向發展,伴隨而來便是對高性能、高能效邊緣計算的空前需求。 在異構計算中,CPU 在推動端側 AI 的持續轉型上扮演關鍵角色。Arm CPU 驅動了全球數十億臺移動設備,并因以下優勢深受數百萬第三方應用青睞: • 在 AI 工作負載上的卓越性能; • 針對實時 AI 應用的優化推理能力; • 面向資源受限設備的出色能效; • 具備跨生態系統與市場的可擴展性。 Arm C1 CPU 集群是 Arm Lumex 計算子系統 (Compute Subsystem, CSS) 平臺的組件之一,也是首個基于 Armv9.3 架構的CPU 系列產品。該集群是 Arm 針對移動設備市場性能最強的新一代 CPU,旨在全面釋放端側 AI 的潛力,進而提升用戶體驗。 面向 AI 時代的高性能 Arm C1 CPU 集群 最高性能的 Arm C1 CPU 集群集成了新的 C1-Ultra CPU,以及可靈活組合的C1-Premium、C1-Pro 與 C1-Nano CPU 核心,能夠根據合作伙伴的特定需求,實現性能和能效提升。同時,C1 CPU 通過 Armv9 架構直接內建第二代 Arm 可伸縮矩陣擴展 (SME2),這為加速 AI 體驗帶來了革新突破。 針對生成式 AI、語音識別、典型的機器學習 (ML) 和計算機視覺 (CV) 等工作負載,啟用 SME2 的 Arm C1 CPU 集群在同等條件下,能比上一代 CPU 集群帶來五倍 AI 性能提速。此外,借助 SME2,該 CPU 集群實現了多達三倍的能效優化。而上述的 AI 性能和能效改進能為用戶帶來更流暢、響應更迅速的端側體驗。 Arm C1 CPU 集群在實際用例中表現突出。在行業領先的性能基準測試,該 CPU 集群在同等條件下,相較于上一代 CPU 集群性能平均提升 30%,在游戲和視頻流媒體等應用中平均提速 15%。與此同時,在日常移動端工作負載(如視頻播放、社交媒體、網頁瀏覽)中,該 CPU 集群在同等條件下,相較于上一代 CPU 集群功耗平均降低 12%。
Arm C1 CPU 系列在關鍵場景中發揮性能與能效優勢 除了作為性能最強的 Arm C1 CPU 集群外,C1 CPU 還可擴展至各個級別的消費類電子和移動設備,為多樣化的端側工作負載提供不同水平的性能、功耗和面積效率。 借助 SME2 內置 AI 加速 得益于 SME2 內置的矩陣擴展,Arm C1 CPU 能夠加速 AI 功能,包括涉及大量矩陣運算的大語言模型 (LLM)、媒體處理(圖像與視頻)、語音識別、計算機視覺、實時應用(AI 助手、計算攝影與 AI 濾鏡)以及多模態應用等。SME2 是在 SME 基礎上進行了全新的智能升級,能提升性能、降低內存占用,并使端側 AI 運行得更為流暢,尤其是在音頻生成、攝像頭推理、計算機視覺及即時聊天等高實時性要求的應用中。 對于 Arm 合作伙伴和開發者生態系統而言,相較于未啟用 SME2 特性的硬件,這些提升能顯著加速不同工作負載和用例中的 AI 性能,包括: • 在 Whisper Base 上處理語音工作負載時,延遲降低 4.7 倍; • 在 Google Gemma 3 模型上進行聊天交互,AI 性能增長 4.7 倍; • 在 Stability AI Stable Audio 模型上生成音頻,速度提升 2.8 倍。
移動端開發者無需修改代碼,就可通過 Arm KleidiAI 與主流 AI 框架(包括阿里巴巴 MNN、Google LiteRT 和 MediaPipe、Meta llama.cpp 以及微軟 ONNX Runtime)以及運行時庫(如 Google XNNPACK)的集成,直接使其應用能獲取 SME2 的性能優勢。換言之,當開發者選用這些AI框架和運行時庫進行應用構建時,SME2 便已直接嵌入至其軟件棧中。 部分谷歌的應用已啟用 SME2,因此當搭載 SME2 硬件的新一代安卓智能手機面世時,它們即可從更優異的 AI 特性中獲益。與此同時,SME2 不僅面向旗艦及高端智能手機,未來的中端設備也將集成 SME2 增強型硬件,從而提升 AI 計算性能。 Arm C1-Ultra 與 C1-Premium 實現出色的性能峰值與持續性能表現 新一代高性能旗艦 CPU Arm C1-Ultra 專為要求嚴苛的 AI 任務和工作負載而設計。C1-Ultra 的推出,讓 Arm 持續保持連續六年的兩位數性能提升的發展勢頭,其單線程峰值性能較上一代 Arm Cortex-X925 CPU,提升高達 25%。這一性能躍升的主要驅動力來自兩位數的每時鐘周期指令數 (IPC) 增長。正如此前《內有劇透!打造高性能、高能效移動計算的關鍵是?》一文所述,IPC 對實際移動端用例至關重要,因為它能提供以下優勢: • 在關鍵時刻和關鍵場景中實現峰值性能; • 在移動設備功耗范圍內提升性能表現; • 降低固定計算需求的能耗。
除單線程性能提升外,相較于 Cortex-X925,Arm C1-Ultra 在各類基準測試、AI 工作負載及實際應用中均展現出了全面提升。這些突破得益于 C1-Ultra 多方面的設計優化,包括: • 業界領先的前端設計,并針對實際工作負載進行優化; • 業內最寬、吞吐量最高的微架構; • 出色的預取器,可在面積限制內優化性能。 Arm C1-Premium CPU 是 Arm 首款次旗艦處理器,其核心面積比包含私有 L2 緩存的 C1-Ultra 核心縮小了 35%。該 CPU 在 SPEC 套件等基準測試中以更小的占用面積,保持了同等的性能水平,實現了卓越的面積效率。 Arm C1-Pro 實現出色的持續能效 Arm C1-Pro CPU 在提升性能的同時,把控功耗,在整個功耗范圍內實現更高的每瓦性能。該 CPU 在游戲等工作負載中表現卓越,與上一代的 Arm Cortex-A725 CPU 相比,在相同主頻下持續性能提升 16%。在視頻播放、網頁瀏覽及社交媒體等用例中,C1-Pro 在同等性能下較 Cortex-A725 的能效提高多達 12%。在完全不犧牲性能表現的情況下,將新一代的能效水平展現地淋漓盡致。
在微架構層面,Arm C1-Pro 引入了增強型分支預測和內存系統更新,尤其適用于實際用例中的多任務處理。該 CPU 還具有面積優化的配置方案,合作伙伴可將其集成到更緊湊的空間中,從而充分釋放 SME2 的性能優勢。 Arm C1-Nano 實現極致的能耗及面積效率 Arm C1-Nano CPU 在最小面積占用的條件下,將 Arm C1 系列 CPU 的優勢集于一體。借助新的 Arm DynamIQ Shared Unit (DSU),其能效比上一代 Cortex-A520 CPU 提升了 26%,同時在核心面積縮小 2% 的條件下,實現了性能提升,使其成為可穿戴設備和緊湊型消費類電子設備的理想之選。
Arm C1-DSU 實現靈活且可擴展的平臺 Arm C1 CPU 集群為移動設備提供可擴展的計算底座,而全新的 Arm C1-DSU 則在其中起到核心作用。C1-DSU 旨在為支持最新的架構和新的低功耗特性而設計,與上一代 DSU-120 相比,其功耗可節省高達 26%,同時提升帶寬的擴展能力,以支持不同消費類電子和移動設備市場中各類新型的 AI 工作負載。無論是旗艦或高端智能手機、中端移動設備,還是可穿戴設備,C1 CPU 集群均能靈活配置。例如,相較于配置上一代 Cortex-A725 和 Cortex-A520 的 CPU 集群,配置 C1-Pro 與 C1-Nano 的 CPU 集群的計算密度可提升兩倍,為中端移動設備賦予強大的 AI 功能。 端側 AI 革新的核心動力 Arm C1 CPU 集群為未來端側 AI 提供了一切所需:性能、能效、可擴展性與內置的智能性。借助內建的 SME2,以及從 Ultra 到 Nano 的靈活選擇,Arm 致力于提供加速的 AI 體驗,讓人人觸手可及。 全新的 Arm C1 CPU 旨在實現無處不 AI 的世界,賦能定義移動端計算新時代的應用、設備、體驗和特性。Arm 無比期待在不久的將來看到新的 Arm CPU 應用于消費類電子設備中! |