|
ChatGPT及大模型技術大會上,昆侖芯科技研發總監王志鵬表示:“作為一家芯片公司,需要對市場的需求和變化非常敏感,才能使硬件產品始終精準匹配主流需求。” 大模型對計算的要求主要體現在三個方面,一是算力,二是互聯,三是成本。就大模型而言,昆侖芯科技在產品定義上已經做出布局——相較第一代產品,昆侖芯2代AI芯片可大幅優化算力、互聯和高性能,而在研的下一代產品則將提供更佳的性能體驗。 昆侖芯科技成立于2021年,前身為百度智能芯片及架構部。在實際業務場景中深耕AI加速領域已逾10年,專注打造擁有強大通用性、易用性和高性能的通用人工智能芯片。 在持續推進核心技術攻關的同時,昆侖芯科技緊密關注科技前沿,精準匹配市場需求。目前,公司已實現兩代通用AI芯片的量產及落地應用,在互聯網、智慧金融、智慧交通等領域已規模部署數萬片。“來自真實場景”一直是昆侖芯科技最獨特的身份標簽,也是其規模部署數萬片、在行業內“領跑落地”的核心優勢所在。 王志鵬認為,只有基于真實業務場景中的數據進行端到端優化,才能順利推進大模型落地。 目前市場上主流的大模型以Transformer架構為主,包含Encoder和Decoder。Encoder主要被應用于各類NLP的判別類任務;而Decoder更多被應用于翻譯、圖文生成等場景,最近出圈的ChatGPT就是典型代表。 針對大模型,昆侖芯持續打磨部署優化方案,領跑產業落地。昆侖芯已將大模型的Transformer相關優化技術沉淀為重要基建,優化后的性能比原有方案提升5倍以上,壓縮顯存30%以上。AI繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數級增加,同時,圖像生成需要循環采樣數十次,產業落地動輒需要高昂成本的部署集群,嚴重阻礙了AIGC模型大規模商業化落地。 2022年第四季度,昆侖芯聯合客戶,基于飛槳PaddlePaddle發起了端到端聯合優化項目。在2-3周內,項目組快速完成端到端優化,最終實現輸入文本后2秒出圖的優化效果,性能提升近8倍。 目前,昆侖芯AI加速卡R200已在該客戶的大模型場景完成規模部署,性能數據全面超越同系列主流推理卡: 基于昆侖芯AI加速卡R200高效運算與推理能力,綜合優化方案,在dpm-25steps算法下,利用昆侖芯AI加速卡R200,生成1024*1024圖像時的推理速度為10.89 iters/s,相比同能力的主流推理卡快20%。 |