“大模型發(fā)展過(guò)程中,實(shí)現大模型的核心基礎技術(shù)并未見(jiàn)顛覆性的創(chuàng )新,而是通過(guò)長(cháng)期迭代演進(jìn)逐步發(fā)展到目前水平。”近日,北京航空航天大學(xué)計算機系主任肖利民教授在采訪(fǎng)中表示,通過(guò)“大算力+大模型+大數據”的高效組合,AI大模型逐步解決了需要大量標注樣本、跨領(lǐng)域自適應能力、多任務(wù)泛化能力等傳統AI落地難的問(wèn)題,使得通用人工智能(AGI)實(shí)質(zhì)性落地應用成為可能。

談及AI大模型的關(guān)鍵技術(shù),肖利民說(shuō),以GPT為代表的大模型,通過(guò)基于Transformer結構的模型疊加和并行化,面向海量非標注數據的自監督學(xué)習、多任務(wù)學(xué)習/元學(xué)習/遷移學(xué)習,基于人類(lèi)反饋的強化學(xué)習,基于跨媒體對齊的多模態(tài)翻譯和轉換等大模型核心創(chuàng )新技術(shù)的持續融合演進(jìn),使得大模型在跨領(lǐng)域多任務(wù)中表現出的智能化水平有了質(zhì)的變化。
大模型的發(fā)展和應用將賦能千行百業(yè),為實(shí)體經(jīng)濟中的企業(yè)提供更加智能化的技術(shù)和工具,促進(jìn)各行業(yè)和領(lǐng)域的創(chuàng )新發(fā)展,推動(dòng)新產(chǎn)品、新服務(wù)、新業(yè)態(tài)的出現。肖利民表示,一方面,大模型可利用大量的數據進(jìn)行分析和預測,幫助實(shí)體經(jīng)濟中的企業(yè)做出更準確的決策。例如,通過(guò)對市場(chǎng)趨勢、消費者行為、供應鏈等的分析和預測,企業(yè)可精準了解市場(chǎng)需求、更好優(yōu)化產(chǎn)品和服務(wù),提高運營(yíng)效率和競爭力。另一方面,大模型可用于自動(dòng)化和智能化系統,助力實(shí)體經(jīng)濟中的企業(yè)提高生產(chǎn)效率和質(zhì)量。例如,在制造業(yè)中,大模型可用于質(zhì)量控制、設備運維、供應鏈優(yōu)化等復雜任務(wù),實(shí)現智能化生產(chǎn)和運營(yíng)。
入局大模型研發(fā)的門(mén)檻有多高,需要怎樣的算力支持?大模型的研發(fā)和構建在模型訓練、大數據收集、大數據清洗、核心技術(shù)研發(fā)及關(guān)鍵人才招攬等諸多方面都需要付出高昂的代價(jià)。肖利民表示,大模型訓練需要有高算力、大內存、高互聯(lián)帶寬、高運行效率的智能計算平臺。以GPT 3.0為例,其模型參數總量達1750億個(gè),訓練樣本Tokens數達3000億個(gè),計算量高達314ZFLOPS,最大數據集45TB,參數和模型狀態(tài)存儲量超過(guò)2.1TB,如果要求訓練在30天內完成,以A100芯片為例,訓練階段至少需要1558塊A100GPU,耗費至少2337萬(wàn)美元。
未來(lái),不僅要關(guān)注大模型的研發(fā)和構建,更要注重大模型的精調和使用,以發(fā)揮大模型的實(shí)際效用。產(chǎn)業(yè)界越發(fā)關(guān)注大模型,但大模型并非多多益善,其研發(fā)、訓練需要持續的算力、人才投入,通常只有大型龍頭企業(yè)或領(lǐng)軍企業(yè)才能負擔得起?;谕ㄓ么竽P?,聚焦場(chǎng)景需求解決實(shí)際問(wèn)題,打造精耕細作的行業(yè)大模型,打通AI應用的“最后一公里”,才能更好賦能實(shí)體經(jīng)濟發(fā)展。(記者 吳雙)