2025年10月10日,歐盟委員會聯(lián)合研究中心(JRC)發(fā)布《通用人工智能(GPAI)模型分類框架》報(bào)告。作為《歐盟人工智能法案》(以下簡稱《AI法案》)配套的關(guān)鍵外部科學(xué)研究成果,該報(bào)告首次提出一套基于認(rèn)知能力量化的GPAI模型評估方法論,為法案中GPAI模型的界定、監(jiān)管義務(wù)落地提供可操作的技術(shù)標(biāo)準(zhǔn)。
《AI法案》于2024年8月1日正式生效,明確將GPAI模型定義為“通過大規(guī)模自監(jiān)督方式訓(xùn)練、具備顯著通用性、能勝任多種任務(wù)且可集成至下游系統(tǒng)的AI模型”,并要求2025年8月2日起,GPAI模型及存在系統(tǒng)性風(fēng)險的GPAI模型需履行特定合規(guī)義務(wù)。然而,法案生效初期,“如何量化通用性”“怎樣判定‘勝任多種任務(wù)’”等關(guān)鍵問題缺乏技術(shù)標(biāo)準(zhǔn)答案。報(bào)告核心目標(biāo)是將《AI法案》中GPAI模型的抽象定義,轉(zhuǎn)化為可測量、可復(fù)現(xiàn)的評估指標(biāo),確保監(jiān)管既不阻礙AI創(chuàng)新,又能保障人類健康、安全與基本權(quán)利。
框架突破傳統(tǒng)“單一性能指標(biāo)評估”模式,借鑒認(rèn)知心理學(xué)中的卡特爾-霍恩-卡羅爾(CHC)智力理論,結(jié)合AI技術(shù)特性,篩選出四大核心認(rèn)知領(lǐng)域作為GPAI模型評估的核心維度,覆蓋AI通用能力的關(guān)鍵場景:
注意力與搜索(AS):模型在數(shù)據(jù)流中聚焦關(guān)鍵信息、篩選目標(biāo)內(nèi)容的能力,是完成信息檢索、任務(wù)定位的基礎(chǔ);
理解與組合表達(dá)(CE):細(xì)分為語言理解(CEc)與語言表達(dá)(CEe),評估模型對自然語言或語義表征的理解、觀點(diǎn)生成與表達(dá)能力,直接關(guān)聯(lián)文本創(chuàng)作、對話交互等任務(wù);
概念化、學(xué)習(xí)與抽象(CL):模型從實(shí)例中歸納規(guī)律、通過指令或演示學(xué)習(xí)、積累不同抽象層級知識的能力,決定其適應(yīng)新任務(wù)的靈活性;
定量與邏輯推理(QL):包含邏輯推理(QLl)與定量推理(QLq),衡量模型處理數(shù)值信息、推導(dǎo)邏輯結(jié)論、解決概率與反事實(shí)問題的能力,是數(shù)學(xué)計(jì)算、決策分析的核心支撐。
為確保評估公平性,框架特別強(qiáng)調(diào)“模態(tài)適配”原則——針對文本、圖像、音頻等不同輸入輸出模態(tài)的 AI 模型,需設(shè)計(jì)對應(yīng)模態(tài)的測試任務(wù)。例如,文本模型通過文字推理題評估邏輯能力,音頻模型則通過語音指令解析任務(wù)驗(yàn)證同類能力,單一模態(tài)達(dá)標(biāo)即可認(rèn)定該領(lǐng)域合格。
為了精準(zhǔn)衡量模型在四大領(lǐng)域的能力水平,框架引入“帶注釋的需求水平(ADeLe)”評估程序,通過三大步驟實(shí)現(xiàn)量化評估:
任務(wù)需求標(biāo)注:基于標(biāo)準(zhǔn)化評分準(zhǔn)則,用AI模型(或人工輔助)標(biāo)注測試任務(wù)對四大領(lǐng)域的需求強(qiáng)度,形成“需求譜”。例如,一道數(shù)學(xué)題可能對“定量推理”需求為“高”,對“注意力與搜索”需求為“中”;
模型能力測繪:讓AI模型完成標(biāo)注后的測試任務(wù),通過“主體特征曲線”分析模型在不同需求強(qiáng)度下的成功率,以“50%成功率對應(yīng)的需求水平”作為模型在該領(lǐng)域的能力得分;
通用性綜合計(jì)算:提供兩種得分聚合方式——若采用“平均值法”,可通過算術(shù)平均(側(cè)重整體表現(xiàn))、幾何平均(平衡各領(lǐng)域)或調(diào)和平均(懲罰短板領(lǐng)域)計(jì)算綜合得分;若采用“閾值法”,則設(shè)定各領(lǐng)域合格線,模型滿足一定數(shù)量領(lǐng)域達(dá)標(biāo)即可認(rèn)定具備通用性。
報(bào)告指出,ADeLe方法已通過1.6萬余個高質(zhì)量任務(wù)實(shí)例驗(yàn)證,自動化標(biāo)注準(zhǔn)確率經(jīng)人類評審校準(zhǔn),預(yù)測模型性能的AUROC(受試者工作特征曲線下面積)普遍達(dá)到0.85以上,兼顧科學(xué)性與評估效率。
為驗(yàn)證框架有效性,研究團(tuán)隊(duì)對GPT系列、LLaMA系列、DeepSeek-R1-Dist-Qwen系列等主流LLM模型展開測試,得出多項(xiàng)關(guān)鍵結(jié)論:
算力與能力呈正相關(guān):模型參數(shù)規(guī)模、訓(xùn)練算力(FLOP)越大,四大領(lǐng)域能力得分普遍越高,但不同領(lǐng)域提升速率不同——“理解與組合表達(dá)”能力隨算力增長提升較快,“定量與邏輯推理”能力則需更大算力投入才會顯著進(jìn)步;
閾值設(shè)定影響監(jiān)管范圍:若將ADeLe得分3.0設(shè)為合格線,較多中小規(guī)模模型(如LLaMA-3.2-11B-Instruct)會被納入GPAI范疇;若提高至4.0,僅GPT-4o、OpenAI o1等頂尖模型符合標(biāo)準(zhǔn);若設(shè)定4.5以上,僅極少數(shù)最先進(jìn)模型達(dá)標(biāo);
領(lǐng)域達(dá)標(biāo)規(guī)則需靈活:要求“所有領(lǐng)域達(dá)標(biāo)”會過度限制模型(部分優(yōu)秀模型可能因單一領(lǐng)域短板被排除),而“3/4領(lǐng)域達(dá)標(biāo)”的規(guī)則更符合實(shí)際,既能保障模型通用性,又能包容合理技術(shù)差異。
基于此,報(bào)告建議政策制定者根據(jù)監(jiān)管目標(biāo)動態(tài)調(diào)整評估參數(shù):若側(cè)重風(fēng)險防控,可提高得分閾值、嚴(yán)格領(lǐng)域達(dá)標(biāo)規(guī)則;若鼓勵技術(shù)創(chuàng)新,可適當(dāng)放寬標(biāo)準(zhǔn),同時定期(如每1-2年)根據(jù)AI技術(shù)進(jìn)展更新測試任務(wù)與評分準(zhǔn)則。

關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。