當(dāng)前位置：廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

歐盟聯(lián)合研究中心發(fā)布通用人工智能模型分類框架

信息來源：江蘇省技術(shù)性貿(mào)易措施信息平臺發(fā)布日期：2026-01-04 閱讀：920次

字體：大

小中大

2025年10月10日，歐盟委員會聯(lián)合研究中心（JRC）發(fā)布《通用人工智能（GPAI）模型分類框架》報(bào)告。作為《歐盟人工智能法案》（以下簡稱《AI法案》）配套的關(guān)鍵外部科學(xué)研究成果，該報(bào)告首次提出一套基于認(rèn)知能力量化的GPAI模型評估方法論，為法案中GPAI模型的界定、監(jiān)管義務(wù)落地提供可操作的技術(shù)標(biāo)準(zhǔn)。

《AI法案》于2024年8月1日正式生效，明確將GPAI模型定義為“通過大規(guī)模自監(jiān)督方式訓(xùn)練、具備顯著通用性、能勝任多種任務(wù)且可集成至下游系統(tǒng)的AI模型”，并要求2025年8月2日起，GPAI模型及存在系統(tǒng)性風(fēng)險的GPAI模型需履行特定合規(guī)義務(wù)。然而，法案生效初期，“如何量化通用性”“怎樣判定‘勝任多種任務(wù)’”等關(guān)鍵問題缺乏技術(shù)標(biāo)準(zhǔn)答案。報(bào)告核心目標(biāo)是將《AI法案》中GPAI模型的抽象定義，轉(zhuǎn)化為可測量、可復(fù)現(xiàn)的評估指標(biāo)，確保監(jiān)管既不阻礙AI創(chuàng)新，又能保障人類健康、安全與基本權(quán)利。

框架突破傳統(tǒng)“單一性能指標(biāo)評估”模式，借鑒認(rèn)知心理學(xué)中的卡特爾-霍恩-卡羅爾（CHC）智力理論，結(jié)合AI技術(shù)特性，篩選出四大核心認(rèn)知領(lǐng)域作為GPAI模型評估的核心維度，覆蓋AI通用能力的關(guān)鍵場景：

注意力與搜索（AS）：模型在數(shù)據(jù)流中聚焦關(guān)鍵信息、篩選目標(biāo)內(nèi)容的能力，是完成信息檢索、任務(wù)定位的基礎(chǔ)；

理解與組合表達(dá)（CE）：細(xì)分為語言理解（CEc）與語言表達(dá)（CEe），評估模型對自然語言或語義表征的理解、觀點(diǎn)生成與表達(dá)能力，直接關(guān)聯(lián)文本創(chuàng)作、對話交互等任務(wù)；

概念化、學(xué)習(xí)與抽象（CL）：模型從實(shí)例中歸納規(guī)律、通過指令或演示學(xué)習(xí)、積累不同抽象層級知識的能力，決定其適應(yīng)新任務(wù)的靈活性；

定量與邏輯推理（QL）：包含邏輯推理（QLl）與定量推理（QLq），衡量模型處理數(shù)值信息、推導(dǎo)邏輯結(jié)論、解決概率與反事實(shí)問題的能力，是數(shù)學(xué)計(jì)算、決策分析的核心支撐。

為確保評估公平性，框架特別強(qiáng)調(diào)“模態(tài)適配”原則——針對文本、圖像、音頻等不同輸入輸出模態(tài)的 AI 模型，需設(shè)計(jì)對應(yīng)模態(tài)的測試任務(wù)。例如，文本模型通過文字推理題評估邏輯能力，音頻模型則通過語音指令解析任務(wù)驗(yàn)證同類能力，單一模態(tài)達(dá)標(biāo)即可認(rèn)定該領(lǐng)域合格。

為了精準(zhǔn)衡量模型在四大領(lǐng)域的能力水平，框架引入“帶注釋的需求水平（ADeLe）”評估程序，通過三大步驟實(shí)現(xiàn)量化評估：

任務(wù)需求標(biāo)注：基于標(biāo)準(zhǔn)化評分準(zhǔn)則，用AI模型（或人工輔助）標(biāo)注測試任務(wù)對四大領(lǐng)域的需求強(qiáng)度，形成“需求譜”。例如，一道數(shù)學(xué)題可能對“定量推理”需求為“高”，對“注意力與搜索”需求為“中”；

模型能力測繪：讓AI模型完成標(biāo)注后的測試任務(wù)，通過“主體特征曲線”分析模型在不同需求強(qiáng)度下的成功率，以“50%成功率對應(yīng)的需求水平”作為模型在該領(lǐng)域的能力得分；

通用性綜合計(jì)算：提供兩種得分聚合方式——若采用“平均值法”，可通過算術(shù)平均（側(cè)重整體表現(xiàn)）、幾何平均（平衡各領(lǐng)域）或調(diào)和平均（懲罰短板領(lǐng)域）計(jì)算綜合得分；若采用“閾值法”，則設(shè)定各領(lǐng)域合格線，模型滿足一定數(shù)量領(lǐng)域達(dá)標(biāo)即可認(rèn)定具備通用性。

報(bào)告指出，ADeLe方法已通過1.6萬余個高質(zhì)量任務(wù)實(shí)例驗(yàn)證，自動化標(biāo)注準(zhǔn)確率經(jīng)人類評審校準(zhǔn)，預(yù)測模型性能的AUROC（受試者工作特征曲線下面積）普遍達(dá)到0.85以上，兼顧科學(xué)性與評估效率。

為驗(yàn)證框架有效性，研究團(tuán)隊(duì)對GPT系列、LLaMA系列、DeepSeek-R1-Dist-Qwen系列等主流LLM模型展開測試，得出多項(xiàng)關(guān)鍵結(jié)論：

算力與能力呈正相關(guān)：模型參數(shù)規(guī)模、訓(xùn)練算力（FLOP）越大，四大領(lǐng)域能力得分普遍越高，但不同領(lǐng)域提升速率不同——“理解與組合表達(dá)”能力隨算力增長提升較快，“定量與邏輯推理”能力則需更大算力投入才會顯著進(jìn)步；

閾值設(shè)定影響監(jiān)管范圍：若將ADeLe得分3.0設(shè)為合格線，較多中小規(guī)模模型（如LLaMA-3.2-11B-Instruct）會被納入GPAI范疇；若提高至4.0，僅GPT-4o、OpenAI o1等頂尖模型符合標(biāo)準(zhǔn)；若設(shè)定4.5以上，僅極少數(shù)最先進(jìn)模型達(dá)標(biāo)；

領(lǐng)域達(dá)標(biāo)規(guī)則需靈活：要求“所有領(lǐng)域達(dá)標(biāo)”會過度限制模型（部分優(yōu)秀模型可能因單一領(lǐng)域短板被排除），而“3/4領(lǐng)域達(dá)標(biāo)”的規(guī)則更符合實(shí)際，既能保障模型通用性，又能包容合理技術(shù)差異。

基于此，報(bào)告建議政策制定者根據(jù)監(jiān)管目標(biāo)動態(tài)調(diào)整評估參數(shù)：若側(cè)重風(fēng)險防控，可提高得分閾值、嚴(yán)格領(lǐng)域達(dá)標(biāo)規(guī)則；若鼓勵技術(shù)創(chuàng)新，可適當(dāng)放寬標(biāo)準(zhǔn)，同時定期（如每1-2年）根據(jù)AI技術(shù)進(jìn)展更新測試任務(wù)與評分準(zhǔn)則。

廣東技術(shù)性貿(mào)易措施微信公眾號
關(guān)注“廣東技術(shù)性貿(mào)易措施”，獲取更多服務(wù)。

本文包含附件，您需要登錄后，才能查看此附件內(nèi)容！
如果您還不是會員，請先注冊！

[上一篇]韓國國家無線電研究局修訂《比吸收率測量標(biāo)準(zhǔn)》

歐盟聯(lián)合研究中心發(fā)布通用人工智能模型分類框架

相關(guān)資訊