(相關(guān)資料圖)
“書(shū)生·浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集,對(duì)“書(shū)生·浦語(yǔ)”、清華大學(xué)的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4進(jìn)行了全面測(cè)試。
6月7日,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語(yǔ)言模型“書(shū)生·浦語(yǔ)”(InternLM),具有1040億參數(shù),在多項(xiàng)中文考試中取得超越ChatGPT的成績(jī),在數(shù)學(xué)考試中成績(jī)明顯領(lǐng)先于谷歌、Meta的大模型。
“書(shū)生·浦語(yǔ)”聯(lián)合團(tuán)隊(duì)選取了20余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集:由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集MMLU;微軟研究院推出的學(xué)科考試評(píng)測(cè)集AGIEval(含中國(guó)高考、司法考試及美國(guó)SAT、LSAT、GRE 和 GMAT等),AGIEval的19個(gè)評(píng)測(cè)大項(xiàng)中有9個(gè)大項(xiàng)是中國(guó)高考,通常也列為一個(gè)重要的評(píng)測(cè)子集AGIEval(GK);由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集C-Eval;以及由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集Gaokao。
實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)對(duì)“書(shū)生·浦語(yǔ)”、清華大學(xué)的GLM-130B、Meta的LLaMA-65B、OpenAI的ChatGPT和GPT-4進(jìn)行了全面測(cè)試,針對(duì)上述四個(gè)評(píng)測(cè)集的成績(jī)對(duì)比如下(滿分100分)。
標(biāo)簽: