云從科技從容大模型登頂全球多模態(tài)榜單

來源：證券時報·e公司作者：李映泉 2025-05-29 11:54

Aa 大號字

國際權(quán)威評測平臺OpenCompass最新公布全球多模態(tài)榜單，其中，由云從科技(688327)自主研發(fā)的從容大模型以80.7分的綜合成績登頂榜單。這一成績不僅刷新了國內(nèi)AI模型在國際多模態(tài)測評中的最高得分紀(jì)錄，亦超越了谷歌、OpenAI等全球頂尖人工智能巨頭，與商湯科技SenseNova（80.4分）、上海AI LAB InternVL（79.1分）等中國團(tuán)隊共同占據(jù)榜單前10名的半壁江山，展現(xiàn)了中國在通用人工智能領(lǐng)域的突破性進(jìn)展。

據(jù)介紹，此次評測中，云從科技從容大模型展現(xiàn)了全方位技術(shù)優(yōu)勢。面對涵蓋視覺感知、認(rèn)知理解與跨領(lǐng)域應(yīng)用的八大核心數(shù)據(jù)集，該模型在醫(yī)學(xué)健康、數(shù)理邏輯、藝術(shù)設(shè)計等十余個專業(yè)領(lǐng)域表現(xiàn)突出。尤其在MMBench中文測試、高難度學(xué)科綜合評測（MMMU）及高階推理榜單（MMStar）中均拔得頭籌，并在復(fù)雜場景文本識別（ocrbench）、開放域問答（MMVet）等關(guān)鍵場景中穩(wěn)居全球前列，其綜合能力較國際頭部模型GPT-4.1領(lǐng)先近5分。

記者從云從科技獲悉，該技術(shù)的突破緣于公司在多模態(tài)核心領(lǐng)域的持續(xù)深耕，從容大模型聚焦通用視覺語言理解與推理任務(wù)，通過三大核心領(lǐng)域（多模態(tài)對齊、高階推理、長上下文建模）的突破性優(yōu)化，構(gòu)建起多項全球領(lǐng)先的技術(shù)壁壘。

在“多模態(tài)對齊”方面，從容大模型自建面向強(qiáng)化指令對齊的高質(zhì)量基準(zhǔn)數(shù)據(jù)集，覆蓋了圖文問答、多模態(tài)理解、多輪交互等任務(wù)場景，提升多模態(tài)理解與任務(wù)指令遵循的推理表現(xiàn)。

在“決策類人化”方面，從容大模型首創(chuàng)融合DPO（直接偏好優(yōu)化）與GRPO（生成式獎勵優(yōu)化）的雙重對齊技術(shù)，無需依賴獎勵模型即可實現(xiàn)類人化推理決策，通過優(yōu)化模型學(xué)習(xí)機(jī)制，從容大模型實現(xiàn)了更貼近人類思維的決策方式，在復(fù)雜問答與多輪交互中展現(xiàn)出更強(qiáng)的智能行為選擇能力。

此外，在高效工程優(yōu)化上，從容大模型重點攻克了4K高分辨率圖像問答場景，面向多模態(tài)文檔理解（OCR）對模型的圖像編碼器進(jìn)行了結(jié)構(gòu)優(yōu)化，可處理高分辨率圖像與文檔（如合同、發(fā)票表格等），支持多模態(tài)文檔的智能審查、智能解析、智能問答等任務(wù)；面對跨頁文檔分析、多輪對話等長文本場景，可精準(zhǔn)追蹤超過3萬字的上下文邏輯。

在原生多模態(tài)推理上，從容大模型全面升級，面向多圖、跨圖場景的圖文交錯模式和原生視頻模式，提供原生的多模態(tài)文檔理解和多模態(tài)視頻理解，可以實現(xiàn)跨圖比較、圖文組合推理、多圖問答等復(fù)雜多模態(tài)任務(wù)，進(jìn)而提升大模型的模型理解深度與廣度。

目前，從容大模型已在金融、制造、政務(wù)等多個領(lǐng)域通過AI智能體實現(xiàn)規(guī)模化落地。例如，某銀行基于該模型與云從科技合作打造風(fēng)控合規(guī)案防智能平臺，構(gòu)建風(fēng)控AI智能體，實現(xiàn)風(fēng)險識別自動化和問責(zé)標(biāo)準(zhǔn)化，投訴數(shù)量壓降50%以上；在電商領(lǐng)域，云從科技為正浩創(chuàng)新部署的智能客服平臺，通過多模態(tài)對齊與知識庫精準(zhǔn)匹配，將問答準(zhǔn)確率提升至95%，客服月均效率提高24%。

“技術(shù)創(chuàng)新最終要服務(wù)于社會價值?！痹茝目萍悸?lián)合創(chuàng)始人姚志強(qiáng)表示，團(tuán)隊將持續(xù)探索多模態(tài)技術(shù)的安全落地模式，以自主創(chuàng)新的AI基礎(chǔ)設(shè)施，為全球智能化轉(zhuǎn)型提供更高效、更包容的技術(shù)支撐。

責(zé)任編輯：孫憲超