北京2025年10月6日 /美通社/ -- 2025年,Agent無疑是AI圈的熱詞。行業(yè)普遍認(rèn)為:真正有用的Agent,必須學(xué)會使用手機(jī)和電腦,像人一樣操作GUI。
近日,中國企業(yè)級大模型與數(shù)據(jù)智能企業(yè)——明略科技推出的專有GUI大模型 Mano在行業(yè)公認(rèn)的Mind2Web和OSWorld兩大基準(zhǔn)測試中,均取得了創(chuàng)紀(jì)錄的SOTA成績。通過在線強(qiáng)化學(xué)習(xí)和訓(xùn)練數(shù)據(jù)自動採集兩大核心創(chuàng)新,Mano為GUI智能體領(lǐng)域提供了一套可擴(kuò)展、可持續(xù)進(jìn)化的新範(fàn)式。
榜單鏈接:https://os-world.github.io/
技術(shù)報告鏈接:https://www.mininglamp.com/news/6394/
關(guān)鍵突破:
1.Mind2Web:Mind2Web覆蓋137個網(wǎng)站、2350+真實任務(wù),旨在考察智能體能否在複雜多變的DOM結(jié)構(gòu)裡精準(zhǔn)找到目標(biāo)元素,並完成整個操作鏈。Mano展示出「看得準(zhǔn)、做得成」的核心優(yōu)勢。
技術(shù)報告顯示,Mano的元素精度 (Ele.Acc)和步驟成功率(Step SR)指標(biāo)遙遙領(lǐng)先,在準(zhǔn)確識別、定位界面元素,以及成功執(zhí)行多步任務(wù)能力上達(dá)到新高度。Mano的操作F1 (Op.F1) 指標(biāo)與此前頂尖模型持平甚至略高,能夠真正將複雜任務(wù)轉(zhuǎn)化為成功的操作序列。
2. OSWorld-Verified:更難的挑戰(zhàn)來自桌面端。OSWorld-Verified涵蓋了369個跨應(yīng)用任務(wù),覆蓋10類應(yīng)用,包含瀏覽器,辦公軟件等多個類型,每一個操作都和真實桌面場景無縫對接。
技術(shù)報告顯示,在OSWorld-Verified榜單的Foundation E2E GUI & Specialized Model 評測中,Mano直接把成功率提升到 41.6±0.7%,超過qwen、GUI-Owl、opencua等模型。
技術(shù)創(chuàng)新:
亮點一:首次提出「在線強(qiáng)化學(xué)習(xí)」
自DeepSeek橫空出世以來,GRPO已經(jīng)成為強(qiáng)化學(xué)習(xí)黃金範(fàn)式?,F(xiàn)有的模型訓(xùn)練大多局限在離線強(qiáng)化學(xué)習(xí)的範(fàn)疇,深度依賴事先收集好的數(shù)據(jù)集。但在GUI交互智能體領(lǐng)域,任何操作都與真實的系統(tǒng)交互環(huán)境密切相關(guān)。
因此,Mano在GUI交互領(lǐng)域首次提出「在線強(qiáng)化學(xué)習(xí)」的訓(xùn)練範(fàn)式,並推出訓(xùn)練數(shù)據(jù)自動採集的「探索器」,讓智能體時刻依賴最新數(shù)據(jù)進(jìn)行學(xué)習(xí),並在「嘗試新的行動以獲取信息」和「基於已有知識採取最優(yōu)行動」之間取得平衡。
為了在真實的交互環(huán)境中不斷強(qiáng)化以提高適應(yīng)性和靈活性,明略科技建立了一個模擬環(huán)境池,包括瀏覽器環(huán)境(BUA)和桌面環(huán)境(CUA),讓模型在真實交互中採集更多樣化的環(huán)境數(shù)據(jù),彌補(bǔ)了離線軌跡分佈稀疏的局限性,最終在多樣化的Web GUI場景中展現(xiàn)出更強(qiáng)的魯棒性。
同時,採用在線採樣 + 離線過濾的創(chuàng)新方式:先收集軌跡,再過濾噪聲數(shù)據(jù),動態(tài)調(diào)節(jié)任務(wù)難度分佈,有效避免了因失敗軌跡導(dǎo)致學(xué)習(xí)效率低下的問題。
消融實驗結(jié)果顯示,加入在線強(qiáng)化學(xué)習(xí)後,模型在OSWorld-Verified數(shù)據(jù)集的平均分?jǐn)?shù)產(chǎn)生了質(zhì)的飛躍,相比離線強(qiáng)化學(xué)習(xí)的模型結(jié)果提升了 7.9,達(dá)到 41.6。
亮點二:智能探索,採集真實環(huán)境軌跡
儘管大模型能夠理解籠統(tǒng)的指令,但在多步驟操作的目標(biāo)驅(qū)動型任務(wù)中,往往無法將大目標(biāo)分解為具體的執(zhí)行步驟。因此,研發(fā)人員需要為交互任務(wù)構(gòu)建專用的模型和智能體。在這一過程中,海量的高質(zhì)量交互軌跡數(shù)據(jù)不可或缺。過去,這類數(shù)據(jù)往往需要人工構(gòu)建或標(biāo)注,成本高、耗時長。對此,明略科技設(shè)計了訓(xùn)練數(shù)據(jù)自動採集的方法,從根本上提升了數(shù)據(jù)收集的效率和準(zhǔn)確性,這正是Mano的第二大創(chuàng)新。
明略科技搭建了一個可擴(kuò)展的虛擬環(huán)境集群,用於模擬多種交互場景。針對每個目標(biāo)應(yīng)用,大模型自動生成目標(biāo)清單,並對目標(biāo)進(jìn)行優(yōu)先級排序,過濾掉使用頻率極低的功能,為後續(xù)探索提供明確的上下文指導(dǎo)。
元素提取方面,明略科技為網(wǎng)頁環(huán)境定制了Chrome插件「Mano-C」,全面提取網(wǎng)頁中的交互元素,捕捉其空間坐標(biāo)與語義屬性。針對桌面環(huán)境,技術(shù)團(tuán)隊則採用A11y Tree解析與 OmniParseV2協(xié)同過濾的方法,確保覆蓋更多交互元素。
數(shù)據(jù)標(biāo)注方面,明略科技利用大模型為每個提取的元素生成語義標(biāo)籤、功能描述,以及交互類別,形成結(jié)構(gòu)化的語義對齊數(shù)據(jù),為後續(xù)訓(xùn)練提供有效監(jiān)督。
為了提升數(shù)據(jù)採集的智能程度,技術(shù)團(tuán)隊設(shè)計了基於Prompt的探索模塊,用於智能選擇交互元素,並引入顯式約束,避免路徑循環(huán)和冗余分支。在探索過程中,採用深度優(yōu)先搜索(DFS)策略,系統(tǒng)會截取截圖並保存帶註釋的交互數(shù)據(jù)。完成探索後,通過軌跡評估機(jī)制,篩選出高質(zhì)量的交互序列。整個過程不斷循環(huán),每一步都會檢查是否達(dá)到最大探索深度。
Mano的SOTA表現(xiàn),得益於明略科技多年來在大模型領(lǐng)域的積累。2024年,明略科技的超圖多模態(tài)大語言模型(HMLLM)和Video-SME數(shù)據(jù)集在腦電圖、眼動等非標(biāo)模態(tài)數(shù)據(jù)處理領(lǐng)域取得顯著突破,榮獲ACM MM 2024最佳論文提名。2025年,明略科技推出企業(yè)級商業(yè)數(shù)據(jù)分析可信智能體DeepMiner,Mano作為DeepMiner的自動化執(zhí)行引擎,讓智能體真正學(xué)會了「看」與「點」,在複雜的軟件與瀏覽器環(huán)境下實現(xiàn)了精細(xì)化操作。展望未來,明略科技將進(jìn)一步優(yōu)化Mano在應(yīng)用和端側(cè)部署能力,加速企業(yè)智能化轉(zhuǎn)型進(jìn)程。

繁體中文知識庫正在建設(shè)中,請您選擇簡體中文或英文版查看。
Copyright © 2025 美通社版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載.
Cision 旗下公司.