春晚上,中國(guó)機(jī)器人的精彩表現(xiàn)讓人印象深刻,今日,來(lái)自清華和斯坦福的聯(lián)合研發(fā)團(tuán)隊(duì),又在具身智能核心技術(shù)層面交出了一份亮眼答卷。
2月26日發(fā)布的全球具身智能領(lǐng)域的權(quán)威評(píng)測(cè)World Arena榜單上,由清華大學(xué)陳建宇(星動(dòng)紀(jì)元?jiǎng)?chuàng)始人)團(tuán)隊(duì)與斯坦福大學(xué) Chelsea Finn(Physical Intelligence聯(lián)合創(chuàng)始人)團(tuán)隊(duì)聯(lián)合研發(fā)的 Ctrl-World 世界模型,在具身任務(wù)能力上斬獲全球第一,擊敗了包括谷歌Veo 3.1、英偉達(dá)Cosmos-Predict 2.5在內(nèi)的世界頂尖模型。同時(shí),其視頻生成能力也排名全球第二,僅次于阿里團(tuán)隊(duì)的Wan 2.6,超越了谷歌和英偉達(dá)的產(chǎn)品。
要理解Ctrl-World的突破,首先需要了解什么是“世界模型”。通俗地說(shuō),世界模型是一個(gè)為機(jī)器人打造的“高級(jí)虛擬訓(xùn)練場(chǎng)”,它不僅能生成逼真的視頻畫(huà)面,更重要的是,它內(nèi)置了重力、摩擦力、空間邏輯等物理規(guī)則。研究者可以讓機(jī)器人在這個(gè)虛擬世界里進(jìn)行無(wú)數(shù)次“模擬考試”,學(xué)會(huì)各種技能,再把學(xué)到的本領(lǐng)應(yīng)用到現(xiàn)實(shí)世界中,從而大幅降低真實(shí)測(cè)試的成本與風(fēng)險(xiǎn)。
榜單顯示,Ctrl-World在主體一致性、軌跡精度、深度準(zhǔn)確性、策略評(píng)估一致性四大核心維度上全部登頂。
在主體一致性上,它以0.8411的得分位居全球第一,這意味著模型生成的物體在視頻中能保持形狀、顏色穩(wěn)定,不漂移不變形,為機(jī)器人提供了高保真的“數(shù)字孿生”交互對(duì)象。
在軌跡精度上,它以0.4766的得分同樣排名榜首,生成的機(jī)械臂運(yùn)動(dòng)軌跡與真實(shí)物理軌跡幾乎完全吻合,動(dòng)作精準(zhǔn)連貫。
在深度準(zhǔn)確性上,它以0.9300的得分躋身全球第一梯隊(duì),模型對(duì)三維空間結(jié)構(gòu)把握精準(zhǔn),能避免機(jī)器人在抓取、堆疊等操作中因“空間感知偏差”導(dǎo)致的抓空、碰撞問(wèn)題。
在策略評(píng)估一致性指標(biāo)方面,Ctrl-World以高達(dá)0.986的Pearson相關(guān)系數(shù)(滿(mǎn)分1分)登頂全球第一,相比之下,英偉達(dá)Cosmos-Predict 2.5的相關(guān)性?xún)H為0.483。這意味著Ctrl-World的虛擬測(cè)試結(jié)果更值得信賴(lài),開(kāi)發(fā)者可以用虛擬測(cè)試替代部分真實(shí)環(huán)境測(cè)試,從而大幅降低在真實(shí)世界中反復(fù)測(cè)試的高昂成本。
此次Ctrl-World登頂?shù)腤orldArena榜單,由清華大學(xué)牽頭,聯(lián)合普林斯頓大學(xué)、新加坡國(guó)立大學(xué)、北京大學(xué)等8所全球頂尖學(xué)術(shù)機(jī)構(gòu)共同研發(fā),圍繞“真能干活”設(shè)計(jì)評(píng)測(cè)體系,涵蓋16大核心指標(biāo)和3大真實(shí)應(yīng)用任務(wù)。評(píng)測(cè)中,70位專(zhuān)業(yè)標(biāo)注者對(duì)3500個(gè)視頻進(jìn)行主觀(guān)校驗(yàn),確保結(jié)果貼近人類(lèi)對(duì)“實(shí)用”的直覺(jué)判斷。
編輯:李華山