《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 清華和星動(dòng)紀(jì)元開源首個(gè)AIGC機(jī)器人大模型

清華和星動(dòng)紀(jì)元開源首個(gè)AIGC機(jī)器人大模型

2025-05-08
來源:IT之家

5 月 7 日消息,星動(dòng)紀(jì)元今日在官方公眾號(hào)上宣布,開源首個(gè) AIGC 機(jī)器人大模型 VPP(Video Prediction Policy)。

據(jù)了解,生成式機(jī)器人大模型 VPP 由清華大學(xué)叉院的 ISRLab 和星動(dòng)紀(jì)元合作開發(fā),將視頻擴(kuò)散模型的泛化能力轉(zhuǎn)移到了通用機(jī)器人操作策略中,解決了 diffusion 推理速度的問題,讓機(jī)器人實(shí)時(shí)進(jìn)行未來預(yù)測(cè)和動(dòng)作執(zhí)行,大大提升機(jī)器人策略泛化性,并且現(xiàn)已全部開源,相關(guān)成果入選 ICML 2025 Spotlight。

000.png

星動(dòng)紀(jì)元介紹稱,VPP 利用了大量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練,直接學(xué)習(xí)人類動(dòng)作,減輕了對(duì)于高質(zhì)量機(jī)器人真機(jī)數(shù)據(jù)的依賴,且可在不同人形機(jī)器人本體之間自如切換,這有望大大加速人形機(jī)器人的商業(yè)化落地。

目前 AI 大模型領(lǐng)域有兩種主流方法,基于自回歸的理解模型和基于擴(kuò)散的生成模型,各自代表作分別為自回歸的 GPT 和生成式的 Sora:

GPT 的思路演化到具身智能領(lǐng)域,就是以 PI( Physical Intelligence )為代表的 VLA 技術(shù),是從視覺語言理解模型(VLM)微調(diào)而來,擅長抽象推理和語義理解。

生成式的技術(shù)與機(jī)器人的碰撞,就誕生了 VPP 這樣的生成式機(jī)器人大模型。

000.png

然而,人工智能領(lǐng)域存在著著名的莫拉維克悖論(Moravec's paradox):高級(jí)推理功能反而容易(例如圍棋、數(shù)學(xué)題),下層的感知和執(zhí)行反而困難(例如各種家務(wù))。VLM 更擅長高層級(jí)的推理,而 AIGC 生成式模型更擅長細(xì)節(jié)處理。VPP 基于 AIGC 視頻擴(kuò)散模型而來,在底層的感知和控制有獨(dú)特的優(yōu)勢(shì)。

如圖所示,VPP 分成兩階段的學(xué)習(xí)框架,最終實(shí)現(xiàn)基于文本指令的視頻動(dòng)作生成。第一階段利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測(cè)性視覺表征;第二階段通過 Video Former 和 DiT 擴(kuò)散策略進(jìn)行動(dòng)作學(xué)習(xí)。

1、提前預(yù)知未來:VPP 讓機(jī)器人行動(dòng)前做到“心里有數(shù)”

以往機(jī)器人策略(例如:VLA 模型)往往只能根據(jù)當(dāng)前觀測(cè)進(jìn)行動(dòng)作學(xué)習(xí),機(jī)器人策略需要先理解指令和場(chǎng)景,再執(zhí)行。VPP 能夠提前預(yù)知未來的場(chǎng)景,讓機(jī)器人“看著答案”行動(dòng),大大增強(qiáng)泛化能力。

VPP 視頻預(yù)測(cè)結(jié)果與機(jī)器人實(shí)際物理執(zhí)行結(jié)果幾乎一致。能被視頻生成的,就能被機(jī)器人執(zhí)行。

2、高頻預(yù)測(cè)和執(zhí)行:VPP 讓機(jī)器人執(zhí)行速度“更快一步”

AIGC 視頻擴(kuò)散模型雖能生成逼真的視頻,但往往花費(fèi)大量推理時(shí)間。星動(dòng)紀(jì)元研究團(tuán)隊(duì)發(fā)現(xiàn),不需要精確地預(yù)測(cè)未來的每個(gè)像素,通過有效提取視頻模型中間層的表征,單步去噪的預(yù)測(cè)就可以蘊(yùn)含大量未來信息。這讓模型預(yù)測(cè)時(shí)間小于 150ms,模型的預(yù)測(cè)頻率約 6-10hz,通過 action chunk size = 10,模型的控制頻率能超過 50Hz。

如圖所示,單步視頻擴(kuò)散模型預(yù)測(cè)已經(jīng)蘊(yùn)含大量未來信息,足夠?qū)崿F(xiàn)高頻預(yù)測(cè)(規(guī)劃)和執(zhí)行。

3、跨本體學(xué)習(xí):VPP 讓機(jī)器人先驗(yàn)知識(shí)流通“暢通無阻”

如何利用不同本體的機(jī)器人數(shù)據(jù)是一個(gè)巨大的難題。VLA 模型只能學(xué)習(xí)不同維度的低維度 action 信息,而 VPP 可以直接學(xué)習(xí)各種形態(tài)機(jī)器人的視頻數(shù)據(jù),不存在維度不同的問題。如果將人類本體也當(dāng)作一種機(jī)器本體,VPP 也可以直接學(xué)習(xí)人類操作數(shù)據(jù),降低數(shù)據(jù)獲取成本。同時(shí)視頻數(shù)據(jù)也包含比低維度動(dòng)作更加豐富的信息,提高模型泛化能力。

VPP 能學(xué)習(xí)跨本體的豐富視頻數(shù)據(jù),相比之下,VLA 只能學(xué)習(xí)維度不一致的低維動(dòng)作信號(hào)。

4、基準(zhǔn)測(cè)試領(lǐng)先:VPP 讓機(jī)器人性能“一騎絕塵”

在 Calvin ABC-D 基準(zhǔn)測(cè)試中,實(shí)現(xiàn)了 4.33 的任務(wù)完成平均長度,已經(jīng)接近任務(wù)的滿分 5.0。相較于先前技術(shù),VPP 實(shí)現(xiàn)了 41.5% 的提升。

左圖為 Calvin ABC-D 任務(wù)的平均長度對(duì)比,右圖為 Real-World Dexterous Hand 任務(wù)的成功率對(duì)比??梢钥闯觯琕PP 方法在這兩項(xiàng)指標(biāo)中均取得了最佳表現(xiàn),在仿真環(huán)境任務(wù)完成平均長度達(dá)到 4.33,真機(jī)測(cè)試成功率為 67%,顯著優(yōu)于其他方法。

5、真實(shí)世界靈巧操作:VPP 讓機(jī)器人靈巧操作“舉一反三”

在真實(shí)世界的測(cè)試中,VPP 模型展現(xiàn)出了良好的多任務(wù)學(xué)習(xí)能力和泛化能力。在星動(dòng)紀(jì)元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺(tái),VPP 能使用一個(gè)網(wǎng)絡(luò)完成 100+ 種復(fù)雜靈巧操作任務(wù),例如抓取、放置、堆疊、倒水、工具使用等,在雙臂人形機(jī)器人平臺(tái)能完成 50+ 種復(fù)雜靈巧操作任務(wù)。

6、可解釋性與調(diào)試優(yōu)化:VPP 讓機(jī)器人“透明可控”

VPP 的預(yù)測(cè)視覺表示在一定程度上是可解釋的,開發(fā)者在不通過 real-world 測(cè)試情況下,通過預(yù)測(cè)的視頻來提前發(fā)現(xiàn)失敗的場(chǎng)景和任務(wù),進(jìn)行針對(duì)性的調(diào)試和優(yōu)化。

而 VLA 模型是完全端到端的模型,開發(fā)者在調(diào)試優(yōu)化中需要大量真實(shí)世界的測(cè)試來找到模型漏洞,需要花費(fèi)大量的時(shí)間。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 一区二区三区国产最好的精华液| 国产卡一卡二卡3卡4卡无卡视频| 久草视频免费在线观看| 狠狠色香婷婷久久亚洲精品| 四名学生毛还没长齐在线视频| 91精品国产综合久久青草| 岛国片在线观看| 丰满少妇大力进入| 欧美牲交a欧美牲交aⅴ久久| 免费无码AV一区二区| 国产性夜夜夜春夜夜爽| 国产高清乱理伦片中文电影| sss欧美一区二区三区| 成人午夜小视频| 久久91精品综合国产首页| 日韩免费视频播播| 亚洲综合精品伊人久久| 精品午夜福利1000在线观看| 国产xxxxx在线观看| 2022福利视频| 性色av免费观看| 久久99久久99精品免观看| 日本黄线在线播放免费观看| 乱子伦农村xxxx视频| 欧美xxxx做受性欧美88| 亚洲国产日韩在线成人蜜芽 | 国内精品福利在线视频| av无码免费一区二区三区| 日本高清色www网站色| 亚洲AV永久无码精品表情包| 狠狠色噜噜狠狠狠狠7777米奇| 免费观看激色视频网站(性色)| 精品在线观看免费| 又爽又黄又无遮挡网站| 美女动作一级毛片| 啊~嗯~轻点~啊~用力村妇| 老婆~我等不及了给我| 国产一级做a爰片久久毛片99| 被女同桌调教成鞋袜奴脚奴| 国产农村乱子伦精品视频| 羞羞视频免费网站在线看|