6月1日消息,銀河通用發布全球首個產品級端到端具身 FSD 大模型 —— TrackVLA,一款具備純視覺環境感知、語言指令驅動、可自主推理、具備零樣本(Zero-Shot)泛化能力的具身大模型。
據了解,TrackVLA 是銀河通用推出的產品級導航大模型,純視覺環境感知、自然語言指令驅動、端到端輸出語言和機器人動作,是一個由仿真合成動作數據訓練的 " 視覺 - 語言 - 動作 "(Vision-Language-Action, VLA)大模型。它讓機器人擁有 " 聽 → 看 → 懂 → 走 " 的閉環運動能力:一雙眼睛看世界、一個智能 " 大腦 " 做推理,無需提前建圖、不依賴遙操控制,真正實現語言驅動、泛化感知、自主推理、智能交互與運動。
TrackVLA 八大核心能力:
1. 聽得懂你說話,還能換人跟
你只需說一句:" 跟著媽媽 ",它就能立即識別 " 媽媽 " 對應的目標位置。如果改口說 " 換成跟孩子 ",它也能瞬間切換對象,并通過語音回復確認。甚至,Ta 還能跟蹤你的寵物。這背后,是模型具備的自然語言理解與目標識別能力的協同工作。
2. 不怕人多也不跟錯人
在人流密集的購物中心中,面對復雜的場景、多變的環境中多個相似穿著的人,它能準確識別原始目標并長時自主跟隨。通過空間理解和視覺記憶機制,避免 " 認錯人 "。
3. 丟了目標能找回來
如果目標走出視野,它不會原地 " 發呆 ",而是通過實時的空間智能和大模型推理能力根據目標運動軌跡 " 分析出 " 目標的大致位置,并規劃軌跡重新找回目標。
4. 從沒見過的地方也能走
TrackVLA 不依賴建圖,靠純視覺輸入理解環境。可在不依賴額外采集訓練數據的情況下,直接部署在陌生商場、電梯、游樂區等環境,實現長時穩定自主跟隨。
5. 靈活避障,適應復雜場景
在兒童游樂區、狹窄通道等復雜場景中,它能實時識別障礙物(包括兒童、玩具、地面水漬等),分析可通行區域,并可正確認知自身本體能力,自主推理出自身構型支持的合理路線。
6. 環境光線變化?不怕
從室外陽光到室內昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現出極強魯棒性,無需專門調參或切換模式。
7. 遠程可視守護,一目了然
通過 App,你可以實時看到機器人眼中的第一視角,掌握家人動態。系統還能主動提醒風險行為(如小朋友奔跑、老人跌倒),提供 " 移動守護 "。
8. 技能涌現!
TrackVLA 不僅能穩定跟隨人類,還可以泛化至任意移動目標。比如視頻最后展示了讓機器狗跟隨一只路上偶遇的動物狗狗,其目標形態、運動方式、遮擋情況都非常不確定。TrackVLA 也表現了同樣穩定的跟隨能力,而這一能力是訓練時從而教過的!
目前,該模型已搭載于宇樹機器狗化身 " 二寶保鏢 " 實現兒童看護,在未訓練過的真實場景中完成了嚴格的長程驗證。目前 TrackVLA 已在未訓練過的真實場景中完成了嚴格的長程驗證:實現在超市中穿梭于人流和貨架之間,準確跟隨母子;根據語音指令切換目標,并在兒童玩耍時發出提醒;可正確認知自身本體能力,利用大模型自主推理分析;從電梯進入陌生商場,完成連續跟隨任務;在人群密集的服裝店中穩定識別并避讓他人干擾 ……