亚洲黄色在线,中文字幕在线永久在线视频,亚洲一区二区三区久久

銀河通用發布全球首個產品級端到端具身FSD大模型

日期： 2025-06-03

來源：IT之家

關鍵詞： 銀河通用具身大模型 TrackVLA

6月1日消息，銀河通用發布全球首個產品級端到端具身 FSD 大模型 —— TrackVLA，一款具備純視覺環境感知、語言指令驅動、可自主推理、具備零樣本（Zero-Shot）泛化能力的具身大模型。

據了解，TrackVLA 是銀河通用推出的產品級導航大模型，純視覺環境感知、自然語言指令驅動、端到端輸出語言和機器人動作，是一個由仿真合成動作數據訓練的 " 視覺 - 語言 - 動作 "（Vision-Language-Action, VLA）大模型。它讓機器人擁有 " 聽 → 看 → 懂 → 走 " 的閉環運動能力：一雙眼睛看世界、一個智能 " 大腦 " 做推理，無需提前建圖、不依賴遙操控制，真正實現語言驅動、泛化感知、自主推理、智能交互與運動。

TrackVLA 八大核心能力：

1. 聽得懂你說話，還能換人跟

你只需說一句：" 跟著媽媽 "，它就能立即識別 " 媽媽 " 對應的目標位置。如果改口說 " 換成跟孩子 "，它也能瞬間切換對象，并通過語音回復確認。甚至，Ta 還能跟蹤你的寵物。這背后，是模型具備的自然語言理解與目標識別能力的協同工作。

2. 不怕人多也不跟錯人

在人流密集的購物中心中，面對復雜的場景、多變的環境中多個相似穿著的人，它能準確識別原始目標并長時自主跟隨。通過空間理解和視覺記憶機制，避免 " 認錯人 "。

3. 丟了目標能找回來

如果目標走出視野，它不會原地 " 發呆 "，而是通過實時的空間智能和大模型推理能力根據目標運動軌跡 " 分析出 " 目標的大致位置，并規劃軌跡重新找回目標。

4. 從沒見過的地方也能走

TrackVLA 不依賴建圖，靠純視覺輸入理解環境。可在不依賴額外采集訓練數據的情況下，直接部署在陌生商場、電梯、游樂區等環境，實現長時穩定自主跟隨。

5. 靈活避障，適應復雜場景

在兒童游樂區、狹窄通道等復雜場景中，它能實時識別障礙物（包括兒童、玩具、地面水漬等），分析可通行區域，并可正確認知自身本體能力，自主推理出自身構型支持的合理路線。

6. 環境光線變化？不怕

從室外陽光到室內昏暗、從電梯鏡面反射到超市貨架夾縫，TrackVLA 展現出極強魯棒性，無需專門調參或切換模式。

7. 遠程可視守護，一目了然

通過 App，你可以實時看到機器人眼中的第一視角，掌握家人動態。系統還能主動提醒風險行為（如小朋友奔跑、老人跌倒），提供 " 移動守護 "。

8. 技能涌現！

TrackVLA 不僅能穩定跟隨人類，還可以泛化至任意移動目標。比如視頻最后展示了讓機器狗跟隨一只路上偶遇的動物狗狗，其目標形態、運動方式、遮擋情況都非常不確定。TrackVLA 也表現了同樣穩定的跟隨能力，而這一能力是訓練時從而教過的！

目前，該模型已搭載于宇樹機器狗化身 " 二寶保鏢 " 實現兒童看護，在未訓練過的真實場景中完成了嚴格的長程驗證。目前 TrackVLA 已在未訓練過的真實場景中完成了嚴格的長程驗證：實現在超市中穿梭于人流和貨架之間，準確跟隨母子；根據語音指令切換目標，并在兒童玩耍時發出提醒；可正確認知自身本體能力，利用大模型自主推理分析；從電梯進入陌生商場，完成連續跟隨任務；在人群密集的服裝店中穩定識別并避讓他人干擾 ……

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

銀河通用發布全球首個產品級端到端具身FSD大模型

日期： 2025-06-03

來源：IT之家

相關內容