《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 智源發布原生多模態世界模型Emu3

智源發布原生多模態世界模型Emu3

宣稱實現圖像、文本、視頻大一統
2024-10-22
來源:IT之家

10 月 21 日消息,智源研究院今日發布原生多模態世界模型 Emu3。該模型只基于下一個 token 預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。官方宣稱實現圖像、文本、視頻大一統。

在圖像生成任務中,基于人類偏好評測,Emu3 優于 SD-1.5 與 SDXL 模型。在視覺語言理解任務中,對于 12 項基準測試的平均得分,Emu3 優于 LlaVA-1.6。在視頻生成任務中,對于 VBench 基準測試得分,Emu3 優于 OpenSora 1.2。

0.jpg

據介紹,Emu3 提供了一個強大的視覺 tokenizer,能夠將視頻和圖像轉換為離散 token。這些視覺離散 token 可以與文本 tokenizer 輸出的離散 token 一起送入模型中。與此同時,該模型輸出的離散 token 可以被轉換為文本、圖像和視頻,為 Any-to-Any 的任務提供了更加統一的研究范式。

0.jpg

▲ Emu3 生成的圖像

Emu3 研究結果證明,下一個 token 預測可以作為多模態模型的一個強大范式,實現超越語言本身的大規模多模態學習,并在多模態任務中實現先進的性能。通過將復雜的多模態設計收斂到 token 本身,能在大規模訓練和推理中釋放巨大的潛力。

目前 Emu3 已開源了關鍵技術和模型


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 国产在线观看麻豆91精品免费| 黑人巨茎大战欧美白妇免费| 69pao精品视频在线观看| 青青草原综合久久大伊人| 真实乱视频国产免费观看| 欧美va天堂视频在线| 成人黄色在线观看| 国内偷窥一区二区三区视频| 国产免费卡一卡三卡乱码| 人人鲁人人莫人人爱精品| 亚洲av专区无码观看精品天堂| 一级做a爱片特黄在线观看| 老司机精品免费视频| 美女激情视频网站| 欧美丰满少妇xxxxx| 引诱亲女乱小说| 国产极品粉嫩交性大片| 免费观看国产网址你懂的| 九月婷婷亚洲综合在线| a级片免费电影| 高h全肉动漫在线观看最新| 永世沉沦v文bysnow全文阅读| 无码a级毛片日韩精品| 国产精品自在线拍国产手青青机版 | 欧美精品在线免费| 成在线人永久免费视频播放| 国产精品9999久久久久仙踪林| 偷自拍亚洲视频在线观看99| 久久亚洲国产视频| 无遮挡很爽很污很黄在线网站| 福利视频你懂的| 无码av中文一区二区三区桃花岛| 国产精品久久一区二区三区| 从镜子里看我怎么c你| 久久97久久97精品免视看秋霞| 亚洲精品伊人久久久久| 污视频免费看网站| 娃娃脸1977年英国| 园田美樱中文字幕在线看一区| 五月天婷亚洲天综合网精品偷| 87午夜伦伦电影理论片|