《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 通義千問(wèn)發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni并開(kāi)源

通義千問(wèn)發(fā)布新一代端到端多模態(tài)旗艦?zāi)P蚎wen2.5-Omni并開(kāi)源

2025-03-27
來(lái)源:IT之家
關(guān)鍵詞: 阿里云 通義千問(wèn) Qwen

3 月 27 日消息,今日凌晨,阿里云發(fā)布通義千問(wèn) Qwen 模型家族中新一代端到端多模態(tài)旗艦?zāi)P?——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上開(kāi)源。

阿里云表示,該模型專(zhuān)為全方位多模態(tài)感知設(shè)計(jì),能夠無(wú)縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過(guò)實(shí)時(shí)流式響應(yīng)同時(shí)生成文本與自然語(yǔ)音合成輸出。

匯總其主要特點(diǎn)如下:

全能創(chuàng)新架構(gòu):Qwen 團(tuán)隊(duì)提出了一種全新的 Thinker-Talker 架構(gòu),這是一種端到端的多模態(tài)模型,旨在支持文本 / 圖像 / 音頻 / 視頻的跨模態(tài)理解,同時(shí)以流式方式生成文本和自然語(yǔ)音響應(yīng)。Qwen 提出了一種新的位置編碼技術(shù),稱(chēng)為 TMRoPE(Time-aligned Multimodal RoPE),通過(guò)時(shí)間軸對(duì)齊實(shí)現(xiàn)視頻與音頻輸入的精準(zhǔn)同步。

實(shí)時(shí)音視頻交互:架構(gòu)旨在支持完全實(shí)時(shí)交互,支持分塊輸入和即時(shí)輸出。

自然流暢的語(yǔ)音生成:在語(yǔ)音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。

全模態(tài)性能優(yōu)勢(shì):在同等規(guī)模的單模態(tài)模型進(jìn)行基準(zhǔn)測(cè)試時(shí),表現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上優(yōu)于類(lèi)似大小的 Qwen2-Audio,并與 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端語(yǔ)音指令跟隨能力:Qwen2.5-Omni 在端到端語(yǔ)音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在 MMLU 通用知識(shí)理解和 GSM8K 數(shù)學(xué)推理等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。

00.png

據(jù)官方介紹,Qwen2.5-Omni 采用 Thinker-Talker 雙核架構(gòu)。Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語(yǔ)義表征及對(duì)應(yīng)文本內(nèi)容;Talker 模塊則類(lèi)似發(fā)聲器官,以流式方式接收 Thinker 實(shí)時(shí)輸出的語(yǔ)義表征與文本,流暢合成離散語(yǔ)音單元。Thinker 基于 Transformer 解碼器架構(gòu),融合音頻 / 圖像編碼器進(jìn)行特征提取;Talker 則采用雙軌自回歸 Transformer 解碼器設(shè)計(jì),在訓(xùn)練和推理過(guò)程中直接接收來(lái)自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構(gòu)。

00.png

模型性能方面,Qwen2.5-Omni 在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類(lèi)似大小的單模態(tài)模型以及封閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模態(tài)任務(wù) OmniBench,Qwen2.5-Omni 達(dá)到了 SOTA 的表現(xiàn)。此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni 在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異,包括語(yǔ)音識(shí)別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語(yǔ)音生成(Seed-tts-eval 和主觀自然聽(tīng)感)。

00.png

▲ 模型性能圖

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo 體驗(yàn):https://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà):010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 羞羞视频免费网站含羞草| 69式啪啪动图| 日本妇乱子伦视频| 亚洲国产精品一区二区三区久久 | 贵州美女一级纯黄大片| 国产福利一区二区| 800av凹凸视频在线观看| 天堂网www中文在线| 一级一毛片a级毛片| 无人码一区二区三区视频| 久久精品无码一区二区三区不卡| 欧美人与牲动交xxxx| 亚洲电影中文字幕| 爽爽爽爽爽爽爽成人免费观看| 午夜一级黄色片| 老少交欧美另类| 国产亚洲欧美在线专区| 黑人巨茎大战白人美女| 国产激情在线观看| 在线国产你懂的| 国产精品视频一区二区噜噜| 97精品伊人久久久大香线焦| 夜来香高清在线观看| www.欧美色图| 少妇饥渴XXHD麻豆XXHD骆驼| 中国国产高清一级毛片| 欧美zooz人禽交免费观看| 亚洲国产精品美女| 欧美日韩大片在线观看| 亚洲欧美天堂网| 欧美视频一区在线观看| 亚洲精品字幕在线观看| 浮力影院第一页小视频国产在线观看免费 | 亚洲欧美日韩电影| 波多野结衣办公室jian情| 人人色在线视频播放| 男生和女生一起差差差很痛的视频 | 国内精品久久久久久久97牛牛| 99久久人妻精品免费二区| 在线观看麻豆精品国产不卡| aaa一级黄色片|