當?shù)貢r間 1 月 27 日,谷歌發(fā)布全新 AI 模型 ——MusicLM。通過 AI 模型 MusicLM,文字可以直接生成高保真的音樂。
這是繼文字生成 AI 模型 Wordcraft、視頻生成工具 Imagen Video 之后,谷歌又一次推出生成式 AI 模型工具,這一次谷歌將目標瞄準了音樂領(lǐng)域。
透過 MusicLM,不難看到,這兩年生成式 AI 賽道正在迎來爆發(fā)。
01、MusicLM 挑戰(zhàn)更復雜場景
谷歌最新推出的 AI 模型 MusicLM,可直接將文字、圖像自動生成音樂,并且曲風多樣,凡是想聽的音樂,基本都能自動生成。
MusicLM 并非是第一個可自動生成音樂的 AI 模型,此前,可視化 AI 工具 Riffusion 也能自動創(chuàng)作音樂,還有 Dance Diffusion,此外,當前最熱門的聊天機器人 ChatGPT 的研發(fā)者 OpenAI 也推出過 Jukebox。
但值得注意的是,這些可自動生成音樂的 AI 系統(tǒng),受限于技術(shù)和數(shù)據(jù)等因素,創(chuàng)作的音樂都比較簡單,相對而言并不復雜。
和前輩們不同的是,MusicLM 可創(chuàng)作特別復雜和保真度特別高的音樂,也可通過圖像生成音樂。這算是實現(xiàn)了全新突破,通過 AI 技術(shù)不僅可以識別樂器,融合音樂流派,還可以通過更抽象的概念生成音樂。
比如,想要街機游戲配樂,只要輸入“街機游戲的主配樂,它節(jié)奏快且樂觀”等文字,MusicLM 便可自動生成音樂。MusicLM 也可通過圖像生成音樂,例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來源。
不過,值得一提的是,目前谷歌只是發(fā)布了 MusicLM 的研究成果,因為版權(quán)等問題,谷歌還未向公眾開放 MusicLM。
02、AI 生成音樂難在哪?
去年 10 月,谷歌在生成式 AI 模型上已經(jīng)推出過 AudioLM,只需輸入短時音頻,就能生成相似風格的音頻。彼時 AudioLM 只是純音頻模型,這個技術(shù)類似于語言模型,根據(jù)提示的語音內(nèi)容,自主判斷并生成相似內(nèi)容。
從這個角度看,AudioLM 可視為是 MusicLM 的前身。AudioLM 在不進行轉(zhuǎn)錄或標記的情況下,可以模仿音頻的音色、響度和清晰度等。但是,AudioLM 生成的音頻和原版并無太大區(qū)別,并未得到公開應用。
通過 AI 模型創(chuàng)作音樂,這件事并不容易,因為生成的音樂包括音頻信號、環(huán)境聲音、人的聲音等多個維度,是由很多信號相互作用形成的,而人體每次向外發(fā)出的聲音,無論聲音響度大小、音色好差,都由句法、音律等組成,這是非常復雜的綜合性系統(tǒng)。
也恰恰是這些原因,在早期的探索過程中,自動生成的音頻合成痕跡明顯,聲音聽起來并不自然,發(fā)音也都不標準。因此 AI 模型要想實現(xiàn)真正意義上的自動生成音頻,依靠海量的數(shù)據(jù)訓練和模擬,是必不可少的基礎性步驟。
針對這些挑戰(zhàn),作為 AudioLM 的“升級版”,MusicLM 的訓練數(shù)據(jù)更加龐大。據(jù)了解,谷歌在 28 萬小時的音樂數(shù)據(jù)集中,才訓練出 MusicLM,為理解深度和復雜的音樂場景提供了基礎。
此外值得一提的是,針對任務缺乏評估數(shù)據(jù)等問題,谷歌專門引入了 MusicCaps,用于文本到音樂的生成任務評估。
03、生成式 AI 迎來爆發(fā)
此次谷歌推出 MusicLM,可視為拓展 AI 應用的注腳,背后則是生成式 AI 賽道的爆發(fā)。事實上,生成式 AI 一直是近兩年最炙手可熱的話題。
2021 年,OpenAI 相繼發(fā)布了劃時代的 DALL-E、DALL-E 2 模型,實現(xiàn)了文本生成圖像的跨越;去年,Meta 發(fā)布了 AI 短視頻生成模型 Make-A-Video,同樣可由文本內(nèi)容生成視頻;谷歌也發(fā)布了短視頻 AI 生成模型 Imagen Video 與 Phenaki。
不止是國外,國內(nèi)也有很多生成式 AI 應用。比如,字節(jié)跳動旗下剪映 APP,可根據(jù)文字內(nèi)容自動生成匹配的視頻畫面。去年初,網(wǎng)易推出了“網(wǎng)易天音”,也是一站式 AI 音樂創(chuàng)作平臺,可將用戶編輯的內(nèi)容通過 AI 自動生成為歌曲。
可以看到,生成式 AI 應用的場景越來越廣泛,寫作、繪畫、剪視頻等等,都可以通過 AI 技術(shù)實現(xiàn)。基于生成式 AI 廣泛的應用前景,谷歌、微軟、Meta 等巨頭們紛紛推進研發(fā),將生成式 AI 技術(shù)融合到產(chǎn)品中,這加速了生成式 AI 賽道的爆發(fā)。
事實上,生成式 AI 高速發(fā)展并非是這兩年的事,只是因技術(shù)門檻過高,其前沿動態(tài)一直在科技圈小范圍流傳。直到 AI 繪畫、AI 寫作等頻繁出圈,生成式 AI 得到了更廣泛的關(guān)注。
生成式 AI 賽道爆發(fā)有必然原因,大數(shù)據(jù)和算法應用越來越成熟,模型工具越來越完善,這都加速了生成式 AI 應用的迭代。當前,生成式 AI 已經(jīng)迎來爆發(fā),未來還有巨大的發(fā)展?jié)摿Α8鶕?jù) Gartner 統(tǒng)計數(shù)據(jù),預計到 2025 年,生成式 AI 將占所有生成數(shù)據(jù)的 10%,而目前的比例還不到 1%。
當然,任何技術(shù)都是一把“雙刃劍”,生成式 AI 也面臨著版權(quán)問題等挑戰(zhàn),此外還面臨由 AI 生成“錯誤”引發(fā)的各種損失,就目前來看,還離不開人為干預。但長期而言,生成式 AI 巨大的發(fā)展?jié)摿σ呀?jīng)成為共識。
更多信息可以來這里獲取==>>電子技術(shù)應用-AET<<