《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > OpenAI新研究補齊Transformer短板,將可預測序列長度提高30倍

OpenAI新研究補齊Transformer短板,將可預測序列長度提高30倍

2019-04-24

Transformer是一種強大的序列模型,但是它所需的時間和內存會隨著序列長度出現二階增長。近日,OpenAI研究人員開發出了一種深度神經網絡Sparse Transformer,該網絡在預測長序列方面創造了新紀錄——無論預測的是文本、圖像還是聲音。該神經網絡利用注意力機制中的一種改進算法,可以從長度可能是之前30倍的序列中提取模式。

現在,AI 研究中的一項挑戰是在圖像、視頻或聲音等復雜數據中進行長序列的精細相關性建模。Sparse Transformer 合并了 O(N^2)Transformer 自注意力機制的 O(N√N) 重組以及其他一些改進,從而直接用于這些豐富的數據類型。以前,這些數據上所使用的模型是專為某個領域制作的,或者很難將序列擴展到包含幾千個元素。


相比之下,OpenAI 開發的模型通過使用數以百計的層可以對包含上萬個元素的序列進行建模,在諸多領域都取得了當前最佳的表現。OpenAI 研究人員利用該模型幫助創建能夠更好地理解世界的 AI 系統。


深度注意力


在 Transformer 中,每一個輸出元素與輸入元素相連接,同時根據具體情況對它們之間的權重進行動態計算,這一過程被稱為「注意力機制」。雖然人們相信這使得 Transformer 較那些具有固定連接模式的模型更為靈活,但實際操作中需要為每一層和注意力頭創建一個 N×N 注意力矩陣,當應用于圖像或原始音頻等具有許多元素的數據類型時會消耗大量內存。

微信圖片_20190424221637.jpg

當矩陣存儲在內存或在逆推計算過程中進行再計算時,深度 Transformer(64 層和 4 個頭)的注意力內存使用情況。作為參考,用于深度學習的標準 GPU 內存通常是 12-32GB.


減少內存消耗的一種方法是在反向傳播過程中從檢查點處重新計算注意力矩陣,這是深度學習中的一種成熟的方法,以更多的計算來減少內存使用。


當 Transformer 中的注意力矩陣完成時,這意味著最大的內存消耗將不受層數的支配,使研究人員訓練網絡的深度大大超過從前。在實際操作中,研究人員發現在處理 CIFAR-10 等基準測試任務時,深度達 128 層的 Transformer 表現出的性能優于較淺的網絡。


為了訓練深度更大的模型,研究人員對 transformer 的操作順序進行了幾次調整,修改了初始化方法。詳情參見論文。


稀疏注意力


然而,對于非常大的輸入來說,甚至計算單個注意力矩陣都是不現實的。因此,OpenAI 使用了稀疏注意力模式,在這種模式中,每個輸出位置僅從輸入位置子集中計算權重。當子集相對于整個輸入集較小時(如元素數量是√N 而不是 N),即使對于非常長的序列,注意力計算也會變得比較容易,算法復雜度為 O(N√N)而不是 O(N^2)。


為了評估該方法的可行性,研究人員首先可視化并學習了圖像上深度 Transformer 的注意力模式,發現其中許多模式表現出了可解釋和結構化的稀疏模式。以下每幅圖像都顯示了哪個輸入像素(白色高亮標出)由一個給定的注意力頭處理,以預測圖像中的下一個值。當輸入部分集中在小的子集上并顯示出高度規律性時,該層就易于稀疏化。以下是 CIFAR-10 圖像上 128 層模型的樣本:

微信圖片_20190424221702.jpg

左:Layer 19,右:Layer 20。為一個 128 層的 CIFAR-10 網絡的若干層學習注意力模式(白色高亮顯示)。這些層學會了在兩個維度上分割注意力。Layer 19 匯總每一行的信息,Layer 20 按列匯總這些信息,從而有效分解了全注意力運算。

微信圖片_20190424221725.jpg

為獲取位置記憶而訓練的層(左:Layer 6;右:Layer 36),它們通常關注類似的位置,不管輸入數據或時間步長如何(Layer 6)。其他層學習高度依賴數據的訪問模式(Layer 36)。


雖然許多層顯示出稀疏的結構,但有些層清晰地顯示出了動態注意力,這種注意力延伸到整個圖像。為了保持網絡學習這種模式的能力,研究人員實現了注意力矩陣的二維分解,其中網絡可以通過兩步稀疏注意力關注到所有位置。

微信圖片_20190424221749.png


第一版 strided attention 大概等同于每個位置處理自己的行和列,它與以上網絡學得的注意力模式類似。(注意,列注意力可等同于處理轉置矩陣的行)。第二版 fixed attention 在最新的列元素之后處理固定列和元素,研究者認為這個模式對于數據無法擬合二維結構(如文本)的情況很有用。


實驗結果


Sparse Transformer 在 CIFAR-10、Enwik8 和 Imagenet 64 數據集上刷新了當前最優密度估計分數。

微信圖片_20190424221807.jpg

微信圖片_20190424221829.png

在 CIFAR-10、Enwik8 和 Imagenet 64 數據集上的密度估計性能(單位為 bits per byte/dim)。M 表示網絡中使用的參數(單位為百萬),W 表示網絡寬度,L 表示層數,H 表示頭數。


研究者還發現稀疏注意力比完整注意力的損失更低,且速度更快。這可能指向稀疏模式產生的有用歸納偏置,或者密集注意力的底層優化問題。


生成圖像


使用了稀疏注意力的 Transformer 似乎有一種全局結構的概念,這可以通過觀察圖像補全(image completion)進行定性評估。下圖可視化了一個在 64×64 ImageNet 上訓練的模型:

微信圖片_20190424221849.jpg


損壞原圖

微信圖片_20190424221907.jpg

修復圖像

微信圖片_20190424221927.jpg

真實圖像


研究人員還生成了完全無條件的樣本,其中未調整的 softmax 溫度為 1.0。這些模型使用最大似然目標進行訓練,其覆蓋了所有的數據模式(其中包括可能不存在的數據),而不是增強較小部分數據的保真度。從具有未調整溫度的模型中取樣,研究人員看到了該模型認為世界上存在的圖像的完整分布。因此,一些樣本看起來奇奇怪怪的。

微信圖片_20190424221943.jpg

模型示例


生成原始音頻波形


通過簡單改變位置嵌入,稀疏 Transformer 還能用來生成原始音頻,而非圖像。隨著深度學習擴展到新的數據類型,用這類網絡來指定歸納偏置也很容易。


該模型是在原始的古典音樂片段上訓練的,并使用了稀疏注意力來生成長度為 65000 的序列。這相當于大約 5 秒長的原始音頻,研究人員在下面的每個片段中將幾個樣本連接在一起。

微信圖片_20190424222027.jpg


代碼公布


通常,實現稀疏注意力需要將查詢和關鍵矩陣分割成塊,因此為了簡化實驗,OpenAI 實現了一組塊稀疏核,這些核在 GPU 上高效地執行這些操作。OpenAI 開源了這些核并提供了稀疏注意力函數的示例:

https://github.com/openai/sparse_attention


未來發展和限制


本文介紹的稀疏注意力模式只是對長序列進行高效建模的初步嘗試。研究人員認為,探索稀疏注意力的不同模式和各種組合非常有用,而且學習稀疏模式對下一代神經網絡架構來說也是一個很重要的研究途徑。


即使有了上述改進,自回歸序列生成對非常高分辨率圖像和音頻來說仍是不切實際的。但是,研究人員介紹的優化注意力操作可能有用,將它與其它方法(如多尺度方法)結合,可以建模高維數據。


論文:Generating Long Sequences with Sparse Transformers


微信圖片_20190424222049.png


論文鏈接:https://d4mucfpksywv.cloudfront.net/Sparse_Transformer/sparse_transformers.pdf


摘要:Transformer 是一種強大的序列模型,但是它所需的時間和內存會隨著序列長度出現二階增長。這篇論文介紹了注意力矩陣的稀疏因式分解,可以將其降低到 O(N√N)。該研究提出了 a)訓練更深網絡的架構和初始化變體;b)重新計算注意力矩陣以節省內存;c)用于訓練的快速注意力內核。研究者將具備這些變化的網絡稱為 Sparse Transformer,并證明該網絡可以使用數百個層來建模成千上萬個時間步長的序列。


該網絡在從原始字節中建模圖像、音頻和文本時使用的是同樣的架構,在 Enwik8、CIFAR10 和 ImageNet-64 數據集上取得了當前最優的密度估計性能。研究者生成的無條件樣本展示了全局一致性和極大的多樣性,并證明原則上可以使用自注意力建模長度超百萬的序列。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美区在线观看| 亚洲国产精品成人一区二区| 欧美.www| 久久麻豆一区二区| 欧美在线电影| 欧美一区二区三区免费观看| 亚洲亚洲精品三区日韩精品在线视频| 亚洲日韩欧美视频| 亚洲国产欧洲综合997久久| 久久高清福利视频| 欧美在线视频免费| 久久av一区二区三区漫画| 欧美一区二区三区啪啪| 欧美一二区视频| 欧美伊人久久大香线蕉综合69| 香蕉乱码成人久久天堂爱免费| 午夜久久久久久久久久一区二区| 亚洲欧美日韩在线观看a三区| 亚洲一区黄色| 亚洲欧美激情视频在线观看一区二区三区| 中文在线资源观看网站视频免费不卡| 在线亚洲欧美视频| 亚洲免费影视| 欧美在线观看视频一区二区三区 | 日韩视频免费| 99精品热视频| 亚洲制服丝袜在线| 欧美伊人影院| 日韩视频在线观看免费| 中文亚洲免费| 午夜亚洲影视| 久久女同精品一区二区| 男女av一区三区二区色多| 欧美精品一区二区三区一线天视频 | 国内精品99| 91久久久久久| 在线视频欧美精品| 欧美亚洲自偷自偷| 亚洲三级影院| 亚洲女性裸体视频| 久久精品日产第一区二区| 在线观看视频欧美| 久久成人精品视频| 亚洲成人在线视频播放 | 激情欧美日韩一区| 91久久精品美女| 中国成人黄色视屏| 久久成人免费视频| 一本色道久久88亚洲综合88| 亚洲欧美日本另类| 美女国产一区| 国产精品ⅴa在线观看h| 国产一区二区三区久久| 亚洲高清一区二| 亚洲午夜精品| 亚洲福利视频一区二区| 亚洲手机视频| 久久亚洲精品视频| 国产精品v欧美精品v日本精品动漫| 国产日韩一区欧美| 日韩视频在线观看一区二区| 欧美一区二区成人| 9久草视频在线视频精品| 欧美中文字幕不卡| 欧美日韩国产经典色站一区二区三区| 国产精品日本| 亚洲精品之草原avav久久| 欧美亚洲一区在线| 一区二区不卡在线视频 午夜欧美不卡在 | 国产一区二区三区免费在线观看| 欧美视频一区二区三区…| 国产亚洲a∨片在线观看| 亚洲毛片一区二区| 亚洲电影在线看| 欧美一区二区精品| 欧美欧美全黄| 伊人蜜桃色噜噜激情综合| 亚洲午夜在线观看视频在线| 亚洲激情网站| 久久精品99无色码中文字幕| 欧美日韩在线播放| 亚洲国产视频一区| 久久国产精品一区二区三区四区 | 一区二区三区|亚洲午夜| 91久久精品一区二区别| 欧美中文字幕在线视频| 欧美日韩视频专区在线播放 | 亚洲一区二三| 欧美精品v日韩精品v国产精品| 国际精品欧美精品| 亚洲一区二区三区在线| 99精品99久久久久久宅男| 老司机午夜精品| 国产一区二区三区自拍| 制服诱惑一区二区| 国产精品99久久久久久久久久久久| 欧美不卡福利| 一区视频在线播放| 亚洲福利精品| 久久久亚洲精品一区二区三区| 国产精品色午夜在线观看| 在线视频免费在线观看一区二区| 亚洲最黄网站| 欧美大片专区| 亚洲国产成人在线播放| 亚洲国产精品国自产拍av秋霞| 久久久国产亚洲精品| 国产免费成人| 久久精品99无色码中文字幕| 老鸭窝91久久精品色噜噜导演| 亚洲国产裸拍裸体视频在线观看乱了中文| 久久久精彩视频| 国产精品一卡二| 亚洲视频你懂的| 国产农村妇女精品| 亚洲一区国产一区| 香蕉久久精品日日躁夜夜躁| 欧美午夜精品久久久久久孕妇| 日韩亚洲不卡在线| 在线视频你懂得一区| 欧美日韩久久久久久| 亚洲乱码久久| 亚洲天堂激情| 国产精品国码视频| 亚洲一区二区三区精品在线观看 | 亚洲免费成人av| 一区二区三区欧美日韩| 欧美日韩国产一区二区三区地区| 亚洲三级免费| 亚洲一区二区在线看| 国产精品免费区二区三区观看| 亚洲资源av| 久久精品色图| 在线日本高清免费不卡| 亚洲美女黄网| 欧美午夜a级限制福利片| 亚洲网站在线播放| 欧美怡红院视频| 国产一区二区久久| 亚洲欧洲日夜超级视频| 欧美久久久久久| 一区二区三区国产精华| 香蕉久久夜色| 精品二区久久| 日韩视频一区二区在线观看| 欧美日韩精品三区| 亚洲制服丝袜在线| 久久免费国产| 亚洲欧洲在线免费| 亚洲精品欧美日韩| 欧美一区二区三区四区夜夜大片| 国产欧美日韩激情| 亚洲高清视频的网址| 欧美日韩高清区| 亚洲欧美日韩国产中文| 另类春色校园亚洲| 99精品国产在热久久婷婷| 欧美伊人久久| 亚洲国产一区在线| 亚洲欧美制服另类日韩| 伊人久久大香线蕉av超碰演员| 亚洲精品一二三区| 国产精品美女视频网站| 亚洲国产成人久久综合一区| 欧美日韩在线一区二区三区| 午夜性色一区二区三区免费视频| 蜜臀av性久久久久蜜臀aⅴ| 日韩亚洲视频在线| 久久久亚洲国产天美传媒修理工| 亚洲久色影视| 久久人人精品| 亚洲免费观看| 久久精品国产综合| av成人免费在线观看| 久久久激情视频| 一区二区三区四区五区精品视频| 久久免费高清| 宅男精品视频| 欧美岛国激情| 午夜亚洲性色视频| 欧美色综合天天久久综合精品| 久久国产免费| 国产精品免费网站在线观看| 久久精品一本久久99精品| 国产精品进线69影院| 亚洲精品一区二区三区av| 国产视频不卡| 亚洲无吗在线| 亚洲国产精品123| 欧美中文日韩| 中文在线资源观看网站视频免费不卡 | 国产伦精品一区二区三区免费迷 | 一本到12不卡视频在线dvd| 久久午夜精品一区二区| 中日韩视频在线观看| 欧美肥婆bbw| 久久国产精品久久久久久电车| 国产精品久久久久久久久久三级| 亚洲精品国久久99热| 国产日韩欧美一区在线|