无码人妻丰满熟妇奶水区码,麻豆一区区三,亚洲日韩欧美精品综合,亚洲无码地址

<pre id="zqhhh"><mark id="zqhhh"></mark></pre>

<ruby id="zqhhh"><style id="zqhhh"></style></ruby>

<sub id="zqhhh"><thead id="zqhhh"></thead></sub>

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

投稿用戶 ? 2024年7月9日上午8:29 ? 科研百科 ? 閱讀 37

阿里云機(jī)器學(xué)習(xí)平臺PAI與華東師范大學(xué)高明教授團(tuán)隊合作在SIGIR2022上發(fā)表了結(jié)構(gòu)感知的稀疏注意力Transformer模型SASA，這是面向長代碼序列的Transformer模型優(yōu)化方法，致力于提升長代碼場景下的效果和性能。由于self-attention模塊的復(fù)雜度隨序列長度呈次方增長，多數(shù)編程預(yù)訓(xùn)練語言模型（Programming-based Pretrained Language Models, PPLM）采用序列截斷的方式處理代碼序列。SASA方法將self-attention的計算稀疏化，同時結(jié)合了代碼的結(jié)構(gòu)特性，從而提升了長序列任務(wù)的性能，也降低了內(nèi)存和計算復(fù)雜度。

論文：Tingting Liu, Chengyu Wang, Cen Chen, Ming Gao, and Aoying Zhou. Understanding Long Programming Languages with Structure-Aware sparse Attention. SIGIR 2022

模型框架

下圖展示了SASA的整體框架：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

其中，SASA主要包含兩個階段：預(yù)處理階段和Sparse Transformer訓(xùn)練階段。在預(yù)處理階段得到兩個token之間的交互矩陣，一個是top-k frequency矩陣，一個是AST pattern矩陣。Top-k frequency矩陣是利用代碼預(yù)訓(xùn)練語言模型在CodeSearchNet語料上學(xué)習(xí)token之間的attention交互頻率，AST pattern矩陣是解析代碼的抽象語法樹（Abstract Syntax Tree，AST ），根據(jù)語法樹的連接關(guān)系得到token之間的交互信息。Sparse Transformer訓(xùn)練階段以Transformer Encoder作為基礎(chǔ)框架，將full self-attention替換為structure-aware sparse self-attention，在符合特定模式的token pair之間進(jìn)行attention計算，從而降低計算復(fù)雜度。

SASA稀疏注意力一共包括如下四個模塊：

Sliding window attention：僅在滑動窗口內(nèi)的token之間計算self-attention，保留局部上下文的特征，計算復(fù)雜度為，為序列長度，是滑動窗口大小。
Global attention：設(shè)置一定的global token，這些token將與序列中所有token進(jìn)行attention計算，從而獲取序列的全局信息，計算復(fù)雜度為，為global token個數(shù)。
Top-k sparse attention：Transformer模型中的attention交互是稀疏且長尾的，對于每個token，僅與其attention交互最高的top-k個token計算attention，復(fù)雜度為。
AST-aware structure attention：代碼不同于自然語言序列，有更強(qiáng)的結(jié)構(gòu)特性，通過將代碼解析成抽象語法樹（AST），然后根據(jù)語法樹中的連接關(guān)系確定attention計算的范圍。

為了適應(yīng)現(xiàn)代硬件的并行計算特性，我們將序列劃分為若干block，而非以token為單位進(jìn)行計算，每個query block與

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個滑動窗口blocks和

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個global blocks以及

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

個top-k和AST blocks計算attention，總體的計算復(fù)雜度為

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

，

b為block size。

每個sparse attention pattern 對應(yīng)一個attention矩陣，以sliding window attention為例，其attention矩陣的計算為：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

ASA偽代碼：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

實(shí)驗(yàn)結(jié)果

我們采用CodeXGLUE[1]提供的四個任務(wù)數(shù)據(jù)集進(jìn)行評測，分別為code clone detection，defect detection，code search，code summarization。我們提取其中的序列長度大于512的數(shù)據(jù)組成長序列數(shù)據(jù)集，實(shí)驗(yàn)結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

從實(shí)驗(yàn)結(jié)果可以看出，SASA在三個數(shù)據(jù)集上的性能明顯超過所有Baseline。其中Roberta-base[2]，CodeBERT[3]，GraphCodeBERT[4]是采用截斷的方式處理長序列，這將損失一部分的上下文信息。Longformer[5]和BigBird[6]是在自然語言處理中用于處理長序列的方法，但未考慮代碼的結(jié)構(gòu)特性，直接遷移到代碼任務(wù)上效果不佳。

為了驗(yàn)證top-k sparse attention和AST-aware sparse attention模塊的效果，我們在BigCloneBench和Defect Detection數(shù)據(jù)集上做了消融實(shí)驗(yàn)，結(jié)果如下：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

sparse attention模塊不僅對于長代碼的任務(wù)性能有提升，還可以大幅減少顯存使用，在同樣的設(shè)備下，SASA可以設(shè)置更大的batch size，而full self-attention的模型則面臨out of memory的問題，具體顯存使用情況如下圖：

面向長代碼序列的 Transformer 模型優(yōu)化方法，提升長代碼場景性能

SASA作為一個sparse attention的模塊，可以遷移到基于Transformer的其他預(yù)訓(xùn)練模型上，用于處理長序列的自然語言處理任務(wù)，后續(xù)將集成到開源框架EasyNLP（https://github.com/alibaba/EasyNLP）中，貢獻(xiàn)給開源社區(qū)。

論文鏈接：https://arxiv.org/abs/2205.13730

參考文獻(xiàn)

[1] Shuai Lu, Daya Guo, Shuo Ren, Junjie Huang, Alexey Svyatkovskiy, Ambrosio Blanco, Colin B. Clement, Dawn Drain, Daxin Jiang, Duyu Tang, Ge Li, Lidong Zhou, Linjun Shou, Long Zhou, Michele Tufano, Ming Gong, Ming Zhou, Nan Duan, Neel Sundaresan, Shao Kun Deng, Shengyu Fu, Shujie Liu. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation. NeurIPS Datasets and Benchmarks 2021

[2] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)

[3] Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou. CodeBERT: A Pre-Trained Model for Programming and Natural Languages. EMNLP 2020

[4] Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou. GraphCodeBERT: Pre-training Code Representations with Data Flow. ICLR 2021

[5] Iz Beltagy, Matthew E. Peters, Arman Cohan. Longformer: The Long-Document Transformer. CoRR abs/2004.05150 (2020)

[6] Manzil Zaheer, Guru Guruganesh, Kumar Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Onta?ón, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed. Big Bird: Transformers for Longer Sequences. NeurIPS 2020

原文鏈接：http://click.aliyun.com/m/1000348767/

本文為阿里云原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

0

關(guān)于彩票分析工具的便捷性對比

上一篇 2024年7月9日上午8:23

如何進(jìn)行高效的代碼審查？（如何進(jìn)行高效的代碼審查）

下一篇 2024年7月9日上午8:35

東北大學(xué)重大科研項(xiàng)目有哪些東北大學(xué)重大科研項(xiàng)目有哪些

東北大學(xué)是一所歷史悠久、聲譽(yù)卓著的高等學(xué)府，在國內(nèi)外享有很高的聲譽(yù)。東北大學(xué)注重科學(xué)研究，尤其是在生命科學(xué)、信息技術(shù)、化學(xué)工程、材料科學(xué)等領(lǐng)域取得了顯著的成就。今天，我們將介紹東北…

投稿用戶
科研百科 2024年9月8日
400
美國圓葉葡萄品種介紹

美國圓葉葡萄品種介紹葡萄是一種受歡迎的水果，不僅在國內(nèi)市場受到歡迎，而且在全球范圍內(nèi)都很受歡迎。在美國，葡萄種植歷史悠久，而且美國的葡萄品種繁多，其中一些品種在全球范圍內(nèi)都備受歡…

投稿用戶
科研百科 2024年10月30日
250
工程項(xiàng)目管理云觀系統(tǒng)

工程項(xiàng)目管理云觀系統(tǒng)：從規(guī)劃到交付的數(shù)字化解決方案隨著數(shù)字化技術(shù)的不斷發(fā)展，工程項(xiàng)目管理也面臨著越來越復(fù)雜的挑戰(zhàn)。傳統(tǒng)的工程項(xiàng)目管理方式已經(jīng)無法滿足現(xiàn)代工程項(xiàng)目的需求，因此，開發(fā)…

投稿用戶
科研百科 2025年7月11日
10
美國本科學(xué)生申請科研項(xiàng)目

美國本科學(xué)生申請科研項(xiàng)目近年來，隨著全球化的不斷推進(jìn)和科學(xué)技術(shù)的不斷發(fā)展，越來越多的美國本科學(xué)生開始申請科研項(xiàng)目。這些學(xué)生通過參加科研項(xiàng)目，不僅可以提高自己的學(xué)術(shù)水平，還可以拓展…

投稿用戶
科研百科 2024年8月12日
20
物業(yè)管理費(fèi)申請報告(物業(yè)管理經(jīng)費(fèi)申請)

物業(yè)管理經(jīng)費(fèi)申請物業(yè)管理經(jīng)費(fèi)申請據(jù)國家統(tǒng)計局近日,市衛(wèi)健委、市教委聯(lián)合印發(fā)的《中華人民共和國數(shù)據(jù)安全法》,要求對預(yù)防未成年人犯罪、懲治違法犯罪和依法依規(guī)進(jìn)行安全管理,并采取交通工…

投稿用戶
科研百科 2024年7月30日
40
公路水運(yùn)交安ABC證是什么？交通安全員是什么？（公路水運(yùn)安全員c證有什么用）

公路水運(yùn)交安ABC證是什么公路水運(yùn)交安考試也就是公路水運(yùn)安全員ABC證考試，是交通運(yùn)輸部頒發(fā)的一個三類人員證書。交通安全員是什么？交通安全員是指在公路、鐵路、航空、水路等交通…

投稿用戶
科研百科 2024年4月28日
920
B站官方剪輯工具「必剪」Mac版，跟「剪映」比誰更好用？（b站用的剪輯軟件）

「必剪」是B站官方推出的視頻剪輯軟件，除了移動版，也有Mac和Win版。這很容易讓人拿它跟抖音官方出品的「剪映專業(yè)版」（以下簡稱「剪映」）做對比。那我們就來看一看兩款視頻剪輯軟件…

投稿用戶
科研百科 2022年12月20日
5770
這十年里，白酒科學(xué)究竟有哪些進(jìn)步？（這十年里,白酒科學(xué)究竟有哪些進(jìn)步呢）

10年前的11月26日，2011首屆中國白酒學(xué)術(shù)研討會在江南大學(xué)召開。彼時，與會專家們圍繞我國白酒的科技創(chuàng)新、169計劃、國際食品風(fēng)味研究進(jìn)展等主題展開了學(xué)術(shù)交流和討論，共同謀劃…

投稿用戶
科研百科 2024年4月14日
730
音樂教育專業(yè)的科研項(xiàng)目

音樂教育專業(yè)的科研項(xiàng)目音樂教育專業(yè)是一個充滿挑戰(zhàn)和機(jī)遇的領(lǐng)域。隨著技術(shù)的不斷進(jìn)步，音樂教育專業(yè)也面臨著新的挑戰(zhàn)。為了探索如何更好地利用技術(shù)來提高音樂教育的效果，我們進(jìn)行了一項(xiàng)科研…

投稿用戶
科研百科 2025年5月28日
10
科技特長生白名單賽事

科技特長生白名單賽事科技特長生白名單賽事簡介1、《布熱金達(dá)》(2011),是俄羅斯著名教育家布熱金·蒙臺梭利及其教育家布熱金。在著作《布熱金達(dá)》中,布熱金通過童話故事,講述了蒙臺梭…

投稿用戶
科研百科 2024年11月25日
70

JKAV久久| 亚洲激情中文| 久久精品日本一道| 亚洲综合区图片区| 无码肛交异物视频| 嗯啊视频17| 日韩无码一区二区三区麻豆精品| 最近中文字幕无码2019| 欧美香蕉在线观看| ,,香港,国产乱码一区二区欧美| 久久久日韩精品视频| 尤物国产精品一区二区三| 欧美整片第一页a v| 100%奶头高清不卡| 亚洲欧美情侣综合一区二区| 国产精品高潮呻吟久久AV嫩| 99伦理视频在线观看| 天天天天爽天天天天曰| 久久99 国| 最新精品国产欧美在线| 元码视频一二三| 91尤物视频免费在线观看| 少妇熟女麻豆| 欧美日韩视频在线一区| 朋友的人妻的滋味BD高清中文| 亚欧AV中文字幕在线观看| 亚洲性生活视频舔国产| 亚洲男人天堂免费观看| 激情电影av麻豆| 国产系列av电影| WWWW一区二区不卡| 国产成人精品视频999| 成人啪啪天堂噜噜噜网站直播| 好吊妞一区二区| 日本少妇内内射| 国产成人久久精品流白浆图片| 日久精品人妻| 91高清免费无码视频| 艹网站在线观看| 欧美另类丝袜一区在线| 日韩视频欧美91|