前沿基礎研究 | 香儂科技4篇論文被NLP國際頂會EMNLP 2021收錄

科技論文標題如何確定

近日，一年一度的國際自然語言處理頂會EMNLP 2021論文接收結果放出，

香儂科技4篇論文被會議接收

，在堅持前沿技術自主創新之道上再次取得新突破。

EMNLP是自然語言處理領域最高級別的國際性頂級學術會議之一，也是整個計算機科學領域被引用量次數最多的會議之一，被引總數多達33萬

。EMNLP論文入選標準極為嚴格，2020年度的EMNLP論文接受率

僅為22.4%

，最佳短文獎空缺，可以看出其遴選、接收論文的高要求。因此，研究論文能夠被EMNLP頂會錄用，不僅意味著研究成果得到了國際學術界的認可，也證明了研究本身具有重要學術價值和應用前景。

此次香儂科技被EMNLP錄用論文，針對自然語言處理領域實際產業落地的諸多重要關鍵問題展開深入研究，

在模型壓縮、異常樣本(OOD)檢測、複述生成與情感分析等方面，分別提出了創新性的模型、演算法與理論，在諸多工上取得當前最優結果

。如在異常檢測中構建了面向異常文字的大規模benchmark，並相比現有方法取得顯著效果提升；在模型壓縮中提出全新剪枝方法，僅用30%引數就能達到相同效果，在稀疏率達10%的情況下保持原模型90%的效果。研究成果推動了相關領域進一步向縱深發展，以下為具體研究內容。

基於K折模型整合的OOD檢測

論文標題：kFolden： k-Fold Ensemble for Out-Of-Distribution Detection

論文作者：Xiaoya Li， Jiwei Li， Xiaofei Sun， Chun Fan， Tianwei Zhang， Fei Wu， Yuxian Meng， Jun Zhang

“外分佈”（Out-Of-Distribution， OOD）檢測是指在模型推理時識別當前輸入是否屬於訓練集樣本分佈，由於深度學習模型往往不能直接度量資料的分佈，所以OOD檢測一直以來都是自然語言處理、乃至人工智慧領域的一大難題。

本文創新性提出一種簡單、通用、有效的OOD檢測方法：在訓練時訓練K個不同的模型，每個模型對應一個不同的標籤並將之視為“外分佈”標籤。其核心原理是在已知的K-1個標籤上使用常規交叉熵損失訓練，而在選擇的“外分佈”標籤上使用KL散度訓練，最終在模型推理的時候整合K個模型的結果。透過這種方法，模型能夠準確地檢測潛在的OOD樣本，並不受資料型別的影響。

為推動自然語言處理領域的OOD檢測研究，香儂科技研究團隊還構建了一個面向自然語言處理的benchmark，涵蓋了兩種OOD型別——語義偏移（Semantic Shift）與非語義偏移（Non Semantic Shift），共計7個數據集，上百萬資料量。

與之前的OOD檢測方法相比，所提出的模型在所有資料集上都取得顯著的效果提升，併為今後自然語言處理領域的OOD檢測研究提供了思路。

使用正則化上下文進行復述生成

論文標題：ConRPG： Paraphrase Generation using Contexts as Regularizer

論文作者：Yuxian Meng， Xiang Ao， Qing He， Xiaofei Sun， Qinghong Han， Fei Wu， Chun Fan， Jiwei Li

“複述”（paraphrase）是指在形式上不同但表達同一語義的兩句話，在自然語言處理歷史上已有近50年的歷史。複述生成的關鍵難點在於如何在保持語義相同的同時使兩句話在語義、詞彙、風格等方面儘可能不同。

本文提出使用正則化上下文進行復述生成，其基本思想是：如果給定相同的上下文，模型生成兩個句子的機率相同，那麼這兩個句子有可能就是複述句。因此，上下文就成為約束句子語義的正則化手段，用於輔助複述生成。

基於這個基本思想，香儂科技研究團隊將本文提出的模型在4個標準資料集上進行實驗，並與以往方法進行比較。結果表明，所提出的方法能在多個指標上取得一致的效果提升，實現當前複述生成最好結果。該研究成果可應用於機器翻譯、生成摘要、智慧改寫等場景，並極大提升“複述”準確率。

基於互資訊的層級剪枝

論文標題：Layer-wise Model Pruning based on Mutual Information

論文作者：Chun Fan， Jiwei Li， Xiang Ao， Fei Wu， Yuxian Meng， Xiaofei Sun

大規模預訓練已成為當下自然語言處理的主流正規化，但隨之而來的問題是大規模的模型會對儲存和計算造成難以承受的負擔，也極大地加劇了模型實際部署的困難。

本文提出基於互資訊（Mutual Information）的層級剪枝方法，自上而下逐層地移除多餘的神經元，從而實現全域性剪枝。神經元剪枝的標準是“互資訊最大”：相鄰兩層互資訊最大的神經元相關性越大，對模型的結果影響也越大，而互資訊最小的神經元則可以被移除。基於該標準，本項研究設計了一套高效易操作的剪枝流程，且支援手動調節稀疏率，可介入性強。

在機器翻譯、問答、文字分類、自然語言推斷任務上的實驗表明，這一方法能夠在稀疏率達30%的情況下仍然幾乎保持原有大模型的效果，在稀疏率達10%的情況下保持原模型90%的效果。

透過角色置換機器閱讀理解解決基於方面的情感分析

論文標題：Self Question-answering： Aspect-based Sentiment Analysis by Role Flipped Machine Reading Comprehension

論文作者：Guoxin Yu， Jiwei Li， Ling Luo， Yuxian Meng， Xiang Ao， Qing He

基於方面的情感分析（Aspect-based Sentiment Analysis， ABSA）是對文件中的每個方面進行情感分析，其難點在於文件中的不同方面往往耦合在一起，傳統的模型難以很好將之區分開。

在本項研究中，香儂科技研究團隊引入了“機器閱讀理解”（Machine Reading Comprehension， MRC）的正規化，將方面詞與觀點詞視為詢問，並從原始文件中抽取出對應的觀點詞與方面詞答案，透過方面詞與觀點詞的匹配將不同的方面從文字中解耦，從而提升各方面情感分析的準確率。

在三個標準資料集Restaurant14、Laptop14和Restaurant15上，所提出的模型分別取得了1。45%、1。91%和1。81%的F1值提升，取得當前該資料集上的世界最優結果。

這些研究成果將進一步提升AI認知決策能力，為後續研發與產業實踐提供極具價值的經驗和方向，並將在香儂科技各業務領域率先應用。為更好推動人工智慧產業協同發展，相關論文連結、程式碼、模型也將於近期公開。

香儂科技長期深耕自然語言處理底層核心技術研發，十分重視前沿技術探究與自主技術創新。

自2018年以來，已在人工智慧、自然語言處理等相關領域國際頂級會議上發表論文

50餘篇

，其中

EMNLP錄用十餘篇

。在本年度EMNLP會議上，香儂科技再次錄用4篇論文，正是憑藉的多年技術沉澱和持續自主創新研發能力。

前沿基礎研究 | 香儂科技4篇論文被NLP國際頂會EMNLP 2021收錄

相關文章

猜你喜歡