首頁 > 易卦

自然語音處理(NLP)系列(三)——什麼是序列標註?

作者:由 景聯文資料標註 發表于 易卦日期:2022-11-21

檢索語言是連線什麼之間的橋樑

自然語音處理(

NLP)

是人工智慧領域中的重要一環,在過去的二十年裡,

NLP利用機器學習和深度學習的研究成果,在很多方面取得了

不小

的進步。比爾

·蓋茨曾說,“語言理解是人工智慧皇冠上的明珠”

自然語言處理的進步

會推動人工智慧整體進展。

自然語音處理(NLP)系列(三)——什麼是序列標註?

NLP的簡介

自然語音處理(

NLP)是計算機科學領域與人工智慧領域中的一個重要方向,是機器語言和人類語言直接溝通的橋樑,以實現人機交流的目的。

NLP以語言為物件,利用計算機技術對此進行分析、理解和處理自然語言的一門學科,即把計算機作為語言研究的強大工具,在技術的支援下對所得語言中的資訊進行定量化的研究,並提供可供人與計算機之間能共同使用的語言。它的基本任務就是詞頻統計、具體本體詞典、上下文語義分析等方式對待處理預料並對此進行分詞,最終形成以最小的詞性為單位,並且飽含語義的詞項單元。

NLP的應用場景

自然語音處理(

NLP)主要應用於序列標註、文字檢索、情感分析、資訊抽取、文字摘要、問答系統、對話系統、知識圖譜、文字聚類等領域。現階段已實現了多種場景的應用,例如谷歌的搜尋引擎,就是NLP下資訊搜尋的經典應用,搜狗深度融合NLP 的命名實體識別、句法分析等技術,實現了“今日頭條”的推薦系統,即針對不同人群進行精準推薦等。

序列標註

序列標註是一個比較簡單的

NLP任務,也可成為最基本的任務。序列標註是給定一個輸入序列,使用模型對這個序列的每一個位置標註一個相應的標籤,是一個序列到序列的過程。序列標註的涵蓋範圍非常廣,可以解決一系列對字元進行分類的問題,如分詞、詞性標註、命名實體識別、關係抽取等。

序列標註可分原始標註和聯合標註,原始標註就是每個元素中都需要被標註的一個標籤

聯合標註就是所有的分段都被標註為同樣的標籤,命名實體識別是資訊提取問題中的一個子任務,需要將元素進行定位和分類,如人名、地點、時間、組織名、質量等。

BIO標註的簡介

解決聯合標註問題的最簡單的方法,就是將其轉化為原始標註問題,即使用

BIO標註。

BIO標註是將每個元素標註為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬於X型別並且此元素為詞片段的起始詞,“I-X”表示此元素所在的片段屬於X型別並且此元素為詞片段的起始詞之後的詞,“O”表示

該字不屬於事先定義的任何詞片段型別。

常用的序列標註還有

BIOES標註和

BMES標註

BIOES標註主要將多元實體X標註為B-X,I-X,E-X的格式,B-表示實體的開頭,I-表示實體的中間;0-代表非實體部分;E-代表實體的結尾;S-代表單個字元,其本身就是一個實體。

BMES標註

中的

B-代表實體的開頭

M-代表實體的中間

O-代表非實體部分

E-代表實體的結尾

S-代表單個字元,其本身就是一個實體

可以看出

在很多工

以上

各種標註體系的表現差異不大。

人工智慧的進步促進了自然語言處理的發展,深度學習為自然語言處理帶來了重大技術突破。

隨著

NLP模型變得越來越大,需要更多的資料來訓練它們

景聯文科技支援

NLP標註業務

景聯文科技作為長三角地區規模最大的資料採集標註公司,

自研資料標註平臺

保證資料的安全合規性,涵蓋了絕大多數主流標註工具,支援

NLP標註業務,包括OCR轉寫、文字資訊抽取、NLU語句泛化等標註

資料平臺透過雲端託管、各類資料集分佈視覺化,資料標註最高交付精準度可達到

99。99%,有效提高約40%的客戶的模型精度,使模型更加精細化;透過資料平臺的高度自動化功能,可大幅度縮短客戶模型迭代的週期,大力節約人工成本。

景聯文科技提供的產品為全鏈條

AI資料服務,從資料採集、清洗、標註、到駐場的全流程、垂直領域資料解決方案一站式AI資料服務,協助人工智慧企業解決整個人工智慧鏈條中資料標註環節的相對應問題。

自然語音處理(NLP)系列(三)——什麼是序列標註?

景聯文科技|AI基礎資料服務|資料採集|資料標註|假指紋製作|指紋防偽演算法

助力人工智慧技術加速數字經濟相關產業質量變革,賦能傳統產業智慧化轉型升級

文章著作權歸景聯文科技所有,商業轉載請聯絡景聯文科技獲得授權,非商業轉載請註明出處;圖片源自網路,如有侵權請聯絡我們進行刪除。