about

你與人工智能的距離還差一個NLP

2019-04-25 14:29 來源:譽存科技 作者:譽存科技算法組

如果說我看得比別人更遠些,那是因為我站在巨人的肩膀上。

—— 牛頓

當談論深度學習變成一件很酷的事情時,作為其子領域的自然語言處理(英文簡稱“NLP”)也逐漸被世人熟知,站到了人工智能大舞臺的最前列。

上一期,我們借著深度學習三巨頭獲頒圖靈獎的話題,討論了深度學習技術的三大應用領域,特別是其中基于自然語言處理的金融科技應用更是譽存科技的核心能力與業務之一。

打鐵還需自身硬。今天我們不說應用,只論這門技術的幾個重點文章基于譽存科技深度學習小組工作經驗所撰,希望會對初入人工智能領域,想要了解NLP的同學有所幫助。

你與人工智能的距離還差一個NLP

01 關于NLP的基本常識

在這里,筆者首先要向大家推薦一本NLP領域的經典教材《Speech and Language Processing 》,里面包含了 NLP 的基礎知識、語言學掃盲知識、基本任務以及解決思路。閱讀此書,你會接觸到很多 NLP 的最基本任務和知識,比如 tagging, parsing,coreference, semantic role labeling 等等,這對于全局地了解 NLP 領域有著極其重要的意義。

NLP推薦書籍

為什么要推薦大家讀這本書呢?因為不積跬步無以至千里。

以最近大熱BERT為例,它是谷歌發布的開源自然語言處理模型,在問答系統、自然語言推理和釋義檢測(paraphrase detection)等任務中均取得了突破性的進展。尤其是訓練  language model (LM)的隨機替換更是刷新了各項NLP任務的成績。那么,隨機替換是什么?其本質就是語言建模里面基于 interpolation 的平滑方式,而基于 interpolation 的 LM 平滑,在本書中早有闡釋。

你與人工智能的距離還差一個NLP

02 為什么學NLP很重要?

眾所周知,語言是人類智慧的偉大結晶,也是人與人之間溝通交流的基本手段,而機器作為異次元生物不能直接與人對話,需要特殊的傳感器和字節符號,于是就產生了交流障礙。自然語言處理作為一種人工智能技術,能幫助機器識別人類語言,并分析、理解、改變或生成它,是打破人機交流屏障的重要技術手段。

你與人工智能的距離還差一個NLP

從目前的趨勢來看,人工智能是未來,其發展勢不可擋。不必說從事互聯網的人們已經制造出的海量數據/信息,未來還將持續,這大千世界還存在其他海量結構化、半結構化和非結構化數據。就線上的結構化數據而言,在大數據、云計算技術的通力整合下,其技術已基本成熟和穩定,而對于半結構化和非結構化數據的處理,因為涉及的復雜性,在當前和未來更多領域應用都具有極大的困難和挑戰。

智能時代,不僅企業需要懂 NLP 技術的人來處理這些海量非結構化數據,研發人員也需要利用NLP技術輕松實現人機交互。從這點來看,NLP的重要性已不言而喻,而各大招聘網站上列出的NLP算法專家薪酬更是一個簡單粗暴但在理的佐證。

03 經典NLP模型

自然語言處理的第1步通常都是將輸入的文字轉成數字化。

NLP中最直觀的文字表示方法是One-hot Representation. 這種方法把每個詞表示為一個以詞匯量為大小的向量。該向量中除了一個元素為1,其他都為0.

這種表示方法很簡潔,但不能編碼詞與詞之間的關系,因為任何兩個詞的詞向量的的相似度都為0. Word Embedding (詞嵌入) 可以將詞表示從 One-hot Representation轉成一個定長的、連續的稠密向量。之所以稱為稠密,因為一個詞經詞嵌入之后,特征維度相對于原來的維度(也即是詞匯表的大小)大為減小。詞嵌入是語言模型的“副產品”。語言模型的基本思想是對出現在上下文環境里的詞進行預測。詞嵌入通過訓練之后能夠體現出詞與詞之間的關系。語言模型的訓練屬于非監督學習,故大規模訓練語料(如wikipedia)很容易獲得。

通過訓練一個語言模型,得到詞嵌入矩陣,再使用該矩陣作為輸入訓練其他NLP模型,這種思想在一定程度上對BERT模型的提出產生影響。

你與人工智能的距離還差一個NLP

04 我們的應用

前面已提到過BERT模型在NLP任務中刷新了多項記錄。

譽存科技深度學習小組也結合NLP最新研發成果與公司的實際業務需求,第一時間將BERT預訓練模型運用到了文本分類、命名實體抽取、新聞情感分析、文本摘要、文本聚類和中英文翻譯等方面,并取得了很好的成果。

下面簡單介紹下這幾個具體NLP任務的作用:

  • 文本分類的目的是更加高效便捷找到用戶關心的文本類型。

  • 命名實體識別是抽取文本中人名、地名和機構名,有助于找到文本的主體以及主體的屬性。

  • 新聞情感分析是確定新聞內容所描述的情感傾向;不同的傾向意味著主體(個人或者公司)在經歷好的、不好的或者中性的事件。

  • 文本摘要的目的是化繁為簡,將目標文檔從一個長文本轉成一個短文本(通常在100字以內),并盡量保持核心思想不變。

  • 文本聚類是將講述相同話題的新聞或者其他文檔分門別類,有利于找出文檔中不同事件的受關注程度。

  • 中英文翻譯則是將這兩種語言的文檔翻譯成某一種語言,方便文檔的閱讀和理解。

BERT模型的強大之處就在于,它已經從數百萬篇文章當中學習到了字與字、詞與詞之間的關系。這種能力為構建在BERT預訓練模型之上的具體事務模型(如文本分類)提供了語境信息,使得事務模型在僅使用少量訓練樣本的情況下就能表現就好的效果。

最后,給大家一個小小的建議:多看關于NLP的論文,特別是子領域相關的一些研究成果,包括文本分類、實體識別、情感分析等等。另外,基本的數學邏輯也需要搞懂,畢竟天天都在用算法,無時無刻不在優化,數學太渣,會浪費很多時間的。

PS:本文部分圖片來源于網絡,如有侵權請聯系刪除。

— END —

譽存科技

關注我們
關注我們
winxi
体彩顶呱刮字母