about

知識圖譜:從“數據”競爭到“技術”競爭

2018-12-13 09:36 來源:譽存科技 作者: Amber Dr.Huang

|“用知識圖譜定位客戶,可防失聯/跑路。”

或許你已經耳熟能詳人工智能,但是對此你并不滿意。你吐槽:這個機器太愚蠢了!這個分析報告,人類根本無法理解。

那是因為人工智能還是一個牙牙學語的稚子,處于智能化轉型的初級階段。今天我們就來聊聊知識圖譜,一項將賦予機器認知智能的關鍵技術。

知識圖譜:從“數據”競爭到“技術”競爭
(圖片來源于網絡,如有侵權,請聯系刪除

一、什么是知識圖譜?

知識圖譜(Knowledge graph,KG)是一種知識庫技術,在上世紀五六十年代就已萌芽,起源于語義網絡的知識表現形式。

語義網絡的本義是,知識由相互連接的節點和邊組成,節點表示概念或者對象,邊表示他們之間的關系。在知識圖譜里,每個節點表示現實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。在表現形式上,語義網絡和知識圖譜相似,但語義網絡更側重于描述概念與概念之間的關系,而知識圖譜則更偏重于描述實體之間的關聯。所以,知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關系網絡,提供從“關系”的角度去分析問題的能力。

“知識圖譜”這個概念具體什么時候被提出,網上有多種說法,廣為業內認可的是2012年,Google首次公開將其應用在搜索上,也是自此,知識圖譜成為了研究應用的熱點。比如在谷歌上搜索“唐納德川普”,在搜索結果頁面的右側會出現與之相關的身份信息、行為信息、社交信息、關聯人等。

知識圖譜:從“數據”競爭到“技術”競爭

二、知識圖譜的基本特性

有了知識圖譜,機器看到的就不再是簡單的字符串,而是可以把這些字符串映射到各種各樣的實體、概念,從而建立機器自己的認知世界,更直觀的為場景服務。

下面簡單梳理一下知識圖譜的基本特性:

  • 網狀知識結構

  • 復雜的網絡結構

  • 網絡由節點、邊、以及它們的屬性構成

  • 知識庫是知識圖譜承載數據的主要方式

也就是說,知識圖譜是由一些相互連接的實體和他們的屬性構成的。換句話說,知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object)。如:(堂吉訶德,作者,塞萬提斯)

常用RDF來形式化地表示這種三元關系。RDF(Resource Description Framework),即資源描述框架,是W3C制定的,用于描述實體/資源的標準數據模型。

知識圖譜的表示方式之一RDF

知識圖譜的表示方式之一RDF

(Semantic similarity analysis and application in knowledge graphs, Ganggao, Zhu, Phd Thesis, 2017)

RDF圖中一共有三種類型,International Resource Identifiers(IRIs),blank nodes 和 literals。現實中,這種呈現方式的典型應用有Walfram Alpha知識庫。它是目前世界上包含實體數最多的知識庫,總量超過10萬億條。


知識圖譜的表示方式之一RDF

 

三、知識圖譜的關鍵理論和技術

早期語義網絡研究如何將數據表示成機器和人都可以理解的, 所以核心的研究方向是對元數據的研究,即如何描述數據。知識圖譜是在語義網基礎上發展起來的,包含上億的事實和他們之間的關系。

自然語言處理技術推動了知識圖譜應用,知識圖譜也為自然語言處理提供更廣闊的應用空間,所以知識圖譜中的關鍵理論和技術涉及到很多自然語言處理。

例如text analysis, document retrieval, entity linking, word sense disambiguation, name entity disambiguation, query interpretation, question answer.

知識圖譜的技術架構

知識圖譜的技術架構
 

(劉嶠 李楊 段宏 劉瑤 秦志光 出版源:《計算機研究與發展》, 2016, 53 (3):582-600 2

三、知識圖譜主要應用場景

知識圖譜最大的優勢在于對數據的描述能力很強大,機器學習、深度學習算法雖然在預測能力上不錯,但在描述能力上卻差強人意,知識圖譜則剛好填補了這部分空白。

雖然知識圖譜是當前研究的熱點,但在國內尚屬一個比較新的概念,其應用也處于初始階段,主要集中在諸如通信、醫療、互聯網、金融等對技術敏感的行業領域。

下面,我們對已有應用做一個簡單介紹:

1、語義搜索

語義搜索的功能類似于知識圖譜在Google, Baidu上的應用,通過知識圖譜擴展用戶的搜索關鍵詞,從而返回更豐富、更全面的信息。

舉個應用案例,搜索“價格在10萬以下的白色長安汽車”:


語義搜索

首先是句法分析,通過實體識別,分解搜索需求,如人名、地名、品牌名、顏色等,然后根據分析結果,搜索目標-汽車,目標屬性-白色、長安、價格0-10萬,最后,將這些結果用圖形網絡的方式展示,就把復雜的信息以直觀明了的圖像呈現出來,讓使用者對隱藏信息的來龍去脈一目了然。

2、智能問答

智能問答功能同樣也可以體現在搜索引擎上,通過構建龐大的知識庫,訓練機器,讀懂人類的需求。

如蘋果Siri、電信客服、銀行智能語音助手、健康助理等。其應用過程同語義搜索,只是在表現上還加入了其他技術,如語音識別、圖形識別等。

智能問答

 

3、風險控制

現代商業發展面臨的風險因素日趨復雜,利用知識圖譜可以構建行業的知識庫,進行風險挖掘,從而達到控制風險,管理風險的目的,典型應用有金融領域的反欺詐和風險預測。

那么,如何構建金融知識圖譜?

“金融知識圖譜”是金融行業知識搜索的基礎技術,是具有語義處理與信息互聯互通能力的知識庫。構建“金融知識圖譜”可以提升金融機構反欺詐、風險評估、預測等風險管理能力。

構建“金融知識圖譜”可分為兩大部分:一是數據梳理,基于資金往來,賬戶,抵押物,股權結構,訴訟,聯系方式等關系建立企業,人, 事件等實體間的關系圖譜;二是基于知識圖譜的數據挖掘應用,例如:擔保圈分析,可挖掘出循環擔保;深度風險鏈條分析,揭示多層網絡中風險關系;客戶群體劃分,可以提取滿足一定條件的客戶用于獲客。

下面以譽存科技應用知識圖譜做企業風險評估的項目為例來介紹

風險控制
(譽存科技知識圖譜應用流程

1、定義需求:落實到具體業務問題,提出可視化需求。如風險關系挖掘、失信預測

2、數據收集和預處理:使用ETL+自然語言處理技術,整合海量結構化數據+非結構化數據

3、知識圖譜設計:定義實體,關系,屬性

4、知識圖譜存儲設計:Neo4j

5、上層應用開發:基于規則,基于算法


知識圖片應用

企業關聯圖譜的展示:主體企業、關聯企業、董監高法等關聯人的重要關系梳理,圖譜化展示。

譽存科技企業關聯網絡圖
譽存科技企業關聯網絡圖

(譽存科技企業關聯網絡圖

基于企業知識圖譜的企業風險挖掘:基于規則


基于企業知識圖譜的企業風險挖掘

(風險鏈條展示)

未來風險預測:基于機器學習算法或者傳導模型


未來風險預測

基于網絡風險傳導模型的失信風險預測:利用企業圖譜的拓撲結構+啟發式算法

基于網絡風險傳導模型的失信風險預測

結語

當前,各大互聯網科技公司都紛紛創建了自己的知識庫。大數據和新算法為規模化知識圖譜構建提供了新的技術基礎和發展條件,使得知識圖譜構建的來源、方法和技術手段都發生極大的變化。

與數據與量化強相關的金融行業,對知識圖譜技術更是抱著開放、歡迎的態度。許多思想領先,對技術敏感的金融機構,通過積極與金融科技公司合作,已成功將知識圖譜運用于反欺詐、智能推薦、智能風控、營銷獲客等方面,搶先獲得了技術賦能的優勢與價值。未來,在金融領域,從精準營銷、風險預測到用戶決策,知識圖譜的底層支撐性作用將越來越顯著。

— END —

譽存科技

關注我們
關注我們
winxi
体彩顶呱刮字母