知識(shí)圖譜之實(shí)體對(duì)齊一_知識(shí)圖譜對(duì)齊

個(gè)人圖書館-株野
2023-07-12 11:32:48

(相關(guān)資料圖)

2.2.1聚合：

（1）加權(quán)平均：對(duì)相似度得分向量的各個(gè)分量進(jìn)行加權(quán)求和，得到最終的實(shí)體相似度

（2）手動(dòng)制定規(guī)則：給每一個(gè)相似度向量的分量設(shè)置一個(gè)閾值，若超過該閾值則將兩實(shí)體相連

（3）分類器：采用無監(jiān)督/半監(jiān)督訓(xùn)練生成訓(xùn)練集合分類

2.2.2聚類：

（1）層次聚類：通過計(jì)算不同類別數(shù)據(jù)點(diǎn)之間的相似度對(duì)在不同的層次的數(shù)據(jù)進(jìn)行劃分,最終形成樹狀的聚類結(jié)構(gòu)。

（2）相關(guān)性聚類：使用最小的代價(jià)找到一個(gè)聚類方案。

（3）Canopy + K-means：不需提前指定K值進(jìn)行聚類

2.2.3知識(shí)表示學(xué)習(xí)：（嵌入式表示）

將知識(shí)圖譜中的實(shí)體和關(guān)系都映射低維空間向量,直接用數(shù)學(xué)表達(dá)式來計(jì)算各個(gè)實(shí)體之間相似度。這類方法不依賴任何的文本信息,獲取到的都是數(shù)據(jù)的深度特征。

3 分塊

分塊 (Blocking)是從給定的知識(shí)庫(kù)中的所有實(shí)體對(duì)中,選出潛在匹配的記錄對(duì)作為候選項(xiàng),并將候選項(xiàng)的大小盡可能的縮小。常用的分塊方法有基于Hash函數(shù)的分塊、鄰近分塊等。常見的Hash函數(shù)有：字符串的前n個(gè)字，n-grams，結(jié)合多個(gè)簡(jiǎn)單的hash函數(shù)等。鄰近分塊算法包含Canopy聚類、排序鄰居算法、Red-Blue Set Cover等。

4 負(fù)載均衡

負(fù)載均衡 (Load Balance)來保證所有塊中的實(shí)體數(shù)目相當(dāng),從而保證分塊對(duì)性能的提升程度。最簡(jiǎn)單的方法是多次Map-Reduce操作。

知識(shí)圖譜-知識(shí)融合

實(shí)體對(duì)齊

知識(shí)圖譜融合與知識(shí)圖譜對(duì)齊Summary

實(shí)體對(duì)齊工具調(diào)研：1.本體對(duì)齊工具-Falcon-AO

Falcon-AO是一個(gè)自動(dòng)的本體匹配系統(tǒng),已經(jīng)成為RDF(S)和OWL所表達(dá)的Web本體相匹配的一種實(shí)用和流行的選擇。編程語言為Java。匹配算法庫(kù)包含V-Doc、I-sub、GMO、PBM四個(gè)算法。其中V-Doc即基于虛擬文檔的語言學(xué)匹配，它是將實(shí)體及其周圍的實(shí)體、名詞、文本等信息作一個(gè)集合形成虛擬文檔的形式。可以用TD-IDF等算法進(jìn)行操作。I-Sub是基于編輯距離的字符串匹配。I-Sub和V-Doc都是基于字符串或文本級(jí)別的處理。更進(jìn)一步的就有了GMO，它是對(duì)RDF本體的圖結(jié)構(gòu)上做的匹配。PBM則基于分而治之的思想做。首先經(jīng)由PBM進(jìn)行分而治之，后進(jìn)入到V-Doc和 I-Sub ，GMO接收兩者的輸出做進(jìn)一步處理，GMO的輸出連同V-Doc和I-Sub的輸出經(jīng)由最終的貪心算法進(jìn)行選取。

2.Limes 實(shí)體匹配

Limes是一個(gè)基于度量空間的實(shí)體匹配發(fā)現(xiàn)框架,適合于大規(guī)模數(shù)據(jù)鏈接,編程語言是Java。其整體框架如下圖所示：

3.Sematch（開源2017）

用于知識(shí)圖譜的語義相似性的開發(fā)、評(píng)價(jià)和應(yīng)用的集成框架。 Sematch支持對(duì)概念、詞和實(shí)體的語義相似度的計(jì)算，并給出得分。 Sematch專注于基于特定知識(shí)的語義相似度量，它依賴于分類( 比如 ) 中的結(jié)構(gòu)化知識(shí)。深度、路徑長(zhǎng)度 ) 和統(tǒng)計(jì)信息內(nèi)容( 語料庫(kù)與語義圖譜) 。----基于wordNet。

4.基于Neo4j 圖數(shù)據(jù)庫(kù)的知識(shí)圖譜的實(shí)體對(duì)齊（目前最常用）

計(jì)算相關(guān)性的基本步驟分為三步： 1，鏈接neo4j數(shù)據(jù)庫(kù)，并且讀取出里面的數(shù)據(jù) 2，對(duì)齊算法運(yùn)算 3，拿到運(yùn)算結(jié)果設(shè)定一個(gè)閥值，來判斷大于閥值的就是相關(guān)。

基于Neo4j 圖數(shù)據(jù)庫(kù)的知識(shí)圖譜的實(shí)體對(duì)齊（上）

基于Neo4j 圖數(shù)據(jù)庫(kù)的知識(shí)圖譜的實(shí)體對(duì)齊（下）

基于Neo4j 圖數(shù)據(jù)庫(kù)的知識(shí)圖譜的關(guān)聯(lián)對(duì)齊-最小編輯距離-jacard算法

python如何寫入三元組數(shù)據(jù)到neo4j

python爬蟲neo4j知識(shí)圖譜實(shí)體的屬性補(bǔ)全

關(guān)鍵詞：

分享到: