www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]小米知識圖譜于2017年創(chuàng)立,已支持公司了每天億級的訪問,已賦能小愛同學(xué),小米有品、智能問答、用戶畫像、虛擬助手、智能客服等互聯(lián)網(wǎng)產(chǎn)品。通過引入知識圖譜,這些產(chǎn)品在內(nèi)容理解、用戶理解、實(shí)體推薦等方面都有了顯著的效果提升。


分享嘉賓:彭力 小米

編輯整理:馬瑤

出品平臺:DataFunTalk

導(dǎo)讀:小米知識圖譜于2017年創(chuàng)立,已支持公司了每天億級的訪問,已賦能小愛同學(xué),小米有品、智能問答、用戶畫像、虛擬助手、智能客服等互聯(lián)網(wǎng)產(chǎn)品。通過引入知識圖譜,這些產(chǎn)品在內(nèi)容理解、用戶理解、實(shí)體推薦等方面都有了顯著的效果提升。本文的主要內(nèi)容包括:


  • 小米知識圖譜介紹:包括小米的商業(yè)模式、小米人工智能部、知識圖譜在人工智能部的定位、小米知識圖譜的發(fā)展歷程、以及小米知識圖譜的落地場景。

  • 小米知識圖譜關(guān)鍵技術(shù):小米知識圖譜在成長過程中的技術(shù)積累。

  • 小米行業(yè)知識圖譜探索:結(jié)合業(yè)務(wù),跟大家分享下小米在行業(yè)圖譜上的探索。

01
小米知識圖譜介紹

1.?小米知識圖譜介紹

知識圖譜在小米的應(yīng)用與探索

在了解小米知識圖譜之前,先介紹下小米的商業(yè)模式。小米在商業(yè)模式上提出硬件+新零售+互聯(lián)網(wǎng)鐵人三項(xiàng)的商業(yè)模式。這種商業(yè)模式下有像手機(jī)、小米音箱類的智能硬件;有米商城,有品電商這樣的新零售;還有像人工智能這樣的互聯(lián)網(wǎng)服務(wù)。三者相扶相持,相互促進(jìn),是一種閉環(huán)的生態(tài)模式,在這種生態(tài)模式下,有很多潛在的應(yīng)用場景,對人工智能,對內(nèi)容和知識有很多訴求。

知識圖譜在小米的應(yīng)用與探索

小米人工智能部已經(jīng)構(gòu)建了完整的中臺體系,囊括了視覺、NLP、知識圖譜、語音、深度學(xué)習(xí)等底層的基礎(chǔ)能力,其中知識圖譜就處于這一層。

中間層是問答服務(wù)、智能客服等應(yīng)用能力層,上層是小愛同學(xué)、商城等互聯(lián)網(wǎng)業(yè)務(wù)和傳統(tǒng)業(yè)務(wù)層,這些都是知識圖譜的落地場景,其中小愛同學(xué)是小米公司推出的虛擬人工的智能助理,小愛同學(xué)適用于手機(jī)、音響、電視、手表以及手環(huán)等穿戴設(shè)備,通過搭載小愛同學(xué)的智能硬件,可以滿足用戶獲取知識和信息的需求。

知識圖譜在小米的應(yīng)用與探索

小米知識圖譜在中臺體系下不斷的成長,2017年小米知識圖譜有了一些開放知識的積累, 2018年知識圖譜團(tuán)隊(duì)成立,2018年底,通用知識圖譜的構(gòu)建,百科類圖譜構(gòu)建完成,2019年中,業(yè)務(wù)拓展,線上調(diào)用達(dá)到近億次,2019年底,知識擴(kuò)增,知識積累了超三百億,2020年行業(yè)探索,行業(yè)圖譜落地。雖然發(fā)展的比較晚,但是在自己的業(yè)務(wù)場景下,發(fā)展還算迅速。

知識圖譜在小米的應(yīng)用與探索

小米知識圖譜在公司的職責(zé),主要是研究開放領(lǐng)域和行業(yè)領(lǐng)域的構(gòu)建和應(yīng)用技術(shù),并把圖譜推廣到相關(guān)業(yè)務(wù)場景上,來提高用戶的滿意度的和業(yè)務(wù)變現(xiàn)轉(zhuǎn)化能力。團(tuán)隊(duì)已構(gòu)建超三百億開放知識和涉及13個領(lǐng)域。除此之外,小米還參與了一些開放知識圖譜的構(gòu)建,是OpenKG之OpenBase子項(xiàng)目組主要成員單位,是IEEE知識圖譜國家標(biāo)準(zhǔn)編制組主要成員。

知識圖譜在小米的應(yīng)用與探索

小米知識圖譜已經(jīng)已經(jīng)賦能公司10+個業(yè)務(wù)場景,這些落地場景包括智能問答、智能客服、小愛同學(xué)、虛擬助手、全局搜索、NLP等這樣通用的知識領(lǐng)域。還有像游戲中心、廣告,小米有品,小米網(wǎng)等這樣的行業(yè)知識,下面我會重點(diǎn)介紹一下具體場景的細(xì)節(jié)。

2. 應(yīng)用場景:智能問答

知識圖譜在小米的應(yīng)用與探索

第一個是小米知識圖譜在智能問答場景的應(yīng)用,這個比較廣泛,落地的設(shè)備較多,已服務(wù)于手機(jī)、音響、智能穿戴、智能車載、電視、兒童設(shè)備。應(yīng)用于小愛音響、小愛同學(xué)、小尋手表、車載設(shè)備等,滿足用戶近億次/天的請求,后面我們介紹落地場景的示例。

知識圖譜在小米的應(yīng)用與探索

目前,智能問答包括兩種模式:一種是一般問答模式,還有一種是規(guī)則推理的。一般問答場景下,在返回具體答案的同時,還會把關(guān)聯(lián)實(shí)體的附加信息滿足給用戶,比如用戶詢問鞏俐的籍貫的時候,返回答案不只是會返回山東濟(jì)南,還會把問答實(shí)體鞏俐的視頻,人物關(guān)系,資訊新聞,代表作品等都呈現(xiàn)給用戶,這樣在用戶興趣激發(fā)上起到了很大作用。另外一個古詩詞CASE,也能很好的體現(xiàn)這一點(diǎn),比如用戶問靜夜思的作者是誰,用戶除了想得到這首詩的作者外,可能還想溫故這首詩,也可能想要了解這首詩的釋義。所以我們會把有聲資源、釋義一并滿足給用戶。

最后,問答在歧義場景下還支持列表形式展現(xiàn)。

知識圖譜在小米的應(yīng)用與探索

除了一般的問答方式以外,小米還支持推理的問答。比如:多條件推理,多跳關(guān)系推理,還支持像求最大值,最小值這種基礎(chǔ)推理算子。多條件推理的例子如:山東籍的雙子座是誰,首先會對數(shù)據(jù)庫中人物實(shí)體的生日推理出星座是雙子座,然后推出省份,最后篩選聚合產(chǎn)出實(shí)體結(jié)果 ,第二種是多跳關(guān)系推理,比較典型的就是人物與人物的六度關(guān)系推理,如:徐志摩與梁思成的兒子梁從誡是什么關(guān)系?我們會試圖計(jì)算起始實(shí)體到目標(biāo)實(shí)體的關(guān)系的最短可達(dá)路徑呈現(xiàn)給用戶?,F(xiàn)有的推理邏方法,比如說基于規(guī)則的推理、基于模型的推理,規(guī)則推理主要包含規(guī)則引擎和一階的邏輯規(guī)則。模型推理是用機(jī)器學(xué)習(xí)去表示學(xué)習(xí)關(guān)系推理。所以這里根據(jù)自己的需求、應(yīng)用場景和應(yīng)用情況去選擇。

知識圖譜在小米的應(yīng)用與探索

后面介紹一些基于智能問答的一些方法?;趫D譜的智能問答,通用流程如下:語音識別環(huán)節(jié),意圖識別,實(shí)體匹配,實(shí)體查詢返回結(jié)果。

舉個例子,如武漢大學(xué)周邊什么好吃的,首先做分詞或者詞法分析,分出武漢大學(xué)和好吃的這些關(guān)鍵mention,然后意圖識別計(jì)算得到是美食需求的,第三步是實(shí)體識別,把mention武漢大學(xué)映射到知識圖譜中的實(shí)體上,把屬性好吃映射成推薦食物,最后實(shí)體查詢計(jì)算,返回?zé)岣擅?,武昌魚,豆皮,油燜大蝦。

知識圖譜在小米的應(yīng)用與探索

小米基于知識問答有很多方法,第一種是基于模版的方法,它的大體流程是這樣的:

第一步對query做實(shí)體鏈接(實(shí)體鏈接技術(shù)在第二部分會詳細(xì)介紹),第二步把實(shí)體名用實(shí)體鏈接后的主實(shí)體對應(yīng)的實(shí)體類型替換后去離線的模板庫匹配,返回模板庫中映射后的歸一的模版,最后查詢實(shí)體庫返回答案。

舉個例子:

姚明的老婆是誰,第一步先做實(shí)體鏈接,后面把姚明的實(shí)體類型人物替換姚明,去人物垂域模板規(guī)則庫查詢模板,發(fā)現(xiàn)命中了lambda_x.配偶這個模板。最后在圖譜數(shù)據(jù)國查詢姚明的配偶,返回答案葉莉。這種方法有一個好處就是準(zhǔn)確率比較好,是離線挖掘的模板,所以性能也比較好,但是缺點(diǎn)也比較明顯泛化能力差。其中模板的挖掘方法的話,主要是離線從知識圖譜中實(shí)體中找目標(biāo)實(shí)體對,然后去問答論壇去匹配問題與答案分別出現(xiàn)的pair,生成模板的pair,這么做會有很多噪聲需要做進(jìn)一步過濾,比如:需要過濾掉出現(xiàn)多屬性的問答對的情況和頻次出現(xiàn)比較低的情況。

知識圖譜在小米的應(yīng)用與探索

為了解決第一種方法泛化性能比較差的問題,用第二種方式基于槽填充的方式來互補(bǔ)。第一種方法在李白有哪些詩的時候,可以命中模版庫滿足用戶的需求。但是變成李白有名的詩有哪些時,就無法找到答案了。為了解決這種問題,我們用了槽填充和意圖識別聯(lián)合學(xué)習(xí)的方法方法,借鑒了2016年liu的基于attention的意圖檢測和插槽填充聯(lián)合學(xué)習(xí)的的方法。該方法把槽填充與意圖識別聯(lián)合的學(xué)習(xí),方法包含兩部分槽填充和意圖識別,兩部分組成,第一部分是槽填充問題轉(zhuǎn)化為序列標(biāo)注的NER問題,第二步是意圖識別,把意圖識別轉(zhuǎn)換為文本分類問題。最后把兩個問題整合做一個聯(lián)合學(xué)習(xí)。PPT右下角已給出論文和代碼。該方法在部分垂哉上的召回的提升比較明顯。在菜譜,古詩垂域上欠召回的badcase解決率為30%

知識圖譜在小米的應(yīng)用與探索

第三種方法是基于子圖檢索,該方法依賴于實(shí)體的關(guān)系路徑。具體第一步query做實(shí)體鏈接,把實(shí)體轉(zhuǎn)化為實(shí)體ID,第二步根據(jù)實(shí)體周圍的屬性篩選出候選路徑。第三步對輸入文本與候選路徑進(jìn)行實(shí)體語義相似和排序,取top結(jié)果。

以姚明老婆的國籍是啥為例子,第一步用實(shí)體鏈接找到用到接接到知識圖譜姚明這個實(shí)體;第二步就是找到姚明這個實(shí)體周邊的候選的屬性路徑,如姚明的配偶的國籍,姚明配偶的身高,姚明配偶的類型,姚明教練的出生日期,姚明隊(duì)友的出生地等;第三步用bert計(jì)算候選路徑和目標(biāo)路徑的相似關(guān)系,除了相似度外,引入了像類型過濾這樣的條件約束,過濾給出排序分值然后取一個最大值。

以上都是基于圖譜的結(jié)構(gòu)化的問答場景,對于非結(jié)構(gòu)的, 比如:天空為什么是藍(lán)色的,怎么控制貓的飲食量,青蛙王子是不是安徒生的童話,這三種為什么,怎么樣,是不是,類型的問題,以上方法無法解決,需要通過基于搜索的FAQ的方式,這里就不介紹了。

3. 應(yīng)用場景:智能客服

知識圖譜在小米的應(yīng)用與探索

第二個是知識圖譜到智能客服的場景。目前智能客服已經(jīng)落地小米網(wǎng)和小米金融等業(yè)務(wù)場景下。PPT中是智能客服團(tuán)隊(duì)用NL2SQL的方法在基金客服上的一個落地場景。

知識圖譜在小米的應(yīng)用與探索

知識圖譜在智能客服中的技術(shù)框圖體系,第一層是數(shù)據(jù)標(biāo)準(zhǔn)化層,主要包括數(shù)據(jù)倉庫,數(shù)據(jù)治理,數(shù)據(jù)融合,第二層是AI引擎層,有實(shí)體抽取引擎,屬性集合引擎、知識圖譜引擎等,第三層是數(shù)據(jù)共享交換層,第四層是數(shù)據(jù)服務(wù),數(shù)據(jù)分析等。

4. 應(yīng)用場景:小米商城&游戲中心

知識圖譜在小米的應(yīng)用與探索

第三個應(yīng)用場景是在小米商城和游戲中心的應(yīng)用,目前商品圖譜和游戲圖譜已應(yīng)用到小米商城,有品商城,游戲中心等業(yè)務(wù)下。已落在有品商城/小米商城的場景詞搜索發(fā)現(xiàn)、用戶sug引導(dǎo)、商品評價的用戶觀點(diǎn)的的用戶觀點(diǎn)的抽取及聚合,及游戲的評論的觀點(diǎn)抽取及聚合業(yè)務(wù)上。在小米的商品圖譜取得不錯的效果,已助力商品轉(zhuǎn)化率、用戶購買轉(zhuǎn)化率及游戲下載率至少有30%的提升。

5. 應(yīng)用場景:AI虛擬助手

知識圖譜在小米的應(yīng)用與探索

另外小米知識圖譜還在多模態(tài)圖譜應(yīng)用場景下做了嘗試,與AI虛擬助手合作探索了圖片態(tài)與文本態(tài)實(shí)體語義關(guān)聯(lián),目前已上線植物識圖的功能,后面會持續(xù)的擴(kuò)展。小米知識圖譜的落地場景很多,這里只介紹了一部分,后面是小米知識圖譜積累的一些關(guān)鍵技術(shù)。

02
小米知識圖譜關(guān)鍵技術(shù)

1.?小米知識圖譜賦能各業(yè)務(wù)場景

知識圖譜在小米的應(yīng)用與探索

目前小米知識圖譜已經(jīng)具備20+關(guān)鍵能力,比如實(shí)體鏈接,實(shí)體融合,概念圖譜,實(shí)體推理,實(shí)體分類,知識理解,實(shí)體關(guān)聯(lián),用戶理解等等,后面挑出實(shí)體鏈接,實(shí)體融合,概念圖譜挖掘三個關(guān)鍵技術(shù)和大家分享探討。

2. 關(guān)鍵技術(shù):實(shí)體鏈接

知識圖譜在小米的應(yīng)用與探索

實(shí)體鏈接 ( Entity Linking ),也叫實(shí)體鏈指,該任務(wù)要求我們將非結(jié)構(gòu)化數(shù)據(jù)中的表示實(shí)體的詞語(即所謂mention,對某個實(shí)體的指稱項(xiàng))識別出來,并將從知識庫 ( 領(lǐng)域詞庫,知識圖譜等 ) 中找到mention所表示的那一個實(shí)體所以實(shí)體鏈接的任務(wù)定義:就是給定文本mention,判定指代知識圖譜中的實(shí)體首先第一個是實(shí)體鏈接 ( Entity Linking )。

舉個例子:

比如說劉德華的天下無賊主題曲那一天是誰唱的,實(shí)體鏈接需要把劉德華,天下無賊,那一天三個mention聯(lián)接到知識圖譜的實(shí)體上。以方便應(yīng)用到如主題分析,語義的信息檢索等更深度的應(yīng)用場景下。

知識圖譜在小米的應(yīng)用與探索

常見的實(shí)體鏈接如PPT流程。包括中文的切詞,命名實(shí)體識別,候選實(shí)體選取,實(shí)體消歧,實(shí)體排序,判空幾部分。第一步中文切詞有很多方法,比如像結(jié)巴等一些開源的工具,我們的做法是整合了已有的實(shí)體名、實(shí)體同義詞名,及開放錨文本信息做為詞典,用維特比算法構(gòu)造了切詞功能。除了切詞外我們還用的序列標(biāo)注的方式做了命名實(shí)體識別,把實(shí)體詞表與NER的結(jié)果合并。

其中NER用的是BERT+CRF。在NER的訓(xùn)練數(shù)據(jù)集構(gòu)造上,起初用遠(yuǎn)程監(jiān)督的方法構(gòu)造訓(xùn)練集的方法,但是發(fā)現(xiàn)在句子中有多個實(shí)體詞的情況,遠(yuǎn)程監(jiān)督的方式只能標(biāo)注出部分實(shí)體詞,這樣對模型的召回影響比較大。所以我們利用開放比賽的標(biāo)注數(shù)據(jù)作為數(shù)據(jù)集,再加上部分遠(yuǎn)程監(jiān)督的數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)作為最終的訓(xùn)練樣本。這種方式的訓(xùn)練結(jié)果比只有遠(yuǎn)程監(jiān)督的樣本訓(xùn)練的結(jié)果提升10個點(diǎn)左右。

知識圖譜在小米的應(yīng)用與探索

接下來第二步是候選實(shí)體選取,我們離線挖掘了大量的同義詞,別名,縮寫詞等,放在圖譜實(shí)體。命中l(wèi)abel,alias,同義詞,縮寫的作為候選對象。但是調(diào)研中發(fā)現(xiàn)過多的候選詞不一定有好的效果,比如:長尾的,互動比較少、豐富度比較少的實(shí)體引入會造成很多噪聲并且很影響處理性能。因此我們利用用戶使用的熱度,實(shí)體的流行度,實(shí)體豐富度等對候選實(shí)體做了篩選和過濾。精簡后準(zhǔn)確率提升了3%,召回下降0.4%,預(yù)測速度提升50%。

知識圖譜在小米的應(yīng)用與探索

接下來是實(shí)體消歧,實(shí)體排序,判空這三塊。這三塊不好解耦,所以可以一塊來說。這里用到了兩處種特征,第一種是上下文無關(guān)的,第二種是語義相關(guān)聯(lián)的特征。

上下文無關(guān)的特征包含:實(shí)體流行度,用戶熱度,實(shí)體豐富度等等。語義相關(guān)的特征包括三部分:

① 對輸入實(shí)體mention預(yù)測實(shí)體類型, 用到的18年Raiman, J. R., & Raiman, O. M.發(fā)表的"DeepType:用神經(jīng)網(wǎng)的分類系統(tǒng)演化來做多語言實(shí)體鏈鏈接"的方法,該方法基于當(dāng)我們知道了候選實(shí)體的類型之后,這個消歧的任務(wù)便被解決得差不多了的假設(shè)將實(shí)體鏈接過程看成是分類獲取的過程。分類的過程是針對知識庫中的分類體系設(shè)計(jì)了一個DeepType的預(yù)測系統(tǒng)。具體是用輸入數(shù)據(jù)文本通過bert編碼取CLS 位置的向量、候選實(shí)體對應(yīng)開始和結(jié)束位置對應(yīng)的特征向量,三個向量連接,經(jīng)過全連接層,最后softmax激活得到候選實(shí)體的類別得到分類。

② 是DeepMatch部分,參照18年 Le, P., & Titov, I的一種通過候選實(shí)體與mention之間的潛在關(guān)系建模來提升實(shí)體鏈接的效果。該文章提出了將實(shí)體鏈接問題轉(zhuǎn)化為文本語義匹配問題,構(gòu)建了一個DeepMatch模型來匹配輸入語句的上下文和候選實(shí)體的描述信息對。把待消歧文本作為text_a,每個候選實(shí)體的SPO全部連接起來組成一段文本text_b,計(jì)算text_a和text_b的相關(guān)性 。訓(xùn)練時選取連接到的實(shí)體作為正例,在候選實(shí)體里選取負(fù)例。兩個句子長度最大選取為256,負(fù)樣本選取了3個。取CLS 位置向量、候選實(shí)體對應(yīng)開始和結(jié)束位置對應(yīng)的特征向量,三個向量連接經(jīng)過全連接層,最后sigmoid激活得到候選實(shí)體的概率得分。

③ 除了這兩個特征外還有共現(xiàn)、協(xié)同推斷等特征。最后把是否存在多個同義詞指向同一個實(shí)體、其他mention是否出現(xiàn)在該實(shí)體的信息里、LinkCount、DeepMatch模型的相似度、DeepType模型的相似度等經(jīng)過MLP得到一個分值,排序取 top1的實(shí)體,如果top1的分值大于閾值就判定該實(shí)體,如果小于閾值則為空。

知識圖譜在小米的應(yīng)用與探索

小米知識圖譜通過該方法參加了2020CCKS比賽,很榮幸拿到了總決賽的第一名,F(xiàn)1的值達(dá)到了0.8954。但是這種方法在我的業(yè)務(wù)場景,準(zhǔn)確率召回可以達(dá)到96%以上。

知識圖譜在小米的應(yīng)用與探索

另外,除了效果,這里在業(yè)務(wù)上有會有處理性能的問題,所以這里用到三種方法加速,第一是引用了tensorflow的batching serving,第二是把bert中的transformer 用nvidia的faster Transformer替換,第三是用Fp16的方法量化,這種加速效果比較明顯的QPS從30提升到1200。

3. 關(guān)鍵技術(shù):知識融合

知識圖譜在小米的應(yīng)用與探索

第二種關(guān)鍵技術(shù),是知識融合,該任務(wù)的定義是,給定實(shí)體集合,識別并合并等價實(shí)體 ( 注:等價定義為待融實(shí)體指代了現(xiàn)實(shí)世界中同一事物或概念 ) 。舉這個例子,花木蘭電影有來自騰訊,愛奇藝,優(yōu)酷,豆瓣,電視貓, 維基的數(shù)據(jù)。需要把實(shí)體化后的小實(shí)體,找到歸一組,合并融合生成新的實(shí)體,更新至知識庫圖譜中這一過程中稱為知識融合。

知識圖譜在小米的應(yīng)用與探索

基于任務(wù)定義,把這種任務(wù),拆解成了實(shí)體對齊和實(shí)體擇優(yōu)兩部分。

實(shí)體對齊的方法目前包含成對的實(shí)體對齊,集體實(shí)體對齊,大規(guī)模集體實(shí)體對齊及知識庫與知識庫之間的模式層的實(shí)體對齊。小米著重做的是成對對齊,現(xiàn)在用了就兩種的方法:

第一種方法是傳統(tǒng)的方法,基于觀察的先驗(yàn),比如:

① 類別間的屬性重要度是不同的 ( 比如人物中,出生時間,出生地點(diǎn),性別,職業(yè)很重要;地點(diǎn)類的,經(jīng)度,緯度很重要;視頻: 上映時間,演員,導(dǎo)演,角色很重要;生物:種屬科目綱很重要等 )。

② 文本中的時間,地點(diǎn)很重要,( 比如一些infoxbox中未覆蓋的事件的時間及地點(diǎn)等 ) 基于這兩個經(jīng)驗(yàn),我用一些tfidf的方法計(jì)算一些屬性在不同類中的重要性,并找文本中的時間/地點(diǎn)做為一個重要的文本特征,并計(jì)算對應(yīng)屬性值相似度,目前用對一些相似度主要是一基于字粒度的文文相似度,及token粒度的主題相似度等。

第二種方法用基于embedding的deep Match方法,主要參照了2018年ACM SIGMOD 的方法做了一些改進(jìn),該方法把實(shí)體中的每個屬性下的O的Value concate成一個句子,通過雙向LSTM等一模型encodeing成向量,計(jì)算每個屬性下的emdming的相似度,最后經(jīng)過一個分類模型,判斷是否是同一個實(shí)體。該方法沒有考慮類別中的屬性重要度的差異,所以準(zhǔn)確與召回效果都不太理想,我們也在考慮更多的方法嘗試改進(jìn)。

以上兩種方法是針對對于結(jié)構(gòu)化實(shí)體對齊的方法,如果是開放文本要依賴實(shí)體鏈接技術(shù)。

知識圖譜在小米的應(yīng)用與探索

知識融合第二部實(shí)體擇優(yōu),是在經(jīng)過實(shí)體對齊后,把實(shí)體屬性的差異性或者沖突性做消解。目前的做法基于以下幾個方面對實(shí)體的質(zhì)量進(jìn)行控制控制:

  • 實(shí)體的更新時效性

  • 權(quán)威性,不同來源,權(quán)威性不同的,比如,人民網(wǎng)的權(quán)威性要比一般咨詢類的站會要高?

  • 豐富性,不同來源O的值缺失程度是不同的

  • 共現(xiàn)頻次,當(dāng)多源有沖突時,可以用投票的選出不同來源中出現(xiàn)最多的屬性

4. 關(guān)鍵技術(shù):概念圖譜

知識圖譜在小米的應(yīng)用與探索

概念圖譜的概挖掘目前小米圖譜基本三種方式構(gòu)建。

第一種是在本體模式層構(gòu)建了分類體系, 分類體系參照了一些開放的行業(yè)和分類標(biāo)準(zhǔn),還參考了一些人工整理的行業(yè)的標(biāo)準(zhǔn)體系。

第二種是基于autophrase的方法,是實(shí)例層的ISA關(guān)系的挖掘,該方法是2017年一篇論文中采用海量文本挖掘的方法,該方法通過主要是用短語挖掘的方法來挖掘概念。這種方法需要滿足四個條件:

  • 流行度:質(zhì)量短語應(yīng)該出現(xiàn)的頻率足夠高

  • 一致性:token在高質(zhì)量短語中的搭配出現(xiàn)的概率明顯高于預(yù)期

  • 信息性:短語可以表達(dá)一個特定的主題或概念

  • 完備性:一個短語可以在特定的文檔上下文中解釋為一個完整的語義單元

這個模型的訓(xùn)練用實(shí)體的長文本和內(nèi)容文本、遠(yuǎn)程的Wikipedia/cn_probase拿到的開放的的高質(zhì)量的短語及根據(jù)不同領(lǐng)域標(biāo)注的高質(zhì)量的詞語三個輸入作為輸入語料。第二步用n_gram的候選篩選,出正樣本與負(fù)樣本,正樣本是N_grame頻率大于閾值和人工標(biāo)注的領(lǐng)域短語及人工cnproese匹配的高質(zhì)量短語;剩余是負(fù)樣本。由于負(fù)樣本中摻雜大量的正樣本,所以后面是從負(fù)樣本中使用集成分類器訓(xùn)練了多個基分器來從負(fù)樣本中強(qiáng)化出正樣本。為了保證概念短語的質(zhì)量,方法通過詞性分析過濾不符合語法的短語。

知識圖譜在小米的應(yīng)用與探索

針對概念挖掘的第三種方法是基于序列標(biāo)注的方法。分為兩步。第一步做一個分類,針對實(shí)體長文本描述進(jìn)行句子拆分,之后判斷 否有這個概念相關(guān)的一個實(shí)體詞。第二步使用Bert+BiLSTM+CRF的方式作序列標(biāo)注,標(biāo)注出SPO的值。

上面三種方法都是概念挖掘,對于實(shí)體與概念的關(guān)聯(lián),可以用實(shí)體分類的方法把模式層的與實(shí)體掛接,用實(shí)體鏈接的方法把開放詞中的短語與體掛接。

5. 關(guān)鍵技術(shù):自動化構(gòu)建技術(shù)

知識圖譜在小米的應(yīng)用與探索

除些之外呢,小米圖譜還在工程構(gòu)建已有了一套完成的自動化構(gòu)建技術(shù),可以支持用戶定制,自動實(shí)體化,自動實(shí)體關(guān)系等。

03
小米行業(yè)知識圖譜探索

小米知識圖譜的關(guān)鍵技術(shù)還有很多,我們在這里只給大家介紹典型的幾個關(guān)鍵技術(shù),有興趣的話可以線下交流。最后我們看一下小米知識圖譜在行業(yè)的一些探索。

1. 商品圖譜

知識圖譜在小米的應(yīng)用與探索

第一個業(yè)務(wù)場景的探索商品圖譜,主要的應(yīng)用場景是小米商城,小米品的搜索和推薦場景,目標(biāo)就是輔助電商平臺精準(zhǔn)的搜索。

現(xiàn)在商品圖譜已在商品分類體系的建設(shè)、主商品詞提取、商品同義詞挖掘、上下位體系構(gòu)建、場景概念挖掘五個方向構(gòu)建完成。其中分類體系是在模式層的構(gòu)建;主商品詞提取和商品同義詞挖掘用于精確匹配與召回;上下位體系結(jié)構(gòu)用于用戶推薦;場景概念挖掘用于搜索發(fā)現(xiàn)及場景推薦。

場景挖掘以泰國旅游為例,可以與沙灘鞋,電話卡,浮潛裝備等商品有關(guān)聯(lián),燒烤場景可能與燒烤架,木炭,食材等商品關(guān)聯(lián)。

目前商品圖譜已把這五個方向的數(shù)據(jù)和技術(shù)落地到小米商城,有品商城上。用戶轉(zhuǎn)化率和商品轉(zhuǎn)化率都有不錯的提升。

2. 上位詞

知識圖譜在小米的應(yīng)用與探索

上位詞挖掘的方法分為三部分:

第一部分是上位詞判定,用bert加上分類模型從用戶日志的query中提取出來確識別是否是商品詞或者上位詞。第二部分通過層次化的分類器,對挖掘到的上位詞合并到分類體系中,這里用的了HMC的多分類器。第三部分是把商品與上位詞關(guān)聯(lián),用商品名做texta, 上位詞做textb,把關(guān)聯(lián)問題轉(zhuǎn)化為文本分類問題。

目前用這種方法挖掘出的上位詞,平均每個商品覆蓋10.5個上位詞。

3. 同義詞

知識圖譜在小米的應(yīng)用與探索

商品圖譜涉及到的還有一個就是同義詞挖掘。我們是從商品標(biāo)題中抽取同義詞,在調(diào)研中發(fā)現(xiàn),很多商鋪為了盡可能多的命中搜索詞,會把可能多的把相同相近或者同義的詞堆砌到商品名中。所以基于這個假設(shè),我們把同義詞的挖掘,轉(zhuǎn)化為一個序列標(biāo)注問題。

其中訓(xùn)練數(shù)據(jù)用人工標(biāo)注+ ( 通用圖譜+同義詞庫 ) 遠(yuǎn)程數(shù)據(jù)作為訓(xùn)練樣本。商品title做為texta, 候選的詞做為textb最后標(biāo)注出BIOS。因?yàn)榈赇伋硕哑龅酵唐吠?,還會打包買一些東西,比如鍋盤墊與炒鍋蓋打包賣,所以這樣做會有準(zhǔn)確的問題。為了這種問題,我用了以下三種方法去噪:

  • 檢測上位關(guān)系是否沖突,鍋盤墊->餐具->餐墊,炒鍋蓋->鍋具->鍋蓋等

  • 用詞向量相似度

  • 用bert相似度計(jì)算分類判斷是否同義

用三種方法過濾后我們的準(zhǔn)確率達(dá)到94%。

4. 金融圖譜

知識圖譜在小米的應(yīng)用與探索

第二個行業(yè)落地場景,是客服團(tuán)隊(duì)金融圖譜在小米金融信貸及保險等業(yè)務(wù)的應(yīng)用。我們就業(yè)務(wù)場景中的身份核實(shí)的子功能舉例:

  • 碰撞識別主查核實(shí)多個用戶的公司地址是否為同一公司

  • 關(guān)聯(lián)方探查,是判斷申請貸人與信息是否一致

后面就是金融知識圖譜的框圖:

知識圖譜在小米的應(yīng)用與探索

除了商品及游戲及金融行業(yè)的應(yīng)用外,我們在更多的行業(yè)圖譜的落地及更多的通用圖譜的應(yīng)用場景也在持續(xù)探索中。

04
總結(jié)

簡單總結(jié)下,小米知識圖譜已構(gòu)建超百億的知識,落地10+的業(yè)務(wù)場景,擁有20+個技術(shù)能力,擁有成熟的自動化構(gòu)建流程,小米知識圖譜已有多個行業(yè)知識圖譜落地。最后,歡迎大家體驗(yàn)/使用小愛同學(xué)等小米的產(chǎn)品,也歡迎大家吐槽!

今天的分享就到這里,謝謝大家。

特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:

知識圖譜在小米的應(yīng)用與探索

知識圖譜在小米的應(yīng)用與探索

知識圖譜在小米的應(yīng)用與探索

長按訂閱更多精彩▼

知識圖譜在小米的應(yīng)用與探索

如有收獲,點(diǎn)個在看,誠摯感謝?????????????????????????????????????

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個人觀點(diǎn),不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉