阿里飛豬搜索技術(shù)的應(yīng)用與創(chuàng)新
分享嘉賓:林睿 阿里飛豬
編輯整理:杜正海、Hoh
出品平臺:DataFunTalk
導(dǎo)讀:旅行場景的搜索起初是為了滿足用戶某種特定的強(qiáng)需求而出現(xiàn)的,如機(jī)票、火車票、酒店等搜索。這些需求有著各自不同的特點(diǎn),傳統(tǒng)的旅行搜索往往會對不同業(yè)務(wù)進(jìn)行定制化搜索策略。隨著人工智能技術(shù)的不斷發(fā)展,用戶對產(chǎn)品的易用性提出了更高的要求。旅行場景的搜索逐漸發(fā)展為一個(gè)擁有旅行定制搜索策略的全文檢索引擎。本文將為大家介紹阿里飛豬在旅行場景下搜索技術(shù)的應(yīng)用與創(chuàng)新,主要內(nèi)容包括:
-
豬搜背景
-
基礎(chǔ)建設(shè)
-
召回策略
-
思考總結(jié)
1. 飛豬搜索
飛豬搜索業(yè)務(wù)分為兩大部分:一是全局搜索,二是行業(yè)小搜。右邊飛豬界面的全局搜索就是最上方的輸入框。直接對應(yīng)飛豬內(nèi)部所有內(nèi)容的搜索入口,都可以從全局搜索獲得。右圖中間部分就是產(chǎn)業(yè)小搜的垂直入口。比如搜索酒店機(jī)票和旅游度假產(chǎn)品,一般用戶會使用行業(yè)小搜,垂直搜索需求。隨著飛豬業(yè)務(wù)的發(fā)展,以及用戶需求的變化,流量會從行業(yè)小搜逐漸遷移到飛豬的全局搜索上。主要是因?yàn)椋?/span>
-
旅游行業(yè)是一個(gè)跨類目的需求。用戶天然的需要定機(jī)票、酒店以及一些網(wǎng)絡(luò)的門票,如果全部通過垂直搜索,需要進(jìn)行多次點(diǎn)擊,對用戶來說不是很方便。
-
飛豬很多流量是由手淘引流過來的,手淘是一個(gè)全局的搜索。所以用戶會習(xí)慣性的使用全局搜索來滿足他的需求。
-
對用戶來說,用全局搜索的操作是最方便的,路徑最短。
2. 豬搜框架
豬搜框架如圖所示,首先通過調(diào)用QP來獲得當(dāng)前的Query理解,以及需要召回的Query生成,然后通過SP分頁服務(wù)調(diào)用HA3倒排索引來獲取召回的結(jié)果。通過粗排序和加權(quán)排序?qū)⒔Y(jié)果通過LTP服務(wù)做重排序,最后將得到的結(jié)果展示給用戶。這里主要介紹下QP的工作。
3. QP
QP即Query理解與召回生成服務(wù)。在這個(gè)服務(wù)中,我們面臨的挑戰(zhàn)主要有:
-
性能限制:在業(yè)界,通常QP階段只占用整個(gè)線上響應(yīng)時(shí)間的1/10。所以,對性能要求比較高,響應(yīng)時(shí)間不能過長,需要提供良好的線上服務(wù)體驗(yàn)。
-
文本理解:我們的QP和其他的全局搜索QP一樣,也需要做傳統(tǒng)的文本理解,提供文本相關(guān)性的能力。
-
獨(dú)有挑戰(zhàn):在旅行場景下,會有一些特殊的要求。比如LBS與POI的理解能力,能夠提供空間上的相關(guān)性。
-
特征理解:從業(yè)務(wù)發(fā)展角度,我們還需要用戶特征的理解,可以提供個(gè)性化的相關(guān)性,來滿足用戶的需求。
接下來,為大家介紹下飛豬在具體基礎(chǔ)建設(shè)上的一些工作。
1. Query tagging
Tagging是QP中的一個(gè)基礎(chǔ)任務(wù)。負(fù)責(zé)的功能是把一個(gè)query 打出目的地和意圖。舉個(gè)例子,“北京自由行”中“北京”就是用戶的目的地,“自由行”是用戶的意圖需求,可以看出用戶希望的是一個(gè)自由行的商品,而不是跟團(tuán)游這類的產(chǎn)品,可能會更希望獲得一些機(jī)票+酒店或者是無購物的產(chǎn)品。
這里的工作,主要分為以下幾層:
-
數(shù)據(jù)層:通過離線挖掘出tagging詞庫。
-
算法層:通過Tag消歧、CRF等算法進(jìn)行在線打標(biāo)工作。
-
應(yīng)用層:在tagging上的一些應(yīng)用,如query丟詞和query改寫。
由于線上性能的限制,我們主要依賴于離線的挖掘。這里以我們內(nèi)部比較重要的商品POI挖掘?yàn)槔?,來介紹下我們離線挖掘tagging 的工作。
2. 商品POI挖掘
① QueryTagging
POI的挖掘除了商品title 可能會有一些景點(diǎn)信息外,詳情也會包含大量的信息。因此,我們需要從這些內(nèi)容中挖掘出有價(jià)值的信息,來擴(kuò)充詞表。例如圖中的景點(diǎn)POI,可以用作索引參與召回,但是詳情是非結(jié)構(gòu)化的HTML文本,要挖掘POI實(shí)體,會有比較大的難度。
② 建模方式
我們采用了典型的序列標(biāo)注問題來解決這個(gè)問題。我們通過一些特征,如詞特征、數(shù)字特征、類目特征,進(jìn)行篩選,通過人工標(biāo)注來訓(xùn)練我們的CRF++模型。后續(xù)我們還升級成了Template下的模型來訓(xùn)練NER模型,使我們可以在離線,對接了大量的文本數(shù)據(jù),進(jìn)行序列標(biāo)注。最終,我們達(dá)到了99%以上的準(zhǔn)確率,召回率也超過95%。擴(kuò)充了大量的沒有挖掘出POI商品/POI特征的度假商品,使它們產(chǎn)生了POI的特征,可以更好地為后續(xù)的POI及檢索做出服務(wù)。
3. 同義詞挖掘
在旅行行業(yè),存在四種類型的同義詞:
-
翻譯類:如“迪斯尼”,可能有不同的中文描述方式
-
中英文詞:有的用戶用英文來描述,而有的用戶用中文來表述,但是商家描述的title是英文
-
包含關(guān)系:比如“普吉”和“普吉島”,可能“普吉”這個(gè)POI是“普吉島”這個(gè)大POI下的子POI
-
錯別字:比如“國色天香”,在圖中應(yīng)該是“國色天鄉(xiāng)”
我們希望可以用一個(gè)通用的模型來解決這種同義詞關(guān)系。
我們的辦法是基于用戶點(diǎn)擊行為,拼接query和商品title,使得query和title中的詞形成上下文,然后基于word2vec的skip-gram模型,得到每個(gè)詞的詞向量,并基于語義相似性,產(chǎn)生每個(gè)詞top 20的候選,同時(shí)將問題轉(zhuǎn)換為二分類問題。
另外,在特征工程上,我們會利用中英文的編輯距離、共現(xiàn)數(shù)目以及是否包含關(guān)系、余弦相似度等來構(gòu)建特征。
然后,我們通過人工標(biāo)注來構(gòu)建正樣本,負(fù)樣本按照編輯距離倒排隨機(jī)采樣,使用LR模型和XGBoost對標(biāo)注好的樣本進(jìn)行二分類。
最后,我們還會經(jīng)過一層人工審核,因?yàn)橥x詞的影響面積比較大,如果直接通過算法挖掘,在線上的效果可能不會特別好。所以我們沒有采用復(fù)雜的模型,只是夠用就可以了。這樣在萬級別的人工標(biāo)注上,我們的準(zhǔn)確率可以達(dá)到94%。
4. 糾錯
① 背景
對于糾錯,剛才提到了詞級別的錯誤,事實(shí)上,整個(gè)Query中也會出現(xiàn)一些錯誤。只用詞級別的糾錯,不能滿足用戶需求,需要一個(gè)全query糾錯邏輯。
由于QP階段對性能要求很高,現(xiàn)在業(yè)界常用的seq2seq方法,雖然效果很好,但整體性能不達(dá)標(biāo)。我們可以在離線利用seq2seq來挖掘高頻的信息,但在線上很難應(yīng)用seq2seq的方法來做糾錯。
② 方案
我們的方案是采用傳統(tǒng)的隱馬爾科夫模型,基于統(tǒng)計(jì)的方式來做,能夠達(dá)到線上的性能要求。將錯誤分為同音字與形近字,可以獲得比較強(qiáng)的可解釋性。
-
同音字:因?yàn)闈h字都可以查到拼音碼表,我們可以很容易的構(gòu)建一個(gè)同音字的集合,然后通過一些統(tǒng)計(jì)的方式,就能獲得同音詞生成概率。
-
形近字:比較難獲得,因?yàn)楹茈y判斷兩個(gè)字是否有些相似。我們這里,通過字體圖像和字體結(jié)構(gòu)來解決的。
③ 基于圖像
說到基于圖像的方式,最直接的方式就是基于CNN圖像網(wǎng)絡(luò)的匹配算法。但是出于性能方面的考慮,這種方法的效果往往達(dá)不到我們的性能要求,所以我們采用了一個(gè)比較簡單且有效的方法,就是我們直接對兩個(gè)可能形近的字的圖像進(jìn)行計(jì)算。對形近字而言,我們在標(biāo)準(zhǔn)的字體庫中,發(fā)現(xiàn)它有兩個(gè)特點(diǎn):
如鳥和烏兩個(gè)字,在字體庫里的圖直接對比,它們的重合度是非常高的,由于字體庫里的字,它的標(biāo)準(zhǔn)化程度是很高的,可以通過這種方式來進(jìn)行計(jì)算。我們這里基于圖像的方式,就是采用我們對字體庫里的兩個(gè)字來進(jìn)行每個(gè)點(diǎn)的一個(gè)具體的計(jì)算。
另外,對于鳥和烏這個(gè)字,鳥這個(gè)字的每一個(gè)點(diǎn)在烏字上找到和它最近的一個(gè)點(diǎn),作為這兩個(gè)點(diǎn)相似度,那對于每一個(gè)點(diǎn),我們都可以找到一個(gè)距離,然后通過求和的均值計(jì)算,我們就可以得到這個(gè)兩個(gè)字距離的相似度。
通過離線對兩個(gè)字以各自的圖像進(jìn)行計(jì)算,那就可以獲得比較相似的一些字。
④ 基于字體結(jié)構(gòu)
另外,我們還會通過字體結(jié)構(gòu)的方式來進(jìn)行計(jì)算。像倉頡、鄭碼、四角號碼的編碼,是基于這個(gè)字的情況來做的編碼。對于倆個(gè)形近字,它們的倉頡碼、鄭碼、四角號碼往往也會比較相似。所以,我們通過序列的相似計(jì)算,可以獲得這兩個(gè)形近字的相似度,然后通過相似度進(jìn)行閾值計(jì)算,就可以得到字形相似的集合。
接下來為大家介紹下飛豬在召回策略上的一些技術(shù):
航旅召回跟常用的搜索召回有相似的地方,也有不同,面臨的挑戰(zhàn)主要有:
-
用戶query和商品描述之間存在GAP
-
航旅商品僅百萬級,而且城市分割,很容易造成無結(jié)果
-
召回優(yōu)化時(shí),很容易導(dǎo)致誤召回
-
旅行是低頻行為,用戶行為稀疏,算法樣本較少
鑒于這種情況,我們對用戶的召回分成了以下四種召回方式:經(jīng)典召回(同義詞挖掘、相似query改寫、商品POI挖掘)、LBS召回、向量召回、個(gè)性化召回(I2I&U2I以及向量模型),來滿足用戶的需求。
1. 經(jīng)典召回
剛剛已經(jīng)介紹過同義詞挖掘和商品POI挖掘,這里主要介紹下相似query改寫。以“上海迪士尼樂園門票”為例,其實(shí)標(biāo)準(zhǔn)的商品是“上海迪士尼度假區(qū)”,而“黃山風(fēng)景區(qū)”的標(biāo)準(zhǔn)商品其實(shí)是“黃山”。在這樣的情況下,如果我們直接創(chuàng)建搜索,可能召回的效果比較差。因而,我們會進(jìn)行一些相似query挖掘,來滿足這種query和title GAP的情況。
Learning To Rewrite:
我們思路是使用多路改寫產(chǎn)生候選集合,然后用learning to Rank 選取top K結(jié)果。
首先假設(shè)用戶在篩選中輸入了query,這個(gè)query是比較相似的。因?yàn)橛脩粼诤Y選中是想要獲得他想要的結(jié)果。如果用戶第一個(gè)query,沒有得到想要的結(jié)果,用戶會進(jìn)行一些改寫。就相當(dāng)于用戶幫助我們完成了一次改寫,我們從中可以學(xué)到用戶改寫的信息。這里我們是用類似word2vec的模型實(shí)現(xiàn)的。
另外,從query相似度來看,我從文本上也可以獲得一個(gè)相似的query文本。這里我們采用的是doc2vec模型,來獲得文本相似性。
最后,通過query和title點(diǎn)擊,可以訓(xùn)練一個(gè)雙塔結(jié)構(gòu)的語義相似度模型,來獲得query和title相似性的特征。
通過這三種方式,我們可以獲得想要的相似query改寫的候選。
對于候選,通過一些人工標(biāo)注及線上的埋點(diǎn)信息,來獲得原query和候選query相似的標(biāo)注。這樣我們就可以訓(xùn)練一個(gè)模型來進(jìn)行相似query的排序工作。
最終,我們線上使用的模型是PS-SMART 模型。加上規(guī)則過濾之后,準(zhǔn)確率可以達(dá)到99%??梢杂绊懢€上36%的PV,對一次UV的無結(jié)果率可以相對降低18%。
2. 航旅特色召回:LBS召回
由于用戶是在旅行場景下搜索,用戶天然會需要LBS 相關(guān)的信息。如果是差旅用戶,可能會定阿里巴巴園區(qū)附近的酒店,如果是旅游用戶,可能會定黃山風(fēng)景區(qū)附近的酒店。這就需要識別用戶想要的商品大概在什么樣的LBS范圍內(nèi)。解決的方法是通過對query中用戶POI的識別,獲取用戶的經(jīng)緯度,進(jìn)行召回上的限制。
建模過程:
首先會對query進(jìn)行常規(guī)的分詞,然后在POI專用的倒排索引庫進(jìn)行檢索,獲得候選POI。接下來對候選POI query進(jìn)行特征計(jì)算,計(jì)算出文本相似性、embedding相似距離,以及用戶當(dāng)前位置輸入后,與歷史點(diǎn)擊的商品地點(diǎn)的距離做特征。然后用特征構(gòu)建模型算出一個(gè)分?jǐn)?shù),通過一定的閾值得到結(jié)果。
最后,我們的準(zhǔn)確率可以達(dá)到95%,GMV和成交都得到了一定的提升。
3. 深度召回:向量召回
① 背景
前面提到的都是一些簡單的文本召回,以及LBS召回等偏傳統(tǒng)的方法。前面說過,我們的商品按照目的地切換后,還是很稀疏,還會存在無召回的情況。對于這種情況,我們想到引入向量召回的方式進(jìn)行補(bǔ)充召回??梢愿采w改寫沒有的情況,可以召回一些原來不能召回的產(chǎn)品。
② 向量召回整體架構(gòu)
向量召回架構(gòu)如上圖。在線通過對query 進(jìn)行embedding。離線通過HA3引擎,把所有的item embedding存儲到HA3引擎中。最后,SP通過從QP獲得query embedding,進(jìn)行HA3檢索,獲得需要的商品。
③ 模型結(jié)構(gòu)
模型結(jié)構(gòu),如上所示:
-
query側(cè):通過對query的文本,進(jìn)行卷積層特征抽取。
-
商品側(cè):我們主要的工作在這里,除了文本上對用戶目的地的需求,對商品類目的需求也是比較關(guān)注的。所以在商品特征上,使用了商品title文本的卷積特征,以及目的地類目id 的特征。
對這三個(gè)特征,我們沒有使用簡單的concat,而是使用了tensor fusion進(jìn)行三個(gè)向量的外積,可以讓特征更好的融合。
最后,通過全鏈接層進(jìn)行特征抽取,計(jì)算向量內(nèi)積。
對于損失函數(shù),我們使用的large margin loss。對于學(xué)的足夠充分的case ,就丟棄掉,不再進(jìn)行學(xué)習(xí),讓模型更快的達(dá)到我們想要的效果。
④ 樣本選擇
在樣本選擇上,我們對正負(fù)樣本也做了一些探索。
集團(tuán)內(nèi)通用的方法:
-
正樣本:query下用戶點(diǎn)擊的商品
-
負(fù)樣本:未點(diǎn)擊的商品
這樣的方法更適合在排序上使用,而不太適合召回。以左圖為例,用戶點(diǎn)擊了“上海迪士尼度假區(qū)”,未點(diǎn)擊的是下面的商品,雖然可能是由于商品的標(biāo)題標(biāo)準(zhǔn)化比較低,用戶未點(diǎn)擊,但不能說它是不相關(guān)的商品。
我們的方法:
-
正樣本:和集團(tuán)一樣,使用點(diǎn)擊的商品
-
負(fù)樣本:隨機(jī)選取的樣本作為負(fù)樣本
使用隨機(jī)選擇有兩方面:一是在全量商品中,進(jìn)行隨機(jī)選擇;二是在一個(gè)類目或者目的地下,進(jìn)行隨機(jī)選擇。這樣可以提升訓(xùn)練的難度,達(dá)到我們想要的效果。
⑤ 模型產(chǎn)出與使用方式
最終產(chǎn)出的分?jǐn)?shù),也給排序使用了,作為排序的一個(gè)特征,取得了不錯的效果,可以排在第4位。另外,線上召回可以讓無結(jié)果率降低32.7%。同時(shí),擴(kuò)充了1.7倍的相似query。
4. 個(gè)性化召回
為什么做個(gè)性化召回?
因?yàn)樵诼眯袌鼍跋?,會存在一些泛需求搜索。比如搜杭州,我們會對杭州所有的商品和酒店進(jìn)行召回。這樣大量的召回會給后面的排序造成很大的壓力,沒辦法根據(jù)用戶的query排出一個(gè)用戶想要的item。
另外,還有一種情況是用戶搜索的意圖不是很明確,可能會存在一些無結(jié)果的情況。對于這種情況,傳統(tǒng)的文本相似性、深度召回都無法召回的情況下,可以嘗試個(gè)性化的方式,給用戶推薦一些商品,直接展示在搜索結(jié)果中,提供補(bǔ)充,來提升用戶體驗(yàn)。實(shí)踐證明,用戶也會對這類商品進(jìn)行點(diǎn)擊和購買。
我們的方案有兩種方式:
-
引入推薦的召回結(jié)果,在此基礎(chǔ)上進(jìn)行相關(guān)性粗排,得到個(gè)性化召回
-
構(gòu)建了個(gè)性化專用的向量召回模型,來得到更好的個(gè)性化召回結(jié)果
整體的方式是將召回池分為個(gè)性化召回和文本召回兩路:
-
個(gè)性化召回:通過推薦的重定向、i2i 、lbs2i以及屬性2i等方式,來獲得推薦召回結(jié)果。
-
文本相關(guān)性過濾:通過文本相關(guān)性的過濾(如關(guān)鍵詞命中和向量cos相似度),把推薦召回和當(dāng)前用戶搜索query很不相關(guān)的item過濾掉,展現(xiàn)給用戶比較相關(guān),也是通過用戶i2i擴(kuò)展的結(jié)果。
個(gè)性化召回模型:
-
在用戶側(cè),通過用戶畫像屬性和用戶的query,進(jìn)行特征抽取。另外,我們引入了用戶操作序列,來達(dá)到個(gè)性化目的。比如用戶最近搜索時(shí),查看的商品、點(diǎn)擊的商品、加購的商品以及成交的商品,這些操作的商品序列,引入到模型中。然后通過用戶畫像和用戶query特征向量,對用戶歷史操作序列做attention,就能夠從用戶操作序列中取出跟用戶當(dāng)前搜索最相關(guān)的商品特征,來滿足用戶當(dāng)前搜索的需求。
-
在商品側(cè),也會引入商品特征。如商品title、商品目的地、商品類目等特征,作為商品的優(yōu)選,然后獲得一個(gè)向量。
-
在上層,我們采用剛剛提到的tensor fusion來進(jìn)行特征融合,讓不同的特征更好的融合。
模型優(yōu)化:
在深度向量召回上,對文本的特征采用卷積模型進(jìn)行抽取。這里并沒有采用卷積,而是采用了簡單的詞向量concat 方式。這是因?yàn)橥ㄟ^實(shí)驗(yàn)驗(yàn)證,使用卷積學(xué)到的文本特征比較強(qiáng),整體的個(gè)性化效果比較弱,這不是我們希望見到的。所以我們采用了減弱文本特征的限制,突出個(gè)性化特征帶來的額外檢索效果。
最后,是我們對工作的思考總結(jié):
1. Query & User Planer
現(xiàn)在我們還是叫QP,后續(xù)我們希望升級成Query & User Planer,能夠更多的融合用戶特征,增加更多的個(gè)性化搜索能力。
2. 可解釋性升級
我們希望對搜索的可解釋性進(jìn)行升級,不是簡單的用文本或者深度向量直接進(jìn)行召回。我們希望對用戶的意圖,進(jìn)行更多維度、更細(xì)力度的理解,能夠直接理解成人類可讀的意圖。
另外,我們希望對用戶的行為做預(yù)測。因?yàn)橛脩?/span>搜杭州時(shí),可能根據(jù)歷史點(diǎn)擊推出來的商品也不能滿足用戶需求。我們后續(xù)希望對這類query,能夠預(yù)測出用戶想去的景點(diǎn)。當(dāng)用戶搜酒店時(shí),可以預(yù)測出用戶想去的目的地,更好的滿足用戶需求。
今天的分享就到這里,謝謝大家。
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!