www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 公眾號精選 > 架構師社區(qū)
[導讀]機器學習算法的不斷進步,搜索引擎巧妙的人機交互設計,分布式系統(tǒng)的革新讓搜索引擎在不知不覺中成為人們生活中不可或缺的一部分。同時,隨著人們新需求的不斷涌現(xiàn),搜索引擎也沒有停下變革的步伐。本文主要分享智能搜索在電商的應用探索,介紹如何構建一個好的電商搜索引擎。


? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

分享嘉賓:邢少敏?第四范式 架構師

編輯整理:劉員京

出品平臺:DataFunTalk

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

導讀: 機器學習算法的不斷進步,搜索引擎巧妙的人機交互設計,分布式系統(tǒng)的革新讓搜索引擎在不知不覺中成為人們生活中不可或缺的一部分。同時,隨著人們新需求的不斷涌現(xiàn),搜索引擎也沒有停下變革的步伐。本文主要分享智能搜索在電商的應用探索,介紹如何構建一個好的電商搜索引擎。主要內(nèi)容包括:
  • 為什么要做搜索
  • 整體的技術方案
  • 實際應用效果
01
電商搜索需求背景

首先,給大家分享下為什么要做搜索。

1. 被忽視、低估的搜索行為

如何構建一個好的電商搜索引擎?

在電商的app里,流量來自很多不同的渠道,比如說搜索、推薦、活動和直播等等。搜索,是電商app非常重要的一個流量入口,可能很多電商app來自搜索的流量都會占過半以上。對于需求明確的用戶主要還是通過搜索來觸達,對于需求不明確的用戶主要通過推薦。那么,對于搜索,因為需求比較明確,所以會更容易轉(zhuǎn)化。

2.?搜索用戶體驗痛點

如何構建一個好的電商搜索引擎?

一些電商巨頭其實已經(jīng)把搜索體驗做得非常好,但是一些體量較小的客戶依然做不好搜索體驗,所以這就給我們提供了市場機會。

3. 搜索痛點下的用戶流失

如何構建一個好的電商搜索引擎?

如果搜索做得不好,用戶搜索多次,瀏覽搜索結果超過一定時間或者翻頁幾次以后,都找不到結果,就會因為無法忍受搜索體驗而流失。

4. 智能搜索挖掘用戶行為數(shù)據(jù)價值

如何構建一個好的電商搜索引擎?

所以應該優(yōu)化搜索體驗,留住用戶,那應該如果做好智能搜索呢?可以通過用戶行為日志挖掘到很多有價值的數(shù)據(jù),從這些數(shù)據(jù)中找到豐富的特征,利用這些特征去將搜索流量的價值最大化。

5. 電商搜索舉例

如何構建一個好的電商搜索引擎?

一般情況下,對于搜索,除了我們經(jīng)??吹降娜ニ阉骺蚶锩媲靡恍╆P鍵詞來搜索以外,搜索還有其他場景,比如搜索發(fā)現(xiàn)、搜索建議、熱門搜索、猜你喜歡和搜索底紋,其實這些已經(jīng)不是單純的搜索,而是跟推薦相結合的場景。

6. 商品搜索?VS. 網(wǎng)頁搜索

如何構建一個好的電商搜索引擎?

日常生活中,最熟悉的網(wǎng)頁搜索和商品搜索有什么區(qū)別?可以從這幾個方面來分析:

  • 商品搜索和網(wǎng)頁搜索的優(yōu)化目標不一樣,網(wǎng)頁搜索主要是優(yōu)化網(wǎng)頁和搜索詞的相關性 ( 不考慮網(wǎng)頁搜索中的廣告點擊率優(yōu)化 );而商品搜索主要優(yōu)化目標是點擊率 ( CTR )、轉(zhuǎn)化率 ( CVR )、交易額 ( GMV ),兩者的優(yōu)化目標是有一些不同的。

  • 從數(shù)據(jù)結構方面來講,網(wǎng)頁搜索使用的是全網(wǎng)的非結構化數(shù)據(jù),需要額外的非結構化數(shù)據(jù)處理工作;而對于商品搜索,使用的是優(yōu)質(zhì)的結構化數(shù)據(jù),比起網(wǎng)頁搜索里面參差不齊的非結構化數(shù)據(jù),少了數(shù)據(jù)整理和處理的工作。

  • 從數(shù)據(jù)來源方面來講,網(wǎng)頁搜索使用的是整個互聯(lián)網(wǎng)的數(shù)據(jù),而商品搜索,往往是一家企業(yè)內(nèi)部的數(shù)據(jù),而且這些數(shù)據(jù)存儲在它的業(yè)務數(shù)據(jù)庫或者數(shù)倉里,相對來說數(shù)據(jù)是比較好處理的。

  • 從數(shù)據(jù)規(guī)模來講,網(wǎng)頁搜索使用的數(shù)據(jù)一般是萬億級的規(guī)模,有超過萬億的網(wǎng)頁,但是商品搜索的話,根據(jù)客戶規(guī)模的大小,商品的SKU數(shù)或者SPU數(shù)基本上是幾萬到幾千萬這個級別,與網(wǎng)頁搜索不在一個量級。

  • 從召回率來講,網(wǎng)頁搜索對召回率的要求不會太高,但是商品搜索對召回率的要求是很高的,因為不能讓一些商品永遠沒有曝光的機會,所以一定是需要讓所有的商品都有曝光的機會,商品搜索對于召回率的要求是很高的。

  • 從個性化程度來講,網(wǎng)頁搜索一般情況下也能做到個性化,通常像谷歌、百度等搜索公司在個性化上也會做一些工作,但是對個性化的要求并不高;而商品搜索對個性化的要求很高,比如搜索的時候,不同的人消費能力的不同,那么排序的時候,需要考慮把合適價格的產(chǎn)品返回給不同消費能力的人群。個性化要求的不同是網(wǎng)頁搜索和商品搜索的重要區(qū)別,這就決定了兩者技術實現(xiàn)的不同。

02
技術方案探索

接下來,介紹一下總體的技術方案。

如何構建一個好的電商搜索引擎?

技術架構圖主要分為三大塊,一塊是數(shù)據(jù),一塊是模型,一塊是搜索引擎本身,其中數(shù)據(jù)和模型是為搜索引擎服務的,會有數(shù)據(jù)接入的一些模塊,把客戶的數(shù)據(jù)接入到系統(tǒng)里面,放入數(shù)據(jù)中臺上去計算物料畫像、用戶畫像等等;接下來,需要用這些數(shù)據(jù)建一些模型,這些模型會在搜索引擎的各個環(huán)節(jié)中用到,比如意圖、召回、粗排、精排中各個環(huán)節(jié)都會用到;再往下,就是一些基礎的數(shù)據(jù)存儲中間件。我們主要圍繞著搜索引擎本身這個流程展開,最右側就是搜索引擎的流程,接下來我們從上往下來介紹一下整個搜索是如何做的。

1. Query預處理

如何構建一個好的電商搜索引擎?

當用戶在一個電商app上輸入搜索詞的時候,會先對搜索詞進行預處理,這種預處理就包括常見的去停止詞、歸一化、拼音轉(zhuǎn)文字、同義詞替換、分詞、補全、改寫和糾錯等等一系列的處理,然后把用戶搜索的不太規(guī)范或者不正確的query處理成規(guī)范形式和正確形式,并且做一些分詞、轉(zhuǎn)換的處理。

2. 實體識別

如何構建一個好的電商搜索引擎?

做完預處理之后,得到了用戶搜索詞分詞的結果,拿到這個分詞結果,要把分詞結果里面每一個詞識別成一個實體,什么是實體呢?在電商里面的實體類型其實有很多,這里列出了三種,有商品實體類型,礦泉水就是一種實體,屬于商品實體類型;農(nóng)夫山泉是品牌這種實體類型;飲用水是一種分類或者叫類目,這些都是實體類型,實體類型下面有具體的實體,實體就是礦泉水,農(nóng)夫山泉,所以需要知道輸入的詞到底是一個什么實體,比如說輸入“奧利奧餅干”,做完預處理之后,得到“奧利奧”和“餅干”兩個詞,這個時候就需要做實體識別,識別后可以知道“奧利奧”是一種品牌,“餅干”是一種商品,這樣就能做后續(xù)的處理。

實體識別是序列標注的一種,有很多種方法,像CRF、BERT之類的,都可以用來做實體識別,在工程上處理的時候不一定是在線使用這些算法,因為這些算法在線計算成本比較高,通常會進行離線計算,把計算出的結果放到緩存中,這樣在線只需要做一些簡單的匹配,處理會快很多,另外有時候還需要經(jīng)過一些人工糾正,這樣才能得到比較準確的實體詞。做實體識別有一些前提條件,怎么知道礦泉水是一種商品?農(nóng)夫山泉是一種品牌呢?這些知識其實是需要外部輸入才能知道,這就是領域知識,所以首先要積累一些領域知識。

① 領域知識積累

如何構建一個好的電商搜索引擎?

領域知識其實是不太好分析出來的,舉個例子,豬舌和口條其實是一回事,茭瓜和西葫蘆是一回事,這些知識,當然可以去分析,那如何分析?其實有很多現(xiàn)成的知識可以抓取過來利用,把它作為領域知識積累下來。這個領域知識有很多形態(tài),最簡單就是詞庫,也可以構建知識圖譜,構建知識圖譜是構建領域知識最常用的方式。

② 詞庫挖掘

如何構建一個好的電商搜索引擎?

詞庫如何構建,需要挖掘各種類型的詞,比如最常用的同義詞和上位詞,同義詞理解可以用前面舉的例子,茭瓜和西葫蘆是一回事,獲取同義詞有很多種方法,使用預訓練的詞向量方法去找共現(xiàn)關系可以大量的找到同義詞 ( 也就是類似word2vec的方法 ),但是找出來之后可能不太準確,需要后期處理一下才能使用。從百度百科上可以爬取到很多同義詞,以及業(yè)務運營數(shù)據(jù)庫和企業(yè)現(xiàn)有詞庫積累都可以找到同義詞,有各種各樣的方法去構建同義詞庫。

那么如何挖掘上位詞,舉例理解上位詞,比如商品類目就是具體商品的上位詞,礦泉水的上位詞就是飲用水。詞庫的構建是做搜索必要的工作,但是在構建詞庫的過程中,不一定是手工的過程,完全可以用其他的自動化方法甚至模型去篩選詞庫,最后再做一些人工糾正。

③ 商品知識圖譜構建

如何構建一個好的電商搜索引擎?

如何構建商品知識圖譜,我們可以構建很多種不同類型的知識圖譜,本文是根據(jù)不同實體來構建知識圖譜,比如按照三種實體類型來構建知識圖譜,像上圖最右側的示意圖,蘋果有很多種型號,如果用戶搜索蘋果,用戶有可能想買iPhone 11、iPhone X或者還是沒出來的iPhone 12,可以通過先驗知識,把知識圖譜構建出來,最后排序時可以把這些知識融入進去,比如用戶都更加傾向于去買iPhone X,后面排序的時候iPhone X就會更靠前一些。對于類目來說,搜索蘋果有可能是一個手機,也有可能是水果,那到底是想買手機還是想吃水果,是有一個概率的,不同用戶有不同的傾向性,但是目前我們構建的圖譜還不能做到特別個性化,它只是一個宏觀的統(tǒng)計,搜蘋果時有80%的用戶其實是要買蘋果手機的,有20%的用戶要買水果,這樣就給了我們一種排序的參考。知識圖譜其實是做了一個非個性化全局的知識構建,通過商品庫去分析靜態(tài)概率,最后根據(jù)用戶點擊行為會做一些動態(tài)調(diào)整,調(diào)整完的知識圖譜再用在后面的排序上。

3. 意圖識別

如何構建一個好的電商搜索引擎?

將用戶搜索詞做了預處理之后,基于分詞結果識別搜索詞對應的實體類型,可以知道用戶搜一個商品的時候,搜的是什么樣的實體,是一個品牌,還是一個商品名稱,還可以通過圖譜去猜測用戶的搜索意圖,如果他只輸一個蘋果,能猜出來很大概率上可能要買手機,也可以把其他實體類型也猜出來,猜完了以后,還是有一部分猜不出來,那猜不出來的這部分怎么辦呢,就要用意圖識別。

那么如何做意圖識別,使用用戶導入的物料庫自動的去訓練意圖模型,意圖識別就是去做類目預測,甚至去做一些字面沒有表達出來的其他實體類型的預測。在初始的物料庫里面,商品的各種屬性就是一些天然的標注數(shù)據(jù),使用這些標注數(shù)據(jù)去訓練一個初始的意圖模型,來預測隱含的實體類型,當這個初始模型訓練完成之后,再用搜索日志去動態(tài)調(diào)整這個意圖模型。

做完預處理、分詞、實體識別、基于知識圖譜的預測和意圖識別,能做到什么效果呢?能做到搜"手機",根據(jù)這個用戶的信息,就可以知道手機是一個商品名字,還可以猜出來具體商品,但是猜的可能不一定那么準,這個用戶可能有80%的概率要買蘋果手機,而且他買的這個蘋果手機可能是iPhone 11,還可能猜出來要買的顏色是紅色的。這樣在用戶輸入一個詞的時候,就能預測出他可能要搜的所有的信息,當然這個預測有時準有時不準,但后面會調(diào)整,這樣的話,就可以拿著這些信息去做一些召回。

如何構建一個好的電商搜索引擎?

意圖識別有哪些方法,意圖識別的方法有很多種,因為意圖識別本身用的就是分類器,分類器其實有好多種,但是經(jīng)過各種對比之后,我們選擇了能在線上使用的FastText,同等效果下,F(xiàn)astText是最快的,并且簡單高效,實用性高。

4. 粗排

如何構建一個好的電商搜索引擎?

做完前面的工作就開始做召回,從用戶搜索的一個詞通過一系列流程,通過知識圖譜 ( 其實知識圖譜放的是一些比較頭部的實體,但是長尾的實體詞還是需要意圖識別的方法來預測 ) 預測出了各種信息,拿著這些信息去構建召回的條件,用這個召回的條件去召回出來完整的結果集合,這個時候召回的工作就完成了。

召回的工作完成之后,接下來就是粗排,可以使用簡單的模型來粗排,這個模型里面的特征可以用相關性 ( 搜索和推薦不同,搜索一開始就會有相關性,但推薦就不會有相關性,推薦不會先輸入一些搜索詞 )、時間、熱度、銷量、好評數(shù)和收藏數(shù)等等特征,訓練出簡單的模型,做一些粗排的排序,進行截斷,進入下一個環(huán)節(jié),想要更簡單的話,可以找出核心的特征,做加權平均也可以。粗排還不能達到個性化的效果,當然也可以把粗排做得更個性化,可以根據(jù)不同搜索的用戶做個性化的粗排模型。

5. 精排

如何構建一個好的電商搜索引擎?

得到粗排結果以后,接下來就是精排,對于搜索來講,目前來講主要的優(yōu)化目標是CTR,用的主要是CTR預估方法,CTR預估有很多不同的方法,比如傳統(tǒng)的特征工程方法、深度學習方法等,也可以使用第四范式自研的HyperCycle。

如何構建一個好的電商搜索引擎?

特征工程方法主要是利用不同種類的多種特征,構建機器學習排序模型,上面列了幾組特征,有搜索詞特征、相關性特征、用戶特征、商品特征和行為特征等。

如何構建一個好的電商搜索引擎?

深度學習方法也是常用的CTR預估方法,有很多深度學習模型可以用于搜索場景的排序,比如DeepFM、Wide&Deep等。

如何構建一個好的電商搜索引擎?

我們系統(tǒng)中主要使用的是自研的HyperCycle。簡單來說會自動蓄水積累數(shù)據(jù)、自動探索模型、自動挖掘特征,自動訓練上線,還會定期自動更新,詳細信息可以參考后面石光川分享的HyperCycle。

6. 其他

如何構建一個好的電商搜索引擎?

搜索中會出現(xiàn)推薦相關的應用場景,像搜索底紋、搜索發(fā)現(xiàn)、搜索提示、猜你喜歡和相關搜索等等都和推薦相關。

搜索底紋就是搜索框里面唯一的那個詞,其實就是對搜索框top1的推薦,根據(jù)用戶的歷史行為,推薦出該用戶最有可能搜的詞匯取top1放在搜索底紋里,然后推薦給用戶,用戶看見這個底紋以后就有可能去搜這個底紋上的搜索詞,目的是希望引導用戶,猜出用戶想要搜什么,提高轉(zhuǎn)化率;搜索發(fā)現(xiàn)跟搜索底紋的原理差不多,只是有了更多推薦的搜索詞;搜索提示是在搜索中做一些推薦,相關搜索是在沒有搜索結果時做一些相關推薦;有的地方還會有猜你喜歡,猜你喜歡其實是一個純推薦的場景,當用戶打開搜索頁面時,去猜用戶最想要搜索的是什么,然后推薦給用戶。這些其實都是搜索中的推薦,搜索中的流量和推薦中的流量是完全可以打通的。

如何構建一個好的電商搜索引擎?

以上,逐個講了整個搜索的流程,那么現(xiàn)在分步的去看搜索一個詞時是怎樣的過程。第一步會先輸入搜索詞"康師傅方便面",第二步預處理,預處理會做一些事情,首先是分詞,之后會算出來該搜索詞可能的實體類型,比如康師傅是一個品牌,它識別出康師傅是一個品牌,方便面可能是一種修飾語,也可能是一種類型,還有一些同義詞:袋裝面、桶裝面和泡面,做完第二步的處理,會拿到這樣一些處理結果;第三步意圖識別,可以看到有96%的概率所屬類目是糧油調(diào)味;

如何構建一個好的電商搜索引擎?

第四步構建一個搜索query,從ES召回結果;第五步拿到ES召回的結果之后,做粗排并截斷;第六步做精排;最后做基于業(yè)務規(guī)則的運營干預,把最終的搜索結果返回給用戶,以上就是完整的技術流程。

03
應用案例和效果

最后,我們看看搜索技術方案應用案例,分析產(chǎn)生的效果。

如何構建一個好的電商搜索引擎?

在一些零售企業(yè)場景應用之后搜索結果準確率提升了50%,整個商品的覆蓋率提高了3倍,解決了客戶的搜索體驗痛點。

如何構建一個好的電商搜索引擎?

這是上線前后搜索結果的對比,沒上線前搜索"蘋果"時,排在前面并不是蘋果,上線智能搜索之后,搜索結果都是"蘋果"相關的。

如何構建一個好的電商搜索引擎?

按品類搜索,優(yōu)化前搜索"水",Top 5返回了"豐水梨"、"柔膚水"等完全不相關產(chǎn)品,優(yōu)化后搜索"水",Top 5返回是和水緊密相關商品。

如何構建一個好的電商搜索引擎?

按品牌搜索,優(yōu)化前搜索"安慕希",Top 5返回了"希藝歐"完全不相關商品,優(yōu)化后搜索"安慕希",Top 5返回是和品牌緊密相關商品。

如何構建一個好的電商搜索引擎?

按同義詞搜索,優(yōu)化前搜索"圣女果",Top5返回了"果汁飲料"、"芒果味果凍"毫不相關的商品,優(yōu)化后搜索"圣女果",Top5返回是和圣女果緊密相關商品。

如何構建一個好的電商搜索引擎?

優(yōu)化后,可以進行智能糾錯和拼音搜索,比如搜索 "平果"、"pingguo" 和 "pinguo" 時,都能準確搜索出蘋果相關的商品。

嘉賓介紹:

邢少敏,17年加入第四范式,一直在做業(yè)務產(chǎn)品的研發(fā),最初做智能客服系列產(chǎn)品,去年孵化了智能搜索產(chǎn)品,今年同時在做智能推薦產(chǎn)品的研發(fā)。

今天的分享就到這里,謝謝大家。

特別推薦一個分享架構+算法的優(yōu)質(zhì)內(nèi)容,還沒關注的小伙伴,可以長按關注一下:

如何構建一個好的電商搜索引擎?

如何構建一個好的電商搜索引擎?

如何構建一個好的電商搜索引擎?

長按訂閱更多精彩▼

如何構建一個好的電商搜索引擎?

如有收獲,點個在看,誠摯感謝

免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉