www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 公眾號精選 > 架構師社區(qū)
[導讀]來自:DataFunTalk 導讀:隨著科學技術的飛速發(fā)展,互聯(lián)網(wǎng)被廣泛應用于各個領域,而以互聯(lián)網(wǎng)為基礎的招聘模式也越來越受到企業(yè)的青睞。互聯(lián)網(wǎng)招聘具有不受地域限制、覆蓋面廣、招聘成本低、針對性強、方便快捷、時效性強等優(yōu)點,現(xiàn)已得到廣泛應用,其中,58招

如何從 0 到 1 構建個性化推薦?
來自:DataFunTalk

導讀:隨著科學技術的飛速發(fā)展,互聯(lián)網(wǎng)被廣泛應用于各個領域,而以互聯(lián)網(wǎng)為基礎的招聘模式也越來越受到企業(yè)的青睞?;ヂ?lián)網(wǎng)招聘具有不受地域限制、覆蓋面廣、招聘成本低、針對性強、方便快捷、時效性強等優(yōu)點,現(xiàn)已得到廣泛應用,其中,58招聘是互聯(lián)網(wǎng)招聘行業(yè)中規(guī)模最大的平臺。今天主要跟大家分享下58招聘如何通過個性化推薦技術服務大規(guī)模求職者和招聘企業(yè)。分享題目是從零到一構建58招聘個性化推薦,主要通過以下三方面進行介紹:

  • 招聘業(yè)務介紹

  • 個性化推薦實踐

  • 心得分享與規(guī)劃

——招聘業(yè)務介紹——

1. 58招聘業(yè)務簡介

如何從 0 到 1 構建個性化推薦?

2018年我國全國總人口13.9億多,其中就業(yè)人口7.7億,招聘基數(shù)龐大。三大產業(yè)就業(yè)人口占比分別26.11%,27.57%,46.32%,其中第三大產業(yè)占比最大,部分發(fā)達國家第三大產業(yè)占比已達到70%~80%,隨著經(jīng)濟的發(fā)展,我國未來就業(yè)市場和就業(yè)分布將發(fā)生大的變化。2019年8月城鎮(zhèn)調查顯示我國失業(yè)率為5.2%,其中25~59歲失業(yè)率4.5%,同時每年有800多萬的應屆生加入就職市場。58招聘作為我國互聯(lián)網(wǎng)招聘行業(yè)之首,每天服務于千萬級求職者和大中小企業(yè),平臺每天生成千萬級連接,促成大量求職者求職成功。

58招聘平臺主要服務于求職者和招聘方,接下來主要通過求職者的角度介紹用戶在整個平臺流轉的大致流程,具體如下:

  • 基于求職偏好搜索職位并點擊查看詳情。

  • 投遞有意向職位,或通過平臺在線微聊工具、電話與招聘方做進一步溝通。

  • 雙方達成共識后,進行面試與入職。

相比傳統(tǒng)推薦系統(tǒng),58招聘的業(yè)務漏斗更長更深,并且有一部分轉化平臺無法完全捕捉,形成了58招聘個性化推薦開展的難點及挑戰(zhàn)。

2. 58招聘推薦場景類型

如何從 0 到 1 構建個性化推薦?

58招聘推薦場景主要面向 C 端求職者和 B 端企業(yè),推薦內容主要包括:職位推薦、標簽推薦、企業(yè)推薦、簡歷推薦。

C 端求職者的典型推薦場景包括:

  • App 首頁招聘大類頁:主要包括職位專區(qū)聚合、職位 Feed 流。

  • 類目推薦: 用戶點擊某個類目后,進行相關職位推薦。

  • 相似推薦: 用戶點擊某個具體職位后,在下方展現(xiàn)相似職位。

3. 58招聘推薦主要問題

如何從 0 到 1 構建個性化推薦?

58招聘推薦相對其它行業(yè)主要存在以下典型問題:

  • 海量數(shù)據(jù)計算:大多數(shù)公司都存在,此處不做詳細說明。

  • 冷啟動問題: 58同城服務于多業(yè)務,包括招聘、房產、黃頁、二手等,求職者進入招聘板塊使用招聘功能,由于當前不強制用戶填寫簡歷,導致無簡歷用戶冷啟動問題。

  • 稀疏性&實時性:58招聘的一部分群體為藍領用戶,他們在平臺產生的行為是短時間的、連續(xù)的以及稀疏的,可能活躍兩天找到工作后就不再活躍。其次,有些用戶回到平臺,求職意愿可能會發(fā)生變化,一部分可能想找別的工作(如之前是服務員,現(xiàn)在想找快遞),另一部分可能是因為傳統(tǒng)職業(yè)存在職位進階的過程,這些都需要系統(tǒng)思考。

  • 資源分配問題:第一,如何有效識別(企業(yè),求職者)的真實意圖,進而合理分配資源產生有效連接,針對不良意圖進行差異化對待。第二,招聘對于 C 端和 B 端都是有限的資源,招聘方招聘職位有限,求職者與招聘方交互有限,很大程度上不同于淘寶推薦,因為后者的商品是無限供應的。

——招聘個性化推薦實現(xiàn)——

1. 58招聘個性化推薦實現(xiàn)

如何從 0 到 1 構建個性化推薦?

58招聘個性化推薦的實現(xiàn)過程與大多數(shù)公司推薦模塊基本相似,包括用戶意圖理解、內容召回、內容排序、內容展示四個核心模塊。下面將結合業(yè)務特性,介紹每個模塊實現(xiàn)的關鍵點。

2. 如何理解用戶?

如何從 0 到 1 構建個性化推薦?

58招聘用戶理解主要通過“言”和“行”識別用戶真實意圖,重點關注的屬性主要包括招聘領域求職意向、用戶個人屬性以及外在形象(如上圖左邊)。圍繞求職者與招聘方在平臺產生的內容及行為,我們構建了相應的知識圖譜和用戶畫像。

2.1 無誠意用戶識別

如何從 0 到 1 構建個性化推薦?

在理解用戶之前,我們首先需要識別出無真實招聘/求職意圖的用戶,并進行差異對待。如頻繁發(fā)布包含聯(lián)系方式的導流信息、發(fā)布高薪誘惑等惡意虛假信息等,將用戶引導至平臺外進行轉化。針對以上業(yè)務我們總結了一些特點,主要表現(xiàn)為:

  • 暴露聯(lián)系方式

  • 內容不成句

  • 高薪誘惑

  • 在平臺很“活躍”

針對以上業(yè)務特點,我們主要的識別方法包括:

  • 傳統(tǒng)的關鍵詞+正則識別方法,如針對"微信"、"QQ"這類聯(lián)系方式的相關關鍵詞等。

  • 針對變形聯(lián)系方式,基于拼音+滑動窗口進行識別。

  • 采用命名實體 NER 識別進行挖掘,如 BiLSTM+CRF。

  • 采用相關分類算法進行識別,如 fastText,CNN。

在無誠意用戶識別過程中,我們總結了以下心得:

  • 舉一反三:問題用戶識別是典型的對抗場景,策略構建時需要更多思考對抗能力的刻畫,將一些強對抗能力的特征加入到模型中(如文字變形、文字轉拼音)。

  • 剛柔并濟:差異化懲處不同問題類型的用戶。對平臺其他用戶傷害巨大的群體,結合法律手段嚴厲懲處;處于問題邊界的,則主要通過較柔和的方式處理(如內容展示降權),減少劇烈對抗現(xiàn)象的產生。

2.2 知識圖譜構建

如何從 0 到 1 構建個性化推薦?

知識圖譜是一個非常復雜的系統(tǒng),包括多元異構數(shù)據(jù)搜集->知識獲取->知識融合表示->知識推理->知識管理多個部分,主題及時間因素,我們重點介紹下在 NER 方面的探索。招聘業(yè)務場景含有大量的文本內容,通過 NER 技術能夠有效提取文本中的關鍵信息,進一步提高系統(tǒng)的結構化理解能力。

NER 開展經(jīng)歷了兩個階段:

  • 第一階段:基于平臺已有的部分結構化實體詞,以及不少半結構化組織的職位描述基礎,我們采用 bootstrap 方法,快速迭代進行挖掘,并結合半人工標注,為深度學習構建更完整的樣本數(shù)據(jù)集。

  • 第二階段:將第一階段的內容作為 input,核心采用 BiLSTM+CRF 構建實體識別深度網(wǎng)絡,有兩個優(yōu)化點取得了較好效果。第一個是輸入層基于字到詞的優(yōu)化,構建招聘領域的專有詞庫。第二個是采用訓練樣本增強技術,將相近實體詞和同類實體詞進行替換擴大樣本集,并將模型識別的結果有選擇的放回訓練集重新進行迭代訓練,減弱對標注數(shù)據(jù)集的依賴。目前命名實體識別仍在不斷優(yōu)化,識別準確率平均達到0.75+,部分準確率可達到0.9+。

2.3 構建用戶畫像

如何從 0 到 1 構建個性化推薦?

用戶畫像是個性化推薦系統(tǒng)的基礎模塊,決定了對用戶意圖理解的準確與否?;跇撕瀭鬟f思想,我們通過統(tǒng)計規(guī)則、傳統(tǒng)分類模型和深度模型多種算法結合捕獲用戶行為的興趣表達,構建長短期用戶畫像。

  • 基于統(tǒng)計規(guī)則:通過窗口形式,近實時對用戶畫像進行計算更新,計算時加入時間衰減因子、行為權重因子及標簽置信度權重。深刻理解業(yè)務場景,進行合理數(shù)學設計是關鍵。如信息列表頁的點擊數(shù)據(jù),在使用時要差異化處理列表頁直接展示的顯性標簽及隱藏在詳情頁的興趣標簽,避免人為引入噪音。

  • 基于傳統(tǒng)分類預測:采用分類算法,應用到用戶屬性填充、異常用戶/行為識別及用戶分類多個方面。并非所有的求職用戶都會留下較詳盡的簡歷,我們借助歷史的招聘簡歷與用戶行為組織樣本,可有效預測性別、年齡段、期望工作崗位等用戶信息,優(yōu)化簡歷缺失或不完善的冷啟動問題。同時,針對用戶行為的聚焦情況,通過模型能夠有效識別出一些異常數(shù)據(jù)、識別求職目的明確型及發(fā)散型兩類求職用戶,進而剔除掉部分噪音數(shù)據(jù)提高樣本精度,對不同用戶定制差異化策略,提升推薦整體刻畫能力。

  • 基于行為序列預測:借助統(tǒng)計規(guī)則及傳統(tǒng)分類,基本建設出一個可用畫像,但對用戶多個行為之間的信息捕獲有限。我們將用戶搜索瀏覽、簡歷投遞、在線溝通等行為組織成行為事件序列,采用 LSTM、GRU、Attention 等訓練模型預測用戶興趣,當前還在探索評估階段。

3. 召回模塊

58招聘推薦圍繞個體、群體、全局三個召回不斷細化演進,不同召回滿足不同需要,三者結合服務于各類場景。從2016年到現(xiàn)在,我們先后主要經(jīng)歷了基于上下文內容、協(xié)同過濾、精細畫像、深度召回幾個階段,演變成當前以上下文與用戶畫像結合的精準召回、協(xié)同過濾召回及深度向量化召回為核心策略的召回模塊。

如何從 0 到 1 構建個性化推薦?

3.1 基于上下文+用戶畫像的精準召回   

該策略是業(yè)內十分常用的召回方法之一,核心在于結合用戶畫像對請求進行豐富改寫。絕大部分場景,用戶主動搜索或點選的條件有限,借助用戶畫像中的歷史興趣及知識圖譜組織的實體關系,我們對崗位、工作地、薪資、行業(yè)等多個維度進行條件擴充或必要改寫,多路召回匹配用戶的職位內容。

該策略的主要優(yōu)點:可解釋性好、實現(xiàn)時間成本低,缺點和難點是過度依賴標簽挖掘的準確性。

3.2 基于業(yè)務特殊性的協(xié)同過濾算法改進

如何從 0 到 1 構建個性化推薦?

協(xié)同過濾是推薦系統(tǒng)經(jīng)典的召回方法,通過用戶與物品的行為挖掘用戶與用戶、物品與物品之間的關聯(lián)關系。招聘業(yè)務的求職者數(shù)量巨大,且是短時間的稀疏行為場景,我們采用基于物品的協(xié)同過濾,同時希望能近實時的將實時行為信息組織進服務。

在技術實現(xiàn)過程中,我們參考了騰訊2015年發(fā)表的Paper《TencentRec: Real-time Stream Recommendation in Practice》,賦予職位點擊、投遞、在線溝通等不同的行為權重進行多行為融合,基于用戶行為序列的長度以及用戶質量設計用戶懲罰因子,同時通過時間衰減因子增強近期行為的表達,這三個因子的設計與 Paper 基本一致。另外針對業(yè)務特殊性,我們改進了職位相似度的計算,加入了職位相似度控制,避免求職目標發(fā)散的用戶影響職位關系的組織。算法上線后,在點擊率、投遞率方面都取得了正向收益,其中詳情頁的相關職位推薦提升超過25%。

3.3 Embedding 深度召回探索

如何從 0 到 1 構建個性化推薦?

協(xié)同過濾雖然取得了不錯的業(yè)務收益,但其依賴于用戶與物品的行為矩陣,對于行為稀疏的場景天然表達有限。而恰好,58招聘業(yè)務的流量構成中,有一部分是三四五線城市,城市越下沉數(shù)據(jù)稀疏的情況也越凸顯。針對這類問題,我們希望進一步挖掘行為數(shù)據(jù)的信息,很自然的想到基于深度學習的向量化 Embedding 召回。我們核心參考了 Youtube 的 DNN 召回思想,基于業(yè)務現(xiàn)狀做了調整優(yōu)化。

  • 職位向量化:我們將求職者對職位的行為序列看作一系列上下文,利用 word2vector 思想進行向量化表達。Input 部分,包括職位特征、職位所屬的企業(yè)特征和求職者反饋特征。Output 構建,業(yè)務漏斗越深的行為選擇的窗口越大,并基于用戶平均的行為長度作為窗口設定的參考值。針對無歷史用戶行為的新職位,使用職位的文本結構化信息,通過歷史訓練所得的標簽向量表達經(jīng)過 average-pooling 作為初始向量,解決冷啟動。

  • 用戶向量化:構建一個多分類 NN 網(wǎng)絡,Embedding 層將用戶發(fā)生行為的職位向量化直接遷移過來使用,輸入用戶的簡歷及畫像信息進行向量訓練。最上層理想情況是一個極限分類,以用戶真實發(fā)生行為的數(shù)據(jù)作為正樣本,未發(fā)生行為的數(shù)據(jù)作為負樣本,構建損失函數(shù)進行最優(yōu)化訓練。58招聘場景有千萬級別的職位,極限分類需要巨大的計算消耗,當前資源無法滿足。因此在負樣本選擇上,我們使用降采樣機制,隨機從求職者關注的城市及崗位下未發(fā)生行為的職位中按一定比例抽取負樣本。線上會實時的采集用戶行為,以窗口形式對用戶向量進行更新。

  • 線上服務:借鑒 Facebook 的 FAISS 實現(xiàn),線上用戶發(fā)起請求時,通過求職者的向量表達,去獲取與其最相似的 TopN 職位,返回給推薦系統(tǒng)。

Embedding 向量化召回,還處于初期探索,仍需要在樣本、輸入特征及網(wǎng)絡參數(shù)調優(yōu)開展大量工作,期待有更顯著的業(yè)務收益進一步與大家分享。

4. 排序迭代歷史

如何從 0 到 1 構建個性化推薦?

相比其他推薦場景,58招聘的漏斗更深,并且是典型的雙邊業(yè)務。系統(tǒng)不斷優(yōu)化提升求職者點擊、投遞職位的同時,還需要關注職位背后的招聘方是否反饋形成了有效雙邊連接,進而達到更接近求職鏈條的預測目的。結合不同時期的業(yè)務目標,我們先后經(jīng)歷了幾個主要階段。

第一階段:以提升點擊規(guī)模為主要目標,從零到一構建點擊率預估模型,開發(fā)模型建設的基本框架,包括特征工程、AB 實驗框架及線上 CTR 服務。該階段在較少人員的情況下,建立了排序模型及服務的大體框架,在點擊層面支撐業(yè)務增長。

第二階段:業(yè)務目標深入,從點擊過度到單邊連接直至雙邊連接,在 CTR 預估模型的基礎上,增加了 CVR 預估及 ROR 雙邊連接預估。同時在工具上開展了針對性建設,包括特征生產 Pipeline、AB 實驗框架升級為可配置化中心及特征模型的可視化分析監(jiān)控等,解耦算法和工程依賴,支持更多算法和工程人員的并行高效迭代。

第三階段:圍繞深度學習的算法探索,wide&deep、DeepFM、多任務學習、強化學習等,不斷提升算法對高維特征的表達能力,提高預估模型的刻畫能力。預計在2020年全面落地業(yè)務,達到更為理想的迭代狀態(tài)。

4.1 連接轉化預估模型

如何從 0 到 1 構建個性化推薦?

58招聘轉化預估模型是多目標學習,設計實現(xiàn)如上圖,底層共建樣本及特征,使用不同算法對 CTR 點擊率預估、CVR 單邊連接預估、ROR 雙邊連接預估進行建模,最后對多個模型進行融合支撐線上排序。

整體排序實現(xiàn)是業(yè)務常見的方法,總結開展過程中比較關鍵的點:

  • 樣本處理:圍繞減少樣本噪音,我們開展了多個優(yōu)化。去除異常用戶及異常數(shù)據(jù),包括非招聘意圖的用戶數(shù)據(jù)、誤點擊數(shù)據(jù);增加真實曝光及停留時長埋點,去除用戶下拉信息流過程中非真正看見的數(shù)據(jù),將停留時長作為樣本置信權重加入到模型訓練中;基于求職者維度進行采樣,去除對同一職位多次正負樣本的矛盾可能。

  • 特征工程:關注及監(jiān)測特征顯隱性的變化,尤其是信息列表展示樣式的產品調整,需及時進行特征調整及模型迭代。58招聘業(yè)務的特殊性,實時類特征很重要,需要關注特征一致性方面的保障機制,避免發(fā)生特征穿越現(xiàn)象或線上線下特征不一致問題。

  • 模型:重視模型認知,并不是簡單的關注離線 AUC 或者線上轉化率 AB 對比,在特征表達上多些分析,迭代過程中重視前后模型的特征比較,能夠有效提高模型實驗迭代的有效性。

4.2 特征生產實現(xiàn)

如何從 0 到 1 構建個性化推薦?

特征 Pipeline 的構建,減少了大量特征工程重復工作,顯著提高模型迭代效率。其核心功能是實現(xiàn)配置化的方式,集成了樣本采樣、特征變換、特征組合、特征離散化,整合后得到訓練樣本,一方面輸送給模型進行訓練評估,另一方面也輸出到分析平臺支持可視化分析。

4.3 模型 serving 實現(xiàn)

如何從 0 到 1 構建個性化推薦?

線上模型服務有定期更新及大量 AB 實驗的要求,隨著服務演進構建了當前的模型 Serving 框架,實現(xiàn)了對模型的定期自動更新以及模型的自動加卸載功能,同時也具備了更強的擴展性,可接入不同算法的模型實現(xiàn)。離線部分,樣本經(jīng)過特征 Pipeline 構建增量訓練數(shù)據(jù),模型訓練模塊會獲取 Base 模型文件初始化并進行增量模型訓練,模型評估無異常,系統(tǒng)會將模型存儲至模型倉庫及 HDFS 文件。線上部分,模型倉庫增刪改模型后,會發(fā)起模型熱加載或卸載指令更新至線上服務內存;對于線上的排序請求,實時修改相應使用模型的存儲生命周期,對于長期無用的模型,模型倉庫將自動刪除。

模型 Serving 能夠自動化管理線上模型,但我們也不能完全托管系統(tǒng),依然需要關注模型變化。一方面在離線部分的模型評估環(huán)節(jié),除了對 AUC 等評估指標的自動監(jiān)測,也將模型內存大小、模型特征表達作為監(jiān)測的一部分;另一方面線上監(jiān)測業(yè)務轉化指標的變化,當指標發(fā)生較大波動時發(fā)出警報,人工進行模型檢查。

4.4 重排序機制

如何從 0 到 1 構建個性化推薦?

由于業(yè)務的特殊性,以 CTR 預估、CVR 單邊連接預估、ROR 雙邊連接預估支撐排序仍然存在刻畫能力不足的問題,體現(xiàn)在以下幾個方面:

  • 招聘關系到個人生計及國家民生,是件極為嚴肅的事情,內容質量是基礎保障。但連接預估模型無法有效刻畫質量問題,存在一些職位連接效率很不錯但屬于問題職位,因此推薦系統(tǒng)需要增加質量相關的因子。

  • 轉化率高不等同于雙邊匹配。線上招聘,無法很好追蹤到面試及入職環(huán)節(jié),求職者與招聘方形成的雙邊連接,可能是出于其他原因(如對自己或對方的錯誤判斷)。因此,系統(tǒng)需要考慮匹配方面的控制。

  • 資源浪費問題,對于絕大部分用戶,求職及招聘都是周期性行為,一個已經(jīng)招滿人的職位可能依然在線上展示。系統(tǒng)還需要增加職位活躍度或周期方面的刻畫,減少相應的資源浪費。

針對這些需要,系統(tǒng)增加了重排序機制,通過分段處理手段,在粗排階段打壓甚至過濾掉低質量內容,在重排序對不活躍/不匹配內容進行降權,達到保障平臺質量生態(tài)、提高有效連接規(guī)模的目的。

5. 列表展示內容控制

如何從 0 到 1 構建個性化推薦?

內容展示方面,我們也結合算法做了一些工作,來提高內容的可解釋性、提供更多有價值的信息來輔助用戶決策。結合個性化模型挖掘亮點標簽,將更深預估模型的核心特征包裝成標簽形式展示在列表頁,如距離多遠、職位的福利標簽、職位的熱門情況等;使用 NLG 文本生成技術,自動生成簡短描述進行展示,彌補標題及其簡單職位的文本信息不足。

6. AB 實驗配置中心

如何從 0 到 1 構建個性化推薦?

推薦系統(tǒng)包括召回、過濾、排序、展示幾個核心模塊,且每個模塊都有長期進行實驗迭代的訴求。我們搭建了 AB 實驗配置中心,實現(xiàn)可視化配置,與線上服務及數(shù)據(jù)分析平臺聯(lián)動,更靈活高效地開展實驗迭代工作。

7. 整體技術框架

如何從 0 到 1 構建個性化推薦?

58招聘個性化推薦經(jīng)過不斷演進,最終形成了如上圖的技術框架。離線部分包含數(shù)據(jù)倉庫層,知識圖譜、用戶畫像、預測模型的挖掘層,知識數(shù)據(jù)存儲層;線上部分包含數(shù)據(jù)服務及推薦引擎。線上產生的行為數(shù)據(jù),實時流轉至離線的計算挖掘模塊,反饋到線上達到個性化體驗效果。 

——心得分享及規(guī)劃——

如何從 0 到 1 構建個性化推薦?

58招聘推薦系統(tǒng)最近四年優(yōu)化收益整理如上圖,貢獻大小依次是召回、特征、數(shù)據(jù)、算法、樣式、工程。深入理解業(yè)務及算法、注重細節(jié)積累是做好算法工作的保證;前期在樣本及特征上多下功夫,不僅能獲得不錯的業(yè)務增長,也是之后算法深入的基礎;工具性建設盡可能先行,能夠提高整體迭代效率。

未來的核心工作:

  • 多任務學習、強化學習等的全面探索落地。

  • 集公司內外資源,豐富招聘數(shù)據(jù)源,提高用戶畫像的覆蓋率,更好的支持千人千面。

特別推薦一個分享架構+算法的優(yōu)質內容,還沒關注的小伙伴,可以長按關注一下:

如何從 0 到 1 構建個性化推薦?

長按訂閱更多精彩▼

如何從 0 到 1 構建個性化推薦?

如有收獲,點個在看,誠摯感謝

免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
關閉
關閉