www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > > 架構(gòu)師社區(qū)
[導(dǎo)讀]來自:DataFunTalk 導(dǎo)讀:隨著科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,而以互聯(lián)網(wǎng)為基礎(chǔ)的招聘模式也越來越受到企業(yè)的青睞?;ヂ?lián)網(wǎng)招聘具有不受地域限制、覆蓋面廣、招聘成本低、針對(duì)性強(qiáng)、方便快捷、時(shí)效性強(qiáng)等優(yōu)點(diǎn),現(xiàn)已得到廣泛應(yīng)用,其中,58招

如何從 0 到 1 構(gòu)建個(gè)性化推薦?
來自:DataFunTalk

導(dǎo)讀:隨著科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)被廣泛應(yīng)用于各個(gè)領(lǐng)域,而以互聯(lián)網(wǎng)為基礎(chǔ)的招聘模式也越來越受到企業(yè)的青睞?;ヂ?lián)網(wǎng)招聘具有不受地域限制、覆蓋面廣、招聘成本低、針對(duì)性強(qiáng)、方便快捷、時(shí)效性強(qiáng)等優(yōu)點(diǎn),現(xiàn)已得到廣泛應(yīng)用,其中,58招聘是互聯(lián)網(wǎng)招聘行業(yè)中規(guī)模最大的平臺(tái)。今天主要跟大家分享下58招聘如何通過個(gè)性化推薦技術(shù)服務(wù)大規(guī)模求職者和招聘企業(yè)。分享題目是從零到一構(gòu)建58招聘?jìng)€(gè)性化推薦,主要通過以下三方面進(jìn)行介紹:

  • 招聘業(yè)務(wù)介紹

  • 個(gè)性化推薦實(shí)踐

  • 心得分享與規(guī)劃

——招聘業(yè)務(wù)介紹——

1. 58招聘業(yè)務(wù)簡(jiǎn)介

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

2018年我國(guó)全國(guó)總?cè)丝?3.9億多,其中就業(yè)人口7.7億,招聘基數(shù)龐大。三大產(chǎn)業(yè)就業(yè)人口占比分別26.11%,27.57%,46.32%,其中第三大產(chǎn)業(yè)占比最大,部分發(fā)達(dá)國(guó)家第三大產(chǎn)業(yè)占比已達(dá)到70%~80%,隨著經(jīng)濟(jì)的發(fā)展,我國(guó)未來就業(yè)市場(chǎng)和就業(yè)分布將發(fā)生大的變化。2019年8月城鎮(zhèn)調(diào)查顯示我國(guó)失業(yè)率為5.2%,其中25~59歲失業(yè)率4.5%,同時(shí)每年有800多萬的應(yīng)屆生加入就職市場(chǎng)。58招聘作為我國(guó)互聯(lián)網(wǎng)招聘行業(yè)之首,每天服務(wù)于千萬級(jí)求職者和大中小企業(yè),平臺(tái)每天生成千萬級(jí)連接,促成大量求職者求職成功。

58招聘平臺(tái)主要服務(wù)于求職者和招聘方,接下來主要通過求職者的角度介紹用戶在整個(gè)平臺(tái)流轉(zhuǎn)的大致流程,具體如下:

  • 基于求職偏好搜索職位并點(diǎn)擊查看詳情。

  • 投遞有意向職位,或通過平臺(tái)在線微聊工具、電話與招聘方做進(jìn)一步溝通。

  • 雙方達(dá)成共識(shí)后,進(jìn)行面試與入職。

相比傳統(tǒng)推薦系統(tǒng),58招聘的業(yè)務(wù)漏斗更長(zhǎng)更深,并且有一部分轉(zhuǎn)化平臺(tái)無法完全捕捉,形成了58招聘?jìng)€(gè)性化推薦開展的難點(diǎn)及挑戰(zhàn)。

2. 58招聘推薦場(chǎng)景類型

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘推薦場(chǎng)景主要面向 C 端求職者和 B 端企業(yè),推薦內(nèi)容主要包括:職位推薦、標(biāo)簽推薦、企業(yè)推薦、簡(jiǎn)歷推薦。

C 端求職者的典型推薦場(chǎng)景包括:

  • App 首頁招聘大類頁:主要包括職位專區(qū)聚合、職位 Feed 流。

  • 類目推薦: 用戶點(diǎn)擊某個(gè)類目后,進(jìn)行相關(guān)職位推薦。

  • 相似推薦: 用戶點(diǎn)擊某個(gè)具體職位后,在下方展現(xiàn)相似職位。

3. 58招聘推薦主要問題

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘推薦相對(duì)其它行業(yè)主要存在以下典型問題:

  • 海量數(shù)據(jù)計(jì)算:大多數(shù)公司都存在,此處不做詳細(xì)說明。

  • 冷啟動(dòng)問題: 58同城服務(wù)于多業(yè)務(wù),包括招聘、房產(chǎn)、黃頁、二手等,求職者進(jìn)入招聘板塊使用招聘功能,由于當(dāng)前不強(qiáng)制用戶填寫簡(jiǎn)歷,導(dǎo)致無簡(jiǎn)歷用戶冷啟動(dòng)問題。

  • 稀疏性&實(shí)時(shí)性:58招聘的一部分群體為藍(lán)領(lǐng)用戶,他們?cè)谄脚_(tái)產(chǎn)生的行為是短時(shí)間的、連續(xù)的以及稀疏的,可能活躍兩天找到工作后就不再活躍。其次,有些用戶回到平臺(tái),求職意愿可能會(huì)發(fā)生變化,一部分可能想找別的工作(如之前是服務(wù)員,現(xiàn)在想找快遞),另一部分可能是因?yàn)閭鹘y(tǒng)職業(yè)存在職位進(jìn)階的過程,這些都需要系統(tǒng)思考。

  • 資源分配問題:第一,如何有效識(shí)別(企業(yè),求職者)的真實(shí)意圖,進(jìn)而合理分配資源產(chǎn)生有效連接,針對(duì)不良意圖進(jìn)行差異化對(duì)待。第二,招聘對(duì)于 C 端和 B 端都是有限的資源,招聘方招聘職位有限,求職者與招聘方交互有限,很大程度上不同于淘寶推薦,因?yàn)楹笳叩纳唐肥菬o限供應(yīng)的。

——招聘?jìng)€(gè)性化推薦實(shí)現(xiàn)——

1. 58招聘?jìng)€(gè)性化推薦實(shí)現(xiàn)

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘?jìng)€(gè)性化推薦的實(shí)現(xiàn)過程與大多數(shù)公司推薦模塊基本相似,包括用戶意圖理解、內(nèi)容召回、內(nèi)容排序、內(nèi)容展示四個(gè)核心模塊。下面將結(jié)合業(yè)務(wù)特性,介紹每個(gè)模塊實(shí)現(xiàn)的關(guān)鍵點(diǎn)。

2. 如何理解用戶?

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘用戶理解主要通過“言”和“行”識(shí)別用戶真實(shí)意圖,重點(diǎn)關(guān)注的屬性主要包括招聘領(lǐng)域求職意向、用戶個(gè)人屬性以及外在形象(如上圖左邊)。圍繞求職者與招聘方在平臺(tái)產(chǎn)生的內(nèi)容及行為,我們構(gòu)建了相應(yīng)的知識(shí)圖譜和用戶畫像。

2.1 無誠(chéng)意用戶識(shí)別

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

在理解用戶之前,我們首先需要識(shí)別出無真實(shí)招聘/求職意圖的用戶,并進(jìn)行差異對(duì)待。如頻繁發(fā)布包含聯(lián)系方式的導(dǎo)流信息、發(fā)布高薪誘惑等惡意虛假信息等,將用戶引導(dǎo)至平臺(tái)外進(jìn)行轉(zhuǎn)化。針對(duì)以上業(yè)務(wù)我們總結(jié)了一些特點(diǎn),主要表現(xiàn)為:

  • 暴露聯(lián)系方式

  • 內(nèi)容不成句

  • 高薪誘惑

  • 在平臺(tái)很“活躍”

針對(duì)以上業(yè)務(wù)特點(diǎn),我們主要的識(shí)別方法包括:

  • 傳統(tǒng)的關(guān)鍵詞+正則識(shí)別方法,如針對(duì)"微信"、"QQ"這類聯(lián)系方式的相關(guān)關(guān)鍵詞等。

  • 針對(duì)變形聯(lián)系方式,基于拼音+滑動(dòng)窗口進(jìn)行識(shí)別。

  • 采用命名實(shí)體 NER 識(shí)別進(jìn)行挖掘,如 BiLSTM+CRF。

  • 采用相關(guān)分類算法進(jìn)行識(shí)別,如 fastText,CNN。

在無誠(chéng)意用戶識(shí)別過程中,我們總結(jié)了以下心得:

  • 舉一反三:問題用戶識(shí)別是典型的對(duì)抗場(chǎng)景,策略構(gòu)建時(shí)需要更多思考對(duì)抗能力的刻畫,將一些強(qiáng)對(duì)抗能力的特征加入到模型中(如文字變形、文字轉(zhuǎn)拼音)。

  • 剛?cè)岵?jì):差異化懲處不同問題類型的用戶。對(duì)平臺(tái)其他用戶傷害巨大的群體,結(jié)合法律手段嚴(yán)厲懲處;處于問題邊界的,則主要通過較柔和的方式處理(如內(nèi)容展示降權(quán)),減少劇烈對(duì)抗現(xiàn)象的產(chǎn)生。

2.2 知識(shí)圖譜構(gòu)建

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

知識(shí)圖譜是一個(gè)非常復(fù)雜的系統(tǒng),包括多元異構(gòu)數(shù)據(jù)搜集->知識(shí)獲取->知識(shí)融合表示->知識(shí)推理->知識(shí)管理多個(gè)部分,主題及時(shí)間因素,我們重點(diǎn)介紹下在 NER 方面的探索。招聘業(yè)務(wù)場(chǎng)景含有大量的文本內(nèi)容,通過 NER 技術(shù)能夠有效提取文本中的關(guān)鍵信息,進(jìn)一步提高系統(tǒng)的結(jié)構(gòu)化理解能力。

NER 開展經(jīng)歷了兩個(gè)階段:

  • 第一階段:基于平臺(tái)已有的部分結(jié)構(gòu)化實(shí)體詞,以及不少半結(jié)構(gòu)化組織的職位描述基礎(chǔ),我們采用 bootstrap 方法,快速迭代進(jìn)行挖掘,并結(jié)合半人工標(biāo)注,為深度學(xué)習(xí)構(gòu)建更完整的樣本數(shù)據(jù)集。

  • 第二階段:將第一階段的內(nèi)容作為 input,核心采用 BiLSTM+CRF 構(gòu)建實(shí)體識(shí)別深度網(wǎng)絡(luò),有兩個(gè)優(yōu)化點(diǎn)取得了較好效果。第一個(gè)是輸入層基于字到詞的優(yōu)化,構(gòu)建招聘領(lǐng)域的專有詞庫。第二個(gè)是采用訓(xùn)練樣本增強(qiáng)技術(shù),將相近實(shí)體詞和同類實(shí)體詞進(jìn)行替換擴(kuò)大樣本集,并將模型識(shí)別的結(jié)果有選擇的放回訓(xùn)練集重新進(jìn)行迭代訓(xùn)練,減弱對(duì)標(biāo)注數(shù)據(jù)集的依賴。目前命名實(shí)體識(shí)別仍在不斷優(yōu)化,識(shí)別準(zhǔn)確率平均達(dá)到0.75+,部分準(zhǔn)確率可達(dá)到0.9+。

2.3 構(gòu)建用戶畫像

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

用戶畫像是個(gè)性化推薦系統(tǒng)的基礎(chǔ)模塊,決定了對(duì)用戶意圖理解的準(zhǔn)確與否?;跇?biāo)簽傳遞思想,我們通過統(tǒng)計(jì)規(guī)則、傳統(tǒng)分類模型和深度模型多種算法結(jié)合捕獲用戶行為的興趣表達(dá),構(gòu)建長(zhǎng)短期用戶畫像。

  • 基于統(tǒng)計(jì)規(guī)則:通過窗口形式,近實(shí)時(shí)對(duì)用戶畫像進(jìn)行計(jì)算更新,計(jì)算時(shí)加入時(shí)間衰減因子、行為權(quán)重因子及標(biāo)簽置信度權(quán)重。深刻理解業(yè)務(wù)場(chǎng)景,進(jìn)行合理數(shù)學(xué)設(shè)計(jì)是關(guān)鍵。如信息列表頁的點(diǎn)擊數(shù)據(jù),在使用時(shí)要差異化處理列表頁直接展示的顯性標(biāo)簽及隱藏在詳情頁的興趣標(biāo)簽,避免人為引入噪音。

  • 基于傳統(tǒng)分類預(yù)測(cè):采用分類算法,應(yīng)用到用戶屬性填充、異常用戶/行為識(shí)別及用戶分類多個(gè)方面。并非所有的求職用戶都會(huì)留下較詳盡的簡(jiǎn)歷,我們借助歷史的招聘簡(jiǎn)歷與用戶行為組織樣本,可有效預(yù)測(cè)性別、年齡段、期望工作崗位等用戶信息,優(yōu)化簡(jiǎn)歷缺失或不完善的冷啟動(dòng)問題。同時(shí),針對(duì)用戶行為的聚焦情況,通過模型能夠有效識(shí)別出一些異常數(shù)據(jù)、識(shí)別求職目的明確型及發(fā)散型兩類求職用戶,進(jìn)而剔除掉部分噪音數(shù)據(jù)提高樣本精度,對(duì)不同用戶定制差異化策略,提升推薦整體刻畫能力。

  • 基于行為序列預(yù)測(cè):借助統(tǒng)計(jì)規(guī)則及傳統(tǒng)分類,基本建設(shè)出一個(gè)可用畫像,但對(duì)用戶多個(gè)行為之間的信息捕獲有限。我們將用戶搜索瀏覽、簡(jiǎn)歷投遞、在線溝通等行為組織成行為事件序列,采用 LSTM、GRU、Attention 等訓(xùn)練模型預(yù)測(cè)用戶興趣,當(dāng)前還在探索評(píng)估階段。

3. 召回模塊

58招聘推薦圍繞個(gè)體、群體、全局三個(gè)召回不斷細(xì)化演進(jìn),不同召回滿足不同需要,三者結(jié)合服務(wù)于各類場(chǎng)景。從2016年到現(xiàn)在,我們先后主要經(jīng)歷了基于上下文內(nèi)容、協(xié)同過濾、精細(xì)畫像、深度召回幾個(gè)階段,演變成當(dāng)前以上下文與用戶畫像結(jié)合的精準(zhǔn)召回、協(xié)同過濾召回及深度向量化召回為核心策略的召回模塊。

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

3.1 基于上下文+用戶畫像的精準(zhǔn)召回   

該策略是業(yè)內(nèi)十分常用的召回方法之一,核心在于結(jié)合用戶畫像對(duì)請(qǐng)求進(jìn)行豐富改寫。絕大部分場(chǎng)景,用戶主動(dòng)搜索或點(diǎn)選的條件有限,借助用戶畫像中的歷史興趣及知識(shí)圖譜組織的實(shí)體關(guān)系,我們對(duì)崗位、工作地、薪資、行業(yè)等多個(gè)維度進(jìn)行條件擴(kuò)充或必要改寫,多路召回匹配用戶的職位內(nèi)容。

該策略的主要優(yōu)點(diǎn):可解釋性好、實(shí)現(xiàn)時(shí)間成本低,缺點(diǎn)和難點(diǎn)是過度依賴標(biāo)簽挖掘的準(zhǔn)確性。

3.2 基于業(yè)務(wù)特殊性的協(xié)同過濾算法改進(jìn)

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

協(xié)同過濾是推薦系統(tǒng)經(jīng)典的召回方法,通過用戶與物品的行為挖掘用戶與用戶、物品與物品之間的關(guān)聯(lián)關(guān)系。招聘業(yè)務(wù)的求職者數(shù)量巨大,且是短時(shí)間的稀疏行為場(chǎng)景,我們采用基于物品的協(xié)同過濾,同時(shí)希望能近實(shí)時(shí)的將實(shí)時(shí)行為信息組織進(jìn)服務(wù)。

在技術(shù)實(shí)現(xiàn)過程中,我們參考了騰訊2015年發(fā)表的Paper《TencentRec: Real-time Stream Recommendation in Practice》,賦予職位點(diǎn)擊、投遞、在線溝通等不同的行為權(quán)重進(jìn)行多行為融合,基于用戶行為序列的長(zhǎng)度以及用戶質(zhì)量設(shè)計(jì)用戶懲罰因子,同時(shí)通過時(shí)間衰減因子增強(qiáng)近期行為的表達(dá),這三個(gè)因子的設(shè)計(jì)與 Paper 基本一致。另外針對(duì)業(yè)務(wù)特殊性,我們改進(jìn)了職位相似度的計(jì)算,加入了職位相似度控制,避免求職目標(biāo)發(fā)散的用戶影響職位關(guān)系的組織。算法上線后,在點(diǎn)擊率、投遞率方面都取得了正向收益,其中詳情頁的相關(guān)職位推薦提升超過25%。

3.3 Embedding 深度召回探索

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

協(xié)同過濾雖然取得了不錯(cuò)的業(yè)務(wù)收益,但其依賴于用戶與物品的行為矩陣,對(duì)于行為稀疏的場(chǎng)景天然表達(dá)有限。而恰好,58招聘業(yè)務(wù)的流量構(gòu)成中,有一部分是三四五線城市,城市越下沉數(shù)據(jù)稀疏的情況也越凸顯。針對(duì)這類問題,我們希望進(jìn)一步挖掘行為數(shù)據(jù)的信息,很自然的想到基于深度學(xué)習(xí)的向量化 Embedding 召回。我們核心參考了 Youtube 的 DNN 召回思想,基于業(yè)務(wù)現(xiàn)狀做了調(diào)整優(yōu)化。

  • 職位向量化:我們將求職者對(duì)職位的行為序列看作一系列上下文,利用 word2vector 思想進(jìn)行向量化表達(dá)。Input 部分,包括職位特征、職位所屬的企業(yè)特征和求職者反饋特征。Output 構(gòu)建,業(yè)務(wù)漏斗越深的行為選擇的窗口越大,并基于用戶平均的行為長(zhǎng)度作為窗口設(shè)定的參考值。針對(duì)無歷史用戶行為的新職位,使用職位的文本結(jié)構(gòu)化信息,通過歷史訓(xùn)練所得的標(biāo)簽向量表達(dá)經(jīng)過 average-pooling 作為初始向量,解決冷啟動(dòng)。

  • 用戶向量化:構(gòu)建一個(gè)多分類 NN 網(wǎng)絡(luò),Embedding 層將用戶發(fā)生行為的職位向量化直接遷移過來使用,輸入用戶的簡(jiǎn)歷及畫像信息進(jìn)行向量訓(xùn)練。最上層理想情況是一個(gè)極限分類,以用戶真實(shí)發(fā)生行為的數(shù)據(jù)作為正樣本,未發(fā)生行為的數(shù)據(jù)作為負(fù)樣本,構(gòu)建損失函數(shù)進(jìn)行最優(yōu)化訓(xùn)練。58招聘場(chǎng)景有千萬級(jí)別的職位,極限分類需要巨大的計(jì)算消耗,當(dāng)前資源無法滿足。因此在負(fù)樣本選擇上,我們使用降采樣機(jī)制,隨機(jī)從求職者關(guān)注的城市及崗位下未發(fā)生行為的職位中按一定比例抽取負(fù)樣本。線上會(huì)實(shí)時(shí)的采集用戶行為,以窗口形式對(duì)用戶向量進(jìn)行更新。

  • 線上服務(wù):借鑒 Facebook 的 FAISS 實(shí)現(xiàn),線上用戶發(fā)起請(qǐng)求時(shí),通過求職者的向量表達(dá),去獲取與其最相似的 TopN 職位,返回給推薦系統(tǒng)。

Embedding 向量化召回,還處于初期探索,仍需要在樣本、輸入特征及網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)開展大量工作,期待有更顯著的業(yè)務(wù)收益進(jìn)一步與大家分享。

4. 排序迭代歷史

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

相比其他推薦場(chǎng)景,58招聘的漏斗更深,并且是典型的雙邊業(yè)務(wù)。系統(tǒng)不斷優(yōu)化提升求職者點(diǎn)擊、投遞職位的同時(shí),還需要關(guān)注職位背后的招聘方是否反饋形成了有效雙邊連接,進(jìn)而達(dá)到更接近求職鏈條的預(yù)測(cè)目的。結(jié)合不同時(shí)期的業(yè)務(wù)目標(biāo),我們先后經(jīng)歷了幾個(gè)主要階段。

第一階段:以提升點(diǎn)擊規(guī)模為主要目標(biāo),從零到一構(gòu)建點(diǎn)擊率預(yù)估模型,開發(fā)模型建設(shè)的基本框架,包括特征工程、AB 實(shí)驗(yàn)框架及線上 CTR 服務(wù)。該階段在較少人員的情況下,建立了排序模型及服務(wù)的大體框架,在點(diǎn)擊層面支撐業(yè)務(wù)增長(zhǎng)。

第二階段:業(yè)務(wù)目標(biāo)深入,從點(diǎn)擊過度到單邊連接直至雙邊連接,在 CTR 預(yù)估模型的基礎(chǔ)上,增加了 CVR 預(yù)估及 ROR 雙邊連接預(yù)估。同時(shí)在工具上開展了針對(duì)性建設(shè),包括特征生產(chǎn) Pipeline、AB 實(shí)驗(yàn)框架升級(jí)為可配置化中心及特征模型的可視化分析監(jiān)控等,解耦算法和工程依賴,支持更多算法和工程人員的并行高效迭代。

第三階段:圍繞深度學(xué)習(xí)的算法探索,wide&deep、DeepFM、多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,不斷提升算法對(duì)高維特征的表達(dá)能力,提高預(yù)估模型的刻畫能力。預(yù)計(jì)在2020年全面落地業(yè)務(wù),達(dá)到更為理想的迭代狀態(tài)。

4.1 連接轉(zhuǎn)化預(yù)估模型

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘轉(zhuǎn)化預(yù)估模型是多目標(biāo)學(xué)習(xí),設(shè)計(jì)實(shí)現(xiàn)如上圖,底層共建樣本及特征,使用不同算法對(duì) CTR 點(diǎn)擊率預(yù)估、CVR 單邊連接預(yù)估、ROR 雙邊連接預(yù)估進(jìn)行建模,最后對(duì)多個(gè)模型進(jìn)行融合支撐線上排序。

整體排序?qū)崿F(xiàn)是業(yè)務(wù)常見的方法,總結(jié)開展過程中比較關(guān)鍵的點(diǎn):

  • 樣本處理:圍繞減少樣本噪音,我們開展了多個(gè)優(yōu)化。去除異常用戶及異常數(shù)據(jù),包括非招聘意圖的用戶數(shù)據(jù)、誤點(diǎn)擊數(shù)據(jù);增加真實(shí)曝光及停留時(shí)長(zhǎng)埋點(diǎn),去除用戶下拉信息流過程中非真正看見的數(shù)據(jù),將停留時(shí)長(zhǎng)作為樣本置信權(quán)重加入到模型訓(xùn)練中;基于求職者維度進(jìn)行采樣,去除對(duì)同一職位多次正負(fù)樣本的矛盾可能。

  • 特征工程:關(guān)注及監(jiān)測(cè)特征顯隱性的變化,尤其是信息列表展示樣式的產(chǎn)品調(diào)整,需及時(shí)進(jìn)行特征調(diào)整及模型迭代。58招聘業(yè)務(wù)的特殊性,實(shí)時(shí)類特征很重要,需要關(guān)注特征一致性方面的保障機(jī)制,避免發(fā)生特征穿越現(xiàn)象或線上線下特征不一致問題。

  • 模型:重視模型認(rèn)知,并不是簡(jiǎn)單的關(guān)注離線 AUC 或者線上轉(zhuǎn)化率 AB 對(duì)比,在特征表達(dá)上多些分析,迭代過程中重視前后模型的特征比較,能夠有效提高模型實(shí)驗(yàn)迭代的有效性。

4.2 特征生產(chǎn)實(shí)現(xiàn)

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

特征 Pipeline 的構(gòu)建,減少了大量特征工程重復(fù)工作,顯著提高模型迭代效率。其核心功能是實(shí)現(xiàn)配置化的方式,集成了樣本采樣、特征變換、特征組合、特征離散化,整合后得到訓(xùn)練樣本,一方面輸送給模型進(jìn)行訓(xùn)練評(píng)估,另一方面也輸出到分析平臺(tái)支持可視化分析。

4.3 模型 serving 實(shí)現(xiàn)

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

線上模型服務(wù)有定期更新及大量 AB 實(shí)驗(yàn)的要求,隨著服務(wù)演進(jìn)構(gòu)建了當(dāng)前的模型 Serving 框架,實(shí)現(xiàn)了對(duì)模型的定期自動(dòng)更新以及模型的自動(dòng)加卸載功能,同時(shí)也具備了更強(qiáng)的擴(kuò)展性,可接入不同算法的模型實(shí)現(xiàn)。離線部分,樣本經(jīng)過特征 Pipeline 構(gòu)建增量訓(xùn)練數(shù)據(jù),模型訓(xùn)練模塊會(huì)獲取 Base 模型文件初始化并進(jìn)行增量模型訓(xùn)練,模型評(píng)估無異常,系統(tǒng)會(huì)將模型存儲(chǔ)至模型倉庫及 HDFS 文件。線上部分,模型倉庫增刪改模型后,會(huì)發(fā)起模型熱加載或卸載指令更新至線上服務(wù)內(nèi)存;對(duì)于線上的排序請(qǐng)求,實(shí)時(shí)修改相應(yīng)使用模型的存儲(chǔ)生命周期,對(duì)于長(zhǎng)期無用的模型,模型倉庫將自動(dòng)刪除。

模型 Serving 能夠自動(dòng)化管理線上模型,但我們也不能完全托管系統(tǒng),依然需要關(guān)注模型變化。一方面在離線部分的模型評(píng)估環(huán)節(jié),除了對(duì) AUC 等評(píng)估指標(biāo)的自動(dòng)監(jiān)測(cè),也將模型內(nèi)存大小、模型特征表達(dá)作為監(jiān)測(cè)的一部分;另一方面線上監(jiān)測(cè)業(yè)務(wù)轉(zhuǎn)化指標(biāo)的變化,當(dāng)指標(biāo)發(fā)生較大波動(dòng)時(shí)發(fā)出警報(bào),人工進(jìn)行模型檢查。

4.4 重排序機(jī)制

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

由于業(yè)務(wù)的特殊性,以 CTR 預(yù)估、CVR 單邊連接預(yù)估、ROR 雙邊連接預(yù)估支撐排序仍然存在刻畫能力不足的問題,體現(xiàn)在以下幾個(gè)方面:

  • 招聘關(guān)系到個(gè)人生計(jì)及國(guó)家民生,是件極為嚴(yán)肅的事情,內(nèi)容質(zhì)量是基礎(chǔ)保障。但連接預(yù)估模型無法有效刻畫質(zhì)量問題,存在一些職位連接效率很不錯(cuò)但屬于問題職位,因此推薦系統(tǒng)需要增加質(zhì)量相關(guān)的因子。

  • 轉(zhuǎn)化率高不等同于雙邊匹配。線上招聘,無法很好追蹤到面試及入職環(huán)節(jié),求職者與招聘方形成的雙邊連接,可能是出于其他原因(如對(duì)自己或?qū)Ψ降腻e(cuò)誤判斷)。因此,系統(tǒng)需要考慮匹配方面的控制。

  • 資源浪費(fèi)問題,對(duì)于絕大部分用戶,求職及招聘都是周期性行為,一個(gè)已經(jīng)招滿人的職位可能依然在線上展示。系統(tǒng)還需要增加職位活躍度或周期方面的刻畫,減少相應(yīng)的資源浪費(fèi)。

針對(duì)這些需要,系統(tǒng)增加了重排序機(jī)制,通過分段處理手段,在粗排階段打壓甚至過濾掉低質(zhì)量?jī)?nèi)容,在重排序?qū)Σ换钴S/不匹配內(nèi)容進(jìn)行降權(quán),達(dá)到保障平臺(tái)質(zhì)量生態(tài)、提高有效連接規(guī)模的目的。

5. 列表展示內(nèi)容控制

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

內(nèi)容展示方面,我們也結(jié)合算法做了一些工作,來提高內(nèi)容的可解釋性、提供更多有價(jià)值的信息來輔助用戶決策。結(jié)合個(gè)性化模型挖掘亮點(diǎn)標(biāo)簽,將更深預(yù)估模型的核心特征包裝成標(biāo)簽形式展示在列表頁,如距離多遠(yuǎn)、職位的福利標(biāo)簽、職位的熱門情況等;使用 NLG 文本生成技術(shù),自動(dòng)生成簡(jiǎn)短描述進(jìn)行展示,彌補(bǔ)標(biāo)題及其簡(jiǎn)單職位的文本信息不足。

6. AB 實(shí)驗(yàn)配置中心

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

推薦系統(tǒng)包括召回、過濾、排序、展示幾個(gè)核心模塊,且每個(gè)模塊都有長(zhǎng)期進(jìn)行實(shí)驗(yàn)迭代的訴求。我們搭建了 AB 實(shí)驗(yàn)配置中心,實(shí)現(xiàn)可視化配置,與線上服務(wù)及數(shù)據(jù)分析平臺(tái)聯(lián)動(dòng),更靈活高效地開展實(shí)驗(yàn)迭代工作。

7. 整體技術(shù)框架

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘?jìng)€(gè)性化推薦經(jīng)過不斷演進(jìn),最終形成了如上圖的技術(shù)框架。離線部分包含數(shù)據(jù)倉庫層,知識(shí)圖譜、用戶畫像、預(yù)測(cè)模型的挖掘?qū)?,知識(shí)數(shù)據(jù)存儲(chǔ)層;線上部分包含數(shù)據(jù)服務(wù)及推薦引擎。線上產(chǎn)生的行為數(shù)據(jù),實(shí)時(shí)流轉(zhuǎn)至離線的計(jì)算挖掘模塊,反饋到線上達(dá)到個(gè)性化體驗(yàn)效果。 

——心得分享及規(guī)劃——

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

58招聘推薦系統(tǒng)最近四年優(yōu)化收益整理如上圖,貢獻(xiàn)大小依次是召回、特征、數(shù)據(jù)、算法、樣式、工程。深入理解業(yè)務(wù)及算法、注重細(xì)節(jié)積累是做好算法工作的保證;前期在樣本及特征上多下功夫,不僅能獲得不錯(cuò)的業(yè)務(wù)增長(zhǎng),也是之后算法深入的基礎(chǔ);工具性建設(shè)盡可能先行,能夠提高整體迭代效率。

未來的核心工作:

  • 多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等的全面探索落地。

  • 集公司內(nèi)外資源,豐富招聘數(shù)據(jù)源,提高用戶畫像的覆蓋率,更好的支持千人千面。

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

長(zhǎng)按訂閱更多精彩▼

如何從 0 到 1 構(gòu)建個(gè)性化推薦?

如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
關(guān)閉