www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]導(dǎo)讀:本次分享的主題是淺談UC國(guó)際信息流推薦。會(huì)跟大家探討下發(fā)鏈路中常見(jiàn)的一些問(wèn)題,主要包括兩個(gè)場(chǎng)景: 列表頁(yè)排序,包括:目標(biāo)確定、多目標(biāo)任務(wù)以及混排組合優(yōu)化。 內(nèi)容冷啟問(wèn)題,如果不做內(nèi)容理解,能否做好推薦系統(tǒng)? ▌列表頁(yè)推薦 這是印度語(yǔ)版的推薦

淺談 UC 國(guó)際信息流推薦

導(dǎo)讀:本次分享的主題是淺談UC國(guó)際信息流推薦。會(huì)跟大家探討下發(fā)鏈路中常見(jiàn)的一些問(wèn)題,主要包括兩個(gè)場(chǎng)景:

  • 列表頁(yè)排序,包括:目標(biāo)確定、多目標(biāo)任務(wù)以及混排組合優(yōu)化。

  • 內(nèi)容冷啟問(wèn)題,如果不做內(nèi)容理解,能否做好推薦系統(tǒng)?

列表頁(yè)推薦

淺談 UC 國(guó)際信息流推薦

這是印度語(yǔ)版的推薦列表頁(yè),左邊跟常見(jiàn) feed 推薦的產(chǎn)品形態(tài)是非常類似的,有不同的異構(gòu)的卡片:

  • 新聞聚合頁(yè),點(diǎn)開(kāi)以后就是一個(gè)聚合頁(yè)。

  • 視頻,點(diǎn)開(kāi)是一個(gè)沉浸式播放的聚合頁(yè)。

  • 普通的圖文,點(diǎn)開(kāi)是一個(gè)落地頁(yè)、詳情頁(yè)。

  • Memes,印度市場(chǎng)特有的內(nèi)容 Memes。這種內(nèi)容主要是一張圖片(或者動(dòng)圖),這種內(nèi)容比較特殊,可以直接在列表頁(yè)消費(fèi),直接看了就曝光、閱讀完成,就結(jié)束了,如果點(diǎn)開(kāi)的話就是 Memes 的沉浸式頁(yè)面。

總結(jié)起來(lái),內(nèi)容消費(fèi)的路徑有:

  • 一種是,列表頁(yè)里直接消費(fèi)的內(nèi)容,如 Memes。

  • 一種是,落地頁(yè)中消費(fèi)的內(nèi)容。

  • 還有就是通過(guò)聚合頁(yè)再次跳到落地頁(yè)消費(fèi)的內(nèi)容。

1. 目標(biāo)確定

淺談 UC 國(guó)際信息流推薦

接下來(lái)講下如何確定目標(biāo)。對(duì)于推薦系統(tǒng)來(lái)說(shuō),最核心的就是如何確定目標(biāo),如果目標(biāo)定不好,可能就會(huì)出現(xiàn)標(biāo)題黨的問(wèn)題。在解釋最終求解目標(biāo)之前,先看下用戶的行為路徑:

圖中圓圈表示的是用戶的一種行為,方框表示用戶發(fā)生這種行為的心里活動(dòng)。

比如用戶看到一篇內(nèi)容之后,如果這個(gè)內(nèi)容有吸引用戶的點(diǎn),也就是產(chǎn)生了吸引,會(huì)發(fā)生一次點(diǎn)擊,在點(diǎn)擊看到詳情頁(yè)的內(nèi)容之后,如果對(duì)這個(gè)內(nèi)容比較滿意,用戶可能會(huì)形成一次有效的閱讀,有一次有效閱讀之后,如果用戶還是覺(jué)得這個(gè)內(nèi)容非常好、非常滿意,用戶可能會(huì)有一些互動(dòng)的行為,比如分享、點(diǎn)贊、評(píng)論等。

當(dāng)然還有種可能:用戶在列表頁(yè)里看到一篇內(nèi)容之后,用戶不是很感興趣,直接就跳走了或者快速的劃過(guò);再就是用戶點(diǎn)開(kāi)了一篇類似標(biāo)題黨的內(nèi)容,但是內(nèi)容完全不是用戶想要的,這其實(shí)是一個(gè)強(qiáng)烈的不滿意會(huì),一個(gè)無(wú)效的閱讀,然后用戶就離開(kāi)了。如果把所有不滿意的行為看作是一種負(fù)向的滿意度,我們建模的核心目標(biāo)應(yīng)該是一個(gè)用戶累計(jì)的所有滿意的行為,使?jié)M意行為累積量最大化。

這里所有標(biāo)黃色的路徑其實(shí)是一個(gè)偏正向的路徑,標(biāo)灰色的路徑是個(gè)偏負(fù)向的路徑,我們的目標(biāo)是使正向的路徑逐漸的累積,對(duì)用戶逐漸的產(chǎn)生一個(gè)比較正向的影響。

所以求解目標(biāo)是:

淺談 UC 國(guó)際信息流推薦

左邊為吸引的概率,右邊是滿意的概率,然后所有看過(guò)的內(nèi)容滿意度最大化。

如何衡量有效的閱讀?一個(gè)傳統(tǒng)的方法是用閱讀時(shí)長(zhǎng)來(lái)衡量是不是一個(gè)滿意的閱讀,但實(shí)際上用戶滿意的心理和時(shí)長(zhǎng)不是一個(gè)完全線性的關(guān)系。比如有一類行為是用戶閱讀了 5s 或者 10s 以下快速離開(kāi)(quickback),這種無(wú)效閱讀,無(wú)論是 3s、5s 還是 7s、8s,效果都是用戶對(duì)內(nèi)容完全不滿意,應(yīng)該快速離開(kāi)的。再有,當(dāng)用戶讀一篇長(zhǎng)文時(shí),大家可能都有這樣的體會(huì),長(zhǎng)文閱讀可能會(huì)有一個(gè)瓶頸,就是大家花了很長(zhǎng)時(shí)間在一篇文章閱讀上,但是讀到一定程度的時(shí)候,可能再也讀不下去了,能花的時(shí)間就存在一個(gè)極限了,所以最后滿意度和時(shí)長(zhǎng)關(guān)系是類似 sigmoid 的函數(shù)關(guān)系。因此,我們?cè)趯?duì)滿意度建模時(shí),其實(shí)是把回歸問(wèn)題變成了一個(gè)分類/二分類/多分類的問(wèn)題。這里可能會(huì)涉及怎么做時(shí)長(zhǎng)回歸的問(wèn)題(由于不同類型、分類、主題的內(nèi)容以及內(nèi)容信息量的不同,其閱讀時(shí)長(zhǎng)總量是會(huì)變化的),一種簡(jiǎn)單的方法是用這些維度,對(duì)內(nèi)容進(jìn)行統(tǒng)計(jì)分析求出分布,然后用分位數(shù)來(lái)截?cái)?,通過(guò)人工來(lái)排出幾個(gè)檔,也可以做一些人工標(biāo)注來(lái)擬合這樣的分類。結(jié)合UC國(guó)際信息流,稍微特殊的一點(diǎn)是列表頁(yè)有 Memes 這樣的圖片內(nèi)容。這種內(nèi)容由于強(qiáng)調(diào)的是互動(dòng)性(一般承載的是一些高分享類的內(nèi)容,如早安、節(jié)日問(wèn)候、搞笑的圖片等),在產(chǎn)品設(shè)計(jì)時(shí),會(huì)把這種交互行為做前置,在列表頁(yè)就放出來(lái),這樣就可能存在誤點(diǎn),用戶還沒(méi)看到或看完這篇內(nèi)容,就產(chǎn)生了點(diǎn)擊,需要做一些過(guò)濾。

負(fù)向滿意度,分為:

  • 顯式:很多產(chǎn)品在設(shè)計(jì)時(shí),都會(huì)在內(nèi)容邊上有個(gè)XX,也就是 dislike,比較直白的顯示了負(fù)向滿意度。

  • 隱式:無(wú)點(diǎn)的曝光、無(wú)效閱讀 ( quickback )、快刷等動(dòng)作。

說(shuō)完了總的求解目標(biāo)之后,這里列舉的吸引和滿意,滿意還可以拆解成更多的步驟,比如剛才說(shuō)的有效閱讀和互動(dòng)行為,可以再做分解,但無(wú)論如何都是一個(gè)多目標(biāo)的任務(wù),針對(duì)這樣的多目標(biāo)任務(wù)該如何建模呢?

2. 多目標(biāo)點(diǎn)估計(jì)

淺談 UC 國(guó)際信息流推薦

這里列舉了一些方法,都是阿里巴巴集團(tuán)內(nèi)部在各個(gè)業(yè)務(wù)線上的一些沉淀:

① ESMM:

這是阿里媽媽團(tuán)隊(duì)在解決多目標(biāo)問(wèn)題的一種解決方案。ESMM 可以解決我們?cè)趯?duì)多目標(biāo)問(wèn)題進(jìn)行求解時(shí),比如左邊是轉(zhuǎn)化率的目標(biāo),右邊點(diǎn)擊率目標(biāo),往往是獨(dú)立進(jìn)行求解的。使用樣本時(shí),該如何表達(dá)上文說(shuō)到的轉(zhuǎn)移概率?常規(guī)做法用到的樣本,如轉(zhuǎn)化率使用的樣本是所有的有點(diǎn)樣本,由于在訓(xùn)練時(shí),使用的樣本是部分樣本,在預(yù)測(cè)目標(biāo)時(shí),使用的是全樣本,導(dǎo)致樣本分布會(huì)存在一定的偏差。ESMM 是把樣本空間放到全空間,在定義目標(biāo),計(jì)算 loss 時(shí),計(jì)算的都是全樣本空間的 loss,一個(gè)是點(diǎn)擊率,再有一個(gè)是把 CVR 作為一個(gè)中間節(jié)點(diǎn),最后求解的 loss 目標(biāo)是 CTR * CVR,然后底層網(wǎng)絡(luò)參數(shù)共享。

② DBMTL:

DBMTL 模型是淘寶推薦團(tuán)隊(duì)對(duì) ESMM 模型進(jìn)行的改進(jìn)。主要的改進(jìn)點(diǎn):左邊這部分就相當(dāng)于 ESMM 那張圖橫過(guò)來(lái)了,是共享參數(shù)層;specific layer 是走的不同目標(biāo)的分支;最重要的是右邊 bayesian layer,表達(dá)了概率圖中目標(biāo)之間的貝葉斯轉(zhuǎn)移概率的因果關(guān)系。如果轉(zhuǎn)移概率之間的關(guān)系,受其他的一些 feature 和因素的影響,也可以把那些 feature 加到網(wǎng)絡(luò)中一起訓(xùn)練,所以 DBMTL 建模的時(shí)候還建模了幾個(gè)目標(biāo)之間的因果關(guān)系。

③ MMoE:

MMoE 類似一個(gè)專家系統(tǒng),有多個(gè)子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)使用的特征和網(wǎng)絡(luò)結(jié)構(gòu)可以有差異,在最終確定多目標(biāo)的時(shí)候進(jìn)行票選,通過(guò) gate 來(lái)賦予不同的權(quán)重來(lái)做票選。

最后,我們的業(yè)務(wù)在不同場(chǎng)景上都取得了比較正向的收益,如視頻頻道和 Push 場(chǎng)景。

多目標(biāo)這兒寫(xiě)了一個(gè)點(diǎn)估計(jì),因?yàn)橹饕迷诰诺膱?chǎng)景,在做每次的預(yù)估時(shí),考慮的都還只是某一條內(nèi)容的滿意度效果。

3. 混排

淺談 UC 國(guó)際信息流推薦

但是在列表頁(yè)場(chǎng)景,我們要求解的是一個(gè)組合最優(yōu)的效果,也就是說(shuō)對(duì)上面的問(wèn)題需要做進(jìn)一步的擴(kuò)展。在考慮點(diǎn)擊率時(shí),還要考慮上下文,我上下文的信息。

然后我們的求解目標(biāo)也做了一個(gè)轉(zhuǎn)換:

淺談 UC 國(guó)際信息流推薦

U 轉(zhuǎn)到 page,做了一個(gè)獨(dú)立假設(shè),認(rèn)為頁(yè)與頁(yè)之間是沒(méi)有關(guān)聯(lián)關(guān)系的,但這個(gè)假設(shè)不一定成立,只是為了把問(wèn)題簡(jiǎn)化一下。這樣我們的問(wèn)題就變成了在組合列表頁(yè)的情況下,如何達(dá)到組合最優(yōu)。比如有 N 條精排的候選集輸出,對(duì)這 N 條結(jié)果輸出 M 個(gè)槽位的排列,也就是求解排列的最優(yōu)解。所以搜索空間相當(dāng)于是 N 的 M 次方,一個(gè)非常大的搜索空間,在實(shí)際業(yè)務(wù)中是沒(méi)法落地的,因?yàn)橛?jì)算復(fù)雜度太高了。

所以淘搜這有一個(gè)簡(jiǎn)化版的方法:類似于貪心的一種算法,在每一輪只確定當(dāng)前這條最優(yōu)的結(jié)果,然后考慮上文,不考慮下文。舉個(gè)例子,比如現(xiàn)在是第三輪迭代,已經(jīng)確定了前三個(gè)位置的最優(yōu)組合,現(xiàn)在是求解第四個(gè)位置應(yīng)該選哪一條,預(yù)測(cè)第四條那個(gè)位置最優(yōu)的一個(gè)選項(xiàng)。另外在做貪心搜索時(shí),搜索空間非常受限,受選擇順序的限制。那么 beam search 有一個(gè)參數(shù),就是寬度,每次可以把候選集保留 top3,也就是最優(yōu)組合的 top3 作為候選,再進(jìn)行下一次的探索,有一定的探索回溯的能力,這樣 beamsize 探索的最優(yōu)空間的大小,可以用來(lái) balance 性能和效果。

還有一點(diǎn)是對(duì)上文的建模,怎么表達(dá)上文的排列信息,也就是上文內(nèi)容之間的位置相對(duì)關(guān)系的信息。這里有一個(gè)比較巧妙的方法:用 RNN 的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表達(dá)他們之間的相互關(guān)系,然后在計(jì)算的過(guò)程中(因?yàn)槭且粋€(gè)貪婪式的計(jì)算,每一輪只計(jì)算一步),只計(jì)算 RNN 的一個(gè) STEP 可以了,所以在時(shí)間復(fù)雜度上也是可以接受的,這樣存儲(chǔ)一個(gè) RNN 中間的隱變量就可以了,這就是混排的做法。

內(nèi)容冷啟

淺談 UC 國(guó)際信息流推薦

內(nèi)容冷啟問(wèn)題,有朋友問(wèn),如果一個(gè)推薦系統(tǒng)完全不做內(nèi)容理解,是不是也是可行的?這里從其中一個(gè)角度說(shuō)下。

左圖是我們現(xiàn)在只用 ID 作為 feature,也就是說(shuō)核心 feature 是內(nèi)容的 ID,相當(dāng)于沒(méi)有內(nèi)容理解,這是一個(gè)新內(nèi)容收斂的效果,下邊橫軸是下發(fā)的 PV,可以看到點(diǎn)擊率的收斂,要基本上要到千次左右的下發(fā)才能達(dá)到一個(gè)接近收斂的程度,而且起步階段和后面其實(shí) gap 還是非常大的,用 ID 做推薦就會(huì)遇到這樣冷啟的問(wèn)題,特別是我們的業(yè)務(wù)場(chǎng)景又涉及到小語(yǔ)種。因此,對(duì)于場(chǎng)景,無(wú)論是 item 還是流量都做了很多的細(xì)分,所以冷啟的問(wèn)題會(huì)尤其的嚴(yán)重一些。

淺談 UC 國(guó)際信息流推薦

解法其實(shí)還是內(nèi)容理解,我們把 ID 的特征映射到文本域。這里有一個(gè) YouTube 15年做的一個(gè)工作,怎么去掉時(shí)間的 bias,就是 Example age,其含義是在采用這條樣本時(shí),這個(gè)時(shí)間點(diǎn)距離這條內(nèi)容發(fā)布的時(shí)間點(diǎn)之間的 time diff 時(shí)間差是什么樣的。加上 bias 的 feature 之后,對(duì)時(shí)間敏感的內(nèi)容在下發(fā)時(shí)就會(huì)考慮到下發(fā)時(shí)間差,相當(dāng)于提高了時(shí)效性。

我們?cè)谡倩貍?cè) DM match,把 ID 特征加上文本特征之后,冷啟(1000條以下的曝光)內(nèi)容 AUC 有了不錯(cuò)的提升。

另外,在多語(yǔ)言的體系下,如果能把文本域的表征對(duì)齊投影到同一個(gè)空間,對(duì)冷啟應(yīng)該能起到更好的效果。

總結(jié)

簡(jiǎn)單總結(jié)下,結(jié)合大家常見(jiàn)的一些問(wèn)題,本次分享主要介紹了排序中如何確定目標(biāo),如何做多目標(biāo)的點(diǎn)估計(jì)以及混排的組合優(yōu)化,還簡(jiǎn)單介紹了內(nèi)容冷啟的一些解決思路,主要是特征泛化和語(yǔ)義對(duì)齊。本次分享就到這里,謝謝大家。

特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:

淺談 UC 國(guó)際信息流推薦

長(zhǎng)按訂閱更多精彩▼

淺談 UC 國(guó)際信息流推薦

如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝

免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
關(guān)閉
關(guān)閉