當前位置：首頁 > 智能硬件 > 人工智能AI

關(guān)于猿輔導(dǎo)機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

時間：2020-08-03 07:00:02

關(guān)鍵字：機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 本文描述了猿輔導(dǎo)開源分布式機器學習庫ytk-learn及分布式通信庫ytk-mp4j的相關(guān)內(nèi)容，可實現(xiàn)在多應(yīng)用場景中使用。ytk-learn 是基于Java的高效分布式機器學習庫，簡單易用，文

本文描述了猿輔導(dǎo)開源分布式機器學習庫ytk-learn及分布式通信庫ytk-mp4j的相關(guān)內(nèi)容，可實現(xiàn)在多應(yīng)用場景中使用。ytk-learn 是基于Java的高效分布式機器學習庫，簡單易用，文檔詳細，只需要用戶安裝Java 8運行時環(huán)境即可，而且所有模型都有可運行的demo。

猿輔導(dǎo)公司開源了兩個機器學習項目——ytk-learn， ytk-mp4j，其中 ytk-mp4j 是一個高效的分布式通信庫，基于該通信庫我們實現(xiàn)了 ytk-learn 分布式機器學習庫，該機器學習庫目前在猿輔導(dǎo)很多應(yīng)用場景中使用，比如，自適應(yīng)學習、學生高考分預(yù)測、數(shù)據(jù)挖掘、課程推薦等。

ytk-learn分布式機器學習庫項目背景

LR（LogisTIc Regression）， GBDT（Gradient BoosTIng Decision Tree）， FM（FactorizaTIon Machines）， FFM（Field-aware FactorizaTIon Machines）模型是廣告點擊率預(yù)測和推薦系統(tǒng)中廣泛使用的模型，但是到目前為止幾乎沒有一個高效的機器學習開源項目集這幾種常用模型于一身，而且很多機器學習開源項目只能在特定計算平臺下使用，最重要的是不能高效的整合到線上生產(chǎn)環(huán)境中。ytk-learn 就是解決以上問題而產(chǎn)生的。

圖1 ytk-learn 特性概略

項目簡介

ytk-learn 是基于Java的高效分布式機器學習庫，實現(xiàn)大量的主流傳統(tǒng)機器學習模型（GBDT， LR， FM， FFM等）和loss函數(shù)，支持單機多線程、多機集群及分布式計算環(huán)境。

其中 GBDT/GBRT 的實現(xiàn)借鑒吸收了 XGBoost 和 LightGBM 的大部分有用特性，支持特征并行和數(shù)據(jù)并行，支持傳統(tǒng)的精確算法和直方圖近似算法，支持 level-wise 或者 leaf-wise 的建樹方式，而且還實現(xiàn)了分布式帶權(quán)分位數(shù)近似。在單機數(shù)據(jù)并行的場景中訓練速度跟 XGBoost 相當，在非$2^n$臺機器的分布式場景中比 LightGBM 速度更快，更穩(wěn)定。

傳統(tǒng)的 GBDT/GBRT 在含有大量 Categorical 特征的場景中無法使用，我們實現(xiàn)了多種適用于大量 Categorical特征的 GBST（Gradient Boosting Soft Tree）模型，在猿輔導(dǎo)的點擊率預(yù)測和推薦場景中效果明顯好于LR、FM、FFM等模型。

ytk-learn 實現(xiàn)了改進的 Hoag（Hyperparameter optimization with approximate gradient， ICML2016）算法，能夠自動高效的進行超參數(shù)搜索。當目標函數(shù)是凸函數(shù)時，hoag 能快速得到最優(yōu)超參數(shù)（kaggle 比賽利器），效率明顯高于傳統(tǒng)的網(wǎng)格超參數(shù)搜索算法（grid search），而且在非凸目標函數(shù)場景中也適用。

其他特性：

1. 簡單易用，文檔詳細，只需要用戶安裝Java 8運行時環(huán)境即可，而且所有模型都有可運行的demo

2. 支持主流的操作系統(tǒng)：Linux，Windows，Mac OS，僅需安裝Java8運行環(huán)境即可使用

3. 支持單機多線程，多機集群及分布式環(huán)境（Hadoop，Spark），相比Hadoop Mahout， Spark MLlib效率高很多

4. 提供簡單易用的在線預(yù)測代碼，可以方便整合到線上生成環(huán)境

5. 支持多種目標函數(shù)和評估指標，支持L1，L2，L1+L2正則

6. 樹模型支持樣本采樣，特征采樣，提供初始預(yù)估值的訓練

7. 支持特征預(yù)處理（歸一化，縮放），特征哈希，特征過濾，基于樣本標簽采樣

8. 提供了讀取數(shù)據(jù)時進行高效數(shù)據(jù)處理的python腳本

9. 訓練模型支持checkpoint，繼續(xù)訓練

10. LR 支持 Laplace 近似，方便做 Exploitation&Exploration

11. 基于猿輔導(dǎo)的 ytk-mp4j 通信庫，分布式訓練效率非常高

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]