北京市發(fā)布首批人工智能大模型高質(zhì)量數(shù)據(jù)集
掃描二維碼
隨時(shí)隨地手機(jī)看文章
數(shù)據(jù)是人工智能產(chǎn)業(yè)發(fā)展的“牛鼻子”,在產(chǎn)業(yè)鏈中起著價(jià)值倍增“放大器”的作用。在進(jìn)行模型訓(xùn)練中,許多模型企業(yè)均反映面臨訓(xùn)練數(shù)據(jù)匱乏、質(zhì)量難以保障等問題。為積極搶抓人工智能產(chǎn)業(yè)發(fā)展機(jī)遇,充分發(fā)揮得天獨(dú)厚的數(shù)據(jù)資源優(yōu)勢(shì),北京市積極引導(dǎo)各類市場(chǎng)主體加強(qiáng)數(shù)據(jù)要素流動(dòng),不斷夯實(shí)人工智能產(chǎn)業(yè)發(fā)展基礎(chǔ)。
7月2日,“2023 全球數(shù)字經(jīng)濟(jì)大會(huì)人工智能高峰論壇”在京舉辦,本次論壇上發(fā)布了首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”,10 家單位的 18 個(gè)高質(zhì)量訓(xùn)練數(shù)據(jù)集入選,包括人民日?qǐng)?bào)語料數(shù)據(jù)集、國(guó)家法律法規(guī)語料數(shù)據(jù)集、兩會(huì)參政議政建言數(shù)據(jù)集、“科情頭條”全球科技動(dòng)態(tài)數(shù)據(jù)集、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)數(shù)據(jù)集、科技文獻(xiàn)挖掘語義標(biāo)注數(shù)據(jù)集等,涵蓋經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)等不同領(lǐng)域,涉及文本、圖像、音頻、視頻等多種形式,總規(guī)模超過 500T。這些高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)將為通用大模型和行業(yè)大模型訓(xùn)練提供有力的數(shù)據(jù)資源保障,進(jìn)一步促進(jìn)北京市數(shù)據(jù)要素的高效流通和價(jià)值釋放,助力通用人工智能產(chǎn)業(yè)發(fā)展和數(shù)據(jù)要素市場(chǎng)的建設(shè)。
5月19日,北京市經(jīng)濟(jì)和信息化局還聯(lián)合北京市發(fā)展改革委、北京市科委、中關(guān)村管委會(huì)共同發(fā)布了《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃》,其中數(shù)據(jù)伙伴將發(fā)揮海量數(shù)據(jù)資源優(yōu)勢(shì),為大模型訓(xùn)練提供高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。經(jīng)過兩批次評(píng)選,共計(jì)19家單位入圍,涵蓋企事業(yè)單位、科研院所、平臺(tái)企業(yè)等。通過市場(chǎng)化機(jī)制,這些數(shù)據(jù)伙伴企業(yè)將釋放一批高質(zhì)量數(shù)據(jù)集。
下一步,北京市將在北京國(guó)際大數(shù)據(jù)交易所和北京AI數(shù)據(jù)標(biāo)注庫(kù)平臺(tái)上線數(shù)據(jù)集產(chǎn)品目錄,供大模型相關(guān)企業(yè)及時(shí)獲取數(shù)據(jù)集產(chǎn)品信息并進(jìn)行供需對(duì)接。同時(shí),北京市正在探索打造數(shù)據(jù)訓(xùn)練基地,通過建設(shè)可信空間,匯聚更多高質(zhì)量數(shù)據(jù),集中對(duì)外提供服務(wù)。這將進(jìn)一步推動(dòng)北京市大模型技術(shù)的研發(fā)和應(yīng)用落地,賦能千行百業(yè)數(shù)智化轉(zhuǎn)型升級(jí)。