在chatGPT掀起人工智能(AI)熱潮的當(dāng)下,AI三要素之一的數(shù)據(jù)也成為了熱門話題。
(資料圖)
作為AI大語言模型高質(zhì)量回答的基礎(chǔ),訓(xùn)練數(shù)據(jù)生產(chǎn)過程主要包括四個(gè)環(huán)節(jié):設(shè)計(jì)(訓(xùn)練數(shù)據(jù)集結(jié)構(gòu)設(shè)計(jì))、采集(獲取原料數(shù)據(jù))、加工(數(shù)據(jù)標(biāo)注)及質(zhì)檢(各環(huán)節(jié)數(shù)據(jù)質(zhì)量、加工質(zhì)量檢測)。其中,數(shù)據(jù)標(biāo)注需要識別圖像、文本、視頻等原始數(shù)據(jù),并添加一個(gè)或多個(gè)標(biāo)簽為機(jī)器學(xué)習(xí)模型指定上下文,幫助其做出準(zhǔn)確的預(yù)測。
不過,數(shù)據(jù)標(biāo)注是仍需要大量人工來完成的環(huán)節(jié)。“人工有多強(qiáng)大,智能才有多強(qiáng)大。”主營AI數(shù)據(jù)采集標(biāo)注業(yè)務(wù)的杭州景聯(lián)文科技副總裁劉云濤在接受第一財(cái)經(jīng)采訪時(shí)稱,這還是一個(gè)先有雞或先有蛋的故事。
但劉云濤同時(shí)表示,數(shù)據(jù)采集標(biāo)注行業(yè)發(fā)展至今,已成為半人工智能、半人工化的行業(yè)。全棧AI數(shù)據(jù)及模型解決方案供應(yīng)商倍賽科技創(chuàng)始人兼CEO杜霖也認(rèn)為,數(shù)據(jù)標(biāo)注本質(zhì)上是一個(gè)研發(fā)密集型產(chǎn)業(yè)。
數(shù)據(jù)標(biāo)注與大模型質(zhì)量正相關(guān)
“當(dāng)下的機(jī)器學(xué)習(xí)技術(shù)大部分依賴于human-in-the-loop,即有監(jiān)督或來自人類反饋的學(xué)習(xí)。”杜霖在接受第一財(cái)經(jīng)采訪時(shí)表示,“而監(jiān)督和反饋即人對數(shù)據(jù)的標(biāo)注與評價(jià)。”
AI分析公司Cognilytica研究數(shù)據(jù)顯示,在AI項(xiàng)目中,對數(shù)據(jù)相關(guān)的處理過程可占據(jù)超過80%的時(shí)間,其中數(shù)據(jù)標(biāo)注環(huán)節(jié)的耗時(shí)占比可達(dá)25%。
數(shù)據(jù)標(biāo)注是指對未經(jīng)處理的語音、圖片、文本、視頻等數(shù)據(jù)進(jìn)行轉(zhuǎn)義、打點(diǎn)、拉線、拉框等操作,標(biāo)注為電腦可以識別的信息,再上傳到數(shù)據(jù)庫,實(shí)現(xiàn)人工智能。一般來說,標(biāo)注上傳的數(shù)據(jù)越多、越準(zhǔn)確,人工智能也就越智能。
招商證券表示,GPT-3與前一代產(chǎn)品GPT-2架構(gòu)相同,但訓(xùn)練數(shù)據(jù)與參數(shù)量顯著提升,GPT-2的預(yù)訓(xùn)練數(shù)據(jù)量為40GB、參數(shù)量僅有15億個(gè),而GPT-3的參數(shù)訓(xùn)練量達(dá)到45TB、參數(shù)量更是高達(dá)1750億個(gè),約有4900億個(gè)tokens。從回答質(zhì)量上看,ChatGPT回答內(nèi)容比GPT-2更貼切、準(zhǔn)確,并且符合人類語言習(xí)慣。
不過,杜霖認(rèn)為,標(biāo)注數(shù)據(jù)貴不在數(shù)量而在質(zhì)量。
“從GPT的實(shí)驗(yàn)發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。但值得注意的是,通過來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)生成的InstructGPT模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT-3模型效果更好,也說明了有監(jiān)督的標(biāo)注數(shù)據(jù)是大模型應(yīng)用成功的關(guān)鍵之一。”
如何提升數(shù)據(jù)標(biāo)注的質(zhì)量?劉云濤認(rèn)為,一是提高標(biāo)注準(zhǔn)確率,二是提高貼合度。“以自動駕駛為例,紅綠燈、車道線等標(biāo)注準(zhǔn)確度越高,算法精度就越高;貼合度從5個(gè)像素點(diǎn)變成1個(gè)像素點(diǎn),算法精度也隨之提升。”劉云濤表示,“此外,多維度也是提高質(zhì)量的方式。比如chatGPT在面對一些問題時(shí)面對不同的人會有不同的答案。”
我國數(shù)據(jù)標(biāo)注行業(yè)迅速發(fā)展
隨著全球新一輪AI熱潮來臨,大量訓(xùn)練數(shù)據(jù)已成為AI算法模型發(fā)展和演進(jìn)的“燃料”。
艾瑞咨詢數(shù)據(jù)顯示,包括數(shù)據(jù)采集、數(shù)據(jù)處理(標(biāo)注)、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等模塊在內(nèi)的AI基礎(chǔ)數(shù)據(jù)服務(wù)市場,將在未來數(shù)年內(nèi)持續(xù)增長,到2025年,國內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場的整體規(guī)模預(yù)計(jì)將達(dá)到101.1億元,整體市場增速將達(dá)到31.8%(2024-2025年)。
而據(jù)iResearch數(shù)據(jù),2019年我國數(shù)據(jù)標(biāo)注市場規(guī)模為30.9億元,預(yù)計(jì)2025年市場規(guī)模突破100億元,年復(fù)合增長率達(dá)到14.6%。
與此相伴隨,中國數(shù)據(jù)標(biāo)注行業(yè)正在迅速發(fā)展。招商證券認(rèn)為,一方面,進(jìn)入大數(shù)據(jù)時(shí)代后,人們各種行為的電子化、網(wǎng)絡(luò)化帶來海量數(shù)據(jù),但產(chǎn)生的數(shù)據(jù)只有1%能被收集和保存,并且收集的數(shù)據(jù)中90%是非結(jié)構(gòu)化的數(shù)據(jù);另一方面,人工智能的興起帶來模型訓(xùn)練所用結(jié)構(gòu)化數(shù)據(jù)的巨大需求,數(shù)據(jù)標(biāo)注的重要性逐漸突顯。
按照下游場景類型,2021年我國人工智能數(shù)據(jù)標(biāo)注市場中,計(jì)算機(jī)視覺類、智能語音類和NLP類需求占比分別為45.3%、40.5%和14.2%。而AI基礎(chǔ)數(shù)據(jù)及軟件服務(wù)提供商龍貓數(shù)據(jù)相關(guān)人士告訴第一財(cái)經(jīng),隨著數(shù)據(jù)量的不斷增長和數(shù)據(jù)結(jié)構(gòu)的不斷變化,數(shù)據(jù)標(biāo)注行業(yè)涉及的領(lǐng)域也越來越廣泛,特別是在自動駕駛、AIGC等領(lǐng)域內(nèi),數(shù)據(jù)標(biāo)注需求量極大。
劉云濤也持類似觀點(diǎn)。“現(xiàn)在最大的需求點(diǎn)就是自動駕駛,目前數(shù)據(jù)采集標(biāo)注這個(gè)行業(yè)內(nèi)所有的公司都在圍繞自動駕駛,未來5到10年的需求量還會越來越大。”
資料顯示,國內(nèi)AI訓(xùn)練數(shù)據(jù)提供商龍頭海天瑞聲(688787.SH)正在積極發(fā)力自動駕駛業(yè)務(wù),該公司已于2022年6月上線第三代智能駕駛標(biāo)注平臺并發(fā)力研發(fā)第四代產(chǎn)品,截至2022年第三季度,海天瑞聲已驗(yàn)收訂單以及在手訂單合計(jì)約5000萬元,同比增長超200%。
AI大模型也將帶來大量需求。劉云濤稱,“預(yù)計(jì)今年10月國內(nèi)會迎來一波大的類chatGPT大模型的數(shù)據(jù)需求,而且這是一個(gè)海量的需求,以目前國內(nèi)幾家頭部數(shù)據(jù)標(biāo)注公司來看,目前產(chǎn)能還不足以滿足需求。”為此,景聯(lián)文科技正加大對大模型方案的投入并深化相關(guān)業(yè)務(wù)。
AI背后:人工有多強(qiáng)大,智能才有多強(qiáng)大?
標(biāo)注數(shù)據(jù)如同實(shí)現(xiàn)人工智能的一磚一瓦,對于數(shù)據(jù)采集標(biāo)注企業(yè)來說,數(shù)據(jù)質(zhì)量和經(jīng)營效率無疑是最直接的競爭力,除了自研標(biāo)注工具外,數(shù)據(jù)標(biāo)注員的管理是重要抓手。
“當(dāng)前,大部分?jǐn)?shù)據(jù)標(biāo)注任務(wù)仍然需要人工完成,而且各種數(shù)據(jù)類型和應(yīng)用領(lǐng)域都需要相應(yīng)領(lǐng)域的專業(yè)標(biāo)注員來完成標(biāo)注任務(wù)。”龍貓數(shù)據(jù)相關(guān)人士表示。
據(jù)悉,數(shù)據(jù)標(biāo)注員是數(shù)據(jù)標(biāo)注公司最核心的崗位之一,主要工作是借助標(biāo)注工具,對人工智能學(xué)習(xí)數(shù)據(jù)進(jìn)行加工,數(shù)據(jù)一般為圖片、視頻、文本等,通過不斷地拉框、標(biāo)點(diǎn)等操作,為人工智能提供足夠的數(shù)據(jù)集。
此前,數(shù)據(jù)標(biāo)注員的門檻較低,只需要細(xì)致有耐心;如今在一些高難度、高質(zhì)量標(biāo)準(zhǔn)的標(biāo)注任務(wù)中,標(biāo)注員的素質(zhì)對標(biāo)注過程和結(jié)果的準(zhǔn)確性和穩(wěn)定性至關(guān)重要。例如,在自動駕駛、AIGC等數(shù)據(jù)類型的標(biāo)注任務(wù)中,標(biāo)注員需要有相應(yīng)領(lǐng)域的專業(yè)知識和技能才能準(zhǔn)確地標(biāo)注數(shù)據(jù)。
龍貓數(shù)據(jù)相關(guān)人士表示,數(shù)據(jù)標(biāo)注行業(yè)壓力也很大,市場競爭激烈,標(biāo)注公司為了保持競爭優(yōu)勢,需要投入更多的成本來吸引、留存、培養(yǎng)和管理標(biāo)注員隊(duì)伍,而這些額外的成本也增加了行業(yè)的人力密集型特征。
劉云濤也贊同上述觀點(diǎn),不過,他表示,數(shù)據(jù)采集標(biāo)注行業(yè)發(fā)展至今,已成為半人工智能、半人工化的行業(yè)。
面對大語言模型動輒上百億參數(shù)的數(shù)據(jù)質(zhì)量控制,需要通過標(biāo)注平臺將一個(gè)個(gè)復(fù)雜RLHF需求拆成很多個(gè)簡單的工作流,讓機(jī)器去做預(yù)處理,人去做深層的基于理解的反饋,以減少人在簡單問題上的精力消耗,專注在專業(yè)問題上的標(biāo)注。杜霖介紹,“比如交叉驗(yàn)證模式,即通過人和機(jī)器混合驗(yàn)證的模式或者復(fù)檢的模式,來進(jìn)一步提升標(biāo)注質(zhì)量;此外一系列標(biāo)準(zhǔn)化任務(wù)培訓(xùn)的機(jī)制,以確保人類反饋的答案一致性,也都是通過平臺來實(shí)現(xiàn)的。”
景聯(lián)文也采用主動質(zhì)檢加被動質(zhì)檢的方式,前者靠人為去做質(zhì)檢,后者是靠算法去做一些預(yù)識別。“現(xiàn)在數(shù)據(jù)標(biāo)注行業(yè)還是‘人工智能的背后,人工有多強(qiáng)大,智能才有多強(qiáng)大’。雖然有標(biāo)注工具,但這還是一個(gè)先有雞或先有蛋的故事。”劉云濤坦言。
據(jù)悉,目前數(shù)據(jù)標(biāo)注工具的準(zhǔn)確率部分僅百分之幾,部分準(zhǔn)確率則可以達(dá)到80%、90%。“機(jī)器標(biāo)注的識別率越高,我們的人工需求就會越少,成本、利潤、速度、質(zhì)量都能更加可控。”劉云濤稱。
杜霖認(rèn)為,數(shù)據(jù)標(biāo)注行業(yè)的核心是高效的人機(jī)交互工具和任務(wù)分發(fā)管理平臺,“我們公司員工大部分都是圍繞著我們平臺來做研發(fā)和運(yùn)營管理,真正的標(biāo)注則通過賦能產(chǎn)能網(wǎng)絡(luò)去完成。我們主要積累的技術(shù)是圍繞在怎么通過工具和更高效的流程來實(shí)現(xiàn)自動化的任務(wù)拆解、預(yù)處理與匹配,所以我們是本質(zhì)上是一個(gè)研發(fā)密集型公司,而不是一個(gè)勞動密集型公司。”
龍貓數(shù)據(jù)相關(guān)人士則稱,隨著技術(shù)不斷發(fā)展,未來數(shù)據(jù)標(biāo)注行業(yè)可能會實(shí)現(xiàn)更高的自動化程度,但應(yīng)用領(lǐng)域不同,仍然需要一定數(shù)量的標(biāo)注人員來進(jìn)行標(biāo)注任務(wù)。
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) www.ulq4xuwux.cn 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2020 By All Rights Reserved 皖I(lǐng)CP備2022009963號-10
聯(lián)系我們: 39 60 29 14 2@qq.com