深圳縱橫集團有限公司
Shenzhen Zongheng Group Co,Ltd
時(shí)間:2023-04-20 信息來源:縱橫集團
-------------------------------------------
數據标注解決方案公司「恺望數據」近日已完成(chéng)新一輪戰略融資,投資方爲全球投資機構Plug and Play,天使輪投資方辰韬資本繼續追投。
本輪融資投資方PNP是全球知名的科技創新生态平台,曾投資PayPal、Google、LendingClub、Dropbox、Logitech等企業。恺望數據表示,新一輪融資後(hòu),恺望數據也會(huì)與PNP進(jìn)一步合作,探索出海路徑,并繼續投入到産品叠代升級當中。
人工智能(néng)賽道(dào)的發(fā)展離不開(kāi)大量人力和數據的哺育,而數據标注産業正是在AI産業鏈的上遊——將(jiāng)大量的數據分類、标注,爲AI公司提供經(jīng)過(guò)加工的數據“原材料”。
「恺望數據」正是起(qǐ)家于自動駕駛領域,爲車企和自動駕駛公司提供一站式數據解決方案的公司。恺望數據創始人于旭碩士畢業于法國(guó)昂熱大學(xué),曾從0到1搭建起(qǐ)字節跳動、Momenta、Uber等企業數據生産及運營體系。
恺望數據希望能(néng)夠解決數據标注行業供給不穩定、流程繁雜、工具低效等數據标注行業痛點。
自2022年2月成(chéng)立後(hòu),恺望數據花費一年時(shí)間,建起(qǐ)起(qǐ)了一套以“自動化産線+規模化人力”爲核心的生産體系。其形态爲一個SaaS平台——相當于一個能(néng)夠爲算法提供穩定、高質量且低價數據供應鏈的"自動化産線"。而本輪融資完成(chéng)之際,這(zhè)一産線也已正式上線。
傳統的數據标注行業,是一個人力密集型行業。在傳統的數據标注廠商中,除了招募大量标注員外,還(hái)有大量的統籌、管理工作。而要做到“自動化産線+規模化人力”,恺望數據主要分爲兩(liǎng)部分來實現——首先建立了SaaS平台,拆分成(chéng)管理和生産兩(liǎng)個部分。
在前期的培訓、第一道(dào)标注、審核等管理環節,以往很大程度都(dōu)要依靠項目經(jīng)理來進(jìn)行統籌、編排,恺望通過(guò)建立統一的SaaS平台和規則,將(jiāng)這(zhè)一部分數字化。
到了生産環節,恺望的SaaS平台已經(jīng)内置了一套類似打車的機制,标注員能(néng)夠在上面(miàn)“接單”。值得注意的是,恺望在這(zhè)一環節還(hái)引進(jìn)了ChatGPT相關技術,用以提升數據标注作業流程的管理效率。
事(shì)實上,大模型技術的突破也讓數據标注廠商迎來一次“産業升級”。創始人于旭對(duì)36氪表示,以往在數據标注中,大量數據都(dōu)需要預标注,也即需要人工手動标注出來,再教會(huì)機器。數據廠商也會(huì)遇到不同廠商的任務,小的機器學(xué)習模型不能(néng)太适配的問題。但如今随著(zhe)技術叠代,尤其是近期的大模型技術突破後(hòu),這(zhè)將(jiāng)能(néng)夠作爲數據标準的基礎。
“以前,如果人類用10分力,現在大模型能(néng)夠貢獻6-7分,把通用的數據都(dōu)标注好(hǎo),省下來的時(shí)間,人工可以重點投入到一些垂類場景的數據種(zhǒng)類中。”于旭表示。
比如,近期Meta公布了用于圖像分割的大模型——這(zhè)就(jiù)是自動駕駛中重要的一個标注環節。在以後(hòu),大模型可以用于CV(圖像)方向(xiàng)的的預篩,到後(hòu)面(miàn)更爲垂類的數據種(zhǒng)類,再由人工來完成(chéng)。
在上述種(zhǒng)種(zhǒng)的數字化技術升級下,恺望的“數據标注産線”實現了在持續提升數據生産規模化的同時(shí),減少成(chéng)本20%-50%。
技術提升也會(huì)加速人才培育的門檻。于旭認爲,配合自動化産線,數據标注所需要的人才水平也會(huì)逐漸走高。從去年開(kāi)始,恺望數據就(jiù)推出了人才培訓計劃,與高職院校進(jìn)行合作,希望培養有基礎标注知識的人才。
在以前,一個零基礎的學(xué)生,需要經(jīng)曆約爲三周的“爬坡期”,背誦相關标注規則。而恺望將(jiāng)ChatGPT和規則庫進(jìn)行結合,引進(jìn)到标注作業平台後(hòu),标注員在進(jìn)行标注時(shí),就(jiù)能(néng)通過(guò)對(duì)話形式詢問GPT助手,标注員再也不必背誦大量的規則,人才培育的“爬坡期”大幅減短。
這(zhè)也同時(shí)解放了項目經(jīng)理,他們不必同時(shí)管理資源、項目、培訓等環節,其管理範圍也會(huì)擴大。“随著(zhe)AI行業這(zhè)一輪産業升級,人才梯度會(huì)迅速分開(kāi),而數據标注領域也將(jiāng)會(huì)進(jìn)入精細化分工階段。”于旭表示。
從市場需求來看,2022年是自動駕駛行業紛紛進(jìn)入量産階段的一年,對(duì)數據标準的需求呈現爆發(fā)狀态,算法叠代快,對(duì)每一批數據的質量要求越來越高。于旭表示,成(chéng)立不到一年,恺望數據已經(jīng)進(jìn)入業務快速增長(cháng)期,當前已經(jīng)與三一集團在自動駕駛領域開(kāi)展數據合作。
此外,恺望也與字節跳動、元戎啓行、地平線、中交興路、輝羲、易控、曠視及商湯科技等企業建立合作。近期,恺望單月訂單已突破千萬級别,并中标汽車主機廠長(cháng)安汽車的數據标注服務。
除了自動駕駛領域外,恺望數據也在探索AI領域的市場機會(huì)。在最近半年的AI熱潮席卷下,可以預見的是,對(duì)産業鏈上遊的數據需求正在爆炸性增長(cháng)。根據中國(guó)信通院,到2035年,全球數據量將(jiāng)達2142 ZB(Zettabyte,1ZB約十萬億億字節),是2020年數據量的約45倍。随著(zhe)AI所需的數據量和訓練精度也逐漸走高,這(zhè)對(duì)數據标注、算力優化等基礎設施服務提供了更高要求。
此前,恺望數據曾于2022年9月宣布獲得千萬級天使輪戰略融資,投資方包括辰韬資本、三一集團和溪山天使彙。