低學(xué)歷的印度數(shù)據(jù)標(biāo)簽工,正成為全球AI功臣
Kumaramputhur是喀拉拉邦Palakkad西北約45公里處的一個小村莊,約有3500個家庭在這里居住。這個村莊沒有第一產(chǎn)業(yè)可言,它的性別比例和識字率都低于該州的平均水平。除了有一些現(xiàn)代化的痕跡,這里似乎沒有什么值得引起注意。
然而,正是在這個村子里,高中輟學(xué)生Mujeeb Kolasseri指揮著一支由200多名員工組成的團隊,為美國、歐洲、澳大利亞和亞洲的客戶開發(fā)人工智能解決方案。Kolasseri 于三年前創(chuàng)辦了這家名為Infolks的公司,28歲的他是該公司資格最老的成員。
該公司的辦公室位于連接Palakkad和Kozhikode的高速公路上,雖然不起眼,但團隊里的大部分成員都在這里工作。他們所要做的就是將固定在自動駕駛車輛上的攝像機拍攝的車輛、交通燈、路標(biāo)和行人的圖像進行強調(diào)和標(biāo)記。這份工作看似簡單,但卻很困難,因為他們需要將激光雷達(dá)遙感器捕獲的數(shù)據(jù)進行精確標(biāo)記(激光雷達(dá)為自動駕駛車輛創(chuàng)建3D地圖,以獲得對周圍物體的感知)。
約2000公里之外,加爾各答西南邊緣的梅蒂阿布魯茲胡格利河岸附近,約有200名婦女正在給圖像貼標(biāo)簽,這些圖像將用于訓(xùn)練自動駕駛車輛和增強現(xiàn)實系統(tǒng)中的算法。
“他們參與著一些我們最前沿的圖像項目,”數(shù)據(jù)注釋公司iMerit的技術(shù)和營銷副總裁Jai Natarajan表示,其員工參與標(biāo)記和準(zhǔn)備數(shù)據(jù),以訓(xùn)練人工智能算法。
iMerit在加爾各答、蘭奇、布巴內(nèi)斯瓦爾、維扎格和夏隆辦事處的數(shù)千名員工也在從事著類似的工作,通過給數(shù)百萬數(shù)據(jù)貼上標(biāo)簽,幫助訓(xùn)練全球各大公司開發(fā)的人工智能算法。
全球企業(yè)巨頭正在逐步采用人工智能,為人工智能算法提供支持的數(shù)據(jù)集也變得越來越專有,所以這些公司需要在要求、質(zhì)量控制、反饋和交付方面與數(shù)據(jù)標(biāo)簽團隊進行更高程度的合作。
由于本世紀(jì)初業(yè)務(wù)流程外包的繁榮,印度人對這些行話和要求并不陌生。數(shù)據(jù)注釋和標(biāo)記也是一種由流程驅(qū)動的工作,需要精確的工作和技能,即使是受過高中教育的人也可以接受培訓(xùn)。
隨著以眾包為主的第一代工作被更先進的要求所取代,Infolks、iMerit和Playment等公司開始迎合全球客戶,并使印度成為數(shù)據(jù)標(biāo)簽和注釋工作的新興中心。
“這是一個新興行業(yè)。在印度,每個人都已經(jīng)開始意識到它帶來的巨大機遇,”印度科技產(chǎn)業(yè)機構(gòu)Nasscom的高級副總裁兼首席戰(zhàn)略官Sangeeta Gupta表示!叭斯ぶ悄苄枰m當(dāng)注釋、分類和匿名的數(shù)據(jù)。為此,不管喜不喜歡,你都將使用自動化,但你也必須使用熟練的人力資源,而這就是它給印度帶來的機會!
根據(jù)研究公司Cognilytica的一份報告,到2023年底,與人工智能和機器學(xué)習(xí)相關(guān)的數(shù)據(jù)準(zhǔn)備解決方案的全球市場,預(yù)計將從2018年的約5億美元增長至12億美元。
什么是數(shù)據(jù)標(biāo)記?
通過數(shù)據(jù)標(biāo)記和注釋,來自非結(jié)構(gòu)化來源(如照相機、傳感器、電子郵件和社交媒體等)以及來自結(jié)構(gòu)化來源(如數(shù)據(jù)庫)的數(shù)據(jù)集被標(biāo)記、標(biāo)注、著色或突出顯示,以標(biāo)記出差異、相似性或類型。通過這樣的方法,當(dāng)數(shù)據(jù)被輸入到用于訓(xùn)練人工智能系統(tǒng)的算法中時,該算法可以正確地識別數(shù)據(jù)并從中學(xué)習(xí)。
比方說,你想訓(xùn)練一種算法,利用車載攝像機拍攝的圖像來理解路標(biāo)。數(shù)據(jù)標(biāo)簽工或注釋工將通過圖像數(shù)據(jù)集,使用標(biāo)注工具標(biāo)記或高亮顯示路標(biāo),并將其輸入人工智能算法進行學(xué)習(xí)。下一次,當(dāng)算法在一個區(qū)域內(nèi)實時行駛并遇到路標(biāo)時,它應(yīng)該能夠識別出路標(biāo)。算法訓(xùn)練的路標(biāo)圖像越多,其準(zhǔn)確性就越高。
推動人工智能或機器學(xué)習(xí)激增的是從互聯(lián)網(wǎng)、社交媒體、傳感器和其他來源獲取的大量數(shù)據(jù)。如今的算法有能力吸收更多的數(shù)據(jù),從而也更精確。只要數(shù)據(jù)是優(yōu)質(zhì)且干凈的,將另外一百萬個數(shù)據(jù)集輸入一個算法將會提高它的準(zhǔn)確性。因此,這也導(dǎo)致了人工智能算法和應(yīng)用對標(biāo)注良好的數(shù)據(jù)產(chǎn)生了無止境的渴望。
根據(jù)Cognilytica的報告,現(xiàn)如今,數(shù)據(jù)準(zhǔn)備和工程任務(wù)占據(jù)了大多數(shù)人工智能和機器學(xué)習(xí)項目80%以上的時間。
“比如自動駕駛,一個小時的視頻數(shù)據(jù)可能需要消耗800個工時,”Playment首席執(zhí)行官Siddharth Mall表示。
Infolks之旅
Kolasseri高中輟學(xué)后,在鋁加工行業(yè)工作,但由于健康原因不得不離開。在國內(nèi),他注冊了亞馬遜稱為“Mechanical Turk”(MTurk)的眾包就業(yè)市場,并開始從全球各地的公司從事注釋工作。
“我能夠保持99.8的評級是因為我能夠提供高質(zhì)量的服務(wù)。我工作過的一家公司非常喜歡我的工作,于是直接找到我,并提供了更多的工作,”Kolasseri說,他隨后成立了一個六人團隊來完成這項工作。“我們最初在家工作,2016年初,隨著業(yè)務(wù)的增長,我決定注冊成立這家公司!
最初,Kolasseri的兄弟和一個朋友投資了2.5萬盧比,幫助他建立了這家公司。如今,Infolks是一個正在成長中的團隊,其大部分員工來自Kumaramputhur及其周邊地區(qū)。
Kolasseri說:“公司的愿景是將我們的村莊變得全球化,并為農(nóng)村地區(qū)的年輕人提供經(jīng)濟機會。近200名員工中有90%在20到25歲之間!
盡管該團隊也負(fù)責(zé)醫(yī)療保健、機器人和農(nóng)業(yè)等領(lǐng)域的數(shù)據(jù)集,但他們大約75%的工作都是在自動駕駛車輛領(lǐng)域。其客戶包括德國汽車公司戴姆勒和其他國際科技公司,由于簽署的協(xié)議,Kolasseri并未透露這些公司的名稱。
至于注釋,該公司使用客戶提供的工具,或者使用第三方工具。“我們的研發(fā)團隊正在開發(fā)自己的注釋工具。它目前正在測試中,應(yīng)該會在接下來的幾周內(nèi)推出,” Kolasseri表示。Infolks還在Kozhikode區(qū)附近的一個科技園區(qū)內(nèi)設(shè)立了另一個辦事處。Kolasseri希望這能夠增加公司的收入,因為新的地點屬于經(jīng)濟特區(qū),有助于擴大其全球客戶群。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
-
10 大模型的盡頭是開源
- 1 特斯拉工人被故障機器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 人形機器人廠商,正在批量復(fù)刻宇樹G1
- 4 AI 時代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 5 華為公布昇騰芯片三年計劃,自研HBM曝光
- 6 硬剛英偉達(dá)!華為發(fā)布全球最強算力超節(jié)點和集群
- 7 機器人9月大事件|3家國產(chǎn)機器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 8 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機還是轉(zhuǎn)機?
- 9 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進軍好萊塢
- 10 美光:AI Capex瘋投不止,終于要拉起存儲超級周期了?