向量數(shù)據(jù)庫(kù)這杯“啤酒”與“泡沫”
就像啤酒注定要有泡沫,每一場(chǎng)淘金熱都不缺被捧上了時(shí)代風(fēng)口的人。
大模型這一波熱潮中,向量數(shù)據(jù)庫(kù)就是那個(gè)幸運(yùn)兒。
一方面,技術(shù)層面并沒(méi)有太大突破。向量數(shù)據(jù)庫(kù)并不是一種特別新的數(shù)據(jù)庫(kù)技術(shù),在AI領(lǐng)域已經(jīng)應(yīng)用了七八年,谷歌在2015年就宣布使用RankBrain語(yǔ)義檢索來(lái)處理搜索任務(wù)。相比N家的卡、液冷的算、全光的網(wǎng)、升級(jí)的存,向量數(shù)據(jù)庫(kù)在技術(shù)方面并沒(méi)有特別亮眼的突破。
而另一方面,向量數(shù)據(jù)庫(kù)的投資熱潮又特別旺盛。在上半年成了創(chuàng)業(yè)公司、云計(jì)算廠商、老牌數(shù)據(jù)庫(kù)公司,以及投資人們“群起而攻之”的風(fēng)口,Pinecone、Chroma 和 Weviate 等向量數(shù)據(jù)庫(kù)初創(chuàng)公司都獲得了融資,有的融資額高達(dá)上億美元。這在全球經(jīng)濟(jì)不明朗的投資形勢(shì)下,還是非常亮眼的成績(jī)。
不同于GPU卡那樣短期內(nèi)需求堅(jiān)挺、供不應(yīng)求,加上摩爾定律的約束,即使有泡沫,也是鐵做的。也不同于存算網(wǎng)這類(lèi)“新基建”,長(zhǎng)期投入的戰(zhàn)略?xún)r(jià)值,得到了廟堂和民間的一致重視。
向量數(shù)據(jù)庫(kù),更多是作為一種AI基礎(chǔ)技術(shù)和產(chǎn)品,開(kāi)始為大眾所知曉。
僅憑這樣,就在投資市場(chǎng)上一飛沖天,多少有點(diǎn)讓人不安。加上最近,大訓(xùn)模型的熱度開(kāi)始降溫,ChatGPT訪問(wèn)量下降,更多大模型已經(jīng)到地里田間礦井“干活兒”去了。
不禁讓人好奇,隨著大模型的風(fēng)口下沉,向量數(shù)據(jù)庫(kù)的投資概念還能飛多久,會(huì)不會(huì)倏忽而來(lái),倏忽而去,留下喝了“一嘴泡沫”的公司和投資人,在風(fēng)中凌亂呢?
我們就來(lái)好好品一品,這一杯啤酒和泡沫。
技術(shù)的啤酒
訓(xùn)大模型、用大模型,離不開(kāi)一系列AI基礎(chǔ)設(shè)施,所以,作為基礎(chǔ)設(shè)施之一的向量數(shù)據(jù)庫(kù),確實(shí)有點(diǎn)東西。引入向量數(shù)據(jù)庫(kù),是能喝到真材實(shí)料的“啤酒”的。
這就有必要先說(shuō)說(shuō)這個(gè)技術(shù)本身。
數(shù)據(jù)庫(kù)不用多說(shuō),是必不可少的IT基礎(chǔ)設(shè)施,用于存儲(chǔ)和查詢(xún)各種數(shù)據(jù),可以看作是數(shù)據(jù)的“硬盤(pán)”。那么,向量數(shù)據(jù)庫(kù)就是更適合AI體質(zhì)的“硬盤(pán)”,有幾個(gè)特質(zhì)來(lái)說(shuō)明這一點(diǎn):
1.必要性。
向量數(shù)據(jù)庫(kù),顧名思義就是專(zhuān)門(mén)用于存儲(chǔ)和管理向量數(shù)據(jù)。作為一種數(shù)據(jù)結(jié)構(gòu),每個(gè)向量都包含多個(gè)維度,每個(gè)維度代表不同的特征或?qū)傩,比如圖像的顏色、文本詞匯的出現(xiàn)頻率等。而AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫(kù)比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),更適合AI 應(yīng)用。
2. 高效率。
每個(gè)元素都有一個(gè)索引,便于訪問(wèn)或修改數(shù)值;诖耍蛄繑(shù)據(jù)庫(kù)可以通過(guò)將分組和索引,快速找到與給定查詢(xún)最接近的嵌入,實(shí)現(xiàn)高效的相似性搜索,同時(shí)減少存儲(chǔ)和計(jì)算成本。
相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)的檢索規(guī)?梢蕴嵘,支持百萬(wàn)級(jí)每秒查詢(xún)(QPS)的峰值能力,同時(shí)延遲控制在毫秒級(jí)。
想象一下,如果沒(méi)有高效的搜索技術(shù)支持,一個(gè)大語(yǔ)言模型動(dòng)輒數(shù)十億、上百億參數(shù),只能處理有限數(shù)量的輸入數(shù)據(jù),無(wú)法搜索更大的數(shù)據(jù)庫(kù),那么在AIGC、搜索、廣告推薦算法等任務(wù)的性能表現(xiàn)就會(huì)受限。
一個(gè)公開(kāi)數(shù)據(jù)是,通過(guò)使用云向量數(shù)據(jù)庫(kù),QQ音樂(lè)人均聽(tīng)歌時(shí)長(zhǎng)提升3.2%;騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%;QQ瀏覽器成本降低37.9%,這些數(shù)據(jù)的變化就在于檢索效率、運(yùn)行穩(wěn)定性、運(yùn)營(yíng)效率、推薦算法等有了較大的提升。
3.需求大。
隨著產(chǎn)業(yè)智能化的加速,以及大模型和其他 AI 應(yīng)用的爆發(fā),各行各業(yè)的AI用例不斷增多,由此帶來(lái)了洶涌的數(shù)據(jù)洪潮和存算任務(wù),向量數(shù)據(jù)庫(kù)嵌入向量的長(zhǎng)度不受限制,具有良好的擴(kuò)展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。
而且,向量數(shù)據(jù)庫(kù)可以拓展大模型的時(shí)間邊界和空間邊界,讓大模型在訓(xùn)練完成后,也可以訪問(wèn)向量數(shù)據(jù)庫(kù)的最新信息,了解最近發(fā)生的事情。
總的來(lái)說(shuō),向量數(shù)據(jù)庫(kù)就是更適合AI體質(zhì)的數(shù)據(jù)庫(kù),在AI任務(wù)上效果拔群,在機(jī)器學(xué)習(xí)領(lǐng)域中日益流行。
那么問(wèn)題來(lái)了,一些在AI領(lǐng)域積淀已久的科技大廠,如谷歌、微軟、Mate以及BAT等大廠,都有向量數(shù)據(jù)庫(kù)的技術(shù)積累,也都可以向外輸出相關(guān)能力和產(chǎn)品。此外,一些基于開(kāi)源技術(shù)的數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司,如Pinecone、Weaviate、Odrant、Chroma近年來(lái)打開(kāi)了市場(chǎng)知名度。
可以說(shuō),市場(chǎng)上并不缺乏向量數(shù)據(jù)庫(kù)的產(chǎn)品和解決方案。那么2023年,這杯技術(shù)啤酒,是怎么咕嘟咕嘟冒出泡沫的呢?
浪潮之巔的泡沫
向量數(shù)據(jù)庫(kù)的市場(chǎng)現(xiàn)狀,說(shuō)是“從0到1”,并不為過(guò)。
首先,大眾市場(chǎng)的認(rèn)知度才剛剛打開(kāi)。
此前,向量數(shù)據(jù)庫(kù)更多是AI企業(yè)在使用,今年才開(kāi)始為大眾所熟知,這離不開(kāi)一些AI相關(guān)企業(yè)的推波助瀾。今年 3月的 NVIDIA GTC 大會(huì)上,黃仁勛首次提及向量數(shù)據(jù)庫(kù),強(qiáng)調(diào)向量數(shù)據(jù)庫(kù)對(duì)大語(yǔ)言模型的重要性。
不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施,通過(guò)MaaS(模型即服務(wù))業(yè)務(wù)來(lái)訓(xùn)練應(yīng)用大模型是更靈活的選擇,這就要求云廠商提供全;A(chǔ)設(shè)施。
百度、京東、騰訊、華為等,都在自家的大模型完整基礎(chǔ)設(shè)施中,提到了向量數(shù)據(jù)庫(kù)。目前,云廠商的MaaS業(yè)務(wù)才剛剛開(kāi)始走向市場(chǎng),大模型的產(chǎn)業(yè)落地不是一蹴而就的,向量數(shù)據(jù)庫(kù)的接受度和規(guī)模究竟有多大,還是個(gè)未知數(shù)。
第二,向量數(shù)據(jù)庫(kù)的技術(shù),還沒(méi)經(jīng)歷“卷生卷死”的迭代。
Pinecone是閉源的領(lǐng)跑者,其他競(jìng)爭(zhēng)者要么是開(kāi)源的,比如Weviate,要么是巨頭,包括頭部云廠商和甲骨文、IBM等老牌數(shù)據(jù)庫(kù)廠商,開(kāi)始構(gòu)建AI數(shù)據(jù)庫(kù)的產(chǎn)品和解決方案。
大廠扎堆競(jìng)技,這意味著,如果技術(shù)沒(méi)有大的突破,就會(huì)陷入高密度的同質(zhì)化競(jìng)爭(zhēng),從藍(lán)?焖龠M(jìn)入紅海。而如果技術(shù)有顛覆式變革,很多技術(shù)壁壘不高、客戶(hù)認(rèn)知不強(qiáng)的新入局創(chuàng)業(yè)者,很難跟開(kāi)源生態(tài)或技術(shù)巨頭PK,容易被大浪淘沙。
最后,向量數(shù)據(jù)庫(kù)的成本,還沒(méi)有降到“可規(guī)模復(fù)制”的程度。
無(wú)論是自建向量數(shù)據(jù)庫(kù),還是通過(guò)MaaS服務(wù)接入,都還達(dá)不到“付費(fèi)可用”的程度。一般來(lái)說(shuō),企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù)進(jìn)行向量化,產(chǎn)生一個(gè)向量的矩陣,再存儲(chǔ)到向量數(shù)據(jù)庫(kù)里,來(lái)供大模型學(xué)習(xí)和檢索。這個(gè)過(guò)程涉及到大量的工程化,會(huì)耗費(fèi)企業(yè)許多開(kāi)發(fā)人員、時(shí)間成本。
這就需要云廠商或數(shù)據(jù)庫(kù)廠商,提供全鏈路的工具,來(lái)幫助企業(yè)完成整個(gè)數(shù)據(jù)向量化、大模型接入的工作,以及減少后續(xù)運(yùn)維的難度。比如Pinecone就憑借良好的開(kāi)箱即用的產(chǎn)品體驗(yàn),獲得了非常大的增長(zhǎng),B輪估值達(dá)到7.5億美元。
谷歌云、騰訊云、京東云等也都基于內(nèi)部應(yīng)用的多年積累,推出了一系列面向外部的工具、框架和應(yīng)用。但只是邁出了從無(wú)到有的第一步,真正成熟還需要讓各家“卷起來(lái)”。
可以看到,現(xiàn)在這個(gè)階段,熱捧向量數(shù)據(jù)庫(kù),確實(shí)有AIGC、大模型、云服務(wù)等多方面的現(xiàn)實(shí)需求,但從“概念普及”到“真正可用”之間,還有不短的距離。這之間的地帶,就是泡沫生長(zhǎng)的地方。
江湖路遠(yuǎn),風(fēng)高浪急,沒(méi)有想清楚的創(chuàng)業(yè)公司或行業(yè)用戶(hù),還是別貿(mào)然“帶資進(jìn)組”了。
啜飲時(shí)代的精釀
如果你是數(shù)據(jù)庫(kù)廠商,或者是著急布局大模型和AI應(yīng)用的企業(yè),希望早點(diǎn)將啤酒喝到嘴里,怎么辦呢?
篤定遠(yuǎn)一點(diǎn)的未來(lái),有些賽道的泡沫比例是相對(duì)少的,需求格外旺盛。
市場(chǎng)方面,國(guó)產(chǎn)化替代是不錯(cuò)的選擇。
科技博弈背景下,加上我國(guó)數(shù)據(jù)庫(kù)產(chǎn)業(yè)的日益繁榮和技術(shù)突破,金融、電信、能源、交通等關(guān)鍵基礎(chǔ)行業(yè)的企業(yè),在數(shù)據(jù)庫(kù)選型時(shí),都開(kāi)始傾向于國(guó)產(chǎn),以保障數(shù)據(jù)的穩(wěn)定性和安全性。
國(guó)外廠商在向量數(shù)據(jù)庫(kù)上有著更早的探索和積累,國(guó)產(chǎn)數(shù)據(jù)庫(kù)要補(bǔ)齊短板是需要時(shí)間的。
目前,BATH這類(lèi)實(shí)力較強(qiáng)的國(guó)內(nèi)科技企業(yè),沉淀了向量數(shù)據(jù)庫(kù)的核心自主技術(shù),與其合作研發(fā)和定制化開(kāi)發(fā),針對(duì)某些具體場(chǎng)景,提供特定優(yōu)化的向量數(shù)據(jù)庫(kù)產(chǎn)品,加入國(guó)產(chǎn)化替代的賽道是成本更低、風(fēng)險(xiǎn)更可控、市場(chǎng)需求明確的選擇。
策略方面,加入云生態(tài)不要獨(dú)行。
鑒于向量數(shù)據(jù)庫(kù)的商業(yè)化前景還不明朗,有業(yè)內(nèi)人士表示,與其投資新的向量數(shù)據(jù)庫(kù)項(xiàng)目,還不如關(guān)注現(xiàn)有數(shù)據(jù)庫(kù)中,有哪些加上向量引擎可以變得更加強(qiáng)大。
云數(shù)據(jù)庫(kù)就是其中之一,上云用數(shù)賦智是大勢(shì)所趨,很多政企客戶(hù)往往會(huì)選擇公有云或行業(yè)云來(lái)滿足其業(yè)務(wù)需求,將數(shù)據(jù)遷移到云上,對(duì)云數(shù)據(jù)庫(kù)的關(guān)注度和接受度上升。
騰訊云、華為云等大型云廠商,具有較高的品牌認(rèn)知度和市場(chǎng)接受度,具有云原生、AI原生的技術(shù)棧和產(chǎn)品體系,經(jīng)歷了海量場(chǎng)景的淬煉和深度優(yōu)化,和這類(lèi)云生態(tài)一起掘金向量數(shù)據(jù)庫(kù),是更穩(wěn)妥的方式。
和AI、大模型一樣,向量數(shù)據(jù)庫(kù)要品出味道,離不開(kāi)時(shí)間的窖藏和醞釀。是在大訓(xùn)模型的熱度下降后,像泡沫一樣湮滅,還是作為啤酒精釀沉淀下去,等待成為下一代數(shù)字基礎(chǔ)設(shè)施的剛需,被行業(yè)客戶(hù)所啜飲,是留給數(shù)據(jù)庫(kù)玩家和買(mǎi)家的選擇題。
原文標(biāo)題 : 向量數(shù)據(jù)庫(kù)這杯“啤酒”與“泡沫”

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
圖片新聞
-
馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書(shū)《柔性:汽車(chē)生產(chǎn)未來(lái)的關(guān)鍵》
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 AI 時(shí)代,阿里云想當(dāng)“安卓” ,那誰(shuí)是“蘋(píng)果”?
- 4 華為公布昇騰芯片三年計(jì)劃,自研HBM曝光
- 5 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 6 機(jī)器人9月大事件|3家國(guó)產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 7 谷歌“香蕉”爆火啟示:國(guó)產(chǎn)垂類(lèi)AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 8 00后華裔女生靠?jī)刹緼I電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢
- 9 美光:AI Capex瘋投不止,終于要拉起存儲(chǔ)超級(jí)周期了?
- 10 華為已殺入!AI領(lǐng)域最熱黃金賽道,大廠的數(shù)字人美女讓我一夜沒(méi)睡著覺(jué)