“數(shù)字人超真人”:百度不是池中物,AI應(yīng)用見功夫
文 | 佘宗明
“在25年內(nèi),每個人都可以以自己為模板創(chuàng)造出逼真的數(shù)字虛擬人。”在新著《2049》中,凱文·凱利做出了這番預(yù)言。他斷言:數(shù)字人將在未來迎來大爆發(fā)。
端倪早已顯現(xiàn):過去幾年,涌入直播間的數(shù)字人主播越來越多,數(shù)字人直播也被視作AI的下個規(guī);涞貓鼍。
只不過,之前的很多數(shù)字人表情呆板、反應(yīng)機(jī)械、互動匱乏,連仿真都談不上,遑論逼真。因而,以往如果有人說“數(shù)字人可以超越真人主播”,大概率會被回上一句“呵呵”。
但羅永浩數(shù)字人在今年618期間的首秀,改變了不少人的既有看法:原來數(shù)字人還能突破照本宣科桎梏、打破隨機(jī)應(yīng)變困局,解鎖根據(jù)場景做出反應(yīng)、雙數(shù)字人默契互動、超長時間穩(wěn)定輸出等技能包。單從神情看,羅永浩數(shù)字人跟羅永浩不能說毫無關(guān)系,只能說一模一樣。
目前看,凱文·凱利說的“逼真”二字正愈發(fā)具象化:7月26日,在2025年世界智能會(WAIC 2025)上,作為業(yè)界個AI全棧式數(shù)字直播解決案的百度慧播星又發(fā)布了新一代數(shù)字技術(shù)NOVA,該技術(shù)曾支撐羅永浩數(shù)字人直播間創(chuàng)下5500萬GMV,預(yù)計將于10月向全行業(yè)開放。
到那時,普通用戶也可獲得媲美頭部主播的專業(yè)帶貨能力,這標(biāo)志著超頭主播能力復(fù)刻進(jìn)入規(guī)模化量產(chǎn)時代。
想讓數(shù)字人直播時隨性秀花活,跟網(wǎng)友靈活玩梗?沒問題。想讓其舉杯時手腕微顫,調(diào)侃時眉梢輕挑?也OK。當(dāng)數(shù)字人帶來的不是出戲而是入戲,隨之而來的便是數(shù)字人從“仿真”邁入“超真”時代。
值得注意的是,此次大會上,蘿快跑、飛槳深度學(xué)習(xí)平臺、百度智算集群共同入選中國人工智能產(chǎn)業(yè)創(chuàng)新成果展,再加上NOVA數(shù)字技術(shù),百度無疑是用AI全棧布局的代表性成果秀出了AI實力的“肌肉密度”。
從底層設(shè)施搭建到上層應(yīng)用落地的完整生態(tài)閉環(huán),托起了百度在AI能力值上的六邊形戰(zhàn)士形象,也注解了“百度不是池中物,AI應(yīng)用見功夫”。
01
說是數(shù)字人,其實是數(shù)字播報員、文字復(fù)讀機(jī),這是許多人對數(shù)字人的固有印象?粗鴶(shù)字人直播時那唱獨角戲的尷尬情景、“幀漂移”的卡頓畫面、臺詞跟表情錯位的游離畫風(fēng),很多人會忍不住將數(shù)字人跟“五毛特效”畫等號。
數(shù)字人“一眼假”,不是廠商不想避免,而是他們無可避免:傳統(tǒng)的數(shù)字人技術(shù)就是語言、語音、視覺三條線各自生成內(nèi)容后再拼接,出現(xiàn)音畫不同步、表情僵硬、言語乏味等問題在所難免。
技術(shù)瓶頸,使得數(shù)字人的作用始終停留在“基礎(chǔ)講解工具”層面。你想要他在預(yù)設(shè)腳本外,來些即興發(fā)揮?想要他在機(jī)械播報外,多些實時互動?不好意思,超綱了。
這很難激發(fā)用戶信任感、激起用戶購買欲。用戶想要看到的,是“主播”聲音上能抑揚頓挫、表情上能靈活變化、動作上能精準(zhǔn)表達(dá),是聽得懂包袱、開得了玩笑、答得了問題,誰想看那些沒有靈魂的2D紙片人在那念稿呢?
但要讓數(shù)字人體現(xiàn)出活人感、避免假人感,并非易事。它涉及跨模態(tài)融合和協(xié)同、自然語言理解跟應(yīng)用、動作捕捉與生成、實時交互和延遲優(yōu)化等,整個技術(shù)鏈路十分復(fù)雜。
就拿互動來說,網(wǎng)友在直播間評論區(qū)的提問可能多元無序,真人主播互動時不會簡單地“一問一答”和“即問即答”,而要對評論內(nèi)容進(jìn)行意圖分析、提煉歸并,根據(jù)講解節(jié)奏選擇合適時機(jī)、給出合宜回答。這就很考驗數(shù)字人的智能化分析能力。
而NOVA不只是讓數(shù)字人看起來像人,更讓數(shù)字人擁有會思考和能協(xié)同的能力。利用劇本驅(qū)動的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動態(tài)決策的實時交互、文本自控的語音合成、高一致性超擬真數(shù)字人長視頻生成等創(chuàng)新技術(shù),它實現(xiàn)了數(shù)字人“神、形、音、容、話”的全模態(tài)高度統(tǒng)一。
數(shù)字人表情呆板?NOVA數(shù)字人技術(shù)支持多模協(xié)同,根據(jù)劇本要素實時調(diào)整語調(diào)、表情和動作,手指該指向產(chǎn)品細(xì)節(jié)時就指過去,語氣該強(qiáng)調(diào)某個功能時就強(qiáng)化突出。
數(shù)字人反應(yīng)機(jī)械?NOVA數(shù)字人技術(shù)具備高表現(xiàn)力特點,能自動完成眼神交流后遞話筒、討論產(chǎn)品時親身演示、二人搭檔時表情配合等操作。
數(shù)字人互動匱乏?NOVA數(shù)字人技術(shù)接受復(fù)雜交互,當(dāng)觀眾在直播間提問“這款手機(jī)續(xù)航怎樣”時,他會迅速完成調(diào)用產(chǎn)品數(shù)據(jù)庫提取續(xù)航參數(shù)、生成“可出差三天不插電”的口語化回答、同步調(diào)出電量測試視頻佐證;當(dāng)直播熱度下降時,他還能自動調(diào)度場控數(shù)字人發(fā)起抽獎,助播數(shù)字人補(bǔ)充產(chǎn)品細(xì)節(jié),形成“主播講解+專家答疑+福利刺激”的立體互動鏈。
既能理解商品賣點,又能生成自然語言,還能匹配肢體動作,很明顯,NOVA跳出了面相復(fù)刻的層次,拓展了數(shù)字人能力的邊界。隨之而來的,是“數(shù)字可以超越真,可以專業(yè)主播更會播”的數(shù)字直播前景的近在眼前。
02
某種程度上,數(shù)字人就是大模型多模整合能力的觀察切口。NOVA能變成數(shù)字人維度的“全能ACE”,就是百度多模態(tài)模型能(語、視覺、語深度融合)的展示——NOVA數(shù)字人具備的多模協(xié)同、表現(xiàn)、復(fù)雜交互等特點,本就是對模型的“集成使”。
數(shù)字人直播的本質(zhì)是“長視頻生成”任務(wù),需要同時處理文本(腳本)、語音(解說)、視覺(動作)、情緒(情感)、知識(產(chǎn)品信息)等多維度數(shù)據(jù)。
NOVA數(shù)字人技術(shù)就是讓懂商品、懂用戶、懂人設(shè)的“劇本”模型充當(dāng)總導(dǎo)演,統(tǒng)籌文本、語音、視覺等各個“演員”配合,協(xié)力完成以“數(shù)”亂真的演出。
在此過程中,大模型會將文本、語音等轉(zhuǎn)化為多維度向量,通過MoE(混合專家)架構(gòu)分配給不同“AI專家”處理:語言專家負(fù)責(zé)文案生成,視覺專家處理動作協(xié)同,知識專家管理產(chǎn)品數(shù)據(jù)庫,最終由中樞系統(tǒng)整合輸出。如此一來,數(shù)字人既能“像作家一樣組織語言”,又能“像演員一樣控制表情”,還能“像操盤手一樣進(jìn)行控場”。
IDC今年上半年發(fā)布的行業(yè)首份電商直播數(shù)字人報告顯示,百度慧播星綜合實排名業(yè)第,五項測評指標(biāo)中,它在技術(shù)能、產(chǎn)品表現(xiàn)、平臺合規(guī)與穩(wěn)定性、客戶服務(wù)四項上均居首位。接下來,NOVA可以繼續(xù)強(qiáng)化其既有優(yōu)勢。
NOVA數(shù)字人技術(shù)可同時驅(qū)動“語言腦”“運動腦”“邏輯腦”高效協(xié)作,離不開百度大模型全棧布局的支撐。
如果沒有文心大模型4.5Turbo賦予的內(nèi)容創(chuàng)作能力,NOVA數(shù)字人就沒法根據(jù)商品賣點自動生成有梗有料”的文案;如果沒有飛槳提供的多模態(tài)訓(xùn)練能力,NOVA數(shù)字人也就沒法實現(xiàn)神、形、音、容、話同步;如果沒有百度打造的“全息聲場系統(tǒng)”和聲紋克隆技術(shù),NOVA的“形似聲更似”也就無從談起。
長視頻生成終究是高耗時任務(wù),伴生的延遲卡點問題必然會影響實時生成效果。百度就在昆侖芯三萬卡集群的加持下,通過“流式生成”工程化設(shè)計(語言、語音、視覺三個模態(tài)不是串行等待,而是并行工作)和“離在線統(tǒng)一”辦法(可預(yù)見交互內(nèi)容提前處理,需即時反應(yīng)部分則在線動態(tài)生成),讓體驗變得絲滑。
羅永浩數(shù)字人首播創(chuàng)下5500萬GMV的背后,就是直播調(diào)用了1.3萬次知識庫,生成9.7萬字講解內(nèi)容,雙數(shù)字人做出8300個動作,卻沒有出現(xiàn)一次表情崩壞或邏輯斷層,6小時直播的視頻生成零卡頓。擱以前,這幾乎不可想象。
03
數(shù)字人技術(shù)突破,是百度AI全棧自研能力在應(yīng)用上的輻射。在此次WAIC上亮相的另一個百度標(biāo)桿級AI應(yīng)用——蘿卜快跑,同樣彰顯了這點。
如果說NOVA數(shù)字人展現(xiàn)了百度AI在數(shù)字空間的“柔性滲透”,那蘿卜快跑就體現(xiàn)了它在物理世界的“硬核落地”。
跟蘿卜快跑這次亮相世界級展會舞臺相對應(yīng)的,是它作為中國領(lǐng)先科技出海的代表在海外已遍地開花:繼獲得中國香港首個自動駕駛車輛先導(dǎo)牌照、打造阿布扎比最大規(guī)模無人車隊后,蘿卜快跑又跟全球最大移動出行服務(wù)平臺Uber開啟了全球戰(zhàn)略合作——這意味著,數(shù)千輛百度無人駕駛車將接入全球最大出行網(wǎng)絡(luò)。
跟蘿卜快跑入選WAIC2025“國家展”相對應(yīng)的,還是它作為高階自動駕駛領(lǐng)域的頭部玩家率先實現(xiàn)規(guī);涞兀荷罡麩o人駕駛12年來,蘿卜快跑級別動駕駛專利數(shù)全球第 , 截至今年7月,它已在全球提供超1100萬次出行服務(wù),L4級動駕駛安全測試程累計已超1.7億公,出險率僅為人類駕駛員的1/14。
成為本屆WAIC會的接駁車,就是蘿卜快跑跑得最“快”的直觀印證。
就像運動員的爆發(fā)力有賴于肌肉力量,更離不開神經(jīng)反應(yīng)、心肺功能、骨骼強(qiáng)度的協(xié)同支撐那樣,NOVA數(shù)字人跟蘿卜快跑的底部支撐都是百度的全棧自研體系。
蘿卜快跑能實現(xiàn)城市級全域復(fù)雜場景覆蓋,在全球多地千差萬別的路況中快速落地,背靠的就是百度大模型的“感知-決策-控制”全鏈路能力——這是基于大模型重構(gòu)自動駕駛的結(jié)果。
搭載了全球首個支持L4級大模型Apollo ADFM的蘿卜快跑第六代無人車,就實現(xiàn)了技術(shù)安全性與適應(yīng)性的大幅提升:3D環(huán)境模型,能幫著車輛在雨天、夜間精準(zhǔn)避障;雙計算中樞,能憑著“雙腦協(xié)同”讓車輛0.01秒內(nèi)完成異常接管;多模態(tài)融合技術(shù),則能讓智能座艙理解方言指令、識別手勢動作……
這些依托的,正是百度“算法-框架-模型-應(yīng)用”四層一體的全棧布局。
作為《時代》周刊口中“全球少有的在AI上實現(xiàn)全棧布局的公司”,百度的AI四層架構(gòu)每一層都像“肌肉纖維”般緊密配合,所以才有NOVA數(shù)字人的突圍,才有蘿卜快跑的突破——全棧自研能力的肌肉足夠健碩,最上層才能長出覆蓋C端、B端的豐富應(yīng)用。
04
無論是NOVA數(shù)字人,還是蘿卜快跑,都是百度用全棧式技術(shù)能力解決不同場景核心問題的系統(tǒng)性方案。
直以來,百度的AI戰(zhàn)略都是“向應(yīng)發(fā)展”。百度創(chuàng)始人李彥宏也多次強(qiáng)調(diào),應(yīng)才是模型的真正價值所在。這跟數(shù)字化時代的“價值鏈金字塔”結(jié)構(gòu)契合。由此順推出的結(jié)論就是:AI,有用才是硬道理。
就AI數(shù)字人而言,衡量其價值的關(guān)鍵標(biāo)尺就在于產(chǎn)業(yè)側(cè)應(yīng)用效果,簡單說就是能不能順應(yīng)直播電商領(lǐng)域?qū)Φ统杀靖咝蔬\營的需求。
多年來,直播中的兩大痛點困擾著不少企業(yè):一是真人主播用人成本高昂,還有塌房風(fēng)險;二是運營效率低下,搭建團(tuán)隊、反復(fù)彩排、實時場控等環(huán)節(jié)耗時耗力。
數(shù)字人直播就為此而生。但跟之前的數(shù)字人技術(shù)只解決了“有沒有”的問題相比,NOVA著力解決的是“好不好”的問題。
今年4月,百度方面透露,慧播星數(shù)字人主播累計已超10萬,涉及電商、教育、醫(yī)生、法律等幾十個行業(yè)。從大盤平均值看,數(shù)字人直播轉(zhuǎn)化率提升了31%,還降低了商家80%的開播成本。
當(dāng)NOVA的腳本生成系統(tǒng)可實現(xiàn)“千人千面”的精準(zhǔn)適配,會針對食品品類自動加入“會爆汁”“有回甘”的場景化描述,推廣3C產(chǎn)品時會側(cè)重“參數(shù)對比+使用場景”的專業(yè)分析;當(dāng)NOVA的AI大腦可通過實時監(jiān)測彈幕關(guān)鍵詞、商品點擊量、停留時長等數(shù)據(jù)動態(tài)調(diào)整直播策略,發(fā)現(xiàn)用戶關(guān)注價格就主動發(fā)起“扣1了解專屬優(yōu)惠”的互動……對商家的賦能可想而知。
而讓店播“輕資產(chǎn)化”的無代碼生成功能——商家上傳產(chǎn)品參數(shù)、優(yōu)惠幅度等基礎(chǔ)信息,就能自動生成直播腳本、匹配虛擬場景、定制數(shù)字人形象,更是能推動商家在直播維度的平權(quán)。
對蘿卜快跑來講,評判其價值的核心依據(jù),就在于能否給們出帶來安全、便捷、舒適的出行體驗。
蘿卜快跑的自動感應(yīng)尋車、自動開關(guān)車門、語音安全播報等功能得到視障人群好評,全無人空間的靜謐感頗顯“i人友好”……就成了其加分項。
為產(chǎn)業(yè)側(cè)和用戶端提供實用價值,成了百度對AI“超級好用”的注解。
05
凱文·凱利說:讓更通人性的AI成為人類的朋友,這是我們的終極目標(biāo)。言下之意是,AI非但要更聰明,還要更好用。
去年11月,李彥宏在百度世界2024大會上說,百度不是要推出個“超級應(yīng)”,是要打造數(shù)百萬級“超級有”的應(yīng),就與之呼應(yīng)。
WAIC 2025上,百度展臺Show出了秒噠、快碼、庫、盤等AI應(yīng),就體現(xiàn)出了鮮明的“有用至上”導(dǎo)向。如秒噠,就在用“句話做應(yīng)+多智能體協(xié)作+多具調(diào)”的技術(shù)組合,帶來“3分鐘成+1時迭代”的極致開發(fā)體驗,加速“人人都是程序員”的愿景落地。
NOVA數(shù)字人跟蘿卜快跑,更是百度將AI從炫技手段變成生產(chǎn)力工具與普惠方式的典型注腳:NOVA數(shù)字人提供“腳本-直播-復(fù)盤”全鏈路服務(wù),可幫企業(yè)24小時不間斷帶貨,蘿卜快跑將把L4級自動駕駛規(guī);涞,都是百度將AI全棧式能力用于反哺現(xiàn)實場景的投射。
這反映了百度在AI上的鮮明價值主張:執(zhí)著于“超級有用”的路徑,而不追逐“超級應(yīng)用”的概念。比起追求單點爆款,它更希望用全棧自研能力打造數(shù)百萬個“超級有用”的應(yīng)用矩陣,將大模型技術(shù)真正轉(zhuǎn)化為生產(chǎn)力。
可以看到,從搜索、網(wǎng)盤、文庫等存量業(yè)務(wù)的AI重構(gòu),到蘿卜快跑、NOVA數(shù)字人等增量賽道的積極開拓,百度都在將“超級有用”烙進(jìn)AI應(yīng)用掌心;從研發(fā)模型,到打造云平臺,百度也是立足需求、著眼應(yīng)用,讓模型使用成本更低、底座端到端性能更強(qiáng)。這些都是用行動表明:大模型不是用來“炫”的玩具,而是用來驅(qū)動產(chǎn)業(yè)革命的引擎。
隨著AI競爭進(jìn)入拼落地階段,時間也在證明:AI的價值錨點確實是“超級有用”。誰能把AI技術(shù)轉(zhuǎn)化為真切可感的價值,誰就能走得更遠(yuǎn)。
原文標(biāo)題 : “數(shù)字人超真人”:百度不是池中物,AI應(yīng)用見功夫

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.16點擊進(jìn)入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題