訂閱
糾錯
加入自媒體

信任下滑!Salesforce因大模型 “幻覺”問題,已縮減使用 | T Insights

大模型多重缺陷暴露。

過去一年,Salesforce首席執(zhí)行官馬克·貝尼奧夫(Marc Benioff)一直大力推廣公司的核心AI產品Agentforce,宣稱它能幫企業(yè)借助大型語言模型(LLM)實現工作自動化,從而節(jié)省開支。

然而最近,Salesforce高管卻向客戶傳遞了截然不同的信息:Agentforce在不那么依賴LLM(即生成式AI技術)時,有時表現會更好。

產品營銷高級副總裁Sanjna Parulekar表示,Salesforce已在Agentforce中采用了基礎的“確定性”自動化形式,以提升軟件的可靠性。這意味著它會根據預設指令做出決策,而非像AI模型那樣依賴推理和解讀。

從力捧到克制,LLM暴露多重痛點

“一年前,我們大家對LLM的信任度都更高,”她說。

該公司官網目前寫道,Agentforce能夠幫助消除LLM固有的隨機性,確保關鍵業(yè)務流程每次都嚴格遵循相同步驟。

盡管這一調整避免了聊天機器人等AI產品出現行為失控的情況,但也導致它們有時無法理解客戶問題背后的語境與深層訴求,或像ChatGPT那樣對復雜問題給出全面答案。

作為最具價值的軟件公司之一,Salesforce對LLM的部分回調可能會影響數千家使用該技術的企業(yè)。

源自OpenAI、Anthropic等AI提供商的LLM,能實現多場景自動化 —— 覆蓋軟件工程、數據分析、金融,再到營銷、銷售、客戶服務等領域。

雖然許多大型企業(yè)已發(fā)現LLM的實用價值,但要將其轉化為能處理多步驟任務的可靠AI代理,它們仍面臨諸多技術、財務和組織層面的挑戰(zhàn)。

大型語言模型(LLM)的工作機制與現存缺陷(圖片來源:YouTube@AndrejKarpathy)

一些企業(yè)發(fā)現,很難阻止LLM在回答中出現不當行為或做出錯誤猜測。

這對于需要精準處理的任務來說是個大問題,比如庫存跟蹤或客戶退款申請?zhí)幚,否則可能導致糟糕的商業(yè)決策,引發(fā)員工或客戶不滿。

Salesforce在AI營銷方式上經歷了重大轉變——貝尼奧夫曾稱該產品的部署易如反掌。

例如,今年部分Agentforce客戶遭遇了被稱為“幻覺”的技術故障,不過公司表示產品正在快速優(yōu)化完善。

作為少數披露AI專項收入的大公司之一,Salesforce稱Agentforce目前的年度收入有望突破5億美元。

確定性觸發(fā)機制

許多客戶需要AI提供商提供大量指導才能讓技術正常運行,部分客戶還對其運行成本頗有怨言。

Agentforce代理每處理一次對話收費2美元,此外公司還推出了預購積分、按實際使用量結算的付費方案。

Agentforce首席技術官Muralidhar Krishnaprasad表示,采用更基礎的自動化形式(比如為計算機編寫確定性指令,俗稱“如果A則B”的邏輯語句),降低了Agentforce的運營成本,也降低了客戶使用成本。

Agentforce的使用界面(圖片來源:Salesforce官網)

“如果給LLM下達超過8條左右的指令,它就可能開始遺漏指令,這可不是什么好事,”他說。

“有些環(huán)節(jié)需要絕對的確定性,我們沒必要為此浪費令牌……這不僅能節(jié)省LLM的使用成本,更重要的是能確保用戶得到準確答案。”

家庭安防公司Vivint的工程高級副總裁瑞安·吉表示,該公司此前嘗試自行開發(fā)AI聊天機器人未果,于去年開始使用Agentforce為250萬客戶提供客服支持。

Vivint在使用Agentforce初期遇到了一些問題,產品并非100%可靠。

例如,Vivint曾要求Agentforce在每次客戶互動結束后發(fā)送滿意度調查,但有時AI會無故不發(fā)送調查,具體原因始終不明。

他說,Vivint與Salesforce合作,在Agentforce中設置了“確定性觸發(fā)機制”,確保每次都能發(fā)出調查。

Salesforce另一高管菲爾·梅在10月的一篇博客中表示,公司已開發(fā)出Agentforce Script系統(tǒng),通過識別哪些任務或任務環(huán)節(jié)可由不使用LLM的“代理”處理,來最大限度降低LLM的“不可預測性”。

Agentforce Script關鍵功能(圖片來源:YouTube@SalesforceDevs)

梅指出,Salesforce最資深客戶正受AI“偏移”問題困擾——當用戶提出無關問題時,代理會偏離預設目標。

比如,原本用于引導客戶填寫表單的AI聊天機器人,在客戶詢問與表單無關的問題時就會“分心”。

目前,Agentforce Script仍處于測試階段。

LLM縮減背后,是優(yōu)化還是妥協(xié)?

Salesforce在營銷Agentforce時,著重強調了該產品如何改變了公司自身的運營。

例如,貝尼奧夫曾表示,部分依賴OpenAI LLM的Agentforce如今已承接了Salesforce的大部分客戶服務咨詢,幫助公司裁減了約4000名客服崗位。

然而,近幾個月來,Salesforce似乎減少了其Agentforce驅動的客服代理對LLM的使用。

比如上周,該公司在回應一項關于Agentforce技術問題的求助時,僅提供了一系列博客文章鏈接,而非詢問更多信息或就可能的問題進行溝通。

且列表中的第一個博客鏈接涉及今年6月影響Agentforce及其他多款Salesforce產品的一次宕機事件,對當前遇到問題的客戶來說幾乎沒有參考價值。

這樣的回應與多年來企業(yè)使用基礎聊天機器人處理客戶或網站訪客咨詢的方式頗為相似。

Salesforce發(fā)言人否認了公司為客服代理縮減LLM使用的說法。

他表示,針對客服代理,公司今年“優(yōu)化了主題結構,加強了安全防護機制,提升了信息檢索質量,并優(yōu)化了回應邏輯,使其更具體、更貼合語境、更符合客戶實際需求。

我們現在還擁有了更完善的可觀測性和反饋循環(huán),能快速發(fā)現代理回應過于寬泛、偏離主題或表述不清的地方,并迅速迭代改進。

因此,從提供通用答案到給出結構化、針對性回應的轉變,完全是有意為之,也是優(yōu)化代理的必要過程。”

該發(fā)言人補充道,客服代理“解決的客戶問題比以往任何時候都多”,預計在1月底結束的財年中,已解決的對話數量將增長90%。

“我們在客服場景中使用LLM的方式和場景上變得更加審慎,”他說。

對于其他AI提供商而言,LLM也被證明難以駕馭,它們常常偏離預設用途。例如,本月早些時候,由企業(yè)AI初創(chuàng)公司Sierra提供技術支持的蓋璞(Gap Inc.)聊天機器人,竟回答了有關情趣用品等敏感問題。

Sierra表示,已修復蓋璞聊天機器人的配置漏洞,并指出有“惡意分子”蓄意濫用該聊天機器人。

編輯:楊鷺婕

參考來源:The Information

END

       原文標題 : 信任下滑!Salesforce因大模型 “幻覺”問題,已縮減使用 | T Insights

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號