123,123

信任下滑！Salesforce因大模型 “幻覺”問題，已縮減使用 | T Insights

2025-12-31 17:10

創(chuàng)新觀察局

關注

大模型多重缺陷暴露。

過去一年，Salesforce首席執(zhí)行官馬克·貝尼奧夫（Marc Benioff）一直大力推廣公司的核心AI產品Agentforce，宣稱它能幫企業(yè)借助大型語言模型（LLM）實現工作自動化，從而節(jié)省開支。

然而最近，Salesforce高管卻向客戶傳遞了截然不同的信息：Agentforce在不那么依賴LLM（即生成式AI技術）時，有時表現會更好。

產品營銷高級副總裁Sanjna Parulekar表示，Salesforce已在Agentforce中采用了基礎的“確定性”自動化形式，以提升軟件的可靠性。這意味著它會根據預設指令做出決策，而非像AI模型那樣依賴推理和解讀。

從力捧到克制，LLM暴露多重痛點

“一年前，我們大家對LLM的信任度都更高，”她說。

該公司官網目前寫道，Agentforce能夠幫助消除LLM固有的隨機性，確保關鍵業(yè)務流程每次都嚴格遵循相同步驟。

盡管這一調整避免了聊天機器人等AI產品出現行為失控的情況，但也導致它們有時無法理解客戶問題背后的語境與深層訴求，或像ChatGPT那樣對復雜問題給出全面答案。

作為最具價值的軟件公司之一，Salesforce對LLM的部分回調可能會影響數千家使用該技術的企業(yè)。

源自OpenAI、Anthropic等AI提供商的LLM，能實現多場景自動化 —— 覆蓋軟件工程、數據分析、金融，再到營銷、銷售、客戶服務等領域。

雖然許多大型企業(yè)已發(fā)現LLM的實用價值，但要將其轉化為能處理多步驟任務的可靠AI代理，它們仍面臨諸多技術、財務和組織層面的挑戰(zhàn)。

大型語言模型（LLM）的工作機制與現存缺陷（圖片來源：YouTube@AndrejKarpathy)

一些企業(yè)發(fā)現，很難阻止LLM在回答中出現不當行為或做出錯誤猜測。

這對于需要精準處理的任務來說是個大問題，比如庫存跟蹤或客戶退款申請?zhí)幚�，否則可能導致糟糕的商業(yè)決策，引發(fā)員工或客戶不滿。

Salesforce在AI營銷方式上經歷了重大轉變——貝尼奧夫曾稱該產品的部署易如反掌。

例如，今年部分Agentforce客戶遭遇了被稱為“幻覺”的技術故障，不過公司表示產品正在快速優(yōu)化完善。

作為少數披露AI專項收入的大公司之一，Salesforce稱Agentforce目前的年度收入有望突破5億美元。

確定性觸發(fā)機制

許多客戶需要AI提供商提供大量指導才能讓技術正常運行，部分客戶還對其運行成本頗有怨言。

Agentforce代理每處理一次對話收費2美元，此外公司還推出了預購積分、按實際使用量結算的付費方案。

Agentforce首席技術官Muralidhar Krishnaprasad表示，采用更基礎的自動化形式（比如為計算機編寫確定性指令，俗稱“如果A則B”的邏輯語句），降低了Agentforce的運營成本，也降低了客戶使用成本。

Agentforce的使用界面（圖片來源：Salesforce官網）

“如果給LLM下達超過8條左右的指令，它就可能開始遺漏指令，這可不是什么好事，”他說。

“有些環(huán)節(jié)需要絕對的確定性，我們沒必要為此浪費令牌……這不僅能節(jié)省LLM的使用成本，更重要的是能確保用戶得到準確答案。”

家庭安防公司Vivint的工程高級副總裁瑞安·吉表示，該公司此前嘗試自行開發(fā)AI聊天機器人未果，于去年開始使用Agentforce為250萬客戶提供客服支持。

Vivint在使用Agentforce初期遇到了一些問題，產品并非100%可靠。

例如，Vivint曾要求Agentforce在每次客戶互動結束后發(fā)送滿意度調查，但有時AI會無故不發(fā)送調查，具體原因始終不明。

他說，Vivint與Salesforce合作，在Agentforce中設置了“確定性觸發(fā)機制”，確保每次都能發(fā)出調查。

Salesforce另一高管菲爾·梅在10月的一篇博客中表示，公司已開發(fā)出Agentforce Script系統(tǒng)，通過識別哪些任務或任務環(huán)節(jié)可由不使用LLM的“代理”處理，來最大限度降低LLM的“不可預測性”。

Agentforce Script關鍵功能（圖片來源：YouTube@SalesforceDevs)

梅指出，Salesforce最資深客戶正受AI“偏移”問題困擾——當用戶提出無關問題時，代理會偏離預設目標。

比如，原本用于引導客戶填寫表單的AI聊天機器人，在客戶詢問與表單無關的問題時就會“分心”。

目前，Agentforce Script仍處于測試階段。

LLM縮減背后，是優(yōu)化還是妥協(xié)？

Salesforce在營銷Agentforce時，著重強調了該產品如何改變了公司自身的運營。

例如，貝尼奧夫曾表示，部分依賴OpenAI LLM的Agentforce如今已承接了Salesforce的大部分客戶服務咨詢，幫助公司裁減了約4000名客服崗位。

然而，近幾個月來，Salesforce似乎減少了其Agentforce驅動的客服代理對LLM的使用。

比如上周，該公司在回應一項關于Agentforce技術問題的求助時，僅提供了一系列博客文章鏈接，而非詢問更多信息或就可能的問題進行溝通。

且列表中的第一個博客鏈接涉及今年6月影響Agentforce及其他多款Salesforce產品的一次宕機事件，對當前遇到問題的客戶來說幾乎沒有參考價值。

這樣的回應與多年來企業(yè)使用基礎聊天機器人處理客戶或網站訪客咨詢的方式頗為相似。

Salesforce發(fā)言人否認了公司為客服代理縮減LLM使用的說法。

他表示，針對客服代理，公司今年“優(yōu)化了主題結構，加強了安全防護機制，提升了信息檢索質量，并優(yōu)化了回應邏輯，使其更具體、更貼合語境、更符合客戶實際需求。

我們現在還擁有了更完善的可觀測性和反饋循環(huán)，能快速發(fā)現代理回應過于寬泛、偏離主題或表述不清的地方，并迅速迭代改進。

因此，從提供通用答案到給出結構化、針對性回應的轉變，完全是有意為之，也是優(yōu)化代理的必要過程。”

該發(fā)言人補充道，客服代理“解決的客戶問題比以往任何時候都多”，預計在1月底結束的財年中，已解決的對話數量將增長90%。

“我們在客服場景中使用LLM的方式和場景上變得更加審慎，”他說。

對于其他AI提供商而言，LLM也被證明難以駕馭，它們常常偏離預設用途。例如，本月早些時候，由企業(yè)AI初創(chuàng)公司Sierra提供技術支持的蓋璞（Gap Inc.）聊天機器人，竟回答了有關情趣用品等敏感問題。

Sierra表示，已修復蓋璞聊天機器人的配置漏洞，并指出有“惡意分子”蓄意濫用該聊天機器人。

編輯：楊鷺婕

參考來源：The Information

END

原文標題 : 信任下滑！Salesforce因大模型 “幻覺”問題，已縮減使用 | T Insights

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞