北京?2025年7月1日?/美通社/ -- IBM 正在從根本上簡化面向 AI 的數(shù)據(jù)堆棧。IBM 在Think大會上預(yù)覽?watsonx.data?的重大演進(jìn),以幫助組織做好數(shù)據(jù)準(zhǔn)備為AI所用,同時提供一個開放的混合數(shù)據(jù)基礎(chǔ)架構(gòu)和企業(yè)級的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)管理。
智能體AI面臨非結(jié)構(gòu)化數(shù)據(jù)難題:IBM推出解決方案
測試結(jié)果顯示,與傳統(tǒng)RAG相比,IBM watsonx.data的AI準(zhǔn)確性提高了40%。IBM于6月推出的產(chǎn)品和功能包括:
-Watsonx.data integration(集成),該軟件可在單個界面中編排不同集成樣式和格式的數(shù)據(jù)訪問和工程設(shè)計,其核心是靈活性和規(guī)模
-Watsonx.data intelligence(智能),該軟件可改變組織處理、管理和利用有意義數(shù)據(jù)的方式,利用 AI 的力量簡化數(shù)據(jù)治理
-在 Meta 的 Llama Stack 中增加 watsonx 作為 API 提供商,增強(qiáng)了企業(yè)大規(guī)模部署生成式 AI 的能力,并以開放性為核心
Watsonx.data 集成和 Watsonx.data 智能將作為獨立產(chǎn)品提供,部分功能也將通過 Watsonx.data 提供,從而最大限度地提高客戶選擇和模塊化程度。
為了補(bǔ)充這些產(chǎn)品,IBM?近期宣布了收購 DataStax 的意向,DataStax 擅長將非結(jié)構(gòu)化數(shù)據(jù)用于生成式AI。借助 DataStax,客戶可以訪問其他矢量搜索功能。
基于內(nèi)部測試,對比使用 watsonx.data Premium Edition 檢索層與僅矢量 RAG 在三個常見用例中 AI 模型輸出答案的準(zhǔn)確性,測試使用 IBM 專有數(shù)據(jù)集,采用相同的選定開源通用推理、評估和嵌入模型以及額外變量。測試結(jié)果可能因具體情況而異。
這一重大演進(jìn)的背景
企業(yè)正面臨著實現(xiàn)準(zhǔn)確且高性能的生成式AI——尤其是具有自主決策能力的智能體AI人的重大障礙,但該障礙并非如大多數(shù)企業(yè)領(lǐng)導(dǎo)者所想。
問題不在于推理成本或難以捉摸的"完美"模型。問題在于數(shù)據(jù)。
企業(yè)需要可信且具有公司特性的數(shù)據(jù),才能讓智能體AI真正創(chuàng)造價值——這些數(shù)據(jù)存在于電子郵件、文檔、演示文稿和視頻等非結(jié)構(gòu)化數(shù)據(jù)中。據(jù)估計,2022年企業(yè)產(chǎn)生的數(shù)據(jù)中90%是非結(jié)構(gòu)化數(shù)據(jù),但I(xiàn)BM預(yù)測其中僅有1%為大型語言模型(LLMs)所用。
非結(jié)構(gòu)化數(shù)據(jù)的利用往往面臨巨大挑戰(zhàn)。這類數(shù)據(jù)分布廣泛且動態(tài)變化,存儲于多種格式中,缺乏清晰的標(biāo)簽,且常需額外上下文才能完整解讀。傳統(tǒng)檢索增強(qiáng)生成(RAG)技術(shù)難以有效提取其價值,也無法妥善整合非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)。
與此同時,各類孤立的工具會使AI數(shù)據(jù)處理架構(gòu)變得復(fù)雜且繁瑣。企業(yè)需要同時管理數(shù)據(jù)倉庫、數(shù)據(jù)湖以及數(shù)據(jù)治理和數(shù)據(jù)集成工具。數(shù)據(jù)架構(gòu)可能與它本應(yīng)管理的非結(jié)構(gòu)化數(shù)據(jù)一樣令人困惑。
許多組織并未解決根本問題。它們僅關(guān)注生成式AI的應(yīng)用層,而非其下方的核心數(shù)據(jù)層。除非組織修復(fù)其數(shù)據(jù)基礎(chǔ)架構(gòu),否則AI智能體和其他生成式AI計劃將無法充分發(fā)揮其潛力。
幫助組織實現(xiàn)數(shù)據(jù)的AI?就緒
IBM提供的新功能將使組織能夠采集、治理和檢索非結(jié)構(gòu)化(及結(jié)構(gòu)化)數(shù)據(jù)——在此基礎(chǔ)上,實現(xiàn)準(zhǔn)確、高性能的生成式AI的規(guī)?;瘧?yīng)用。