破解數(shù)據(jù)檢索挑戰(zhàn),AI賦能搜索升級
首先,我們需要面對結(jié)構(gòu)化數(shù)據(jù)。典型處理方式是使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫。但是,關(guān)系型數(shù)據(jù)庫的設(shè)計初衷就決定了它面對的挑戰(zhàn):關(guān)系型數(shù)據(jù)庫優(yōu)先保證事務(wù)性,其數(shù)據(jù)分層結(jié)構(gòu)導(dǎo)致查詢需要層層下鉆,同時傳統(tǒng)關(guān)系型數(shù)據(jù)庫能夠處理的數(shù)據(jù)規(guī)模也是受限的。搜索型數(shù)據(jù)庫針對以上挑戰(zhàn)可以實現(xiàn)讀寫分離、多表聚合查詢、數(shù)據(jù)庫加速等。
與此同時,企業(yè)數(shù)據(jù)中大約85%為非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻等,傳統(tǒng)數(shù)據(jù)庫處理困難。極限科技運用語義解析與AI向量化技術(shù),語義解析深入理解數(shù)據(jù)語義并轉(zhuǎn)化為結(jié)構(gòu)化信息,AI向量化將其映射到高維空間實現(xiàn)向量化表示,二者結(jié)合完成非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)簽提取與索引構(gòu)建,提升檢索準(zhǔn)確性與效率。
針對中文文本,極限科技進行字段化處理研究。中文語法復(fù)雜、語義豐富,傳統(tǒng)方法難以滿足檢索需求。公司通過自研算法精準(zhǔn)分詞與字段提取,結(jié)合向量化技術(shù)提升中文數(shù)據(jù)檢索效果。同時,融合向量化全量搜索與模糊搜索,前者快速定位相似數(shù)據(jù),后者處理用戶輸入的不準(zhǔn)確信息,提高搜索容錯性。
平臺化建設(shè)與工具開源:打造全鏈路能力
極限科技構(gòu)建的管控平臺功能強大。支持多集群元原生編排和管理,企業(yè)可依業(yè)務(wù)場景和用戶需求靈活調(diào)整集群資源,同時實現(xiàn)一鍵升級、備份管理等;提供統(tǒng)一監(jiān)控、統(tǒng)一身份管理服務(wù),實時監(jiān)控系統(tǒng)組件與運行狀態(tài),及時預(yù)警問題。該平臺兼容多廠商環(huán)境,企業(yè)可無縫集成現(xiàn)有系統(tǒng),降低遷移成本與風(fēng)險。公司開發(fā)的搜索服務(wù)網(wǎng)關(guān)針對檢索服務(wù)提供流量分發(fā)與鏈路加速能力,進而實現(xiàn)查詢分析、干預(yù)等高階功能。
此外,極限科技積極推動搜索周邊工具開源貢獻。數(shù)據(jù)遷移工具ESM助力企業(yè)快速安全遷移數(shù)據(jù)至自家搜索型數(shù)據(jù)庫,縮短遷移周期、降低風(fēng)險;性能壓測工具Loadgen模擬復(fù)雜場景測試系統(tǒng)性能,評估性能瓶頸與承載能力;中文分詞工具IK/Pinyin支持多種分詞模式與自定義詞典,滿足不同用戶需求。開源工具促進技術(shù)交流創(chuàng)新,支持行業(yè)生態(tài)發(fā)展。
“Coco” AI 搜索與智能體結(jié)合模式:重構(gòu)搜索體驗
Coco AI 采用獲得國家專利設(shè)計的人機交互體驗,將搜索與 AI 進行無縫結(jié)合。傳統(tǒng) RAG 存在大模型直接回答搜索問題存在訓(xùn)練成本高、回答不精準(zhǔn)問題。 Coco AI 后臺靈活,支持為不同類型問題分配專屬“小助手”。“小助手”針對特定問題優(yōu)化配置,精準(zhǔn)理解用戶意圖、提供準(zhǔn)確回答,降低訓(xùn)練成本、提升回答精準(zhǔn)度與效率??梢钥焖倭可泶蛟炱髽I(yè)專屬的 AI 智能體工具箱。
Coco AI結(jié)合本地與云端協(xié)同搜索技術(shù),連接本地文件、數(shù)據(jù)庫及外部應(yīng)用系統(tǒng)數(shù)據(jù)源。用戶搜索時,可以同時對本地和外部CocoServer引擎同時處理查詢請求,然后對結(jié)果進行打分與整合去重排序,結(jié)合大模型總結(jié)分析最終結(jié)果,實現(xiàn)意圖理解與統(tǒng)一信息獲取,打破信息孤島,提供全面準(zhǔn)確高效的搜索服務(wù)。
展望未來:AI搜索與開放生態(tài)
極限科技對搜索型數(shù)據(jù)庫未來有清晰規(guī)劃。下一代AI搜索架構(gòu)將深度融合向量檢索與智能體技術(shù)。向量檢索已發(fā)揮重要作用,智能體技術(shù)能自主感知、決策與行動。二者融合使AI搜索系統(tǒng)更智能理解用戶需求,主動提供個性化服務(wù),如依歷史記錄推薦信息,面對復(fù)雜任務(wù)自主分解協(xié)調(diào)資源處理。
在企業(yè)數(shù)據(jù)應(yīng)用場景上,下一代架構(gòu)將進一步優(yōu)化拓展。除傳統(tǒng)文檔檢索、數(shù)據(jù)查詢,還將深入生產(chǎn)、運營、管理等環(huán)節(jié),提供全面深入的數(shù)據(jù)分析與決策支持。如在生產(chǎn)制造中實時分析設(shè)備數(shù)據(jù)、提前發(fā)現(xiàn)故障隱患;在市場營銷中深度挖掘客戶數(shù)據(jù)、制定精準(zhǔn)營銷策略。
為推動行業(yè)發(fā)展,極限科技將持續(xù)推進開源戰(zhàn)略,通過GitHub/Gitee/Gitcode等平臺共享核心技術(shù)代碼與文檔,與全球開發(fā)者緊密合作。吸引更多開發(fā)者參與研發(fā)創(chuàng)新,共同解決技術(shù)難題。同時積極參與行業(yè)標(biāo)準(zhǔn)制定推廣,促進市場規(guī)范化標(biāo)準(zhǔn)化發(fā)展,構(gòu)建開放共享共贏的搜索型數(shù)據(jù)庫生態(tài)。
此次分享展示了極限科技的技術(shù)實力與創(chuàng)新成果,為行業(yè)發(fā)展提供新思路方向。相信未來,極限科技將秉持創(chuàng)新、開放、合作理念,推動技術(shù)發(fā)展應(yīng)用,為企業(yè)數(shù)字化轉(zhuǎn)型與行業(yè)發(fā)展注入新動力。