破解數(shù)據(jù)檢索挑戰(zhàn),AI賦能搜索升級
首先,我們需要面對結構化數(shù)據(jù)。典型處理方式是使用傳統(tǒng)關系型數(shù)據(jù)庫。但是,關系型數(shù)據(jù)庫的設計初衷就決定了它面對的挑戰(zhàn):關系型數(shù)據(jù)庫優(yōu)先保證事務性,其數(shù)據(jù)分層結構導致查詢需要層層下鉆,同時傳統(tǒng)關系型數(shù)據(jù)庫能夠處理的數(shù)據(jù)規(guī)模也是受限的。搜索型數(shù)據(jù)庫針對以上挑戰(zhàn)可以實現(xiàn)讀寫分離、多表聚合查詢、數(shù)據(jù)庫加速等。
與此同時,企業(yè)數(shù)據(jù)中大約85%為非結構化或半結構化數(shù)據(jù),如圖片、視頻等,傳統(tǒng)數(shù)據(jù)庫處理困難。極限科技運用語義解析與AI向量化技術,語義解析深入理解數(shù)據(jù)語義并轉化為結構化信息,AI向量化將其映射到高維空間實現(xiàn)向量化表示,二者結合完成非結構化數(shù)據(jù)的標簽提取與索引構建,提升檢索準確性與效率。
針對中文文本,極限科技進行字段化處理研究。中文語法復雜、語義豐富,傳統(tǒng)方法難以滿足檢索需求。公司通過自研算法精準分詞與字段提取,結合向量化技術提升中文數(shù)據(jù)檢索效果。同時,融合向量化全量搜索與模糊搜索,前者快速定位相似數(shù)據(jù),后者處理用戶輸入的不準確信息,提高搜索容錯性。
平臺化建設與工具開源:打造全鏈路能力
極限科技構建的管控平臺功能強大。支持多集群元原生編排和管理,企業(yè)可依業(yè)務場景和用戶需求靈活調整集群資源,同時實現(xiàn)一鍵升級、備份管理等;提供統(tǒng)一監(jiān)控、統(tǒng)一身份管理服務,實時監(jiān)控系統(tǒng)組件與運行狀態(tài),及時預警問題。該平臺兼容多廠商環(huán)境,企業(yè)可無縫集成現(xiàn)有系統(tǒng),降低遷移成本與風險。公司開發(fā)的搜索服務網(wǎng)關針對檢索服務提供流量分發(fā)與鏈路加速能力,進而實現(xiàn)查詢分析、干預等高階功能。
此外,極限科技積極推動搜索周邊工具開源貢獻。數(shù)據(jù)遷移工具ESM助力企業(yè)快速安全遷移數(shù)據(jù)至自家搜索型數(shù)據(jù)庫,縮短遷移周期、降低風險;性能壓測工具Loadgen模擬復雜場景測試系統(tǒng)性能,評估性能瓶頸與承載能力;中文分詞工具IK/Pinyin支持多種分詞模式與自定義詞典,滿足不同用戶需求。開源工具促進技術交流創(chuàng)新,支持行業(yè)生態(tài)發(fā)展。
“Coco” AI 搜索與智能體結合模式:重構搜索體驗
Coco AI 采用獲得國家專利設計的人機交互體驗,將搜索與 AI 進行無縫結合。傳統(tǒng) RAG 存在大模型直接回答搜索問題存在訓練成本高、回答不精準問題。 Coco AI 后臺靈活,支持為不同類型問題分配專屬“小助手”?!靶≈帧贬槍μ囟▎栴}優(yōu)化配置,精準理解用戶意圖、提供準確回答,降低訓練成本、提升回答精準度與效率??梢钥焖倭可泶蛟炱髽I(yè)專屬的 AI 智能體工具箱。
Coco AI結合本地與云端協(xié)同搜索技術,連接本地文件、數(shù)據(jù)庫及外部應用系統(tǒng)數(shù)據(jù)源。用戶搜索時,可以同時對本地和外部CocoServer引擎同時處理查詢請求,然后對結果進行打分與整合去重排序,結合大模型總結分析最終結果,實現(xiàn)意圖理解與統(tǒng)一信息獲取,打破信息孤島,提供全面準確高效的搜索服務。
展望未來:AI搜索與開放生態(tài)
極限科技對搜索型數(shù)據(jù)庫未來有清晰規(guī)劃。下一代AI搜索架構將深度融合向量檢索與智能體技術。向量檢索已發(fā)揮重要作用,智能體技術能自主感知、決策與行動。二者融合使AI搜索系統(tǒng)更智能理解用戶需求,主動提供個性化服務,如依歷史記錄推薦信息,面對復雜任務自主分解協(xié)調資源處理。
在企業(yè)數(shù)據(jù)應用場景上,下一代架構將進一步優(yōu)化拓展。除傳統(tǒng)文檔檢索、數(shù)據(jù)查詢,還將深入生產(chǎn)、運營、管理等環(huán)節(jié),提供全面深入的數(shù)據(jù)分析與決策支持。如在生產(chǎn)制造中實時分析設備數(shù)據(jù)、提前發(fā)現(xiàn)故障隱患;在市場營銷中深度挖掘客戶數(shù)據(jù)、制定精準營銷策略。
為推動行業(yè)發(fā)展,極限科技將持續(xù)推進開源戰(zhàn)略,通過GitHub/Gitee/Gitcode等平臺共享核心技術代碼與文檔,與全球開發(fā)者緊密合作。吸引更多開發(fā)者參與研發(fā)創(chuàng)新,共同解決技術難題。同時積極參與行業(yè)標準制定推廣,促進市場規(guī)范化標準化發(fā)展,構建開放共享共贏的搜索型數(shù)據(jù)庫生態(tài)。
此次分享展示了極限科技的技術實力與創(chuàng)新成果,為行業(yè)發(fā)展提供新思路方向。相信未來,極限科技將秉持創(chuàng)新、開放、合作理念,推動技術發(fā)展應用,為企業(yè)數(shù)字化轉型與行業(yè)發(fā)展注入新動力。