ByteHouse向量檢索功能整體架構(gòu)

某社交媒體整合營銷平臺,則通過引入ByteHouse向量檢索能力,滿足了輿情監(jiān)測場景中的以圖搜圖需求。舉個例子,有一家食品公司是該整合營銷平臺的客戶之一,食品公司上市了一款零食,而某位消費者在零食中發(fā)現(xiàn)異物,并發(fā)布在社交媒體中,引發(fā)網(wǎng)絡(luò)討論,輿論不斷發(fā)酵。基于以圖搜圖的輿情監(jiān)測能力,整合營銷平臺幫助食品公司快速發(fā)現(xiàn)輿情異常,并采取補(bǔ)救措施。

但由于數(shù)據(jù)體量不斷膨脹,該整合營銷平臺雖然匹配了更多資源,依然面臨查詢性能下降的問題。據(jù)介紹,該平臺的整體數(shù)據(jù)規(guī)模已達(dá)到12億,但公司管理層期望在盡可能低的成本下,達(dá)到秒級搜索速度。

經(jīng)過一系列測試和對比,該平臺的研發(fā)人員發(fā)現(xiàn),行業(yè)相關(guān)產(chǎn)品的查詢效率在幾秒到十多秒之間,而ByteHouse只需700-800 毫秒。在進(jìn)一步優(yōu)化之后,ByteHouse查詢效率進(jìn)一步降低到150-200 毫秒內(nèi),只需秒級以下時間,就能從大規(guī)模數(shù)據(jù)中查找出近似的 1000 張圖片,并完成相似度評分。

ByteHouse技術(shù)專家介紹道:“為了在有限資源下,最大化向量檢索性能,我們主要在這四個方面進(jìn)行優(yōu)化,分別是向量檢索計算下推、過濾操作優(yōu)化、冷讀優(yōu)化、索引限制?!?/p>

具體來說,ByteHouse通過將算子拆分,進(jìn)行 Vector Search 再處理,提升延遲速度,實現(xiàn)計算下推優(yōu)化,而在過濾操作中,主要針對標(biāo)量、向量混合查詢場景優(yōu)化。針對造成性能瓶頸的冷讀問題,ByteHouse將不同資源用index結(jié)構(gòu)載入內(nèi)存的方式,實現(xiàn)高性能計算。

除此之外,由于使用向量檢索會消耗較多 CPU 和內(nèi)存資源,為了進(jìn)一步降低成本,ByteHouse用索引限制并發(fā),并通過壓縮存儲空間、支持增量訓(xùn)練等手段實現(xiàn)內(nèi)存優(yōu)化。

除了支持向量檢索能力的Vector引擎,ByteHouse還具有全文檢索、GIS等引擎,實現(xiàn)全場景引擎覆蓋。作為一款具備高性能、極致分析能力的云原生數(shù)據(jù)倉庫,早在2022年2月,ByteHouse在字節(jié)跳動的部署規(guī)模已超1萬8000臺,單集群超2400臺。未來,它還將持續(xù)為企業(yè)提供極致的數(shù)據(jù)分析能力,助推數(shù)智化轉(zhuǎn)型升級。

分享到

xiesc

相關(guān)推薦