作為一種新興技術(shù),向量搜索在生成式AI應(yīng)用中,通過利用距離或相似度度量標(biāo)準(zhǔn),比較數(shù)據(jù)的向量表示形式,來查找與給定數(shù)據(jù)相似的數(shù)據(jù)點(diǎn)。向量則是利用嵌入模型生成的無結(jié)構(gòu)化數(shù)據(jù)的數(shù)值表示形式,用戶可以使用嵌入模型為文檔中的各個字段生成向量,并將這些向量存儲到Amazon S3 Vectors中,以便進(jìn)行語義搜索。
Amazon S3 Vectors引入了向量存儲桶,這是一種配備了一組專用API的新型存儲桶,用戶無需配置任何基礎(chǔ)設(shè)施即可存儲、訪問和查詢向量數(shù)據(jù)。創(chuàng)建Amazon S3 Vectors時,用戶可在向量索引中對向量數(shù)據(jù)進(jìn)行組織,從而能夠輕松地對數(shù)據(jù)集運(yùn)行相似性搜索查詢。每個向量存儲桶最多可擁有10,000個向量索引,且每個向量索引可存儲數(shù)千萬個向量。
創(chuàng)建向量索引后,在向該索引添加向量數(shù)據(jù)時,用戶還可為每個向量附加上鍵值對形式的元數(shù)據(jù),以便后續(xù)根據(jù)日期、類別、用戶偏好等一系列條件,對查詢結(jié)果進(jìn)行篩選。隨著時間推移,當(dāng)用戶不斷對向量進(jìn)行寫入、更新以及刪除等操作時,即便數(shù)據(jù)集規(guī)模持續(xù)擴(kuò)大、內(nèi)容不斷演變,Amazon S3 Vectors也會自動優(yōu)化處理向量數(shù)據(jù),從而確保向量存儲達(dá)到最佳性價比。
Amazon S3 Vectors可與Amazon Bedrock知識庫及Amazon SageMaker Unified Studio集成,可用于構(gòu)建極高性價比的檢索增強(qiáng)生成(RAG)應(yīng)用。Amazon S3 Vectors還通過與Amazon OpenSearch Service集成,可將查詢頻率較低的向量存儲在Amazon S3 Vectors中,實(shí)現(xiàn)存儲成本降低。并且隨著查詢需求增加,又能迅速將這些向量遷移至Amazon OpenSearch Service中;或者當(dāng)需要支持實(shí)時、低延遲的搜索操作時,也能通過該功能輕松實(shí)現(xiàn)。
借助Amazon S3 Vectors,企業(yè)能以經(jīng)濟(jì)高效的方式,將代表海量無結(jié)構(gòu)化數(shù)據(jù)(如圖像、視頻、文檔和音頻文件)的向量嵌入存儲起來,從而使得可擴(kuò)展的生成式AI應(yīng)用成為可能,包括語義搜索、相似性搜索、RAG以及構(gòu)建Agent記憶等應(yīng)用。此外,企業(yè)還可以開發(fā)各類應(yīng)用,輕松應(yīng)對多種行業(yè)的應(yīng)用場景需求,如個性化推薦、自動化內(nèi)容分析和智能文檔處理等,并且無需承擔(dān)管理向量數(shù)據(jù)庫的操作復(fù)雜性與管理高成本。
目前,Amazon S3 Vectors,及其與Amazon Bedrock、Amazon OpenSearch Service和Amazon SageMaker的集成功能,現(xiàn)已在美國東部(弗吉尼亞北部)、美國東部(俄亥俄)、美國西部(俄勒岡)、歐洲(法蘭克福)和亞太(悉尼)區(qū)域提供預(yù)覽版。
用戶可在Amazon S3控制臺中,立即開始試用Amazon S3 Vectors功能。