據(jù)Matt介紹,許多客戶存儲了數(shù)百萬甚至數(shù)十億個 Parquet 文件。為了高效查詢這些文件,現(xiàn)如今多數(shù)人使用 Apache Iceberg 來提供所需的文件結(jié)構(gòu)支持。

Apache Iceberg 是一種開源高性能表格格式,支持跨文件格式(如 Parquet)的靈活操作,用戶可通過 SQL 在龐大的數(shù)據(jù)湖中查詢數(shù)據(jù),同時利用工具如 Spark 和 Flink 安全分析數(shù)據(jù),無需擔(dān)心工作負(fù)載沖突。

然而,Iceberg 在性能、擴展性和安全性管理方面的復(fù)雜性,特別是在大規(guī)模場景下,給許多組織帶來了挑戰(zhàn),因此常需專門團隊負(fù)責(zé)表維護、數(shù)據(jù)壓縮和訪問控制等任務(wù)。

為此,亞馬遜云科技推出了新的Amazon S3類型——Amazon S3 Tables,希望用它來自動化處理這些麻煩。

Amazon S3 Tables是專為Iceberg 設(shè)計的新型存儲桶,能顯著提升性能和擴展性。將 Parquet 文件存儲到 Amazon S3 Tables 中,查詢性能可提升 3 倍,每秒事務(wù)處理能力提高 10 倍,整個過程無需任何額外配置。

Amazon S3 Tables自動管理表維護任務(wù),包括壓縮、快照管理和無效文件清理,幫助優(yōu)化存儲空間和成本。隨著數(shù)據(jù)湖的擴展,性能和成本優(yōu)化也會持續(xù)改進。Amazon S3 Tables 為數(shù)據(jù)湖提供更高效、更經(jīng)濟、更大規(guī)模的支持。

Amazon S3 Metadata:全新元數(shù)據(jù)服務(wù),簡化數(shù)據(jù)查找與管理

隨著數(shù)據(jù)量不斷增加,快速找到所需數(shù)據(jù)就變得越來越困難,尤其是當(dāng)數(shù)據(jù)達到PB或 EB級時。

Matt Garman提到,元數(shù)據(jù)在幫助組織和理解存儲信息方面至關(guān)重要,比如手機上的照片,通過位置信息和日期等元數(shù)據(jù),可以輕松定位到特定圖片。

在Amazon S3 中,用戶傳統(tǒng)上需要手動構(gòu)建元數(shù)據(jù)系統(tǒng),創(chuàng)建事件處理管道,將元數(shù)據(jù)與存儲對象關(guān)聯(lián),并確保數(shù)據(jù)更新時,元數(shù)據(jù)也要跟著同步。然而,這種方式復(fù)雜且耗時,特別是在大規(guī)模數(shù)據(jù)場景下,管理難度非常嚇人。

為了解決這個問題,亞馬遜云科技推出了元數(shù)據(jù)管理服務(wù)Amazon S3 Metadata,它提供了一種更簡單高效的解決方案,無需繁重的手動操作,即可輕松實現(xiàn)元數(shù)據(jù)管理和查詢。

Amazon S3 Metadata能讓用戶快速、輕松地發(fā)現(xiàn)和查詢S3數(shù)據(jù)的元信息。它通過將所有對象的元數(shù)據(jù)自動存儲在Iceberg表中,并在幾分鐘內(nèi)更新,確保數(shù)據(jù)始終最新。而且,用戶可以使用常用分析工具快速了解數(shù)據(jù)詳情,輕松找到所需對象。

這一功能大幅簡化了元數(shù)據(jù)管理流程,改變了用戶與S3數(shù)據(jù)交互的方式,特別是在數(shù)據(jù)分析和超大規(guī)模AI模型應(yīng)用中具有顯著優(yōu)勢。這是Amazon S3的又一重大創(chuàng)新,為數(shù)據(jù)管理和分析開啟了全新可能。

Amazon S3的創(chuàng)新,一直沒斷過

Amazon S3對象存儲是亞馬遜云科技的第一個云服務(wù),從根本上改變了存儲的方式,為用戶提供了簡單、持久、高度可擴展且安全的云存儲。讓對象存儲成為整個互聯(lián)網(wǎng)技術(shù)發(fā)展的數(shù)據(jù)基石。

據(jù)Matt Garman介紹,如今,Amazon S3不僅存儲了超過400萬億個對象,更成為企業(yè)數(shù)據(jù)湖、AI訓(xùn)練數(shù)據(jù)和高性能分析的優(yōu)先選擇。通過持續(xù)的技術(shù)創(chuàng)新,S3不僅解決了規(guī)?;魬?zhàn),還帶來了性能提升和成本優(yōu)化。

針對訪問頻次和成本需求不同,Amazon S3有多種類存儲方案。為了降低管理負(fù)擔(dān),S3用智能分層技術(shù)自動根據(jù)訪問模式調(diào)整存儲層級,幫助客戶在無需額外操作的情況下節(jié)省大量成本。截至目前,這一功能已為客戶節(jié)省超過40億美元。

Amazon S3已成為全球超過一百萬個數(shù)據(jù)湖的支柱,為PB級乃至EB級別數(shù)據(jù)的管理提供支持。尤其是在金融建模、實時廣告和AI訓(xùn)練等大型分析場景中,S3的創(chuàng)新功能如強一致性支持和低延遲選項顯著提高了分析效率。

分享到

zhupb

相關(guān)推薦