現代數據倉庫的崛起：八個時代的二十年歷程

本文回顧過去二十年數據倉庫的演進，將發展劃分為八個時代，說明企業如何從手工報表與關聯式資料庫，演進到 PB 級、多租戶、跨雲與 AI 原生的現代倉庫。

八個時代概覽

第一個時代（2005–2010）：直接表格 →「只需生成報表」

應用程式直接寫入報表表格（如 sales_report、customer_report），報表多為硬編碼 SQL 並以排程（cron）執行，Excel 手動導出並通過郵件共享。當需要跨表或細分分析時，通常需人工在 Excel 中合併數據，耗時甚久。Dremel（2010）證明 SQL 可在數兆行上實現互動式查詢，為 BigQuery 的出現鋪路，改變查詢期望與交互式分析模式。
第二個時代（2011–2015）：雲倉庫走向主流

BigQuery（2011）成為首批無伺服器、按查詢付費的倉庫；Amazon Redshift（2013）以較低成本提供 PB 級能力，促成大量從 Oracle/Teradata 的遷移；Snowflake（2016 發表）引入儲存與計算分離與多集群共享架構，奠定雲端倉庫的新範式。
第三個時代（2015–2018）：管道爆發 → 規範原始區

隨著資料管道數量暴增，出現多個冗餘來源與治理困境。常見解法為劃分原始區（raw）與精選區（curated / fact/dim），例如 sales_raw 對應 fact_sales。工具如 Presto 支援跨資料源的聯合查詢，降低資料孤島問題。
第四個時代（2016–2020）：湖倉一體（Lakehouse）

資料湖在容量上快速擴張，但若無治理易成「資料沼澤」。透過表格式與 ACID 層解決一致性與事務問題：Apache Hudi（Uber，2016）、Delta Lake（Databricks，2020）、Apache Iceberg（Netflix）等技術提供增量寫入、事務性與可擴展元資料，使 BI 與機器學習能在同一資料層共用一致資料。
第五個時代（2018–2022）：實時倉儲

批次 ETL 對於動態應用（如動態定價、即時運營儀表板）已不足夠，興起流式處理與亞秒級 OLAP 解決方案。範例包括 Uber 的 AthenaX（基於 Flink）、Apache Pinot（從 LinkedIn 到 Uber）等，這類系統支援即時檢測、促銷動態調整與用戶流失即時標註。
第六個時代（2018–2024）：元資料、語義與治理

PB 級資料倉庫帶來發現、信任與指標一致性挑戰，促成元資料平台與指標層的出現：Uber Databook、LinkedIn DataHub（開源元資料與血緣）、Airbnb Minerva（統一指標層）等，改善資料血緣、指標一致性並提升治理能力。
第七個時代（2022–2025）：跨雲架構

企業採用多雲與混合雲環境，需統一治理與安全機制。代表性產品與策略包括 Google BigLake（2022，BigQuery 與 open tables 的治理/安全層）與 Microsoft OneLake（2023，Fabric 的單一邏輯資料湖），推動資料跨雲的可用與可控。
第八個時代（2025–2035）：未來預測

作者預測未來十年趨勢包括 AI 原生倉庫（例如 BigQuery AI、Snowflake Cortex、Microsoft Fabric Copilot）、自主治理（AI 監控血緣、成本與模式漂移）、資料網格 2.0（以資料產品 API 與 SLA 形式運作）、自然語言介面（LLM 轉 SQL 並以血緣與指標驗證）與跨雲為預設架構。報導引用 Gartner 預測：到 2030 年，超過 50% 的查詢將由 AI 副駕駛自動生成。

要點總結

2000 年代：應用直接寫報表，方法簡單但脆弱。
2010 年代：雲倉庫與原始區使分析更大眾化與可擴展。
2010 年代後期：Lakehouse 與流式處理促成 BI 與 ML 的融合。
2020 年代：元資料、語義層與治理成為關鍵，跨雲架構興起。
未來十年：AI 原生、自主治理、資料產品化與自然語言介面將主導演進。

提醒：作者指出架構與設計快速演進，建議架構師、分析師與領導者注意每五年左右的變革性設計與技術債管理。

來源：https://36kr.com/p/3609046097511689

現代數據倉庫的崛起：八個時代的二十年歷程

八個時代概覽

要點總結

訂閱電子報

Company

Categories

聯絡我們

八個時代概覽

要點總結

相關文章

訂閱電子報

Company

Categories

聯絡我們