AWS 公佈跨雲端資料遷移架構,以 rclone worker 叢集將 PB 級資料搬移至 Amazon S3
背景與挑戰
為了便利更多企業將資料從其他公有雲搬遷至 AWS 的環境,AWS 在官方技術部落格介紹了一套分散式跨雲端資料遷移架構。此架構旨在解決 PB 等級資料跨雲端搬移時常見的進度追蹤、失敗重試,以及規模擴展的挑戰。
核心技術與架構
該架構透過開源命令列資料同步與搬移工具 rclone,搭配 Amazon ECS、Amazon SQS、EC2 Auto Scaling 與 CloudWatch 等 AWS 服務進行整合。
- rclone:作為核心的資料搬移工具,負責執行資料的同步與遷移作業。
- Amazon ECS:用於管理 rclone worker 的容器化執行環境。
- Amazon SQS:作為訊息佇列,用於分發遷移任務並追蹤進度。
- EC2 Auto Scaling:根據工作負載自動擴展或縮減 worker 數量,以應對大規模資料遷移。
- CloudWatch:用於監控遷移過程中的指標與警報。
應用場景與效益
此架構特別適用於將資料從 Microsoft Azure Blob 等外部儲存服務遷移至 Amazon S3 的場景。透過分散式 worker 叢集,系統能夠有效處理海量資料的傳輸,並提供可靠的失敗重試機制,確保資料遷移的完整性與效率。
