R2 Data Catalogのスナップショット有効期限切れが未参照データファイルを削除するように改善
Key Points
- スナップショット有効期限切れで未参照データファイルを自動削除
- 手動メンテナンスジョブが不要に
- ストレージコスト削減と運用効率化
Summary
Cloudflare R2に組み込まれたApache IcebergカタログであるR2 Data Catalogが、自動スナップショット有効期限切れ時に未参照データファイルを削除するようになりました。この改善により、ストレージコストが削減され、削除されたデータから領域を回収するための手動メンテナンスジョブの実行が不要になります。
Key Points
- 自動クリーンアップの拡張: 従来はメタデータファイル(マニフェストとマニフェストリスト)のみをクリーンアップしていましたが、今後はデータファイルも自動削除されます
- 運用オーバーヘッドの削減: SparkなどのエンジンでRemove_orphan_filesやexpire_snapshotsを手動実行する必要がなくなります
- ストレージ効率化: アクティブなスナップショットで参照されなくなったデータファイルはR2ストレージから自動削除されます
- 設定方法:
npx wrangler r2 bucket catalog snapshot-expiration enableコマンドで有効化可能(例:7日以上前のスナップショットを削除、最新10個を保持)