我最近开始参与一个新项目,我们使用Spark来读写Parquet格式的数据。该项目正在快速变化,我们需要经常更改Parquet文件的模式。我目前在处理数据和代码版本控制的问题。
我们为代码库使用版本控制系统,但我认为对于数据本身来说这很难做到。我也有迁移脚本,用于将数据从旧模式迁移到新模式,但在此过程中,我会失去有关运行迁移之前Parquet文件模式的信息。知道原始模式是我的首要任务。
因此,我的问题如下:
- 您如何跟踪HDFS中存在模式不一致的Parquet文件?我有几TB的Parquet文件。
- 在运行迁移脚本将当前模式(原始模式)转换为新模式后,您如何跟踪原始模式?
- 是否有任何现有工具可以实现这一点,还是我必须自己编写?