我正在学习Apache Avro,并想知道它在内部是如何表示的。如果我要描述Apache Parquet,我可以说每个Parquet文件由row_groups组成,每个row_group包含column chunks,column chunks具有多个页面和不同的编码。最后,所有这些元数据存储在文件页脚中。该文件表示在Github page和其官方Apache page中都有清晰记录。
为了找到Apache Avro的相同内部表示,我查看了多个页面,例如Github page,Apache Avro的home以及书籍Hadoop definitive guide等在线教程,但我没有找到我要找的内容。我知道Apache Avro是面向行的文件格式,每个文件中都包含模式和数据。这些都没问题,但我想知道数据是如何进一步分解为内部组织的,就像RDBMS表的页面一样。任何与此相关的指针将不胜感激。
为了找到Apache Avro的相同内部表示,我查看了多个页面,例如Github page,Apache Avro的home以及书籍Hadoop definitive guide等在线教程,但我没有找到我要找的内容。我知道Apache Avro是面向行的文件格式,每个文件中都包含模式和数据。这些都没问题,但我想知道数据是如何进一步分解为内部组织的,就像RDBMS表的页面一样。任何与此相关的指针将不胜感激。