我正在尝试从嵌套的JSON中获取一些值,表格包含500万行(5TB+)。如何以最有效的方式进行操作?
以下是一个示例:
{"country":"US","page":227,"data":{"ad":{"impressions":{"s":10,"o":10}}}}
我需要从上述JSON中获取这些值:
Country Page impressions_s impressions_o
--------- ----- ------------- --------------
US 2 10 10
这是Hive的json_tuple函数,我不确定这是否是最佳函数。 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-getjsonobject