使用jq,将任意JSON展开为分隔符分隔的平面字典。

11

我想使用jq将JSON转换为分隔符分隔的扁平结构。

此前已经有人尝试过了,比如Flatten nested JSON using jq

但是该页面中的解决方案无法处理包含数组的JSON。例如,如果JSON是:

{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}

上面的解决方案将无法将上述内容转换为:

{"a.b.0":1,"x.0.y":2,"x.1.z":3}

此外,我正在寻找一个解决方案,它还将允许使用任意的分隔符。例如,假设空格字符是分隔符。在这种情况下,结果应该是:

{"a b 0":1,"x 0 y":2,"x 1 z":3}

我希望通过一个Bash(4.2+)函数来访问此功能,就像在CentOS 7中找到的那样,类似于:

flatten_json()
{
    local JSONData="$1"
    # jq command to flatten $JSONData, putting the result to stdout
    jq ... <<<"$JSONData"
}

解决方案应适用于所有JSON数据类型,包括nullboolean。例如,考虑以下输入:

{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}

它应该产生:

{"a b 0":"p q r","w 0 x":null,"w 1 y":false,"w 2 z":3}
3个回答

19

如果您以数据流的形式输入,则会获得所有叶值的路径和值的配对。 如果不是一对,那么就是一个路径,表示该路径处的对象/数组定义结束。 使用找到的leaf_paths只会给您带来真实叶值的路径,因此您会错过null甚至false值。 作为流,您将不会遇到这个问题。

有许多方法可以将其组合为一个对象,我倾向于在这些情况下使用reduce和赋值。

$ cat input.json
{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}

$ jq --arg delim '.' 'reduce (tostream|select(length==2)) as $i ({};
    .[[$i[0][]|tostring]|join($delim)] = $i[1]
)' input.json
{
  "a.b.0": "p q r",
  "w.0.x": null,
  "w.1.y": false,
  "w.2.z": 3
}

这里是同样的解决方案,稍作细分以便说明其中的操作过程。

$ jq --arg delim '.' 'reduce (tostream|select(length==2)) as $i ({};
    [$i[0][]|tostring] as $path_as_strings
        | ($path_as_strings|join($delim)) as $key
        | $i[1] as $value
        | .[$key] = $value
)' input.json

通过使用 tostream 将输入转换为一个流,我们将接收多个键值对/路径作为过滤器的输入。这样,我们就可以将这些多个值传递到 reduce 中,它被设计用于接受多个值并对它们进行某些操作。但在此之前,我们想通过只选择键值对(select(length==2))来过滤那些键值对/路径。

然后在 reduce 调用时,我们从一个空对象开始,并使用从路径和相应值派生出的键分配新值。请记住,在 reduce 调用中生成的每个值都用于迭代中的下一个值。绑定变量的值不会改变当前上下文,而赋值实际上是“修改”当前值(初始对象)并将其传递给下一项。

$path_as_strings 只是路径,它是由字符串和数字组成的数组转换为仅包含字符串的数组。当要映射的数组不是当前数组时,[$i[0][]|tostring] 是我使用的一种替代方法,而不是使用 map。由于映射是作为单个表达式完成的,因此这更加紧凑。这样可以避免必须执行以下操作才能获得相同的结果: ($i[0]|map(tostring))。总体而言,外部括号可能不是必需的,但仍然是两个单独的过滤器表达式与一个(更多)文本相对应。

然后,我们将该字符串数组转换为所需的键,并使用提供的分隔符分配适当的值给当前对象。


非常出色的结果,我已经尝试过更复杂的JSON文件!你能否帮我更新一下你的答案,稍微详细解释一下你编写的jq语句的机制?这不仅可以帮助我,还可以帮助很多其他人理解有时令人困惑的语法。再次恭喜你! - Steve Amerige
如果您有时间,能否修改您的解决方案,以便如果键在用作选择器时需要引用(例如:{"top":{"com.acme":37}}将需要选择器.top."com.acme"),则输出将具有如示例选择器中所示的路径组件引用?再次感谢您提供的出色解决方案!我最初想要提供分隔符的原因是为了解决这个问题。我可以获取结果并使用sed使其具有所需的引用。它确实有效,但很笨拙。我希望有一种优雅的jq方法! - Steve Amerige
1
@citizenrich:你所说的“多个条目”是什么意思?你的输入是什么样子的?如果它只是一个JSON对象,后面跟着更多的JSON对象,那么它应该可以正常工作。所有的输入都应该被处理成同一个结果对象。除非你的输入有一些微妙之处,那么我们需要知道它的具体情况是什么样子的。 - Jeff Mercado
1
@citizenrich:是的,需要进行一些更改才能够接受单独的输入。目前这个程序的写法是假设只有一个输入。但这只需要进行简单的调整即可。等我有时间了,我会发布一个更通用的版本。 - Jeff Mercado
1
@citizenrich:我已更新答案以支持多个输入。但你不需要把它们放在数组中,只需将输入“流式传输”即可。我的意思是将对象输入一个接一个地放置。例如,{} {} - Jeff Mercado
显示剩余2条评论

2
以下内容已经在jq 1.4、jq 1.5和当前的“master”版本中进行了测试。包含对null和false路径的要求是使用“allpaths”和“all_leaf_paths”的原因。
# all paths, including paths to null
def allpaths:
  def conditional_recurse(f):  def r: ., (select(.!=null) | f | r); r;
  path(conditional_recurse(.[]?)) | select(length > 0);

def all_leaf_paths:
  def isscalar: type | (. != "object" and . != "array");
  allpaths as $p
  | select(getpath($p)|isscalar)
  | $p ;


. as $in 
| reduce all_leaf_paths as $path ({};
     . + { ($path | map(tostring) | join($delim)): $in | getpath($path) })

使用以下jq程序在flatten.jq中:

$ cat input.json
{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}

$ jq --arg delim . -f flatten.jq input.json

{
  "a.b.0": "p q r",
  "w.0.x": null,
  "w.1.y": false,
  "w.2.z": 3
}

碰撞

这里有一个助手函数,它展示了另一种路径展平算法。它将包含分隔符的键转换为带引号的字符串,并且数组元素用方括号表示(见下面的例子):

def flattenPath(delim):
  reduce .[] as $s ("";
    if $s|type == "number" 
    then ((if . == "" then "." else . end) + "[\($s)]")
    else . + ($s | tostring | if index(delim) then "\"\(.)\"" else . end)
    end );

示例:使用flattenPath代替map(tostring) | join($delim),该对象:

 {"a.b": [1]}

would become:

{
  "\"a.b\"[0]": 1
}

这个解决方案在正确性、性能和安全性方面与@jeff-mercado提出的解决方案相比如何?即使仅仅是为了看看你如何思考解决问题,我也非常感激这篇文章。 - Steve Amerige

0
为了给已经给出的解决方案添加一个新选项,jqg 是我编写的一个脚本,用于扁平化任何 JSON 文件,然后使用正则表达式进行搜索。对于您的目的,您的正则表达式将简单地是 '.',它将匹配所有内容。
$ echo '{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}' | jqg .
{
  "a.b.0": 1,
  "x.0.y": 2,
  "x.1.z": 3
}

而且可以生成紧凑的输出:

$ echo '{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}' | jqg -q -c .
{"a.b.0":1,"x.0.y":2,"x.1.z":3}

它还处理了@peak使用的更复杂的示例:

$ echo '{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}' | jqg .
{
  "a.b.0": "p q r",
  "w.0.x": null,
  "w.1.y": false,
  "w.2.z": 3
}

以及空数组和对象(以及一些其他边缘情况的值):

$ jqg . test/odd-values.json
{
  "one.start-string": "foo",
  "one.null-value": null,
  "one.integer-number": 101,
  "two.two-a.non-integer-number": 101.75,
  "two.two-a.number-zero": 0,
  "two.true-boolean": true,
  "two.two-b.false-boolean": false,
  "three.empty-string": "",
  "three.empty-object": {},
  "three.empty-array": [],
  "end-string": "bar"
}

(可以使用-E选项关闭报告空数组和对象)。

jqg已经与jq 1.6进行了测试。

注意:我是jqg脚本的作者。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接