使用R将JSON文件转换为CSV文件

9

我有一个JSON文件存储在一个.txt文件中,我想将其加载到R中,但是出现了以下错误:

Error in feed_push_parser(readBin(con, raw(), n), reset = TRUE) : 
  parse error: trailing garbage
      " : "SUCCESS"  }    /* 1 */  {    "_id" : "b736c374-b8ae-4e9
                 (right here) ------^

我猜错误是由于多个实例的/* (数字) */,我无法手动删除所有这些实例,因为我的文件有10k个这样的实例。在将数据加载到R之前,是否有一种方法可以删除这样的实例?
我的JSON文件如下:
/* 0 */
{
  "_id" : "93ccbdb6-8947",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "93ccbdb6-8947",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 1 */
{
  "_id" : "b736c374-b8ae",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "b736c374-b8ae",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 2 */
{
  "_id" : "3312605f-8304",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1SXE",
    "queryId" : "3312605f-8304",
    "subRequests" : [{
        "origin" : "LON",
        "destination" : "IAD",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 2,
  "requestDate" : 20151205,
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

/* 3 */
{
  "_id" : "6b668cfa-9b79",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1NXA",
    "queryId" : "6b668cfa-9b79",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 1,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 4 */
{
  "_id" : "41c373a1-e4cb",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP6CXS",
    "queryId" : "41c373a1-e4cb",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 5 */
{
  "_id" : "2c8331c4-21ca",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1KKP",
    "queryId" : "2c8331c4-21ca",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 6 */
{
  "_id" : "71a09900-1c13",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP6CXS",
    "queryId" : "71a09900-1c13",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AF",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "DL",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "LH",
        "fareClasses" : "",
        "owrt" : "1,2"
      }, {
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "BA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 6941,
  "status" : "SUCCESS"
}

/* 7 */
{
  "_id" : "a036a42a-918b",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1MMM",
    "queryId" : "a036a42a-918b",
    "subRequests" : [{
        "origin" : "WAS",
        "destination" : "LON",
        "carrier" : "AA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 0,
  "requestDate" : 20151205,
  "totalRecords" : 1388,
  "status" : "SUCCESS"
}

/* 8 */
{
  "_id" : "c547be36-805c",
  "uiSearchRequest" : {
    "travelDate" : 20151206,
    "travelDuration" : 7,
    "shopperDuration" : 30,
    "oneWay" : false,
    "userId" : "ATP1SXB",
    "queryId" : "c547be36-805c",
    "subRequests" : [{
        "origin" : "CHI",
        "destination" : "LON",
        "carrier" : "BA",
        "fareClasses" : "",
        "owrt" : "1,2"
      }]
  },
  "downloadCount" : 2,
  "requestDate" : 20151205,
  "totalRecords" : 1072,
  "status" : "SUCCESS"
}

以下是我的代码(虽然我还没有实现很多):
library(jsonlite)
library(RJSONIO)
json_data_raw<-fromJSON("mydata.txt")

json_file <- lapply(json_data_raw, function(x) {
  x[sapply(x, is.null)] <- NA
  unlist(x)
})

output <-- do.call("rbind", json_file)
write.csv(a, file="json.csv",row.names = FALSE)
file.show("json.csv")

我正在尝试将我的输出保存为以下的CSV文件格式:

I'm trying to get output into a CSV file like below


请注意,其中包含HTML标签。

2
您想将这个嵌套结构如何折叠成矩形CSV文件?输出将会是什么样子?请在问题本身中包含示例数据以使问题可重现。数据图片并不像示例那么有用。 - MrFlick
fromJSON(grep('/\\*.*\\*/', readLines(mydata.txt), invert = TRUE, value = TRUE)) 去除注释行,但对我仍然失败。 - alistaire
@MrFlick 谢谢您的建议。我已经进行了更改。 - Lester Pereira
2个回答

11

您的文本文件存在几个问题。正如您已经注意到的那样,您需要删除形如/* 0 */的行。这样得到的仍然不是有效的JSON。如果您想在一个文件中有多个JSON对象,您需要将它们存储在一个数组中。JSON对象是用大括号括起来的部分,例如,

{
  "_id" : "93ccbdb6-8947-4687-8e12-edf4e40d6650",
  ...
  "totalRecords" : 0,
  "status" : "SUCCESS"
}

对象数组的结构如下:

[  {    ...  },  {    ...  }]

为了让您的文件符合要求,在对象之间添加逗号并加上方括号即可。您可以按照以下方法执行:

raw <- readLines("mydata.txt")

# get rid of the "/* 0 */" lines
json <- grep("^/\\* [0-9]* \\*/", raw, value = TRUE, invert = TRUE)

# add missing comma after }
n <- length(json)
json[-n] <- gsub("^}$", "},", json[-n])

# add brakets at the beginning and end
json <- c("[", json, "]")

这可以被fromJSON()读取,所以我认为它是有效的 JSON:

library(jsonlite)
table <- fromJSON(json)
1 2
3
a b
c d
table[1,2]
##   travelDate travelDuration shopperDuration oneWay  userId                              queryId
## 1   20151206              7              30  FALSE ATP1KKP 93ccbdb6-8947-4687-8e12-edf4e40d6650
##               subRequests
##     1 WAS, LON, AA, , 1,2

你可以使用jsonlite包中的flatten()函数,将嵌套层数减少一个,得到一个表格。

flatten(table)[1:3, c(1, 6, 12)]
##                                    _id uiSearchRequest.travelDate uiSearchRequest.subRequests
## 1 93ccbdb6-8947-4687-8e12-edf4e40d6650                   20151206         WAS, LON, AA, , 1,2
## 2 b736c374-b8ae-4e99-8073-9c54517fecd5                   20151206         WAS, LON, AA, , 1,2
## 3 3312605f-8304-4ab8-96d6-6e1a03cfbd9e                   20151206         LON, IAD, AA, , 1,2

最后一列仍然是一个列表。你可以用很多方法来处理它。其中一种可能是为每个子请求创建一行,其他列(如X_iddownloadCount等)的内容会重复。(这几乎是你在问题中提到的形式,唯一的区别是你在重复的列中留下了空单元格,而我则重复了它们的内容。)具体操作如下:

table <- flatten(fromJSON(json))
tab_list <- lapply(1:nrow(table),
                  function(i) data.frame(table[i, -12], table[i, 12],
                              stringsAsFactors = FALSE))
library(dplyr)
flat_table <- bind_rows(tab_list)

第二行创建了一个数据框列表。使用 dpylr 中的 bind_rows() 将它们合并为单个数据框。(更精确地说,flat_table 将成为一个 tbl_df,但与 data.frame 的区别很小。)然后可以按照通常的方式将其写入 CSV 文件:

write.csv(flat_table, file = "mydata.csv")

那个可以,@Stibu,谢谢你,但它只是解决方案的一部分!我正在遇到将表格内容导出为 .csv 或 .xlsx 文件的问题。你知道我应该如何修复这个错误吗?错误提示是:方法 setCellValue 签名为([Ljava/lang/String;)V 未找到。此外:警告消息:如果(is.na(value)) { : 条件长度大于 1,只有第一个元素会被使用。 - Lester Pereira
对于你评论中的错误信息,我不太熟悉。由于提到了Java,我猜你可能正在使用某个包来创建Excel文件。所以,你可能在使用该包时遇到了问题。也许问题还涉及到数据框中包含的列表,而使用我提供的额外代码后问题可能会消失。如果问题仍然存在,你应该在创建Excel文件时提出一个新的具体问题(当然,在此之前要先搜索一下SO,看看是否已经有人提过同样的问题...)。 - Stibu
如果我将 table 定义为 table <- fromJSON(json),就会收到这个错误消息。但是应该是 table <- flatten(fromJSON(json)) - Stibu
我的错误原因是我的最终结果数据框包含了JSON文件中嵌套的子请求部分的嵌套数据框。因此,即使是基本函数write.table()和write.csv(),包括xlsx包的write.xlsx(),也无法将其输出为平面格式。我考虑通过将子请求数据框绑定并使用行的id变量将它们合并到更大的final1列中来展开。最终,我获得了一个包含13个观测值的数据框(而不是JSON中的9个元素,因为其中一个包含5个嵌套的子请求:id = 71a09900-1c13)。 - Lester Pereira
1
显然,“table <- fromJSON(json)”没有起作用,因为你收到了一个错误消息,如果使用“table <- flatten(fromJSON(json))”就不会有这个问题。我的答案中的代码与你的编辑结果相同(除了列名和行顺序),但更简单。 - Stibu
显示剩余3条评论

2
在Python中非常简单:
import pandas as pd
data = pd.read_json(path_to_input_file)
data.to_csv(path_to_csv_output_file)

5
问题要求使用R语言解决,而不是Python。 - tospig
3
刚才我正在使用R将JSON转换为CSV。然而,我仍在苦苦挣扎上述建议,并发现了一些使用Pandas的酷炫解决方案。所以想在这里分享一下。 :) - Pramod Shinde

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接