Clojure和Java中的巨大文件和堆空间错误

Question

Clojure和Java中的巨大文件和堆空间错误

6

我之前在stackoverflow上发布了一篇关于大型XML文件的帖子——这是一个287GB的Wikipedia转储XML文件，我想将其转换为CSV文件（包括修订版本、作者和时间戳）。我已经成功做到了某种程度。之前我遇到了StackOverflow错误，但现在我解决了第一个问题后，出现了Java堆空间错误：java.lang.OutOfMemoryError。

我的代码（部分参考了Justin Kramer的答案）如下：

(defn process-pages
  [page]
  (let [title     (article-title page)
        revisions (filter #(= :revision (:tag %)) (:content page))]
    (for [revision revisions]
      (let [user (revision-user revision)
            time (revision-timestamp revision)]
        (spit "files/data.csv"
              (str "\"" time "\";\"" user "\";\"" title "\"\n" )
              :append true)))))

(defn open-file
[file-name]
(let [rdr (BufferedReader. (FileReader. file-name))]
  (->> (:content (data.xml/parse rdr :coalescing false))
       (filter #(= :page (:tag %)))
       (map process-pages))))

我不展示article-title，revision-user和revision-title函数，因为它们只是从页面或修订哈希中的特定位置获取数据。任何人都可以帮助我解决这个问题——我在Clojure方面真的很新，不太明白这个问题。

- trzewiczek

3个回答

1

很遗憾，data.xml/parse不是惰性的，它试图将整个文件读入内存，然后解析它。

相反，使用这个（惰性）xml库，它只在ram中保存它当前正在处理的部分。然后，您需要重新构造代码，以便在读取输入时编写输出，而不是收集所有xml，然后输出它。

你的行

(:content (data.xml/parse rdr :coalescing false)

将所有的XML加载到内存中，然后从中请求内容键。这将导致堆栈溢出。

懒惰答案的大致轮廓如下：

(with-open [input (java.io.FileInputStream. "/tmp/foo.xml")
            output (java.io.FileInputStream. "/tmp/foo.csv"]
    (map #(write-to-file output %)
        (filter is-the-tag-i-want? (parse input))))

请耐心等待，处理 (> data ram) 总是需要时间的 :)

- Arthur Ulfeldt

他已经在使用contrib中的data.xml，正如你所指出的那样，这是一种懒惰的方式。 - Justin Kramer

0

我不了解Clojure，但在普通的Java中，可以使用基于SAX事件的解析器，例如http://docs.oracle.com/javase/1.4.2/docs/api/org/xml/sax/XMLReader.html，它不需要将XML加载到RAM中。

- Niklas Schnelle

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Justin Kramer · Accepted Answer

只是为了明确起见，(:content (data.xml/parse rdr :coalescing false))是懒惰的。如果你还不确定，检查它的类或者拉取第一个项目（它会立即返回）。

话虽如此，在处理大量序列时要注意两件事情：保留头部和未实现/嵌套的懒惰性。我认为你的代码遭受了后者。

这是我的建议:

1) 在->>调用链的末尾添加(dorun)。这将强制序列完全实现，而不保留头部。

2) 在process-page中将for更改为doseq。你正在将内容输出到文件中，这是一种副作用，你不应该在这里懒惰地完成。

正如Arthur所建议的那样，您可能希望打开一个输出文件并继续写入，而不是针对每个维基百科条目都进行打开和写入（spit）。 更新: 以下是重写的内容，试图更清晰地分别考虑问题：

(defn filter-tag [tag xml]
  (filter #(= tag (:tag %)) xml))

;; lazy
(defn revision-seq [xml]
  (for [page (filter-tag :page (:content xml))
        :let [title (article-title page)]
        revision (filter-tag :revision (:content page))
        :let [user (revision-user revision)
              time (revision-timestamp revision)]]
    [time user title]))

;; eager
(defn transform [in out]
  (with-open [r (io/input-stream in)
              w (io/writer out)]
    (binding [*out* out]
      (let [xml (data.xml/parse r :coalescing false)]
        (doseq [[time user title] (revision-seq xml)]
          (println (str "\"" time "\";\"" user "\";\"" title "\"\n")))))))

(transform "dump.xml" "data.csv")

我看不到任何会导致过度内存使用的东西。