我正在处理60GB或更大的文本文件。这些文件被分成一个可变长度的标题部分和一个数据部分。我有三个函数:
head?
判断是否为标题行process-header
处理一个标题行字符串process-data
处理一个数据行字符串- 处理函数异步地访问和修改内存中的数据库
我从另一个SO线程上改进了一个文件读取方法,它应该构建一个惰性序列的行。思路是用一个函数处理一些行,然后切换函数并继续使用下一个函数进行处理。
(defn lazy-file
[file-name]
(letfn [(helper [rdr]
(lazy-seq
(if-let [line (.readLine rdr)]
(cons line (helper rdr))
(do (.close rdr) nil))))]
(try
(helper (clojure.java.io/reader file-name))
(catch Exception e
(println "Exception while trying to open file" file-name)))))
我会将其与类似的东西一起使用。
(let [lfile (lazy-file "my-file.txt")]
(doseq [line lfile :while head?]
(process-header line))
(doseq [line (drop-while head? lfile)]
(process-data line)))
虽然这种方法可以工作,但出于以下几个原因,它相当低效:
- 我必须过滤标题行并处理它们,然后重新开始解析整个文件并丢弃所有标题行以处理数据,而不是简单地调用
process-head
直到达到数据,然后继续使用process-data
。这与lazy-file
的本意完全相反。 - 监视内存使用情况会发现,尽管看起来是懒惰的,程序会建立使用与保持文件在内存中所需的RAM一样多的RAM。
一个想法可能是使用多方法来处理头部和数据,具体取决于
head?
谓词的值,但我认为这将有一些严重的速度影响,特别是当谓词结果从始终为真变为始终为假时只有一个出现的情况。我还没有对此进行基准测试。使用另一种方式构建
line-seq
并使用iterate
解析它是否更好?我猜这仍然需要我使用:while
和:drop-while
。在我的研究中,多次提到了使用NIO文件访问,这应该可以提高内存使用率。我还没有找到如何在Clojure中以习惯的方式使用它的方法。
也许我对文件应该如何处理的总体概念仍然不太清楚?
像往常一样,任何帮助、想法或指向教程的指针都将不胜感激。
lazy-file
方法是在我开始学习Clojure时实现的,存储在一个io模块中并从那里使用。它的净效果与仅使用line-seq
完全相同。 - waechtertrolllet
绑定中。根据seq
文档,当你处理这些行时,它们会被保存在内存中。 - kawas44if
,如果由于文件大小而导致成本过高,您打开文件两次的方法绝对是有效的。 - kawas44