如何将一个文件分割成多个小文件（每行一个文件）【split无法使用】

Question

3

我想将一个非常大的文件分割成每行一个新文件。

为什么？因为这将作为Mahout的输入。但是行数太多，而分割后缀不足。

有没有办法在bash中实现这个功能？

- user1745713

我刚刚尝试了没有任何参数的split命令。对bash不熟悉，正在进行实验。split --lines=1 file.txt - user1745713

4个回答

2

split --lines=1 --suffix-length=5 input.txt output.

这将使用每个后缀5个字符，足以容纳26⁵ = 11881376个文件。如果您的文件数量超过了这个限制，请增加后缀长度。

- Ross Presser

快速跟进。您能否通过在输出中添加路径来指定不同的输出目录，例如：split --lines=1 --suffix-length=5 input.txt output/file. - user1745713

是的，那会起作用。split将使用您键入的任何前缀作为字面字符串。在运行split之前，输出目录应该存在。 - Ross Presser

1

这是另一种针对每一行执行某些操作的方法：

while IFS= read -r line; do
    do_something_with "$line"
done < big.file

- glenn jackman

1

GNU Parallel可以做到这一点：

cat big.file | parallel --pipe -N1 'cat > {#}'

但是如果Mahout可以从标准输入读取，那么您可以避免使用临时文件：

cat big.file | parallel --pipe -N1 mahout --input-file -

- Ole Tange

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Todd A. Jacobs · Accepted Answer

使用split函数增加后缀长度

如果您坚持使用split函数，则必须增加后缀长度。例如，假设您的文件中有10,000行：

split --suffix-length=5 --lines=1 foo.txt

如果您想要更加灵活地使用这种方法，可以使用wc命令和一些Shell算术来动态设置后缀长度。例如：

file='foo.txt'
split \
    --suffix-length=$(( $(wc --chars < <(wc --lines < "$file")) - 1 )) \
    --lines=1 \
    "$file"

然而，上述方法只是一种应急方案。更正确的解决方法是使用GNU findutils包中的xargs命令，以每行一次的方式调用某些命令。例如：

xargs --max-lines=1 --arg-file=foo.txt your_command

这会逐行传输到您的命令。这是一种更加灵活的方法，将大大减少您的磁盘I/O。