我有一个问题,需要从远程机器解析多个日志文件。 有几个问题: 1)文件可能正在使用中 2)这些文件可能相当大(100mb +) 3)每个条目可能有多行
为解决正在使用中的问题,我需要先进行复制。我目前直接从远程机器复制到本地机器,并在那里进行解析。这会导致问题2。由于文件相当大,在本地复制可能需要相当长时间。
为了提高解析速度,我想要将解析器变成多线程的,但这使得处理多行条目有些棘手。
主要的两个问题是: 1)如何加快文件传输(压缩?是否有必要在本地传输?可以用其他方式读取正在使用的文件吗?) 2)如何在将行分配给线程时处理多行条目?
更新:我没有在服务器上进行明显的解析,因为我希望对系统的性能影响尽可能小。