我正在考虑一种针对目录树的多线程递归遍历的好方法。
我目前正在对根目录下的文件夹进行递归遍历,并在单独的线程中运行每个文件夹的遍历。
这样做虽然提高了性能,但仍存在“长尾”问题-大型文件夹需要很长时间。
有什么更好的方法吗?
我正在使用Python和Java。
谢谢。
编辑: 我不需要将文件加载到内存中。只需处理文件路径并可能获取一些元数据信息,如文件大小。
我目前正在对根目录下的文件夹进行递归遍历,并在单独的线程中运行每个文件夹的遍历。
这样做虽然提高了性能,但仍存在“长尾”问题-大型文件夹需要很长时间。
有什么更好的方法吗?
我正在使用Python和Java。
谢谢。
编辑: 我不需要将文件加载到内存中。只需处理文件路径并可能获取一些元数据信息,如文件大小。