我正在收集一个提供访问大量博客和新闻网站的服务的完整HTML。我正在实时检查HTML以查看它是否包含一些关键词。如果它包含其中一个关键词,我将HTML写入文本文件中进行存储。
我希望这样做一周。因此,我正在收集大量数据。测试程序3分钟后生成了100MB的文本文件。我有4TB的空间,不能使用更多。
此外,我不希望文本文件变得太大,因为我认为它们将无法打开。
我的建议是打开一个文本文件,并将HTML写入其中,频繁地检查其大小。如果它变得比200MB大,我就关闭文本文件并打开另一个。我还需要保持运行日志,记录我已经使用了多少空间,以便确保我不会接近4TB。
我此时的问题是如何在文件关闭之前(使用FileWriter.close())检查文本文件的大小。是否有此功能或者我应该计算写入文件的字符数并用它来估算文件大小?
另一个问题:是否有减少文本文件占用空间的方法?我正在使用Java。
我希望这样做一周。因此,我正在收集大量数据。测试程序3分钟后生成了100MB的文本文件。我有4TB的空间,不能使用更多。
此外,我不希望文本文件变得太大,因为我认为它们将无法打开。
我的建议是打开一个文本文件,并将HTML写入其中,频繁地检查其大小。如果它变得比200MB大,我就关闭文本文件并打开另一个。我还需要保持运行日志,记录我已经使用了多少空间,以便确保我不会接近4TB。
我此时的问题是如何在文件关闭之前(使用FileWriter.close())检查文本文件的大小。是否有此功能或者我应该计算写入文件的字符数并用它来估算文件大小?
另一个问题:是否有减少文本文件占用空间的方法?我正在使用Java。