我需要以平台无关的方式执行以下操作:
1) read the file with using codecs.open() (for utf-8)
2) split lines according to two new lines.
3) split entities according to new line
示例输入:
1) FIRST UTF-8 ENTITY ŞŞŞŞ\n
2) SECOND ELEMENT OF FIRST ENTITY\n
\n\n
1) SECOND ENTITIY\n
2) SECOND ELEMENT OF SECOND ENTITIY\n
读取文件后,在Mac OSX上使用string.split('\n\n')可以正常工作,但这似乎不是处理此问题的跨平台方式(文件可能在另一个操作系统上准备)。
我知道string.splitlines()可以实现跨平台,但如何以跨平台的方式分隔实体之间的两个新行?
编辑:文件可能在任何平台上准备,因此可能具有任何类型的行结尾。