我想使用Python2.7从EDGAR提交的文件中删除非文本内容(这些文件以.txt格式在线提供)。以下是文件示例:
Example
EDGAR在此文件的第48页开始提供其文档类型定义:
DTD
我的程序的第一部分将.txt文件从EDGAR在线数据库获取到名为“parseme.txt”的本地文件中。我想知道如何使用DTD解析.txt文件。我可以使用像BeautifulSoup这样的现成解析模块,但EDGAR的格式似乎很独特,我希望避免使用大型正则表达式来完成任务。
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
我的问题与在Python 3中使用Open Arbitrary Tags解析SGML和使用lxml解析带有错误头的文本文件有关,但我认为我的问题与它们不同,因为我的问题涉及python2.7,并且我不关心头文件 - 我只关心文件的文本内容。