目前我正在使用各种正则表达式来“解析”Mediawiki标记中的数据,以便可以使用文章内的元素。
这绝不是最佳方法,因为必须进行大量的情况处理。
如何将文章的Mediawiki标记解析为各种Python对象,以便可以使用其中的数据?
例如:
- 提取所有标题并散列到其所在的部分的字典中。
- 获取所有Interwiki链接,并将它们放入一个列表中(我知道这可以通过API完成,但我宁愿只有一个API调用以减少带宽使用)。
- 提取所有图像名称并将它们与它们的部分哈希。
各种正则表达式都可以实现上述功能,但我发现需要制作的数量相当大。
这里是Mediawiki非官方规范(我认为官方规范并不太有用)。