我有一个结构良好的固定HTML源,传入的数据清晰且很小,只包含一小部分div列表。我知道可以使用HTML解析器来解析HTML,但这似乎是一种特殊情况,我不确定应该使用哪种解析器。以下是问题条件:
- 数据清晰且结构良好
- 数据量较小
- 性能很重要,应用程序必须尽可能地获取数据
- 应用程序将数据写入MongoDB数据库
- 实现编程语言将是Scala或Python
lxml
和仅使用regex
的方法实现它,并进行基准测试。 - alecxe