我知道一般情况下不应该使用正则表达式来解析HTML。
但是我想对Web应用程序进行性能测试。我确定了HTML的结构,因此可以使用正则表达式从页面源代码中提取一些数据。
由于我正在执行性能测试(使用Jmeter),因此我想从主机器中占用更少的资源。
哪个选项的资源消耗会更小:XPath、正则表达式(Jakarta ORO)还是Jsoup?
我知道一般情况下不应该使用正则表达式来解析HTML。
但是我想对Web应用程序进行性能测试。我确定了HTML的结构,因此可以使用正则表达式从页面源代码中提取一些数据。
由于我正在执行性能测试(使用Jmeter),因此我想从主机器中占用更少的资源。
哪个选项的资源消耗会更小:XPath、正则表达式(Jakarta ORO)还是Jsoup?
它的性能将低于正则表达式,因为它构建了一个DOM文档,但它可以在不需要超级优化的测试计划中减轻很多语法。
最后,关于XPath,由于它构建了一个DOM树:
它的内存和 CPU 消耗比正则表达式要高,特别是如果您想提取许多元素,因此已经创建了一个改进: