我希望能够快速地抓取一个URL并在流式处理时解析它。最好是非常快的。我选择的编程语言是Python。我有一种直觉,认为Twisted可以做到这一点,但我无法找到一个例子。
downloadPage
来实现:from xml.sax import make_parser
from twisted.web.client import downloadPage
class StreamingXMLParser:
def __init__(self):
self._parser = make_parser()
def write(self, bytes):
self._parser.feed(bytes)
def close(self):
self._parser.feed('', True)
parser = StreamingXMLParser()
d = downloadPage(url, parser)
# d fires when the response is completely received
downloadPage
将响应主体写入传递给它的类似文件的对象中。在此示例中,传递具有write
和close
方法的对象满足该要求,但增量解析XML数据而不是将其放在磁盘上。HTTPPageGetter
级别上进行挂钩。 HTTPPageGetter
是getPage
内部使用的协议。class StreamingXMLParsingHTTPClient(HTTPPageGetter):
def connectionMade(self):
HTTPPageGetter.connectionMade(self)
self._parser = make_parser()
def handleResponsePart(self, bytes):
self._parser.feed(bytes)
def handleResponseEnd(self):
self._parser.feed('', True)
self.handleResponse(None) # Whatever you pass to handleResponse will be the result of the Deferred below.
factory = HTTPClientFactory(url)
factory.protocol = StreamingXMLParsingHTTPClient
reactor.connectTCP(host, port, factory)
d = factory.deferred
# d fires when the response is completely received
最后,很快就会有一个新的HTTP客户端API。由于这还不是任何版本的一部分,所以它并不像前两种方法那么直接有用,但它更加方便,因此我将包括它,以便让您了解未来的发展方向。 :) 新的API允许您指定协议以接收响应正文。因此,您可以执行以下操作:
class StreamingXMLParser(Protocol):
def __init__(self):
self.done = Deferred()
def connectionMade(self):
self._parser = make_parser()
def dataReceived(self, bytes):
self._parser.feed(bytes)
def connectionLost(self, reason):
self._parser.feed('', True)
self.done.callback(None)
from twisted.web.client import Agent
from twisted.internet import reactor
agent = Agent(reactor)
d = agent.request('GET', url, headers, None)
def cbRequest(response):
# You can look at the response headers here if you like.
protocol = StreamingXMLParser()
response.deliverBody(protocol)
return protocol.done
d.addCallback(cbRequest) # d fires when the response is fully received and parsed
你只需要解析单个URL吗?那就不用担心。使用urllib2打开连接并将文件句柄传递给ElementTree。
你可以尝试使用ElementTree的增量解析器或使用iterparse进行变化,但这取决于你的实际需求。有“超级快速”的解析方法,但也有“足够快”的解析方法。
只有当你开始同时拥有多个连接时,才应该考虑Twisted或多线程。