我正在使用 Python Goose。你可以在这个链接中找到它。
我想提取发布日期,但当我运行:
g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date
结果是None
我在很多网站上都试过了,结果都是None
有什么建议吗?
我正在使用 Python Goose。你可以在这个链接中找到它。
我想提取发布日期,但当我运行:
g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date
结果是None
我在很多网站上都试过了,结果都是None
有什么建议吗?
# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)
set_publishdate_extractor
。自2014年起,这个功能已经被实现到python-goose中的extractors/publishdate.py
中,因此article.publish_date
会返回一些日期。但仅当以下元数据字段中有可用的日期时才会返回:
rnews:datePublished
article:published_time
OriginalPublicationDate
datePublished