我该如何让我妈妈知道她喜欢的苏打饮料打折了?

4
我试图创建一种方法,让我妈妈在她在Stater Bros购买的Diet Rite饮料打折时得到通知。我的想法是,我可以创建一个Yahoo Pipe来接收每周广告的信息,并筛选出包含字符串“Diet Rite”的内容。 Yahoo Pipe本身就是一个RSS源,因此我会将Pipe发送到Google Reader,这样我妈妈就会知道Stater Bros是否正在促销。
考虑到Stater Bros有一个可搜索的PDF 每周广告,我认为只需要让Yahoo Pipes搜索即可。但是,Yahoo Pipes不支持PDF。
我随后决定将PDF通过在线PDF转HTML工具进行转换,并将其馈送到Yahoo Pipes的Fetch Page模块中。实际上,该转换器相当成功,因为生成的HTML保留了文本,我可以搜索并找到所需内容。但是,它输出数据的方式是框架,因此我无法使用它。我找不到其他在线PDF转HTML转换器。
即使我能将PDF的HTML代码加入到Yahoo Pipes中,我也不确定这有什么好处,因为Yahoo Pipes没有提供搜索/过滤HTML的方法。它主要适用于订阅源。
所以我陷入了困境。有什么想法可以实现我想做的事情吗?
1个回答

2
如果您还没有使用它,那么您可能希望查看谷歌的缓存系统...
http://webcache.googleusercontent.com/search?q=cache:http://www.staterbros.com/Images/PDFs/weekly.aspx

在SEO圈之外并不广为人知,但Googlebot实际上确实执行了粗略的PDF到HTML和文本转换。如果你不能等待Google转换PDF文件,也有几个免费的PHP脚本可以执行相同的功能。
由于管道没有“Preg_match”的等效物,所以你必须往回工作,通过删除不是你要查找的内容来做到这一点。
替换模块的正则表达式看起来像这样...^(.+?)Diet Rite(.+?)$ 删除从字符串开头到“Diet Rite”之间的所有内容,然后将“Diet Rite”之后的所有内容替换为空。 因此,如果页面上存在“Diet Rite”,它将显示在管道中,并且可以添加到RSS提要中,否则该管道将返回空白。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接