我首先要说的是,我正在使用 tweepy。我找到了一种过滤掉相同字符串但难以过滤类似字符串的方法。
我有两个句子字符串需要比较(Tweepy 关键词="Donald Trump")。
字符串 1:
现在你可能会想,“只需截取 http 部分即可”。这也行不通,因为它没有考虑到像 @cars:
是否有一种方法可以比较这两个文本?这应该很简单,但出于某种原因,解决方案难以捉摸。我才学了一周的 Python,使用缩进来区分函数的内容还是感觉很奇怪的。
我有两个句子字符串需要比较(Tweepy 关键词="Donald Trump")。
字符串 1:
"Trump Administration Dismisses Surgeon General Vivek Murthy (http)PUGheO7BuT5LUEtHDcgm"
字符串 2: "Trump Administration Dismisses Surgeon General Vivek Murthy (http)avGqdhRVOO"
正如您所看到的,它们是相似但不完全相同的。我需要找到一种比较两者并得到数字值以决定是否将第二个 tweet 添加到第一个 tweet 的方法。我认为当我使用 SequenceMatcher()
时已经有了解决方案,但它总是打印出 0.0
。我期望它应该大于 0.5
。然而,Sequence Matcher 只适用于单词字符串(如果我错了请纠正我)。现在你可能会想,“只需截取 http 部分即可”。这也行不通,因为它没有考虑到像 @cars:
xyz zyx
和 @trucks: xyz zyx
这样的人名。是否有一种方法可以比较这两个文本?这应该很简单,但出于某种原因,解决方案难以捉摸。我才学了一周的 Python,使用缩进来区分函数的内容还是感觉很奇怪的。