我正在下载我的邮件主题的长列表,目的是找到我多年前成为成员的电子邮件列表,并将它们从我的Gmail帐户中清除(这使得我的帐户变得非常缓慢)。
我特别考虑来自同一地址的新闻通讯,而且主题中重复了产品/服务/组的名称。
我知道我可以按特定电子邮件地址的常见项目搜索/排序(我打算这样做),但我想将该数据与重复的主题相关联....
现在,许多主题行将无法进行字符串匹配,但“Google Friends:Our latest news”和“Google Friends:What we're doing today”彼此更相似,而不是随机主题行,如: “维珍航空今天有大优惠” “乘坐维珍航空的飞行”
那么——我应该如何开始自动提取可能更相似的字符串的趋势/示例。
我考虑过并放弃的方法('因为肯定有更好的方法'):
- 提取所有可能的子字符串并按它们出现的频率排序,然后手动选择相关的子字符串 - 去掉前两个单词,然后计算每个子字符串的出现次数 - 比较条目之间的Levenshtein距离 - 一些字符串相似性指数...
其中大多数被拒绝,因为效率极低或可能需要大量手动干预。我想我需要某种模糊的字符串匹配...?
最后,我可以想到一些笨拙的方法来做到这一点,但我正在寻找更通用的方法,以便将其添加到我的工具集中,而不是针对此数据集进行特殊处理。
在此之后,我将匹配特定主题字符串与“发件人”地址的出现-我不确定是否有一种好的方法来构建表示两条消息是否属于“相同电子邮件列表”的数据结构,或通过将所有我的电子邮件主题/发件人地址过滤成可能的“相关”电子邮件池和不相关的电子邮件池-但这是解决此问题之后要解决的问题。
任何指导都将不胜感激。
我特别考虑来自同一地址的新闻通讯,而且主题中重复了产品/服务/组的名称。
我知道我可以按特定电子邮件地址的常见项目搜索/排序(我打算这样做),但我想将该数据与重复的主题相关联....
现在,许多主题行将无法进行字符串匹配,但“Google Friends:Our latest news”和“Google Friends:What we're doing today”彼此更相似,而不是随机主题行,如: “维珍航空今天有大优惠” “乘坐维珍航空的飞行”
那么——我应该如何开始自动提取可能更相似的字符串的趋势/示例。
我考虑过并放弃的方法('因为肯定有更好的方法'):
- 提取所有可能的子字符串并按它们出现的频率排序,然后手动选择相关的子字符串 - 去掉前两个单词,然后计算每个子字符串的出现次数 - 比较条目之间的Levenshtein距离 - 一些字符串相似性指数...
其中大多数被拒绝,因为效率极低或可能需要大量手动干预。我想我需要某种模糊的字符串匹配...?
最后,我可以想到一些笨拙的方法来做到这一点,但我正在寻找更通用的方法,以便将其添加到我的工具集中,而不是针对此数据集进行特殊处理。
在此之后,我将匹配特定主题字符串与“发件人”地址的出现-我不确定是否有一种好的方法来构建表示两条消息是否属于“相同电子邮件列表”的数据结构,或通过将所有我的电子邮件主题/发件人地址过滤成可能的“相关”电子邮件池和不相关的电子邮件池-但这是解决此问题之后要解决的问题。
任何指导都将不胜感激。