我目前使用 re.findall 在字符串中查找并分离 '#' 字符后的单词,以获取哈希标签:
hashtags = re.findall(r'#([A-Za-z0-9_]+)', str1)
它搜索 str1 并找到所有的哈希标签。这个功能可以正常工作,但它不考虑像这些重音字符,例如: áéíóúñü¿
。
如果 str1 中有这些字母中的任何一个,它将保存直到该字母之前的哈希标记。因此,例如,#yogenfrüz
将变为 #yogenfr
。
我需要能够考虑德语、荷兰语、法语和西班牙语等所有重音字母,以便我可以保存像 #yogenfrüz
这样的哈希标记。
我应该如何处理?
re.UNICODE
标志。 - Ashwini Chaudharya-z
,它将采用字面范围,而不是人类解释a
和á
是相同的事物。 - Martijn Pieters