我遇到了一个问题。实际上,我正在处理越南文本,并且想要找到包含大写字母的每个单词。当我使用“re”模块时,我的函数(temp)无法捕获像“Đà”这样的单词。另一种方法(temp2)是逐个字符检查,虽然可以工作,但因为我必须将句子拆分成单词,所以速度很慢。
因此,我想知道是否有一种方法可以使用“re”模块来捕获所有特殊的大写字母。
我有两种方式:
def temp(sentence):
return re.findall(r'[a-z]*[A-Z]+[a-z]*', sentence)
lis=word_tokenize(sentence)
def temp2(lis):
proper_noun=[]
for word in lis:
for letter in word:
if letter.isupper():
proper_noun.append(word)
break
return proper_noun
输入:
'nous avons 2 Đồng et 3 Euro'
预期输出:
['Đồng','Euro']
谢谢!