我正在尝试编写一个函数,用于在字符串中搜索子字符串,考虑到丹麦语中不同的奇怪字母的写法,例如æ、ø、å。例如,您可以搜索'Ålborg',如果在字符串中存在'Aalborg',则函数将返回true。
以下函数可行,但性能无法承受。您有什么建议可以提高性能?
以下函数可行,但性能无法承受。您有什么建议可以提高性能?
def danish_tolerating_search(substr, str):
'''Figure out if substr is in str, taking into account
possible deviations in writing letters æ, ø, å.
æ <-> ae a ea
ø <-> oe o
å <-> aa a o
'''
# normalize input
substr = substr.lower().replace('aa',u'å')
str = str.lower()
# normalized recursive search
# TODO fix perfomance
def s(substr, str):
if str.find(substr) >= 0: return True
if substr.find(u'æ') >= 0:
if s(substr.replace(u'æ','ae', 1), str): return True
elif s(substr.replace(u'æ', 'a', 1), str): return True
elif s(substr.replace(u'æ','ea', 1), str): return True
if str.find(u'æ') >= 0:
if s(substr, str.replace(u'æ','ae', 1)): return True
elif s(substr, str.replace(u'æ', 'a', 1)): return True
elif s(substr, str.replace(u'æ','ea', 1)): return True
if substr.find(u'ø') >= 0:
if s(substr.replace(u'ø','oe', 1), str): return True
elif s(substr.replace(u'ø', 'o', 1), str): return True
if str.find(u'ø') >= 0:
if s(substr, str.replace(u'ø','oe', 1)): return True
elif s(substr, str.replace(u'ø', 'o', 1)): return True
if substr.find(u'å') >= 0:
if s(substr.replace(u'å','aa', 1), str): return True
elif s(substr.replace(u'å', 'a', 1), str): return True
elif s(substr.replace(u'å', 'o', 1), str): return True
if str.find(u'å') >= 0:
if s(substr, str.replace(u'å','aa', 1)): return True
elif s(substr, str.replace(u'å', 'a', 1)): return True
elif s(substr, str.replace(u'å', 'o', 1)): return True
return False
return s(substr, str)