我有一些类似于这些的丑陋字符:
string1 = 'Fantini, Rauch, C.Straus, Priuli, Bertali: 'Festival Mass at the Imperial Court of Vienna, 1648' (Yorkshire Bach Choir & Baroque Soloists + Baroque Brass of London/Seymour)'
string2 = 'Vinci, Leonardo {c.1690-1730}: Arias from Semiramide Riconosciuta, Didone Abbandonata, La Caduta dei Decemviri, Lo Cecato Fauzo, La Festa de Bacco, Catone in Utica. (Maria Angeles Peters sop. w.M.Carraro conducting)'
我希望能够得到一个关于编程的库或算法,它可以给出两个文本有多少词汇相同的百分比,并且不计算特殊字符,如
','
和':'
和'''
和'{'
等。我知道Levenshtein算法,但是该算法只能比较相似的字符数量,而我想比较它们有多少单词相同。
a[i] == b[j]
有定义且有意义。 - John Machin