今天我发现了一个有趣的代码片段:
/\ba/.test("a") --> true
/\bà/.test("à") --> false
然而,
/à/.test("à") --> true
首先,什么鬼?其次,如果我想匹配一个单词开头的重音字符,该怎么办?(我真的不想使用过于复杂的选择器,比如
/(?:^|\s|'|\(\) ....
)今天我发现了一个有趣的代码片段:
/\ba/.test("a") --> true
/\bà/.test("à") --> false
然而,
/à/.test("à") --> true
首先,什么鬼?/(?:^|\s|'|\(\) ....
)/^[A-Za-z\u00C0-\u017F]+$/
来匹配所有字母。 - Cœurÿ
成为了法语字母?(我是母语法语者...) - Adriano/\bà/.test("à")
不匹配的原因是"à"不是一个单词字符。转义序列\b
仅在单词字符和非单词字符之间的边界处匹配。/\ba/.test("a")
匹配是因为"a"是单词字符。因此,在字符串开头(不是单词字符)和单词字符“a”之间有一个边界。[a-zA-Z0-9_]
。/^à/
)。该字符表示字符串开头(与\b
不同,后者匹配字符串中的任何单词边界)。这是最基本和标准的正则表达式,因此绝对不会过于复杂。re.test()
方法时,需要注意 re.lastIndex
属性的行为,该属性包含最后匹配的偏移量(并且是下一次匹配尝试开始的位置)。虽然在这种情况下该方法被应用于正则表达式字面量,但如果正则表达式对象存储在变量中并被多次使用,则这一点很重要。 - ridgerunner如果你想匹配字母,无论是否带有重音符号,Unicode 属性转义 可能会有所帮助。
/\p{Letter}*/u.test("à"); // true
/\p{Letter}/u.test('œ'); // true
/\p{Letter}/u.test('a'); // true
/\p{Letter}/u.test('3'); // false
/\p{Letter}/u.test('a'); // true
(?<=(?:^|\s))
似乎可以解决问题。其中(?<= )
是一个正向后瞻,确保主表达式前面存在某些内容。(?: )
是一个非捕获组,所以您不会在稍后使用的任何匹配中引用此部分。然后,如果未设置多行标志,则^
将匹配字符串的开头,如果设置了多行标志,则匹配行的开头,而\s
将匹配空格字符(空格/制表符/换行符)。/(?<=(?:^|\s))\p{Letter}*/u
如果您只想匹配带重音符号的字符,请使用否定字符集a-zA-Z。/(?<=(?:^|\s))[^a-zA-Z]\p{Letter}*/u.match("bœ") // false
/(?<=(?:^|\s))[^a-zA-Z]\p{Letter}*/u.match("œb") // true
// Match characters, accented or not
let regex = /\p{Letter}+$/u;
console.log(regex.test("œb")); // true
console.log(regex.test("bœb")); // true
console.log(regex.test("àbby")); // true
console.log(regex.test("à3")); // false
console.log(regex.test("16 tons")); // true
console.log(regex.test("3 œ")); // true
console.log('-----');
// Match characters to start of line, only match characters
regex = /(?<=(?:^|\s))\p{Letter}+$/u;
console.log(regex.test("œb")); // true
console.log(regex.test("bœb")); // true
console.log(regex.test("àbby")); // true
console.log(regex.test("à3")); // false
console.log('----');
// Match accented character to start of word, only match characters
regex = /(?<=(?:^|\s))[^a-zA-Z]\p{Letter}+$/u;
console.log(regex.test("œb")); // true
console.log(regex.test("bœb")); // false
console.log(regex.test("àbby")); // true
console.log(regex.test("à3")); // false
const regex = /^[\-/A-Za-z\u00C0-\u017F ]+$/;
const test1 = regex.test("à");
const test2 = regex.test("Martinez-Cortez");
const test3 = regex.test("Leonardo da vinci");
const test4 = regex.test("ï");
console.log('test1', test1);
console.log('test2', test2);
console.log('test3', test3);
console.log('test4', test4);
在 Wak 和 Cœur 的回答基础上:
/^[\-/A-Za-z\u00C0-\u017F ]+$/
这个正则表达式可以匹配空格和破折号。
例如:Leonardo da Vinci,Martinez-Cortez
最初的回答。
é
有两种Unicode表示形式:'\u0039'
和 '\u0065\u0301'
。前者被称为组合形式,后者被称为分解形式。JavaScript允许在两种形式之间进行转换:'é'.normalize('NFD') // decompose: '\u0039' -> '\u0065\u0301'
'é'.normalize('NFC') // compose: '\u0065\u0301' -> '\u0039'
'é'.length // composed form: -> 1
'é'.length // decomposed form: -> 2 (looks identical but has different representation)
'é' == 'é' // -> false (composed and decomposed strings are not equal)
'\u0301'
属于Unicode组合变音标记代码块0300-036F
。因此,匹配这些带重音符号的一种方法是以分解形式进行比较:// matching accented characters
/[a-zA-Z][\u0300-\u036f]+/.test('é'.normalize('NFD')) // -> true
/\bé/.test('é') // -> false
/\bé/.test('é'.normalize('NFD')) // -> true (NOTE: /\bé/ uses the decomposed form)
// matching accented words
/^\w+$/.test('résumé') // -> false
/^(?:[a-zA-Z][\u0300-\u036f]*)+$/.test('résumé'.normalize('NFD')) // -> true
"à"
肯定匹配模式/\bà/
,它们更适合处理Unicode。 - tchrist