如何使用正则表达式在JavaScript中去除字符串中的所有标点符号?

216

如果我有一个带有任何非字母数字字符的字符串:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation"

在JavaScript中如何获得没有标点符号的版本:

"This is an example of a string with punctuation"
17个回答

263

如果您想从字符串中删除特定的标点符号,最好明确地仅删除您想要的内容,例如:

replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"")

即使按照上述方法执行,它仍不会返回您指定的字符串。如果您想要删除从删除疯狂标点符号中留下的任何额外空格,则需要执行以下操作:

replace(/\s{2,}/g," ");

我的完整示例:

var s = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var punctuationless = s.replace(/[.,\/#!$%\^&\*;:{}=\-_`~()]/g,"");
var finalString = punctuationless.replace(/\s{2,}/g," ");

在 Firebug 控制台中运行代码的结果:

alt text


5
正则表达式中的花括号 {} 用于对其前面的字符或表达式进行量词控制。在这个例子中,它将匹配 2 到 100 个空格字符(\s),并用一个空格字符进行替换。如果你想要将任意数量的空格字符缩减为一个,只需省略上限即可,写成 replace(/\s{2,}/g, ' ') - Mike Partridge
13
我已经将一些字符添加到标点符号列表中以进行替换(@+?><[]+):replace(/[\.,-\/#!$%\^&\*;:{}=\-_\~()@+?><[]+]/g, '')`。如果有人正在寻找一个更完整一些的集合。 - timmfin
9
Python的string.punctuation将标点定义为:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~,这对我来说效果很好,因此另一种替代方法是:replace(/['!"#$%&\\'()\*+,\-\.\/:;<=>?@\[\\\]\^_`{|}~']/g,""); - 01AutoMonkey
2
2020 年更新:所有浏览器现在都支持正则表达式中的 Unicode 字符类... var punctuationless = s.replace(/[^\p{L}\s]/gu,""); 今天在任何地方都能工作。 - Bill Barry
显示剩余9条评论

188
str = str.replace(/[^\w\s\']|_/g, "")
         .replace(/\s+/g, " ");

移除非字母数字字符和空格,然后将多个连续的空格合并为单个空格。

详细说明:

  1. \w 匹配任何数字、字母或下划线。
  2. \s 匹配任何空白字符。
  3. [^\w\s\'] 匹配除了数字、字母、空格、下划线和单引号之外的任何字符。
  4. [^\w\s\']|_ 与 #3 相同,只不过下划线又被包含在内。

105
这也将过滤掉非英语、但形式正确的字母数字字符,例如à、é、ö,以及整个西里尔字母表。 - Dan Abramov
7
我不同意,原问题并没有明确指定“仅限英语”。SO是相当国际化的,遍布全球。任何会说英语且有互联网接入的人都可以使用它。如果问题中没有指定语言,那么我们就不应该做出任何假设。我们现在已经是2017年了! - Rolf
2
此外,即使您只支持英语,您也会使用像“résumé”和地名或人名等借词,因此您不希望破坏某人说他们在Ramón Chloé之间的San José(官方拼写)的工作能力。 - Chris Adams
2
这将会影响到 wouldn'tdon't 等单词。 - Bruno Francisco
2
@njboot 它将多个相邻的空格折叠成单个空格。 - John Kugelman
显示剩余4条评论

81

这里是美国标准ASCII标点符号:!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~

对于Unicode标点符号(如卷曲引号、破折号等),您可以轻松匹配特定块范围。 常规标点 块为 \u2000-\u206F,而 补充标点 块为 \u2E00-\u2E7F

将它们结合在一起并进行适当的转义,您将得到以下RegExp:

/[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/

这应该能匹配到你所遇到的几乎所有标点符号。因此,为了回答最初的问题:

var punctRE = /[\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&()*+,\-.\/:;<=>?@\[\]^_`{|}~]/g;
var spaceRE = /\s+/g;
var str = "This, -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
str.replace(punctRE, '').replace(spaceRE, ' ');

>> "This is an example of a string with punctuation"

US-ASCII源码:http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html#posix

Unicode源码:http://kourge.net/projects/regexp-unicode-block


3
对于Unicode标点符号来说,区块是不够的。你需要查看一般类别“Punctuation”,你会发现并非所有标点符号都能很好地位于这些区块中。例如,许多熟悉的标点符号位于拉丁语区块内。 - nhahtdh
非常有用的答案,可能对某些语言的边缘情况不适用,但比之前的更好!谢谢 - mayank

26

截至2021年,许多现代浏览器都支持JavaScript内置:RegExp:Unicode属性转义。因此,您现在可以简单地使用\p{P}

str.replace(/[\p{P}$+<=>^`|~]/gu, '')

正则表达式可以进一步简化,如果您想忽略所有符号(\p{S})和标点符号。
str.replace(str.replace(/[\p{P}\p{S}]/gu, '')

如果您想除去除字母(\p{L})、数字(\p{N})和分隔符(\p{Z})之外的所有内容。您可以使用否定字符集,像这样(适用于非英语字母数字字符):

str.replace(/[^\p{L}\p{N}\p{Z}]/gu, '')

上面的正则表达式可以使用,但更常见的用法是使用正则表达式中的空白字符类,而不是使用Unicode分隔符字符集,因为后者不包括制表符和换行符。请尝试以下代码:
str.replace(/[^\p{L}\p{N}\s]/gu, '')

const str = 'This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation';

console.log(str.replace(/[\p{P}$+<=>^`|~]/gu, ''));
console.log(str.replace(/[\p{P}\p{S}]/gu, ''));
console.log(str.replace(/[^\p{L}\p{N}\p{Z}]/gu, ''));
console.log(str.replace(/[^\p{L}\p{N}\s]/gu, ''));

您可能还想使用.replace(/ + / g,' ')链接到删除连续空格

随意尝试这些!参考文献:
Unicode字符属性 - 维基百科
Unicode属性转义 - MDN


16

/[^A-Za-z0-9\s]/g应该匹配所有标点符号但保留空格。 如果需要,您可以使用.replace(/\s{2,}/g, " ")替换多余的空格。 您可以在http://rubular.com/中测试正则表达式。

.replace(/[^A-Za-z0-9\s]/g,"").replace(/\s{2,}/g, " ")

更新:仅适用于输入是ANSI英语的情况。


7
你假设这个字符串是 ANSI 英文。它不是带有重音字母(àéô)的法语,也不是德语、土耳其语。Unicode 阿拉伯语、中文等也会消失。 - Rolf
2
谢谢,我没有完全考虑到那个。 - adnan2nd

15

我遇到了同样的问题,这个解决方案很有用并且非常易懂:

var sentence = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newSen = sentence.match(/[^_\W]+/g).join(' ');
console.log(newSen);

结果:

"This is an example of a string with punctuation"

关键是创建一个否定集合。这意味着它匹配不在该集合中的任何内容,即[^abc] - 不是 a、bc

\W代表任何非单词字符,因此[^\W]+将否定任何不是单词字符的东西。

通过添加 _(下划线),您还可以否定它。

将其全局应用/g,然后您可以将任何字符串运行通过它并清除标点符号:

/[^_\W]+/g

整洁干净 ;)


1
你也可以使用这种方法将所有换行符替换为空格。 - nhahtdh
7
这种方法只适用于英文,所有带重音符号的字符都将被删除。 - NicolasBernier
@NicolasBernier 是的,那是百分之百正确的 - JavaScript 的正则表达式引擎实际上相当糟糕(参见:https://dev59.com/JG855IYBdhLWcg3w_5mm)- 不幸的是,对于更复杂的任务(以及创建非英语单词的模式),需要更多的代码。不过,对于快速简洁的去除标点符号的正则表达式,它仍然有效 :) - jacobedawson
这是最简单的,并且很好地满足了我的目的。 - James Shrum

12
在支持Unicode的语言中,Unicode标点字符属性为Punctuation,表示为\p{P}。通常可以使用缩写\pP,有时也可扩展为\p{Punctuation}以提高可读性。
你正在使用一个Perl兼容的正则表达式库吗?

9
很遗憾,JS不兼容Perl。另一个问题是我测试时它没有捕获@Quentin的测试字符串中的所有标点符号 =>http://mikegrace.s3.amazonaws.com/forums/stack-overflow/regex-punctuation-capture-not-capture-all.png - Mike Grace
4
你可以使用XRegExp库获取扩展语法。 - Eirik Birkeland
2
截至2020年,这应该是答案,因为现代浏览器支持Unicode字符类。 - Jarede

11
如果您想从任何字符串中删除标点符号,应使用P Unicode 类。但是,由于JavaScript RegEx不接受类,因此可以尝试此RegEx,它应匹配所有标点符号。它匹配以下类别:Pc Pd Pe Pf Pi Po Ps Sc Sk Sm So GeneralPunctuation SupplementalPunctuation CJKSymbolsAndPunctuation CuneiformNumbersAndPunctuation。我使用此在线工具创建了它:https://apps.timwhitlock.info/js/regex#,该工具专门为JavaScript生成正则表达式。这是达到目标的代码:
var punctuationless = "Hello, World!".replace(/[^\p{L}\p{N}]/gu, "");
console.log(punctuationless); // Output: HelloWorld

var punctuationRegEx = /[!-/:-@[-`{-~¡-©«-¬®-±´¶-¸»¿×÷˂-˅˒-˟˥-˫˭˯-˿͵;΄-΅·϶҂՚-՟։-֊־׀׃׆׳-״؆-؏؛؞-؟٪-٭۔۩۽-۾܀-܍߶-߹।-॥॰৲-৳৺૱୰௳-௺౿ೱ-ೲ൹෴฿๏๚-๛༁-༗༚-༟༴༶༸༺-༽྅྾-࿅࿇-࿌࿎-࿔၊-၏႞-႟჻፠-፨᎐-᎙᙭-᙮᚛-᚜᛫-᛭᜵-᜶។-៖៘-៛᠀-᠊᥀᥄-᥅᧞-᧿᨞-᨟᭚-᭪᭴-᭼᰻-᰿᱾-᱿᾽᾿-῁῍-῏῝-῟῭-`´-῾\u2000-\u206e⁺-⁾₊-₎₠-₵℀-℁℃-℆℈-℉℔№-℘℞-℣℥℧℩℮℺-℻⅀-⅄⅊-⅍⅏←-⏧␀-␦⑀-⑊⒜-ⓩ─-⚝⚠-⚼⛀-⛃✁-✄✆-✉✌-✧✩-❋❍❏-❒❖❘-❞❡-❵➔➘-➯➱-➾⟀-⟊⟌⟐-⭌⭐-⭔⳥-⳪⳹-⳼⳾-⳿⸀-\u2e7e⺀-⺙⺛-⻳⼀-⿕⿰-⿻\u3000-〿゛-゜゠・㆐-㆑㆖-㆟㇀-㇣㈀-㈞㈪-㉃㉐㉠-㉿㊊-㊰㋀-㋾㌀-㏿䷀-䷿꒐-꓆꘍-꘏꙳꙾꜀-꜖꜠-꜡꞉-꞊꠨-꠫꡴-꡷꣎-꣏꤮-꤯꥟꩜-꩟﬩﴾-﴿﷼-﷽︐-︙︰-﹒﹔-﹦﹨-﹫!-/:-@[-`{-・¢-₩│-○-�]|\ud800[\udd00-\udd02\udd37-\udd3f\udd79-\udd89\udd90-\udd9b\uddd0-\uddfc\udf9f\udfd0]|\ud802[\udd1f\udd3f\ude50-\ude58]|\ud809[\udc00-\udc7e]|\ud834[\udc00-\udcf5\udd00-\udd26\udd29-\udd64\udd6a-\udd6c\udd83-\udd84\udd8c-\udda9\uddae-\udddd\ude00-\ude41\ude45\udf00-\udf56]|\ud835[\udec1\udedb\udefb\udf15\udf35\udf4f\udf6f\udf89\udfa9\udfc3]|\ud83c[\udc00-\udc2b\udc30-\udc93]/g;
var string = "This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation";
var newString = string.replace(punctuationRegEx, '').replace(/(\s){2,}/g, '$1');
console.log(newString)


9
我会将它放在这里,供其他人参考。
匹配所有语言的所有标点符号:
该正则表达式由 Unicode 标点类别构建,并添加了一些常见的键盘符号,如 $ 和括号以及 \-=_http://www.fileformat.info/info/unicode/category/Po/list.htm 基本替换:
".test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g,"")
"testda text"

将\s添加为空格

".da'fla, te\"te".split(/[\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

添加^以反转模式,匹配的不是标点符号而是单词本身

".test';the, te\"xt".match(/[^\s\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g)

对于像希伯来语这样的语言,可能需要删除单引号和双引号。需要更深入地思考。

使用此脚本:

步骤1:在Firefox中选择一列U+1234数字并复制它,不要复制U+12456,它们会替换英文。

步骤2(我在Chrome中完成)找到一些文本区域,将其粘贴到其中,然后右键单击并单击“检查”。然后你就可以通过$0访问选定的元素。

var x=$0.value
var z=x.replace(/U\+/g,"").split(/[\r\n]+/).map(function(a){return parseInt(a,16)})
var ret=[];z.forEach(function(a,k){if(z[k-1]===a-1 && z[k+1]===a+1) { if(ret[ret.length-1]!="-")ret.push("-");} else {  var c=a.toString(16); var prefix=c.length<3?"\\u0000":c.length<5?"\\u0000":"\\u000000"; var uu=prefix.substring(0,prefix.length-c.length)+c; ret.push(c.length<3?String.fromCharCode(a):uu)}});ret.join("")

第三步是将ASCII码的首字母作为单独的字符复制,而不是范围,因为有人可能会添加或删除单个字符。


6

对于英语(美式英语)的字符串,这应该足够了:

"This., -/ is #! an $ % ^ & * example ;: {} of a = -_ string with `~)() punctuation".replace( /[^a-zA-Z ]/g, '').replace( /\s\s+/g, ' ' )

请注意,如果您支持UTF-8和类似中文/俄语的字符,这也会替换它们,因此您必须确切地指定您想要的内容。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接