我试图编写一行代码,以删除一行日语文本中的某个字符集。但是,我在正则表达式中使用unicode字符时遇到了麻烦。
我目前正在使用
我目前正在使用
text.gsub(/《.*?》/u, '')
,但是我遇到了错误。'gsub': invalid byte sequence in Windows-31J (Argument error)
有人能告诉我我做错了什么吗?
例如文本: その仕草《しぐさ》があまりに無造作《むぞうさ》だったので
期望的结果: その仕草があまりに無造作だったので
谢谢
编辑:# encoding: utf-8
出现在脚本顶部。
irb
中尝试了您的示例,并获得了预期的结果。看起来问题不是正则表达式,而是text
的编码方式。text
是从哪里来的?从文件中读取吗? - Limbo Peng