我有一堆输入数据,有时会出现一些垃圾字符,例如:
但是我的数据集非常大,仅仅删除所有非英语字符可能有点天真,比如单词"naïve"中的字母ï,我当然不希望将其删除。
所以,是否存在潜在的自动化解决方案来解决这个问题?有人之前遇到过这个问题吗?这是“计算机不如人类聪明”的情况吗?
显然,在过去的某个时候它是“Dots Baby Shower Invitations”。但是现在变成了乱码。我很高兴能够仅在这种情况下删除垃圾字符âDots Baby Shower Invitationsâ
â
。但是我的数据集非常大,仅仅删除所有非英语字符可能有点天真,比如单词"naïve"中的字母ï,我当然不希望将其删除。
所以,是否存在潜在的自动化解决方案来解决这个问题?有人之前遇到过这个问题吗?这是“计算机不如人类聪明”的情况吗?