从扫描的目录中处理原始文本数据。
我只想保留两种类型的字符串:
- 以数字开始(艺术家的作品)
- 包含2个相邻的带有重音的大写字母(艺术家的姓名)
我希望轻松删除其他所有内容(用真-假?)
我的数据
ÁÀDFDS (artist 1 with accents)
1 Lorem ipsum dolor sit amet, consectetur adipiscing elit.
AB (artist 2)
2 Nulla sollicitudin elit in purus egestas, in placerat velit iaculis.
B'BDDED (artist 3)
az*ù*ù*ù (bad string)
3 Nunc et eros eget turpis sollicitudin mollis id et mi.
4 Mauris condimentum velit eu consequat feugiat.
5 Suspendisse sit amet metus vitae est eleifend tincidunt.
ÉÈDFSF (artist 4)
6 Sed cursus augue in tempus scelerisque.
A..gdgdgdg (bad string begining with a upper case letter)
7 in commodo enim in laoreet gravida.
预期结果
with accents DFDS
1 Lorem ipsum dolor sit amet, consectetur adipiscing elit.
AB
2 Nulla sollicitudin elit in purus egestas, in placerat velit iaculis.
B'BDDED
3 Nunc et eros eget turpis sollicitudin mollis id et mi.
4 Mauris condimentum velit eu consequat feugiat.
5 Suspendisse sit amet metus vitae est eleifend tincidunt.
ÉÈDDFSF
6 Sed cursus augue in tempus scelerisque.
7 in commodo enim in laoreet gravida.
数据可以使用以下方式导入到 R 中:
readlines ("clipboard")
我能够使用正则表达式识别包含大写字母的艺术家名称。
例如:
[A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO][A-ZÁÀÂÄÃÅÇÉÈÊËÍÌÎÏÑÓÒÔÖÕÚÙÛÜÝYÆO |']
我能够识别包含艺术品的线条。
^[0-9]+[\s]
非常感谢您的任何帮助。
ll[grep("^\\d+\\s|\\p{Lu}['\\p{Lu}]", ll, perl=T)]
- Wiktor Stribiżewgsub("^\\W+", "", ll)
。 - Wiktor StribiżewW+
不能处理带有重音符号的字符。我可以使用ICU吗? - Wilcargsub("^[\\P{L}\\D]*?([\\p{L}\\d])", "\\1", ll, perl=T)
。在 grepping 之前添加它。 - Wiktor Stribiżew