Python - 如何在正则表达式中获取重叠的文本匹配

Question

3

我正在使用以下内容来获取所有匹配项，包括重叠部分，根据推荐以及其他线程的建议：

[(m.start(0), m.end(0)) for m in re.findall(t,s,overlapped = True)]

t是s的子集。但我收到了以下错误消息：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: findall() got an unexpected keyword argument 'overlapped.'

我做错了什么/overlapped标志已经过时了吗/你会如何处理？非常感谢您的帮助。

- user1764359

4

你想要匹配什么？同时，overlapped=True 是外部库 regex 的一部分，与 Python 的 re 库不兼容。 - Padraic Cunningham

1

这篇文章提到了正则表达式模块的新版本，你需要先安装它。 - Klaus D.

同时，你所提供的第一个线程的第一个答案似乎可以在不使用任何额外库的情况下实现你想要的功能。 - SBH

2

尝试使用import regex as re。 - user557597

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user1764359 · Accepted Answer

如Cunningham和Klaus所提到的，我所提到的标志来自一个不是re的不同包。然而，我通过使用前瞻找到了一种不需要下载外部包的解决方案。

[(m.start(0), m.end(0)) for m in re.finditer('(?='+t+')',s)]

当 s = 'GATATATGCATATACTT' 且 t = 'ATAT' 时，您将得到 [(1, 1), (3, 3), (9, 9)]。我不需要返回匹配文本，只需返回索引即可，因此如果匹配 ['','','']，也无关紧要。