我需要从一段文本中获取前N个句子,这些句子的结尾可以是句号、冒号或分号。例如,给定以下文本:
Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore: et dolore magna aliqua. Ut enim ad. minim veniam.
第一段有4个句子:
Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore:
目前,我的代码正在使用.
、:
和;
作为分隔符进行字符串拆分,然后再将结果连接起来。
import re
sentences = re.split('\. |: |;', text)
summary = ' '.join(sentences[:4])
但是这将从结果中删除分隔符。我可以使用正则表达式或基本字符串操作来解决。