从字符串中提取多个base64编码图像的正则表达式

4
我尝试从字符串中提取多个Base64编码的图像。我有以下正则表达式,但存在一些问题。有时候它会匹配多个Bas64图像,有时候又不会。
'/"(data:image\/[^;]+;base64.*?)"/i'

示例字符串。

    <p>Test line 1</p>

<p>Test line 2</p>

<p><br>
</p>

<p><img class="image" src=""></p>

<p><br>
</p>

<p>Test line 1</p>

<p><br>
</p>

<p><img class="image2" src=""></p>

<p><br>
</p>

'/src="(data:image/[^;]+;base64[^"]+)"/i' - 在这里... 匹配不要引号,而是所有非贪婪的 .*? - 测试一下 > https://regex101.com/r/sxFswz/1 - ArtisticPhoenix
我对这类情况的一般处理方法是使用分隔符(在这种情况下是引号)来捕获引号之前的任何内容。如果我想捕获引号之间的所有内容,可能会编写类似'/"(data:image\/[^;]+;base64,[^\"]*)"/i'的代码,通过这样的方式可以捕获第一个引号之前的所有内容。 - Yaron
太棒了,这真的效果很不错。我不需要src部分,所以我刚刚把它排除在外了。我做得不正确的部分是[^"]*,因为换行符是实际问题所在。非常感谢! - user3620142
如果您使用单引号 ',则无需转义该引号。 实际上,转义该引号而不是其他引号几乎没有意义。 至于 src=" 部分,它不是必需的,但在我看来读起来更好一些,它也位于捕获组 ( ... ) 之外,因此不会包括在 $match[1] 中。 当然, i 大小写不敏感标志也不是必需的,但我离题了。 - ArtisticPhoenix
2个回答

10
正如评论中所述,只需匹配除结尾引号外的所有内容。
'/src="(data:image\/[^;]+;base64[^"]+)"/i'

在正则表达式中,使用[^"]+代替.*?更为合适。

你可以在这里看到它的实际应用:

https://regex101.com/r/sxFswz/1


0
请使用以下模式来处理撇号和引号:
<img.*?src=('|")data:image\/([a-zA-Z]*);base64,([^\('|")]*)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接