找到两个字符串中第一个不同的字符。

72

给定两个相等长度的字符串,有没有一种优雅的方法来获取第一个不同字符的偏移量?

显而易见的解决方案是:

for ($offset = 0; $offset < $length; ++$offset) {
    if ($str1[$offset] !== $str2[$offset]) {
        return $offset;
    }
}

但是对于如此简单的任务,那样看起来并不完全正确。


8
在我看来,这似乎很简单。 - Lightness Races in Orbit
有更有效的方法来做这件事,但可能更难读懂。这段代码会被调用很多次吗?即使它很有效,这是否重要? - Robert Martin
2
@Robert:如何更有效地完成?这是O(n),你必须检查最多n个字符。 - Lightness Races in Orbit
@Tomalak,你说得没错,这是O(n)的,但是用PHP编写的逐字节比较将比利用C的内置函数慢得多。例如,在PHP中编写代码strcmp并使用内置函数,对于一个相当长的字符串运行每个10000次,看看它有多糟糕。 - Robert Martin
4
请注意,这样做可能会导致在处理Unicode字符时出现错误的偏移量。如果您想以这种方式处理,请使用mb_substr() - breiti
4个回答

179

您可以使用 按位异或(^ 的一个很好的属性来实现这一点:基本上,当您将两个字符串进行异或操作时,相同的字符将变为 null 字节 ("\0")。因此,如果我们对这两个字符串进行异或运算,我们只需要使用 strspn 找到第一个非 null 字节的位置即可:

$position = strspn($string1 ^ $string2, "\0");

就是这样了。现在让我们看一个例子:

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

printf(
    'First difference at position %d: "%s" vs "%s"',
    $pos, $string1[$pos], $string2[$pos]
);

这将输出:

第一个不同的位置在第7个字符:"a" vs "i"

所以应该就可以了。它非常高效,因为只使用C函数,并且只需要对字符串进行一次内存拷贝。

编辑:相同思路的多字节解决方案:

function getCharacterOffsetOfDifference($str1, $str2, $encoding = 'UTF-8') {
    return mb_strlen(
        mb_strcut(
            $str1,
            0, strspn($str1 ^ $str2, "\0"),
            $encoding
        ),
        $encoding
    );
}

首先使用上述方法找到字节级别的差异,然后将偏移量映射到字符级别。这是通过使用mb_strcut函数来实现的,该函数基本上是substr,但会遵守多字节字符边界。

var_dump(getCharacterOffsetOfDifference('foo', 'foa')); // 2
var_dump(getCharacterOffsetOfDifference('©oo', 'foa')); // 0
var_dump(getCharacterOffsetOfDifference('f©o', 'fªa')); // 1

虽然不如第一个解决方案优雅,但仍然是一行代码(如果您使用默认编码,则更加简单):

return mb_strlen(mb_strcut($str1, 0, strspn($str1 ^ $str2, "\0")));

10
你是内应吗?尼基C怎么知道你打算发布这个内容? - Robert Martin
12
@Robert Martin,请访问我们的心灵感应课程这里 - OZ_
5
@Robert:是的,我是。我们昨天已经讨论过这个问题了,Nikic让我现在在这里发布这个解决方案,以便提供一个基准来查看是否有其他(可能更好的)解决方案。并且也想获取其他人的评论... - ircmaxell
2
出于好奇,为什么要点踩?是否有什么可以改进或扩展的地方(因此可能需要讨论)? - ircmaxell
1
我猜这可能与评论#1和评论#2的赞数差异有关(不幸的是)。 - JK.
显示剩余10条评论

16

如果将一个字符串转换为由单个字符一字节值组成的数组,则可以使用数组比较函数来比较这些字符串。

您可以使用以下方法实现与XOR方法类似的结果。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';

$array1 = str_split($string1);
$array2 = str_split($string2);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings. <br />";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.";

编辑:多字节解决方案

$string1 = 'foorbarbaz';
$string2 = 'foobarbiz';

$array1 = preg_split('((.))u', $string1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$array2 = preg_split('((.))u', $string2, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings.\n";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.\n";

我对使用多字节编码并不太熟悉。如果有人能更深入地解释一下这个问题,以及str_split如何与mb一起使用,那将不胜感激。 - Steve Buzonas
1
它无法与多字节编码一起使用。如果您需要这样做,基本上必须使用类似以下的内容:$array = preg_split('((.))u', $string, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY); 基本上,它将分割成单个的UTF-8字符... - ircmaxell
感谢您提供 preg_split 的提示,已将其添加到答案中。 - Steve Buzonas

4

我想把这个作为对最佳答案的评论添加进去,但我没有足够的积分。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

if ($pos < min(strlen($string1), strlen($string2)){
    printf(
        'First difference at position %d: "%s" vs "%s"',
        $pos, $string1[$pos], $string2[$pos]
    );
} else if ($pos < strlen($string1)) {
    print 'String1 continues with' . substr($string1, $pos);
} else if ($pos < strlen($string2)) {
    print 'String2 continues with' . substr($string2, $pos);
} else {
    print 'String1 and String2 are equal';
}

-5
string strpbrk ( string $haystack , string $char_list )

strpbrk() 函数在 haystack 字符串中搜索 char_list。

返回值是 $haystack 的子字符串,该子字符串从第一个匹配的字符开始。 作为 API 函数,它应该很快。然后只需循环一次,查找返回字符串的偏移量零以获取您的偏移量。


当您将字符串“foobarr”与字符串“foobaar”进行比较时,会发生什么情况?字符集没有区别,只有计数和位置。 - Steve Buzonas
例如,如果 haystack 是 abcdef,char_list 是 fedcba,它将返回整个字符串(因为 a 在 char_list 中)。因此,虽然此函数可以在可能的输入的非常有限子集上工作,但它不能以通用方式工作,因此它不是问题的好答案。 - ircmaxell
@NikiC 提出了“获取第一个不同字符的偏移量的优雅方法”的问题。在您的示例中,第一个字符是正确的答案,ircmaxell。虽然Steve有更好的观点。我喜欢异或的方法,但Unicode是其中的难点。嗯.... - Sinthia V
@Sinthia:没错,但是当 char_list 也是 abcdef 时,它也会返回 abcdef。因此,它只是“偶然”返回了正确的答案。 - ircmaxell

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接