找到两个字符串中第一个不同的字符。

Question

找到两个字符串中第一个不同的字符。

72

给定两个相等长度的字符串，有没有一种优雅的方法来获取第一个不同字符的偏移量？

显而易见的解决方案是：

for ($offset = 0; $offset < $length; ++$offset) {
    if ($str1[$offset] !== $str2[$offset]) {
        return $offset;
    }
}

但是对于如此简单的任务，那样看起来并不完全正确。

- NikiC

2

相关：将数组进行俄罗斯方块式的排列 - Pekka

8

在我看来，这似乎很简单。 - Lightness Races in Orbit

有更有效的方法来做这件事，但可能更难读懂。这段代码会被调用很多次吗？即使它很有效，这是否重要？ - Robert Martin

2

@Robert：如何更有效地完成？这是O(n)，你必须检查最多n个字符。 - Lightness Races in Orbit

@Tomalak，你说得没错，这是O(n)的，但是用PHP编写的逐字节比较将比利用C的内置函数慢得多。例如，在PHP中编写代码strcmp并使用内置函数，对于一个相当长的字符串运行每个10000次，看看它有多糟糕。 - Robert Martin

4

请注意，这样做可能会导致在处理Unicode字符时出现错误的偏移量。如果您想以这种方式处理，请使用mb_substr（）。 - breiti

4个回答

16

如果将一个字符串转换为由单个字符一字节值组成的数组，则可以使用数组比较函数来比较这些字符串。

您可以使用以下方法实现与XOR方法类似的结果。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';

$array1 = str_split($string1);
$array2 = str_split($string2);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings. <br />";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.";

编辑：多字节解决方案

$string1 = 'foorbarbaz';
$string2 = 'foobarbiz';

$array1 = preg_split('((.))u', $string1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
$array2 = preg_split('((.))u', $string2, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);

$result = array_diff_assoc($array1, $array2);

$num_diff = count($result);
$first_diff = key($result);

echo "There are " . $num_diff . " differences between the two strings.\n";
echo "The first difference between the strings is at position " . $first_diff . ". (Zero Index) '$string1[$first_diff]' vs '$string2[$first_diff]'.\n";

- Steve Buzonas

我对使用多字节编码并不太熟悉。如果有人能更深入地解释一下这个问题，以及str_split如何与mb一起使用，那将不胜感激。 - Steve Buzonas

1

它无法与多字节编码一起使用。如果您需要这样做，基本上必须使用类似以下的内容：$array = preg_split('((.))u', $string, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY); 基本上，它将分割成单个的UTF-8字符... - ircmaxell

感谢您提供 preg_split 的提示，已将其添加到答案中。 - Steve Buzonas

4

我想把这个作为对最佳答案的评论添加进去，但我没有足够的积分。

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

if ($pos < min(strlen($string1), strlen($string2)){
    printf(
        'First difference at position %d: "%s" vs "%s"',
        $pos, $string1[$pos], $string2[$pos]
    );
} else if ($pos < strlen($string1)) {
    print 'String1 continues with' . substr($string1, $pos);
} else if ($pos < strlen($string2)) {
    print 'String2 continues with' . substr($string2, $pos);
} else {
    print 'String1 and String2 are equal';
}

- Bradley Slavik

-5

string strpbrk ( string $haystack , string $char_list )

strpbrk() 函数在 haystack 字符串中搜索 char_list。

返回值是 $haystack 的子字符串，该子字符串从第一个匹配的字符开始。作为 API 函数，它应该很快。然后只需循环一次，查找返回字符串的偏移量零以获取您的偏移量。

- Sinthia V

当您将字符串“foobarr”与字符串“foobaar”进行比较时，会发生什么情况？字符集没有区别，只有计数和位置。 - Steve Buzonas

例如，如果 haystack 是 abcdef，char_list 是 fedcba，它将返回整个字符串（因为 a 在 char_list 中）。因此，虽然此函数可以在可能的输入的非常有限子集上工作，但它不能以通用方式工作，因此它不是问题的好答案。 - ircmaxell

@NikiC 提出了“获取第一个不同字符的偏移量的优雅方法”的问题。在您的示例中，第一个字符是正确的答案，ircmaxell。虽然Steve有更好的观点。我喜欢异或的方法，但Unicode是其中的难点。嗯.... - Sinthia V

@Sinthia：没错，但是当 char_list 也是 abcdef 时，它也会返回 abcdef。因此，它只是“偶然”返回了正确的答案。 - ircmaxell

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ircmaxell · Accepted Answer

您可以使用按位异或（^）的一个很好的属性来实现这一点：基本上，当您将两个字符串进行异或操作时，相同的字符将变为 null 字节 ("\0")。因此，如果我们对这两个字符串进行异或运算，我们只需要使用 strspn 找到第一个非 null 字节的位置即可：

$position = strspn($string1 ^ $string2, "\0");

就是这样了。现在让我们看一个例子：

$string1 = 'foobarbaz';
$string2 = 'foobarbiz';
$pos = strspn($string1 ^ $string2, "\0");

printf(
    'First difference at position %d: "%s" vs "%s"',
    $pos, $string1[$pos], $string2[$pos]
);

这将输出：

第一个不同的位置在第7个字符："a" vs "i"

所以应该就可以了。它非常高效，因为只使用C函数，并且只需要对字符串进行一次内存拷贝。

编辑：相同思路的多字节解决方案：

function getCharacterOffsetOfDifference($str1, $str2, $encoding = 'UTF-8') {
    return mb_strlen(
        mb_strcut(
            $str1,
            0, strspn($str1 ^ $str2, "\0"),
            $encoding
        ),
        $encoding
    );
}

首先使用上述方法找到字节级别的差异，然后将偏移量映射到字符级别。这是通过使用mb_strcut函数来实现的，该函数基本上是substr，但会遵守多字节字符边界。

var_dump(getCharacterOffsetOfDifference('foo', 'foa')); // 2
var_dump(getCharacterOffsetOfDifference('©oo', 'foa')); // 0
var_dump(getCharacterOffsetOfDifference('f©o', 'fªa')); // 1

虽然不如第一个解决方案优雅，但仍然是一行代码（如果您使用默认编码，则更加简单）：

return mb_strlen(mb_strcut($str1, 0, strspn($str1 ^ $str2, "\0")));