如何从GUID生成8字节的唯一ID?

12

我尝试在我们的C#应用程序中使用long作为唯一标识符(不是全局的,仅限于一个会话),用于我们的事件。您是否知道以下代码是否会生成唯一的long型标识符?

public long GenerateId()
{
 byte[] buffer = Guid.NewGuid().ToByteArray();
 return BitConverter.ToInt64(buffer, 0);
}

为什么我们不直接使用GUID呢?我们认为8个字节的长度已经足够了。


不,这只会生成一个随机的 Int64 值。请定义:Unique。需要保证哪个范围内的唯一性? - Bobby
如果你的问题是“如何在.NET中生成一个随机长整型(Int64)”,尽管我认为不是这样,但这里有一个重复的问题,里面有很好的答案:https://dev59.com/XnRB5IYBdhLWcg3wQVSV - joshua.ewer
可能重复:https://dev59.com/CHE85IYBdhLWcg3wQxLG - sloth
11个回答

15

不会的。正如 Raymond Chen 的博客中多次强调的那样,GUID 被设计为整体上唯一的,如果你只截取其中一部分(例如只取其128位中的64位),它将失去其(伪)唯一性保证。


这里是内容:

一个客户需要生成一个8字节的唯一值,他们最初的想法是生成GUID并丢弃后半部分,只保留前8个字节。他们想知道这是否是一个好主意。

不,这不是一个好主意。 (...) 一旦你看到它是如何工作的,就清楚了,你不能仅仅丢弃GUID的一部分,因为所有的部分(除了固定的部分)共同工作以建立独特性。如果你拿走其中任何一个部分,算法都会崩溃。特别是,只保留前8个字节(64位)会给你时间戳和四个常量位;换句话说,你只有一个时间戳,而不是GUID。

由于它只是一个时间戳,所以可能会发生冲突。如果两台计算机同时生成一个这样的“截断GUID”,它们将生成相同的结果。或者如果系统时钟由于时钟重置而向后倒退,你将开始重新生成GUID,这些GUID是第一次出现在那个时间的。


我尝试在我们的C#应用程序中使用long作为唯一标识符(不是全局的,仅用于一个会话)来标识我们的事件。您知道以下内容是否会生成唯一的long id吗?

为什么不只使用计数器呢?


我同意@Aliostad的观点。UUIDGUID在任何情况下都不能保证唯一性...只是非常不可能重复。 - Bobby
5
@Aliostad, @Bobby: 理论上是正确的,但在实际应用中不相关。根据文章中描述的算法,需要两台具有相同MAC地址的计算机在同一时间(理论上可以达到纳秒级别),使用相同的时钟序列号生成GUID。我认为这非常非常不可能 :) 。GUID被设计为唯一的,并且被视为唯一的处理,我相当确定如果生成重复的GUID,许多软件都会出现问题。 - Matteo Italia
在实践中不相关,对于一个随机的Int64位数也是如此。可能性为2^64中的1。 - Aliostad
1
@Aliostad:不适用于将GUID的前8个字节裁剪生成Int64。你只会得到一个时间戳,如果时钟分辨率不是非常好,可能会在后续事件中获得两个相同的int64。 - Matteo Italia
1
"Guid.NewGuid()"将提供一个GUID 4,而不是GUID 1。所提供的链接仅考虑类型1的GUID。类型4的GUID没有时间戳,但(除了版本字段之外)完全随机。 - ckuri
显示剩余3条评论

5

如果要保持同样的唯一性程度,你不能将一个16位值压缩为8位。如果唯一性很重要,请不要自己编写任何东西。除非你真的知道自己在做什么,否则请坚持使用GUID。

如果相对简单的唯一性实现已经足够了,那么最好还是生成自己的ID,而不是从GUID中派生它们。下面的代码片段摘自我经常使用的“本地唯一标识符”类。它使得定义输出的长度和字符范围变得容易。

using System.Security.Cryptography;
using System.Text;

public class LUID
{
    private static readonly RNGCryptoServiceProvider RandomGenerator = new RNGCryptoServiceProvider();
    private static readonly char[] ValidCharacters = "ABCDEFGHJKLMNPQRSTUVWXYZ23456789".ToCharArray();
    public const int DefaultLength = 6;
    private static int counter = 0;

    public static string Generate(int length = DefaultLength)
    {
        var randomData = new byte[length];
        RandomGenerator.GetNonZeroBytes(randomData);

        var result = new StringBuilder(DefaultLength);
        foreach (var value in randomData)
        {
            counter = (counter + value) % (ValidCharacters.Length - 1);
            result.Append(ValidCharacters[counter]);
        }
        return result.ToString();
    }
}

在这种情况下,为了得到易于理解的人类输出结果,它排除了数字1、字母I、数字0和字母O。
要确定您特定的有效字符和ID长度组合有多么有效地“独特”,数学很简单,但仍然很好拥有某种“代码证明”(Xunit):
    [Fact]
    public void Does_not_generate_collisions_within_reasonable_number_of_iterations()
    {
        var ids = new HashSet<string>();
        var minimumAcceptibleIterations = 10000;
        for (int i = 0; i < minimumAcceptibleIterations; i++)
        {
            var result = LUID.Generate();
            Assert.True(!ids.Contains(result), $"Collision on run {i} with ID '{result}'");
            ids.Add(result);
        }            
    }

2
不会。GUID长度为128位,而long类型只有64位,因此你会丢失64位信息,这样就允许两个GUID生成相同的long表示。虽然概率很小,但确实存在这种可能性。

2
根据Guid.NewGuid MSDN页面

新Guid的值全为零或等于任何其他Guid的概率非常低。

因此,您的方法也许可以生成一个唯一的ID,但不能保证。

1
var s = Guid.NewGuid().ToString();
var h1 = s.Substring(0, s.Length / 2).GetHashCode(); // first half of Guid
var h2 = s.Substring(s.Length / 2).GetHashCode(); // second half of Guid
var result = (uint) h1 | (ulong) h2 << 32; // unique 8-byte long
var bytes = BitConverter.GetBytes(result);

顺便说一句,你们在这里与话题发起者聊天非常好。但是像我这样需要其他用户回答的问题呢?


1

是的,这将是很可能唯一的,但由于比GUID少的位数,重复的概率比GUID高-尽管仍然微不足道

无论如何,GUID本身并不能保证唯一性。


就实际目的而言,GUID是唯一的。从数学角度来看,你是正确的,但碰撞的机会是如此之低,以至于这是一个无关紧要的点。 - EdwardG

0

像其他一些人说的那样,只获取GUID的一部分是破坏其唯一性的好方法。尝试使用如下代码:

var bytes = new byte[8];
using (var rng = new RNGCryptoServiceProvider())
{
    rng.GetBytes(bytes);
}

Console.WriteLine(BitConverter.ToInt64(bytes, 0));

0

根据当前时间戳(以秒为单位)生成一个8字节的Ascii85标识符。每秒保证唯一性。在同一秒内生成5个标识符时,85%的几率不会发生冲突。

private static readonly Random Random = new Random();
public static string GenerateIdentifier()
{
    var seconds = (int) DateTime.Now.Subtract(new DateTime(1970, 1, 1, 0, 0, 0)).TotalSeconds;
    var timeBytes = BitConverter.GetBytes(seconds);
    var randomBytes = new byte[2];
    Random.NextBytes(randomBytes);
    var bytes = new byte[timeBytes.Length + randomBytes.Length];
    System.Buffer.BlockCopy(timeBytes, 0, bytes, 0, timeBytes.Length);
    System.Buffer.BlockCopy(randomBytes, 0, bytes, timeBytes.Length, randomBytes.Length);
    return Ascii85.Encode(bytes);
}

0
在大多数情况下,将两个半部分进行按位异或运算就足够了。

1
请在您的回答中详细解释。 - DougM
任何非空的随机比特序列都是随机比特序列。两个随机序列的总和是随机序列。随机序列和常数的总和是随机序列。异或是按位求和。将GUID的常量部分与非常量部分进行异或操作,将会得到具有最大可能熵的结果。 - Dimo Stoianov

0

正如其他答案中大多数已经说过的那样:不,你不能只取GUID的一部分而不失去其唯一性。

如果你需要一个更短但仍然唯一的东西,请阅读Jeff Atwood的这篇博客文章:
Equipping our ASCII Armor

他展示了多种缩短GUID而不丢失信息的方法。最短的是20个字节(使用ASCII85编码)。

是的,这比你想要的8个字节长得多,但它是一个“真正”的唯一GUID……而所有试图将某些东西塞进8个字节中的尝试很可能不会真正唯一。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接