优化SHA-1用于小输入

8

我希望对一个基于8051的8位MCU进行SHA-1实现的优化。输入数据仅为8字节,因此我想知道是否有办法改进这个宏:

#define S(x,n) ((x << n) | ((x & 0xFFFFFFFF) >> (32 - n)))

我发现的问题是,当宏P使用S(b, 30)调用S时,需要大约60微秒才能完成。由于有80次对P的调用,总共需要大约4.8毫秒。
如果我的推断正确,S(x,n)期望x是一个uint32。鉴于输入大小相对较小,通过使x更小(如uint8),是否可以减少移位次数呢?
如果可以,这是唯一需要做出的改变吗?从:
#define S(x,n) ((x << n) | ((x & 0xFFFFFFFF) >> (32 - n)))

致:

#define S(x,n) ((x << n) | ((x & 0xFF) >> (8 - n)))

来自:

void sha1_process( sha1_context *ctx, uint8 data[64] )
{
    uint32 temp, W[16], A, B, C, D, E;
    // ...

致:

void sha1_process( sha1_context *ctx, uint8 data[64] )
{
    uint8 temp, W[16], A, B, C, D, E;
    // ...

这是完整的代码:
#include <string.h>

#include "sha1.h"

#define GET_UINT32(n,b,i)                       \
{                                               \
    (n) = ( (uint32) (b)[(i)    ] << 24 )       \
        | ( (uint32) (b)[(i) + 1] << 16 )       \
        | ( (uint32) (b)[(i) + 2] <<  8 )       \
        | ( (uint32) (b)[(i) + 3]       );      \
}

#define PUT_UINT32(n,b,i)                       \
{                                               \
    (b)[(i)    ] = (uint8) ( (n) >> 24 );       \
    (b)[(i) + 1] = (uint8) ( (n) >> 16 );       \
    (b)[(i) + 2] = (uint8) ( (n) >>  8 );       \
    (b)[(i) + 3] = (uint8) ( (n)       );       \
}

void sha1_starts( sha1_context *ctx )
{
    ctx->total[0] = 0;
    ctx->total[1] = 0;

    ctx->state[0] = 0x67452301;
    ctx->state[1] = 0xEFCDAB89;
    ctx->state[2] = 0x98BADCFE;
    ctx->state[3] = 0x10325476;
    ctx->state[4] = 0xC3D2E1F0;
}

void sha1_process( sha1_context *ctx, uint8 data[64] )
{
    uint32 temp, W[16], A, B, C, D, E;

    GET_UINT32( W[0],  data,  0 );
    GET_UINT32( W[1],  data,  4 );
    GET_UINT32( W[2],  data,  8 );
    GET_UINT32( W[3],  data, 12 );
    GET_UINT32( W[4],  data, 16 );
    GET_UINT32( W[5],  data, 20 );
    GET_UINT32( W[6],  data, 24 );
    GET_UINT32( W[7],  data, 28 );
    GET_UINT32( W[8],  data, 32 );
    GET_UINT32( W[9],  data, 36 );
    GET_UINT32( W[10], data, 40 );
    GET_UINT32( W[11], data, 44 );
    GET_UINT32( W[12], data, 48 );
    GET_UINT32( W[13], data, 52 );
    GET_UINT32( W[14], data, 56 );
    GET_UINT32( W[15], data, 60 );

#define S(x,n) ((x << n) | ((x & 0xFFFFFFFF) >> (32 - n)))

#define R(t)                                            \
(                                                       \
    temp = W[(t -  3) & 0x0F] ^ W[(t - 8) & 0x0F] ^     \
           W[(t - 14) & 0x0F] ^ W[ t      & 0x0F],      \
    ( W[t & 0x0F] = S(temp,1) )                         \
)

#define P(a,b,c,d,e,x)                                  \
{                                                       \
    e += S(a,5) + F(b,c,d) + K + x; b = S(b,30);        \
}

    A = ctx->state[0];
    B = ctx->state[1];
    C = ctx->state[2];
    D = ctx->state[3];
    E = ctx->state[4];

#define F(x,y,z) (z ^ (x & (y ^ z)))
#define K 0x5A827999

    P( A, B, C, D, E, W[0]  );
    P( E, A, B, C, D, W[1]  );
    P( D, E, A, B, C, W[2]  );
    P( C, D, E, A, B, W[3]  );
    P( B, C, D, E, A, W[4]  );
    P( A, B, C, D, E, W[5]  );
    P( E, A, B, C, D, W[6]  );
    P( D, E, A, B, C, W[7]  );
    P( C, D, E, A, B, W[8]  );
    P( B, C, D, E, A, W[9]  );
    P( A, B, C, D, E, W[10] );
    P( E, A, B, C, D, W[11] );
    P( D, E, A, B, C, W[12] );
    P( C, D, E, A, B, W[13] );
    P( B, C, D, E, A, W[14] );
    P( A, B, C, D, E, W[15] );
    P( E, A, B, C, D, R(16) );
    P( D, E, A, B, C, R(17) );
    P( C, D, E, A, B, R(18) );
    P( B, C, D, E, A, R(19) );

#undef K
#undef F

#define F(x,y,z) (x ^ y ^ z)
#define K 0x6ED9EBA1

    P( A, B, C, D, E, R(20) );
    P( E, A, B, C, D, R(21) );
    P( D, E, A, B, C, R(22) );
    P( C, D, E, A, B, R(23) );
    P( B, C, D, E, A, R(24) );
    P( A, B, C, D, E, R(25) );
    P( E, A, B, C, D, R(26) );
    P( D, E, A, B, C, R(27) );
    P( C, D, E, A, B, R(28) );
    P( B, C, D, E, A, R(29) );
    P( A, B, C, D, E, R(30) );
    P( E, A, B, C, D, R(31) );
    P( D, E, A, B, C, R(32) );
    P( C, D, E, A, B, R(33) );
    P( B, C, D, E, A, R(34) );
    P( A, B, C, D, E, R(35) );
    P( E, A, B, C, D, R(36) );
    P( D, E, A, B, C, R(37) );
    P( C, D, E, A, B, R(38) );
    P( B, C, D, E, A, R(39) );

#undef K
#undef F

#define F(x,y,z) ((x & y) | (z & (x | y)))
#define K 0x8F1BBCDC

    P( A, B, C, D, E, R(40) );
    P( E, A, B, C, D, R(41) );
    P( D, E, A, B, C, R(42) );
    P( C, D, E, A, B, R(43) );
    P( B, C, D, E, A, R(44) );
    P( A, B, C, D, E, R(45) );
    P( E, A, B, C, D, R(46) );
    P( D, E, A, B, C, R(47) );
    P( C, D, E, A, B, R(48) );
    P( B, C, D, E, A, R(49) );
    P( A, B, C, D, E, R(50) );
    P( E, A, B, C, D, R(51) );
    P( D, E, A, B, C, R(52) );
    P( C, D, E, A, B, R(53) );
    P( B, C, D, E, A, R(54) );
    P( A, B, C, D, E, R(55) );
    P( E, A, B, C, D, R(56) );
    P( D, E, A, B, C, R(57) );
    P( C, D, E, A, B, R(58) );
    P( B, C, D, E, A, R(59) );

#undef K
#undef F

#define F(x,y,z) (x ^ y ^ z)
#define K 0xCA62C1D6

    P( A, B, C, D, E, R(60) );
    P( E, A, B, C, D, R(61) );
    P( D, E, A, B, C, R(62) );
    P( C, D, E, A, B, R(63) );
    P( B, C, D, E, A, R(64) );
    P( A, B, C, D, E, R(65) );
    P( E, A, B, C, D, R(66) );
    P( D, E, A, B, C, R(67) );
    P( C, D, E, A, B, R(68) );
    P( B, C, D, E, A, R(69) );
    P( A, B, C, D, E, R(70) );
    P( E, A, B, C, D, R(71) );
    P( D, E, A, B, C, R(72) );
    P( C, D, E, A, B, R(73) );
    P( B, C, D, E, A, R(74) );
    P( A, B, C, D, E, R(75) );
    P( E, A, B, C, D, R(76) );
    P( D, E, A, B, C, R(77) );
    P( C, D, E, A, B, R(78) );
    P( B, C, D, E, A, R(79) );

#undef K
#undef F

    ctx->state[0] += A;
    ctx->state[1] += B;
    ctx->state[2] += C;
    ctx->state[3] += D;
    ctx->state[4] += E;
}

void sha1_update( sha1_context *ctx, uint8 *input, uint32 length )
{
    uint32 left, fill;

    if( ! length ) return;

    left = ctx->total[0] & 0x3F;
    fill = 64 - left;

    ctx->total[0] += length;
    ctx->total[0] &= 0xFFFFFFFF;

    if( ctx->total[0] < length )
        ctx->total[1]++;

    if( left && length >= fill )
    {
        memcpy( (void *) (ctx->buffer + left),
                (void *) input, fill );
        sha1_process( ctx, ctx->buffer );
        length -= fill;
        input  += fill;
        left = 0;
    }

    while( length >= 64 )
    {
        sha1_process( ctx, input );
        length -= 64;
        input  += 64;
    }

    if( length )
    {
        memcpy( (void *) (ctx->buffer + left),
                (void *) input, length );
    }
}

static uint8 sha1_padding[64] =
{
 0x80, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
};

void sha1_finish( sha1_context *ctx, uint8 digest[20] )
{
    uint32 last, padn;
    uint32 high, low;
    uint8 msglen[8];

    high = ( ctx->total[0] >> 29 )
         | ( ctx->total[1] <<  3 );
    low  = ( ctx->total[0] <<  3 );

    PUT_UINT32( high, msglen, 0 );
    PUT_UINT32( low,  msglen, 4 );

    last = ctx->total[0] & 0x3F;
    padn = ( last < 56 ) ? ( 56 - last ) : ( 120 - last );

    sha1_update( ctx, sha1_padding, padn );
    sha1_update( ctx, msglen, 8 );

    PUT_UINT32( ctx->state[0], digest,  0 );
    PUT_UINT32( ctx->state[1], digest,  4 );
    PUT_UINT32( ctx->state[2], digest,  8 );
    PUT_UINT32( ctx->state[3], digest, 12 );
    PUT_UINT32( ctx->state[4], digest, 16 );
}

#ifdef TEST

#include <stdlib.h>
#include <stdio.h>

/*
 * those are the standard FIPS-180-1 test vectors
 */

static char *msg[] = 
{
    "abc",
    "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq",
    NULL
};

static char *val[] =
{
    "a9993e364706816aba3e25717850c26c9cd0d89d",
    "84983e441c3bd26ebaae4aa1f95129e5e54670f1",
    "34aa973cd4c4daa4f61eeb2bdbad27316534016f"
};

int main( int argc, char *argv[] )
{
    FILE *f;
    int i, j;
    char output[41];
    sha1_context ctx;
    unsigned char buf[1000];
    unsigned char sha1sum[20];

    if( argc < 2 )
    {
        printf( "\n SHA-1 Validation Tests:\n\n" );

        for( i = 0; i < 3; i++ )
        {
            printf( " Test %d ", i + 1 );

            sha1_starts( &ctx );

            if( i < 2 )
            {
                sha1_update( &ctx, (uint8 *) msg[i],
                             strlen( msg[i] ) );
            }
            else
            {
                memset( buf, 'a', 1000 );

                for( j = 0; j < 1000; j++ )
                {
                    sha1_update( &ctx, (uint8 *) buf, 1000 );
                }
            }

            sha1_finish( &ctx, sha1sum );

            for( j = 0; j < 20; j++ )
            {
                sprintf( output + j * 2, "%02x", sha1sum[j] );
            }

            if( memcmp( output, val[i], 40 ) )
            {
                printf( "failed!\n" );
                return( 1 );
            }

            printf( "passed.\n" );
        }

        printf( "\n" );
    }
    else
    {
        if( ! ( f = fopen( argv[1], "rb" ) ) )
        {
            perror( "fopen" );
            return( 1 );
        }

        sha1_starts( &ctx );

        while( ( i = fread( buf, 1, sizeof( buf ), f ) ) > 0 )
        {
            sha1_update( &ctx, buf, i );
        }

        sha1_finish( &ctx, sha1sum );

        for( j = 0; j < 20; j++ )
        {
            printf( "%02x", sha1sum[j] );
        }

        printf( "  %s\n", argv[1] );
    }

    return( 0 );
}

#endif

以下是由P(E, A, B, C, D, W[1])调用时,S(x,n)生成的代码示例:
 0031D0  85 18 82        MOV   DPL,XSP(L)
 0031D3  85 19 83        MOV   DPH,XSP(H)
 0031D6  78 08           MOV   R0,#0x08
 0031D8  12 17 85        LCALL ?L_MOV_X
 0031DB  74 1E           MOV   A,#0x1E
 0031DD  78 08           MOV   R0,#0x08
 0031DF  12 16 80        LCALL ?L_SHL
 0031E2  85 18 82        MOV   DPL,XSP(L)
 0031E5  85 19 83        MOV   DPH,XSP(H)
 0031E8  78 10           MOV   R0,#0x10
 0031EA  12 17 85        LCALL ?L_MOV_X
 0031ED  74 02           MOV   A,#0x02
 0031EF  78 10           MOV   R0,#0x10
 0031F1  12 16 67        LCALL ?UL_SHR
 0031F4  78 08           MOV   R0,#0x08
 0031F6  79 10           MOV   R1,#0x10
 0031F8  12 17 39        LCALL ?L_IOR
 0031FB  85 18 82        MOV   DPL,XSP(L)
 0031FE  85 19 83        MOV   DPH,XSP(H)
 003201  78 08           MOV   R0,#0x08
 003203  12 17 94        LCALL ?L_MOV_TO_X

谢谢


是的,对于8位MCU,您提议使用字节处理将产生更好的性能。我理解,当前代码中使用32位处理是为了捕获算法在32位处理器上(寄存器大小为32位)的优化性能。 - cm161
1
(x&0xFFFFFFFF)在这里,您的宏中不需要AND操作(因为x仅为32位)。直接使用x即可。 - cm161
好的。您的意思是,如果x是uint8类型,那么AND操作就不必要了吗?为什么? - Kar
32位情况 -> (x&0xFFFFFFFF),其中x是32位数据,8位情况 -> (x&0xFF)其中x是8位数据,在所有情况下,AND操作都使用全部为1的值进行,因此结果是原始数字x本身,因此AND操作是无关紧要的。是的,其他情况,例如x为32位并且AND用于屏蔽32位数据中的8位/16位,那么这是有意义的。例如,在发布的代码中,S(x,n)是否有可能使用64位数据作为x进行调用? - cm161
我不了解SHA算法,因此无法对此发表评论。我的AND操作评论并不是非常重要,因此可以忽略,它纯粹基于C编码方面。请查看http://crypto.stackexchange.com/questions/2012/hash-algorithm-for-8-bits-mcu,可能会有所帮助。 - cm161
显示剩余5条评论
2个回答

1
如果我没错的话,S(x,n)函数期望 x 是一个 uint32 类型。考虑到输入规模比较小,是否可以通过将 x 改为更小的类型(例如 uint8)来减少移位的数量呢?
不行。SHA1 函数的状态由五个32位值组成,在每次迭代中都会改变。而这些值就是 S(x,n) 函数所作用的对象。将它们改为8位值将得到完全不同(而且可能非常有问题!)的哈希函数。
MD5/SHA 哈希函数族在很大程度上依赖于32位整数操作。易于在像8051这样的8位处理器上实现不是这些函数的设计目标,因此在这些处理器上的实现性能并不特别好。抱歉。您需要忍受速度缓慢,使用另一种微处理器(或带有SHA1硬件加速功能的微处理器),或使用其他哈希算法。

0

听起来你的实际需求是在硬件上找到一个便宜计算8字节输入的MAC/PRF。

由于你的数据长度固定,你可以使用一个安全的分组密码(具有128位块)作为CBC-MAC。由于你的数据比一个块短,CBC-MAC简化为使用原始分组密码/ECB模式加密数据。

如果你的128位分组密码的每字节成本与SHA-1相似,这将导致与HMAC-SHA-1相比8倍的速度提升(SHA-1具有512位块,你需要对两个块进行哈希)。如果你选择一个特别适合你的CPU的密码,速度提升可能会更大。

由于AES非常流行,找到针对8位CPU优化的实现不应该太难。


我确实研究了CBC-MAC,但是我找不到适用于8位处理器的实现方式,所以我转而研究SHA-1。你知道有没有适用于8位处理器的CBC-MAC实现方式吗? - Kar
@Kar 如果您已经有了AES实现,那么在其上实现CBC-MAC就很简单。只需要对块进行一些异或操作,调用AES,最后进行一个恒定时间的比较即可。 - CodesInChaos

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接