如何在CUDA C中调用ptx函数？

Question

如何在CUDA C中调用ptx函数？

3

我想找到一种方法从CUDA C中调用ptx函数（.func）。假设我有一个这样的ptx函数：

.func (.reg .s32 %res) inc_ptr ( .reg .s32 %ptr, .reg .s32 %inc )
{
    add.s32 %res, %ptr, %inc;
    ret;
}

我知道可以这样从 ptx 调用它：

call (%d), inc_ptr, (%s, %d);

但是我不知道如何在CUDA C中调用它。

我知道我可以使用asm()内联ptx汇编，但我还没有找到内联函数的方法。

希望有人能够帮助！

谢谢！

- fursund

1

很不幸，我认为这可能是不可能的。问题在于CUDA C没有设备代码链接器。因此，从一个内核运行的所有内容必须在同一个.cu文件中。我希望我错了，因为在我的看法中，NVIDIA在嵌入式PTX语法方面做得不好。 - Roger Dahl

@RogerDahl 是的，我也担心这个问题。不过看起来CUDA 5可能会有一个设备代码链接器（http://developer.download.nvidia.com/assets/cuda/files/CUDADownloads/GPU_Library_Object_Linking.pdf）。不过我还没有找到在CUDA 5预览版中如何实现它的方法。 - fursund

2个回答

-1

据我所知，CUDA C支持汇编语言。安装了CUDA工具包之后，可以在文档目录中找到相应的文档。

- yyfn

是的，CUDA C支持asm。正如我所写的那样，我知道我可以在CUDA C中内联汇编代码，但我不知道如何内联ptx汇编函数（.func）。 - fursund

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- talonmies · Accepted Answer

可以使用CUDA 5.0引入的单独编译功能来实现这一点。我认为在“整个”程序编译模式或CUDA 5.0以前的工具包版本或PTX修订版3.1之前，无法做到这一点。

用一个简单的PTX函数为例，说明如何实现这一点，它类似于您的示例：增加指针。

.version 3.1
.target sm_30
.address_size 32
.visible .func inc_ptr(.param .b32 ptr, .param .b32 inc)
{
    .reg .s32   %r<6>;
    ld.param.u32 %r1, [ptr];
    ld.param.u32 %r2, [inc];
    ld.u32 %r3, [%r1];
    ld.u32 %r4, [%r3];
    add.s32 %r5, %r4, %r2;
    st.u32  [%r3], %r5;
    ret;
}

可以使用ptxas将此内容编译为可重定位设备对象，然后打包到fatbinary容器文件中。后面这个步骤似乎是至关重要的。默认的ptxas输出只是一个可重定位的elf对象，没有生成任何fatbinary容器。似乎nvcc运行的设备代码链接阶段（至少在CUDA5中）期望所有设备代码都在fatbinary容器中存在。否则，链接将失败。结果看起来像这样:

$ ptxas -arch=sm_30 -c -o inc_ptr.gpu.o inc_ptr.ptx
$ fatbinary -arch=sm_30 -create inc_ptr.fatbin -elf inc_ptr.gpu.o 
$ cuobjdump -sass inc_ptr.fatbin 

Fatbin elf code:
================
arch = sm_30
code version = [1,6]
producer = <unknown>
host = mac
compile_size = 32bit

    code for sm_30
        Function : inc_ptr
    /*0008*/     /*0x0040dc8580000000*/     LD R3, [R4];
    /*0010*/     /*0x00301c8580000000*/     LD R0, [R3];
    /*0018*/     /*0x14001c0348000000*/     IADD R0, R0, R5;
    /*0020*/     /*0x00301c8590000000*/     ST [R3], R0;
    /*0028*/     /*0x00001de790000000*/     RET;
    /*0030*/     /*0x00001de440000000*/     NOP CC.T;
    /*0038*/     /*0x00001de440000000*/     NOP CC.T;
    /*0040*/     /*0xe0001de74003ffff*/     BRA 0x40;
    /*0048*/     /*0x00001de440000000*/     NOP CC.T;
    /*0050*/     /*0x00001de440000000*/     NOP CC.T;
    /*0058*/     /*0x00001de440000000*/     NOP CC.T;
    /*0060*/     /*0x00001de440000000*/     NOP CC.T;
    /*0068*/     /*0x00001de440000000*/     NOP CC.T;
    /*0070*/     /*0x00001de440000000*/     NOP CC.T;
    /*0078*/     /*0x00001de440000000*/     NOP CC.T;
        ........................

您可以看到fatbinary包含了从组装的PTX中提取出来的微码。有了准备好的设备函数fatbin，您可以在CUDA C代码中执行以下操作：

extern "C" __device__ void inc_ptr(int* &ptr, const int inc);

__global__
void memsetkernel(int *inout, const int val, const int N)
{
    int stride = blockDim.x * gridDim.x;
    int *p = inout;
    inc_ptr(p, threadIdx.x + blockDim.x*blockIdx.x);

    for(; p < inout+N; inc_ptr(p, stride)) *p = val;
}  


int main(void)
{
    const int n=10;
    int *p;
    cudaMalloc((void**)&p, sizeof(int)*size_t(n));
    memsetkernel<<<1,32>>>(p, 5, n);

    return 0;
}

在单独编译模式下，设备代码工具链将遵循 extern 声明，并且（只要您控制好符号重整），设备函数 fatbinary 可以与其他设备和主机代码链接以产生最终对象。

$ nvcc -arch=sm_30 -Xptxas="-v" -dlink -o memset.out inc_ptr.fatbin memset_kernel.cu 

ptxas info    : 0 bytes gmem
ptxas info    : Compiling entry function '_Z12memsetkernelPiii' for 'sm_30'
ptxas info    : Function properties for _Z12memsetkernelPiii
    8 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads
ptxas info    : Used 20 registers, 332 bytes cmem[0]

$ cuobjdump -sass memset.out 

Fatbin elf code:
================
arch = sm_30
code version = [1,6]
producer = <unknown>
host = mac
compile_size = 32bit
identifier = inc_ptr.fatbin memset_kernel.cu 

    code for sm_30
        Function : _Z12memsetkernelPiii
    /*0008*/     /*0x10005de428004001*/     MOV R1, c [0x0] [0x44];
    /*0010*/     /*0x20105d034800c000*/     IADD R1, R1, -0x8;
    /*0018*/     /*0x00019de428004005*/     MOV R6, c [0x0] [0x140];
    /*0020*/     /*0x10101c034800c000*/     IADD R0, R1, 0x4;
    /*0028*/     /*0x8400dc042c000000*/     S2R R3, SR_Tid_X;
    /*0030*/     /*0x90041c0348004000*/     IADD R16, R0, c [0x0] [0x24];
    /*0038*/     /*0x94001c042c000000*/     S2R R0, SR_CTAid_X;
    /*0048*/     /*0xd0009de428004000*/     MOV R2, c [0x0] [0x34];
    /*0050*/     /*0x91045d0348004000*/     IADD R17, R16, -c [0x0] [0x24];
    /*0058*/     /*0x40011de428000000*/     MOV R4, R16;
    /*0060*/     /*0xa0015ca320064000*/     IMAD R5, R0, c [0x0] [0x28], R3;
    /*0068*/     /*0x01119c85c8000000*/     STL [R17], R6;
    /*0070*/     /*0xa0209ca350004000*/     IMUL R2, R2, c [0x0] [0x28];
    /*0078*/     /*0x0001000710000000*/     JCAL 0x0;
    /*0088*/     /*0x0110dc85c0000000*/     LDL R3, [R17];
    /*0090*/     /*0x20001de428004005*/     MOV R0, c [0x0] [0x148];
    /*0098*/     /*0x00049c4340004005*/     ISCADD R18, R0, c [0x0] [0x140], 0x2;
    /*00a0*/     /*0x4831dc031b0e0000*/     ISETP.GE.U32.AND P0, pt, R3, R18, pt;
    /*00a8*/     /*0x000001e780000000*/     @P0 EXIT;
    /*00b0*/     /*0x1004dde428004005*/     MOV R19, c [0x0] [0x144];
    /*00b8*/     /*0x0034dc8590000000*/     ST [R3], R19;
    /*00c8*/     /*0x40011de428000000*/     MOV R4, R16;
    /*00d0*/     /*0x08015de428000000*/     MOV R5, R2;
    /*00d8*/     /*0x0001000710000000*/     JCAL 0x0;
    /*00e0*/     /*0x0110dc85c0000000*/     LDL R3, [R17];
    /*00e8*/     /*0x4831dc03188e0000*/     ISETP.LT.U32.AND P0, pt, R3, R18, pt;
    /*00f0*/     /*0x000001e74003ffff*/     @P0 BRA 0xb8;
    /*00f8*/     /*0x00001de780000000*/     EXIT;
    /*0100*/     /*0xe0001de74003ffff*/     BRA 0x100;
    /*0108*/     /*0x00001de440000000*/     NOP CC.T;
    /*0110*/     /*0x00001de440000000*/     NOP CC.T;
    /*0118*/     /*0x00001de440000000*/     NOP CC.T;
    /*0120*/     /*0x00001de440000000*/     NOP CC.T;
    /*0128*/     /*0x00001de440000000*/     NOP CC.T;
    /*0130*/     /*0x00001de440000000*/     NOP CC.T;
    /*0138*/     /*0x00001de440000000*/     NOP CC.T;
        .....................................


        Function : inc_ptr
    /*0008*/     /*0x0040dc8580000000*/     LD R3, [R4];
    /*0010*/     /*0x00301c8580000000*/     LD R0, [R3];
    /*0018*/     /*0x14001c0348000000*/     IADD R0, R0, R5;
    /*0020*/     /*0x00301c8590000000*/     ST [R3], R0;
    /*0028*/     /*0x00001de790000000*/     RET;
    /*0030*/     /*0x00001de440000000*/     NOP CC.T;
    /*0038*/     /*0x00001de440000000*/     NOP CC.T;
    /*0040*/     /*0xe0001de74003ffff*/     BRA 0x40;
    /*0048*/     /*0x00001de440000000*/     NOP CC.T;
    /*0050*/     /*0x00001de440000000*/     NOP CC.T;
    /*0058*/     /*0x00001de440000000*/     NOP CC.T;
    /*0060*/     /*0x00001de440000000*/     NOP CC.T;
    /*0068*/     /*0x00001de440000000*/     NOP CC.T;
    /*0070*/     /*0x00001de440000000*/     NOP CC.T;
    /*0078*/     /*0x00001de440000000*/     NOP CC.T;
        ........................

可能还有其他技巧可以使用工具链来实现这一点，但这种方法肯定有效。