我需要获取有关PyTorch启动的内核的信息。例如,调用堆栈信息,如“main.py:24 -> ... -> callkernel.py:53”将是有益的。是否有任何方法可以在PyTorch应用程序执行期间收集此信息?我目前正在搜索PyTorch的源代码,但仍然找不到启动CUDA内核的行。我的问题有两个:
- 我能否在内核启动时获取调用堆栈?
- 有人能向我展示PyTorch源代码中内核启动的示例吗?
torch.add(
已经更新(在此答案发布几个月后)作为https://github.com/pytorch/pytorch/pull/65851的一部分。我不知道这些更新会影响多少这个答案;但值得注意。 - undefined