37得票9回答
如何从HuggingFace下载模型?

https://huggingface.co/models 例如,我想要下载“bert-base-uncased”,但是找不到“下载”链接。请帮忙。或者它不能被下载吗?

29得票3回答
如何理解Transformer中的Masked Multi-Head Attention

我目前正在学习Transformer的代码,但是我不理解解码器的掩码多头是什么意思。论文说这是为了防止你看到生成的单词,但是如果生成单词后面的单词还没有被生成,那么它们怎么能被看到呢? 我尝试阅读Transformer的代码(链接:https://github.com/Kyubyong/tr...

27得票3回答
src_mask和src_key_padding_mask的区别

我很难理解transformers。一切都在逐渐变得清晰,但有一件事让我困惑的是,在编码器层和解码器层的前向函数中传递的src_mask和src_key_padding_mask之间有什么区别。 https://pytorch.org/docs/master/_modules/torch/n...

26得票5回答
如何在Dart中创建一个StreamTransformer?

尝试构建自定义StreamTransformer类,但是很多现有的示例似乎已经过时了,在文档中找到的一个也不像一些类型化语言可能认为的那样作为一个类(在这里找到:https://api.dartlang.org/apidocs/channels/stable/dartdoc-viewer/da...

21得票2回答
多头自注意力中的att_mask和key_padding_mask有什么区别?

在PyTorch的MultiHeadAttention中,key_padding_mask和attn_mask有什么区别: key_padding_mask——如果提供了此参数,则键(key)中指定的填充元素将被注意力机制忽略。当给定二进制掩码并且值为True时,注意力层上相应的值将被忽略。...

19得票4回答
当使用ColumnTransformer进入管道时出现AttributeError错误

这是我的第一个机器学习项目,也是我第一次使用ColumnTransformer。我的目标是执行数据预处理的两个步骤,并对每个步骤都使用ColumnTransformer。 在第一步中,我想将数据框中缺失值替换为字符串“missing_value”,对于其余特征,使用最常见的值。因此,我使用Co...

15得票1回答
密集合成器的实现

我正在尝试理解合成器论文 (https://arxiv.org/pdf/2005.00743.pdf 1),其中描述了密集型合成器机制,该机制应替换Transformer架构中描述的传统注意力模型。 密集合成器(Dense Synthesizer)的描述如下: 所以我尝试实现这个层...

14得票3回答
在Java DOM文档中设置命名空间和前缀

我正在尝试将ResultSet转换为XML文件。 我首先使用了这个序列化的例子。import org.w3c.dom.bootstrap.DOMImplementationRegistry; import org.w3c.dom.Document; import org.w3c.dom....

14得票2回答
gcc ON arm/android

我刚刚买了一台EEE Pad变形金刚。像我拥有的任何硬件一样,我希望在上面拥有一个C编译器。我知道我可以进行交叉编译,但我想在设备本身上进行开发。我搜索了谷歌,但似乎只能找到如何为x86/64 Linux构建arm工具链的页面。你有什么想法?

13得票2回答
为什么在MultiheadAttention中,嵌入维度必须能够被头数整除?

我正在学习Transformer。这里是PyTorch文档中MultiheadAttention的介绍。在它们的实现中,我发现有一个限制: assert self.head_dim * num_heads == self.embed_dim, "embed_dim must be d...