如何在自然语言处理分类器中使用多个文本特征？

Question

如何在自然语言处理分类器中使用多个文本特征？

machine-learningkerasdeep-learningneural-networknlp

7

我正在尝试构建文本分类器。通常，我们只有一个包含地面真相（ground truth）的文本列。但我现在遇到一个数据集，其中包含许多文本特征。我正在探索如何利用不同的文本特征的不同方法。

例如，我的数据集长这样

Index_no                   domain  comment_by   comment       research_paper      books_name

01                         Science  Professor   Thesis needs  Evolution of         MOIRCS 
                                                more work     Quiescent            Deep 
                                                              Galaxies as a        Survey
                                                              Function of
                                                              Stellar Mass       



02                         Math    Professor   Doesn't follow  Evolution of   
                                               Latex format   Quiescent           nonlinear 
                                                              Galaxies as a       dispersive
                                                              Function of         equations
                                                              Stellar Mass

这只是一份虚拟数据集, 我的目标值(Y)是领域(domain)，特征包括comment_by, comment, research_paper, books_name

如果我要使用任何NLP模型(RNN-LSTM, Transformers等), 这些模型通常需要一个三维向量，如果我使用一个文本列，那么这个方法可以适用，但是对于文本分类器来说，如何处理多个文本特征？

我试过的方法有：

1) 将所有列连接起来并形成长字符串

教授论文需要更多的工作，作为星际质量的函数静止星系的演化，MOIRCS深度调查

2) 在列之间使用令牌

<CB> Professor <C> Thesis needs more work <R> Evolution of Quiescent Galaxies as a Function of Stellar Mass <B> MOIRCS Deep Survey

在哪里使用<CB> comment_by，<C> comment，<R> research_paper，<B> books_name？

我应该在开头使用<CB>还是像这样使用？

Professor <1> Thesis needs more work <2> Evolution of Quiescent Galaxies as a Function of Stellar Mass <3> MOIRCS Deep Survey

3) 使用不同的密集层（或嵌入）为每列，并将它们连接在一起。

我已经尝试了这三种方法，还有其他方法可以尝试以提高模型准确性吗？或者提取、组合、联接更好的特征？

先谢谢您！

- Aaditya Ura

嘿，Aaditya，你解决了上面的问题吗？我也在寻找同样的解决方案。如果你已经解决了，请在答案中发布。 - Juned Ansari

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- spectre · Accepted Answer

以下是您可以尝试的一些方法：

1.) 将research_paper、book_name和comment组合成一个字符串。

2.) 将comment_by视为分类变量，并使用one-hot编码器或标签编码器进行编码。

3.) 无论使用什么模型，都要调整超参数以提高结果。

请让我知道您得到的结果！