当涉及多个特征时，如何处理文本分类问题

Question

6

我正在解决一个文本分类问题，其中涉及多个文本特征，并需要构建一个模型来预测工资范围。请参考样本数据集。大多数资源/教程只处理一个列上的特征提取，然后预测目标。我已经了解了文本预处理、特征提取（CountVectorizer或TF-IDF）以及应用算法等过程。

在这个问题中，我有多个输入文本特征。当涉及到多个特征时，如何处理文本分类问题？以下是我已经尝试过的方法，但我不确定这些是否是正确的方法。请提供您的意见/建议。

1）单独对每个特征进行数据清洗，并使用TF-IDF，然后使用逻辑回归。在这里，我尝试查看是否可以仅使用一个特征进行分类。

2）对所有列分别进行数据清洗，然后为每个特征应用TF-IDF，然后合并所有特征向量以创建一个特征向量。最后是逻辑回归。

3）对所有列分别进行数据清洗，将所有已清理的列合并以创建一个特征'merged_text'。然后在此merged_text上应用TF-IDF，然后进行逻辑回归。

这三种方法在交叉验证和测试集中给了我大约35-40％的准确度。我希望至少在测试集上达到60%的准确度，但测试集并没有提供。

此外，我不明白如何使用'company_name'和'experience'与文本数据。'company_name'中有大约2000个独特值。请提供关于如何处理文本分类问题中的数字数据的输入/提示。

- Chetan Ambi

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ayush Kesarwani · Accepted Answer

尝试以下几点：

对“职位描述”、“职位名称”和“关键技能”进行文本预处理。删除所有停用词，分离每个单词并删除标点符号，将所有单词转换为小写，然后应用TF-IDF或计数向量化器，在训练模型之前不要忘记缩放这些特征。
将工作经验转换为最小经验和最大经验2个特征，并将其视为离散的数字特征。
公司和位置可以视为分类特征，并在训练模型之前创建虚拟变量/独热编码。
尝试结合工作类型和关键技能，然后进行向量化，看看是否效果更好。
使用随机森林回归器，使用GridCV调整超参数：n_estimators、max_depth、max_features。

希望这些措施可以提高模型的性能。

请告诉我这些措施的表现如何。