当涉及多个特征时,如何处理文本分类问题

6
我正在解决一个文本分类问题,其中涉及多个文本特征,并需要构建一个模型来预测工资范围。请参考样本数据集。大多数资源/教程只处理一个列上的特征提取,然后预测目标。我已经了解了文本预处理、特征提取(CountVectorizer或TF-IDF)以及应用算法等过程。
在这个问题中,我有多个输入文本特征。当涉及到多个特征时,如何处理文本分类问题?以下是我已经尝试过的方法,但我不确定这些是否是正确的方法。请提供您的意见/建议。
1)单独对每个特征进行数据清洗,并使用TF-IDF,然后使用逻辑回归。在这里,我尝试查看是否可以仅使用一个特征进行分类。
2)对所有列分别进行数据清洗,然后为每个特征应用TF-IDF,然后合并所有特征向量以创建一个特征向量。最后是逻辑回归。
3)对所有列分别进行数据清洗,将所有已清理的列合并以创建一个特征'merged_text'。然后在此merged_text上应用TF-IDF,然后进行逻辑回归。
这三种方法在交叉验证和测试集中给了我大约35-40%的准确度。我希望至少在测试集上达到60%的准确度,但测试集并没有提供。
此外,我不明白如何使用'company_name'和'experience'与文本数据。'company_name'中有大约2000个独特值。请提供关于如何处理文本分类问题中的数字数据的输入/提示。
1个回答

6
尝试以下几点:
  1. 对“职位描述”、“职位名称”和“关键技能”进行文本预处理。删除所有停用词,分离每个单词并删除标点符号,将所有单词转换为小写,然后应用TF-IDF或计数向量化器,在训练模型之前不要忘记缩放这些特征。

  2. 将工作经验转换为最小经验和最大经验2个特征,并将其视为离散的数字特征。

  3. 公司和位置可以视为分类特征,并在训练模型之前创建虚拟变量/独热编码。

  4. 尝试结合工作类型和关键技能,然后进行向量化,看看是否效果更好。

  5. 使用随机森林回归器,使用GridCV调整超参数:n_estimators、max_depth、max_features。

希望这些措施可以提高模型的性能。

请告诉我这些措施的表现如何。


1
点2有助于提高准确性。我能够理解如何将其他特征与tf-idf向量化器相结合,并使用组合特征进行预测。 - Chetan Ambi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接