我正在解决一个文本分类问题,其中涉及多个文本特征,并需要构建一个模型来预测工资范围。请参考样本数据集。大多数资源/教程只处理一个列上的特征提取,然后预测目标。我已经了解了文本预处理、特征提取(CountVectorizer或TF-IDF)以及应用算法等过程。
在这个问题中,我有多个输入文本特征。当涉及到多个特征时,如何处理文本分类问题?以下是我已经尝试过的方法,但我不确定这些是否是正确的方法。请提供您的意见/建议。
1)单独对每个特征进行数据清洗,并使用TF-IDF,然后使用逻辑回归。在这里,我尝试查看是否可以仅使用一个特征进行分类。
2)对所有列分别进行数据清洗,然后为每个特征应用TF-IDF,然后合并所有特征向量以创建一个特征向量。最后是逻辑回归。
3)对所有列分别进行数据清洗,将所有已清理的列合并以创建一个特征'merged_text'。然后在此merged_text上应用TF-IDF,然后进行逻辑回归。
这三种方法在交叉验证和测试集中给了我大约35-40%的准确度。我希望至少在测试集上达到60%的准确度,但测试集并没有提供。
此外,我不明白如何使用'company_name'和'experience'与文本数据。'company_name'中有大约2000个独特值。请提供关于如何处理文本分类问题中的数字数据的输入/提示。
在这个问题中,我有多个输入文本特征。当涉及到多个特征时,如何处理文本分类问题?以下是我已经尝试过的方法,但我不确定这些是否是正确的方法。请提供您的意见/建议。
1)单独对每个特征进行数据清洗,并使用TF-IDF,然后使用逻辑回归。在这里,我尝试查看是否可以仅使用一个特征进行分类。
2)对所有列分别进行数据清洗,然后为每个特征应用TF-IDF,然后合并所有特征向量以创建一个特征向量。最后是逻辑回归。
3)对所有列分别进行数据清洗,将所有已清理的列合并以创建一个特征'merged_text'。然后在此merged_text上应用TF-IDF,然后进行逻辑回归。
这三种方法在交叉验证和测试集中给了我大约35-40%的准确度。我希望至少在测试集上达到60%的准确度,但测试集并没有提供。
此外,我不明白如何使用'company_name'和'experience'与文本数据。'company_name'中有大约2000个独特值。请提供关于如何处理文本分类问题中的数字数据的输入/提示。