我正在尝试开发一个文本分类器,将一篇文章归类为私密或公开。以医疗或健康信息为例,我所能想到的典型分类器会将关键词作为主要区分因素,对吧?但像下面这种情况怎么办呢?如果两个文本都包含相似的关键词但具有不同的含义呢。
以下文字揭示了某人的私人(健康)状况(患者患有癌症):
我曾经去过两家诊所
和我的PCP
,我只做了一次超声波检查
,被告知这是一个正在恢复的囊肿
或者血肿
,但是它变得越来越大并开始让我的腿疼痛
。我的PCP
说这不可能是一个囊肿
,因为它一开始就太大了,而且我发誓我从未受伤
过,甚至没有碰
到过腿。现在我感到非常害怕和担心癌症
。我注意到大约9个月前下蹲时有一种轻微的不适感。3个月前,我下蹲整理衣服时感觉有点疼痛
。这种疼痛
促使我检查我的腿
,那时我注意到小腿底部有一个肿块
,屈膝更加明显。最终,在四次诊所
访问、一次超声波检查
和一次PCP
之后,结果似乎是积极的,肿块正在变大。
[私人](正确分类)
以下是来自医生的评论,绝对不会透露他的健康状况。它介绍了典型分类模型的弱点:
不要惧怕,也不要假设这是什么坏事,比如癌症。我在我的诊所里经历过几个案例,这似乎很熟悉。正如你所提到的,它可能是一个囊肿或血肿,并且正在变大,它必须进行一些额外的诊断,比如活组织检查。在那个区域有疼痛或肿块的大小并不意味着有什么坏的情况。你应该再去几次专科诊所,接受一些特定的测试,例如活组织检查、CT扫描、pcp和超声波,在这个肿块变得更大之前。
由于明显的原因,第二段被所有当前分类器分类为私人内容。相似的关键词、有效的单词序列以及主题的出现似乎让分类器非常困惑。甚至,两个内容都包含像“I”和“You”(名词、代词)这样的主语。我考虑过从Word2Vec到Doc2Vec,从推断含义到语义嵌入,但无法想出最适合这个问题的解决方案。
你有什么想法,我应该如何处理分类问题?先感谢你的帮助。
目前的进展:
我所收集的数据来自公共来源,病人/受害者通常在那里发布自己的情况,而医生/祝福者则回复这些情况。我爬取时的假设是 - 帖子属于我的私有类别,而评论属于公共类别。总共我从5K+5K的帖子/评论中开始,使用朴素贝叶斯分类器进行了大约60%的分类,没有进行任何主要预处理。我将很快尝试神经网络。但在输入任何分类器之前,我只想知道如何更好地预处理数据,以便为不同的类别分配合理的权重,以实现更好的区分效果。