AI学习无效数据中的模式?

4
我在一家公共卫生部门工作,每天都会接收和存储大量的医疗数据。我编写了一个程序,使用正则表达式来确定传入数据中的特定字段是否有效或无效。例如:出生日期以YYYYmmDD的形式呈现,所以应该与正则表达式^[0-9]{8}$相匹配。
我想分析“无效”数据,帮助识别我们系统中出现的问题(我们获得的数据太多了,无法逐行检查每个“坏”记录)。有人能建议哪些人工智能技术/机器学习技术可以“监视”不良数据并发现其中的错误模式吗?我认为列出许多可能导致数据无效的正则表达式(例如字数不足或过多),然后跟踪这些结果可能奏效。但是,我很好奇如何使用人工智能从坏数据中“学习”模式,而不是我想出所有数据可能无效的方式。
是否有任何已知的技术可以做到这一点?
4个回答

3
我认为列出一堆正则表达式来检测数据无效的可能性(例如,字符数量不足或过多),然后跟踪这些结果可能有效。但是,与其让我想出所有数据无效的方式,我更好奇使用人工智能从错误数据中“学习”模式的方法。
有趣的是,我想起了通常归于Jamie Zawinski的一句话:
“有些人遇到问题时会想‘我知道了,我会使用正则表达式’,结果他们现在有两个问题。”
但是,在这种情况下,我认为手工制作正则表达式是最好的选择!
具有讽刺意味的是。
无论如何。
这句话的重点是人们倾向于使解决方案过于复杂。在这里,正则表达式实际上是您问题的相当简单的解决方案,而创建一个学习器将需要比您意识到的时间要长得多。
对于这种非常受限制的数据表示方式(日期),表示正确的方式比表示不正确的方式少得多。因为定义错误数据的方式是无限的。您想要训练一个学习器来检测它们所有吗?这是一个兔子洞。相反,将这个AI学习者视为同事或朋友:您如何描述日期不能适当表示的所有方式?
虽然您的意图是为自己长远打算-这是一个很好的品质-但是开发一个学习器的方法,更不用说训练和验证它,更不用说仔细观察它,都超过了它在如此狭窄的用例中能够为您提供的任何好处。

2

1

听起来你想将监督学习应用于正则表达式。这些家伙似乎正在做类似的事情。


0
也许可以寻找“异常检测”技术的方法?

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接