AI学习无效数据中的模式？

Question

AI学习无效数据中的模式？

4

我在一家公共卫生部门工作，每天都会接收和存储大量的医疗数据。我编写了一个程序，使用正则表达式来确定传入数据中的特定字段是否有效或无效。例如：出生日期以YYYYmmDD的形式呈现，所以应该与正则表达式^[0-9]{8}$相匹配。

我想分析“无效”数据，帮助识别我们系统中出现的问题（我们获得的数据太多了，无法逐行检查每个“坏”记录）。有人能建议哪些人工智能技术/机器学习技术可以“监视”不良数据并发现其中的错误模式吗？我认为列出许多可能导致数据无效的正则表达式（例如字数不足或过多），然后跟踪这些结果可能奏效。但是，我很好奇如何使用人工智能从坏数据中“学习”模式，而不是我想出所有数据可能无效的方式。

是否有任何已知的技术可以做到这一点？

- bernie2436

4个回答

2

贝叶斯过滤可能是您正在寻找的内容。

- Stu

1

听起来你想将监督学习应用于正则表达式。这些家伙似乎正在做类似的事情。

- phs

0

也许可以寻找“异常检测”技术的方法？

- Yan King Yin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Shaggy Frog · Accepted Answer

我认为列出一堆正则表达式来检测数据无效的可能性（例如，字符数量不足或过多），然后跟踪这些结果可能有效。但是，与其让我想出所有数据无效的方式，我更好奇使用人工智能从错误数据中“学习”模式的方法。

有趣的是，我想起了通常归于Jamie Zawinski的一句话：

“有些人遇到问题时会想‘我知道了，我会使用正则表达式’，结果他们现在有两个问题。”

但是，在这种情况下，我认为手工制作正则表达式是最好的选择！

具有讽刺意味的是。

无论如何。

这句话的重点是人们倾向于使解决方案过于复杂。在这里，正则表达式实际上是您问题的相当简单的解决方案，而创建一个学习器将需要比您意识到的时间要长得多。

对于这种非常受限制的数据表示方式（日期），表示正确的方式比表示不正确的方式少得多。因为定义错误数据的方式是无限的。您想要训练一个学习器来检测它们所有吗？这是一个兔子洞。相反，将这个AI学习者视为同事或朋友：您如何描述日期不能适当表示的所有方式？

虽然您的意图是为自己长远打算-这是一个很好的品质-但是开发一个学习器的方法，更不用说训练和验证它，更不用说仔细观察它，都超过了它在如此狭窄的用例中能够为您提供的任何好处。