如何开发一个程序来最小化手写调查问卷的人工转录错误

10

我需要开发定制软件来进行调查。问题可能是多项选择题,或在极少数情况下是自由文本。

我被要求设计一个子系统来检查多项选择部分的手动数据输入是否有任何错误。我们试图加快用户数据输入过程,并尽量减少数字表格和原始问卷之间的人为输入差异。调查中填写了人工采访者的手写标记和文本,因此可能会发现难以辨认的标记,或者用户可能会在某些问题上意外地选择不同的值,我们希望避免这种情况。

该软件必须包括一些自动控制以检测可能的打字差异。每个多项选择题的答案被选中的概率相同。

这个问题有两个部分:

  • GUI。

我想到的最简单的事情是实现最常用的问题显示设计:使用大号和易读的字体,并慷慨地为选择留出空间。还有别的吗?为了更快速的输入,我希望使用下拉列表(优先键盘而非鼠标)。鉴于问题分组在章节中,我想显示所选答案,但这可能会降低速度。还有其他想法吗?

  • 错误检查子系统。

我能做些什么来最小化或检查多项选择题中的人为输错?这是一个可解决的问题吗?是否有一些统计方法可以检查用户输入值与手写表格中相同的值?例如,让我们假设调查有5个问题,每个问题有4个选项。假设我有n份由采访者填写的纸质调查表,它们已准备好在软件中输入,那么如何最小化可能出现的手动转录n份调查表中5个问题的意外差异,而不必在所有5个问题的n份调查表中都进行双重检查?

我的第一个建议是,在处理完所有手工填写的表格后,软件可以随机选择一些表格,在其中几个实例中对响应进行双重检查,但我可以根据什么标准进行此选择? 这种验证足以涵盖所有内容吗?

这项实际的调查是全国范围的,共有56页,总共超过200个问题,因此将有许多人手写许多页面。目的是为了减少错误的可能性并优化数据录入速度。鉴于采访者携带笔记本电脑或手持设备的复杂性,必须先填写纸质调查问卷。


如果多项选择题的答案具有相等的选择概率,那么为什么还要在调查中提出这些问题呢? - Joel Hoff
12个回答

13

虽然我有些保守,但我仍认为最实际的做法是使用双录入。两个数据录入员输入他们的调查,然后交换堆栈并输入另一个职员的调查。每当系统检测到两者之间的差异时,就会出现一个标志-然后两个职员共同商讨正确答案(或者可能由更高级别的研究人员审查等)。结合这里的其他建议(我非常喜欢mdma关于GUI的建议),这将构成一个低误差系统。

是的,这将使您的数据录入时间加倍(也许)-但它非常简单,可以大大降低错误率。 OMR的想法很棒,但在我看来,这个项目(一个全国性的52页调查)不适合孤军奋战的黑客第一次尝试实现OMR。需要哪些软件?可用于此的硬件是什么?在识别那些采访者标记了所有四个可能答案并写了侧面注释的愚蠢问题上仍需要大量的人工工作-您可能需要随机抽样调查以了解机器读取误差率。即使那样,你仍然只有一个错误率估计,而不是更正后的数据。

这次尝试一个简单的方法,为您的雇主提供高质量结果-然后将这些结果用作下一次使用OMR进行实验的预验证数据集。


6
OCR/OMR可能是最好的选择,因为您排除了不可预测的人为错误,并用相当可预测的机器错误代替它。甚至可以过滤掉OCR可能遇到困难的表格,并对其进行修改以提高扫描准确性。
但是,直面原始问题:
错误检查
- 使问题相关联,以便基本上重复询问同一件事情,或者在否定情况下再次询问。如果相关问题的答案也没有关联,则可能表明存在输入错误。 - 偏离正常值:如果典型响应中存在模式,则偏离这些典型响应可能被视为潜在的输入错误。例如,如果问题2和3回答A,则问题4很可能是C或D。这是上述相关性的概括。可以根据已输入数据动态计算相关性。
图形用户界面
  • 将GUI模拟纸质表格,使得录入员在屏幕上看到的与纸质版面一致。这样,就不太可能在GUI中将纸质问题回答输入到错误的问题中。
  • 为数据录入员提供视觉辅助,例如使用滑块来维护当前问题在纸质版面上的位置。
  • 一个用于输入数据的定制设备可能比键盘导航和列表框更易于使用。例如,使用所有选项都拼写出来的触摸显示器ABCD。录入员只需选择一个选项,它就被选中并显示下一个问题——稍作暂停后。如果录入员犯了错误,他们可以使用每个问题旁边的上/下按钮。
  • 提供输入数据的音频反馈,这样当录入员输入"A"时,他们会听到"A"。
编辑: 如果您考虑进行数据双录或实施改进的GUI,则值得进行试点方案以评估各种方法的有效性。双录可能很昂贵(将数据输入任务的成本增加一倍),这可能或可能不会通过提高准确性来证明其价值。试点方案将使您能够快速且相对廉价地评估双录的有效性。它还将为您提供单个数据输入文员的错误水平的概念,而没有任何UI更改,这有助于确定是否需要UI更改或其他减少错误的策略以及可以证明在实施它们时可以合理的成本。
相关链接
- 多项选择测试数据输入设备 - 维基百科:OMR-光学标记识别 - ReadSoft-自动数据输入 - 数据捕获硬件

GUI的想法真的很不错。 - Matt Parker
进一步实现GUI模拟纸张表格后,将所有表格数字化并以淡化的背景图像显示在数据输入表单上会非常有趣。这似乎可以减少错误,提高输入速度,并为OCR/OMR提供漂亮的数据集。 - Sweet Burlap

5
我的第一个建议是,在处理所有手工填写的表格的最后,软件可以随机选择一些表格,在几个实例中对响应进行双重检查。
我认为这并不会产生有意义的结果。假定错误是无意和随机的。随机检查会发现系统性错误,但如果您只检查10%的表格,则只会找到10%的随机错误(如果您检查20%的表格,则会找到20%的错误等)。
纸质调查看起来像什么?如果可能的话,我想猜测一个OCR系统扫描手写测试,并将OCR检测到的答案与数据输入操作员给出的答案进行比较,将是更好的解决方案。您可能仍然需要手动双重检查相当数量的调查,但您会对您随机挑选的调查具有更高的错误概率的调查有一些信心。
如果您还控制纸质调查的外观,则更好:您可以专门设计它们,以便OCR尽可能准确。

我可以使用什么OCR软件? - Alex. S.

4

请原谅我完全回避这个问题,但昨天我去了eBay,花了99美元买了一台7英寸的Android操作系统平板电脑。虽然不是世界上速度最快的处理器,也没有大量的内存,但足以填写现场用户调查。

我无法相信你们的组织无法支付每位采访者99美元来解决这个问题。

至少向你的老板提出这个建议是值得的,不是吗?


2
问题在于,由于调查的性质,携带笔记本电脑肯定会给访问者带来风险,因此政府通常更喜欢使用简单的纸张来进行调查。 - Alex. S.
1
嗯,好观点(+1)。我不认为向抢劫者解释它只值99美元会有太大的区别。实际上,你的手机更值钱,但是 - 尝试向看到闪亮电脑的抢劫者解释...尽管如此,它们是可爱的小玩意儿。我正在使用我的作为电子书阅读器、PDA、用于电子邮件和浏览 - 除了开发应用程序出售(销售给可以在更安全的地方使用它们的组织 :-) - Mawg says reinstate Monica

4
我支持Matt Parker的建议,使用双重输入来减少错误。我甚至见过为非常敏感的数据输入任务使用三重输入。
双重输入的好处在于它使您能够通过做出一些假设(主要是错误率在条目和职员之间保持一致)并使用遇到输入冲突的速率来估计整体错误率的大致估计。
更复杂的双重输入系统还可以测量数据输入任务的部分和个别职员的错误率,以便您可以进行改进以降低错误率。

3
听起来需要采用综合方法,实际的表格应该适用于自动处理。如果多项选择输入可以自动处理,您可以扫描文档并仅处理电子版本,这样可能会通过让用户不参与而获得更好的错误比率。根据OCR软件包,我猜测您将得到一个值,告诉您系统对所做选择的确定程度,取决于该值,您将希望由人验证表格。请注意,我谈论的是在多项选择上使用OCR而不是自由格式输入,这本身可能是一个问题。
同时,您可能希望进行随机检查以查找OCR系统的错误比率。然后可以使用此值来确定多项选择题目的置信度值。
我认为,如果您只使用人工输入,则类似的方法会很有帮助。您可能无法消除所有错误,因为人们会犯错误,并且他们会在更正错误时犯错误,但是如果样本大小足够大,您可能能够确定人工输入中的错误比率。然后可以使用此数字来确定调查结果。
关于其他UI想法,您可以使用扫描的表格,并以一种方式覆盖UI,使UI复选框靠近书写复选框。如果有几条已知的线条呈角度,则将表格拉直和缩放应该不太难。如果UI输入元素靠近铅笔标记,则正确分类的机会更高。

您还可以使用统计分析来选择看似不合适的表格,但这可能会通过非均匀选择来扭曲结果,这可能比均匀随机误差更糟糕。根据问卷设计的设计,将其复制到UI中可能会有所帮助,如果两者看起来相似,每个人都更容易找到错误,如果您不遵循这一点,则调查设计(例如this)的一些参考资料可能会有所帮助。

这似乎是一个相当大的操作,我确信有一些统计学家在员工中,请与他们谈论他们需要什么以及您可以为他们提供什么帮助,不要做出偏颇结果的事情。


3
在您实现了最佳的软件方法来解决这个问题后,您还可以考虑通过Amazon的机械土耳其程序运行输出,并对转录内容进行人工交叉检查。其他类似的项目包括reCaptcha(据我所知,它仅适用于印刷文本OCR),而我刚刚发现的Beextra似乎正在做像编目史密森媒体之类的事情。

海报在另一个问题的评论中提到这是为政府服务的,这意味着几乎肯定受联邦监管,这也意味着将调查信息发送给机器翻译可能会毁掉他的职业生涯。这是个好主意,但对于任何类型的调查数据来说都不太可能行得通。 - Matt Parker
根据地点而定。 - Matt Parker

2

关于多项选择答案转录错误的检测,我的建议是使用多个数据输入人员和统计分析。

一位统计学家可以比较结果,以查看是否有任何问题在一个数据输入用户输入的答案与其他用户输入的答案之间具有明显不同的答案分布。如果是这样,那么这些问题可以被标记为需要重新从表格中输入。

假设表格是随机分配给数据输入人员的,那么每个数据输入用户的输入结果应该有足够数量的表格,其答案分布应该相当相似。


2
人工双重检查可能是达到低错误率最流行的方法。如果想要加快速度,一个人只需计算给定答案的总数并将该数字写在调查的底部(类似于“控制和”)。输入数据到应用程序的人也应该在一个特殊的字段中填写该数字,然后系统可以计算给定答案的数量并与期望值进行比较。这可以解决正确数量而不是数据正确性的问题。
您还可以使用一些数据挖掘方法来检测插入数据中的错误。例如:如果您询问年龄和薪资范围,则可以创建规则,即如果年龄小于X,则很可能该人员的收入不会超过Y,因此提醒并要求修订。这被称为关联规则
GUI:它应该与纸质表格的表示形式一一对应。一些键盘快捷键可能有助于加快工作速度。

1

正如已经提到的,键入两次。是的,这是“双倍的工作”,但这导致了第二点。

使调查易于输入。

它们应该对键入者来说很容易阅读。关于他们注意力的部分应该突出显示,以便从表格的噪音中脱颖而出。

您的“GUI”不应该是。 GUI的主要好处是“可发现性”,这些人不应该“发现”任何东西。一旦他们开始输入内容,键盘导航应该是“唯一”的方式。键入内容时,一只或两只手放在键盘上,一只手用于更改调查页面==没有手用于鼠标。对于屏幕(对于鼠标或任何其他东西)的关注是远离键入调查的关注。

键入者应该“低头”,不必看屏幕。如果可行,您可以使用音频提示告诉键入者他们已经切换了页面,以确保他们正在键入的内容和计算机正在键入的内容基本相同。如果无法使用音频提示,则让输入人员键入他们所在的调查页面。计算机已经“知道”它在第“2”页,因此当键入者键入页面编号时,它可以验证他们是否在同一位置。

在键入错误时,请使用可听的提示音。不要让他们输入垃圾,点击“保存”,然后再更正错误。如果您立即知道数据是错误的,请停止他们并立即让他们修复它。没有什么比5或6个“叮叮叮”更能引起他们的注意,因为他们已经在输入3个字段之后才意识到计算机停止了他们。对于错误进行长时间的审核是浪费时间。

不要“滚动”您的数据屏幕。前后翻页。滚动很糟糕。当您滚动时,屏幕上的字段会移动。当您不这样做时,它们始终处于相同的位置,因此当输入人员确实需要查看屏幕时,他们始终可以查看相同的位置。

由于这个原因,任何长度的下拉列表都很糟糕。他们不应该使用下拉菜单,因为他们不应该看屏幕。表格应该告诉他们需要输入什么。

在数据输入方面要保持一致。尽可能使用10键。如果您有超过10个选项,并且0-9对于整个问卷来说不实用,那么您应该使用00-99。不要使用A-Z作为选项,因为人们不会以这种方式考虑按键。他们记忆键盘上的单词模式比记忆字母更多。01-26比A-Z更快。

此外,SHIFT键不是您的朋友。但当他们处于“输入英文”模式时,它会很好用。

最后,将所有“输入”,“填空”内容组织到一个部分中(理想情况下在最后)。这使他们可以快速地使用10键输入其余部分,进入区域,并且不必来回移动手。许多人在输入“英语”时会使用顶部行“顶部键入”数字,而在其他情况下则使用10键。


非常好的具体建议 - 许多人(包括我自己)建议将数据输入键盘化和友好化,但在实际建议方面并不多。 - Matt Parker

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接