有没有关于常见打错按键的统计数据?

13

我需要找到一个键盘常见打错的按键列表,为了我正在做的一个项目。基本上我需要知道一个用户想要按哪个键以及他们实际按下的键和这种情况发生的相对频率。

所谓的 "相对频率" 是指我想能够说出,当知道用户打错了 "c" 键时,更有可能按了 "x" 键而不是 "v" 键(基本上就是下面的 "常见程度" 列)。

我的理想列表会像以下内容,以给你一个大致的了解。

Target Key    Actual Key   Commonness...
----------    -----------  -------------
v             c            100
v             b            95
c             x            100
c             v            90

有没有人遇到过任何可靠的来源,提供这方面的信息?到目前为止我还没有找到什么...


你在寻找这个吗?http://en.wikipedia.org/wiki/Dvorak_Simplified_Keyboard - S.Lott
我认为这个问题应该是有条件的 - 这样更有用。这也是一个更难的问题,但 Google 在条件概率上押注很大。很抱歉听起来有点模糊。它在帮助用户搜索、拼写、语言翻译等方面扮演着重要角色。http://www.youtube.com/watch?v=Sx3Fpw0XCXk - Hamish Grubijan
不,我不这么认为,但现在我想学习如何使用“单手程序员 Dvorak”打字。 - Abe Miessler
相关问题:http://stackoverflow.com/questions/1801647/what-is-the-best-source-for-typo-statistics - Hamish Grubijan
4个回答

5

我几年前曾经遇到过类似的问题,当时我不知道从哪里开始,所以希望我能为你和其他人节省一些时间。

底线是你可以利用其他领域的大量工作成果。我发现最重要的领域是域名注册。

例如,网站DomainTools有一个“域名错别字生成器”,它通过根据您输入的父域名生成一组错别字域名来工作。

考虑到专业的域名所有者(也就是所谓的抢注者)占任何注册机构业务的很大一部分,很容易看出这个工具是为谁设计的(即抢注者有兴趣获取高流量域名的常见错别字 - 即使对于高流量域名,2%的错误率也是对错别字域名的很大流量)。

此外,我建议阅读微软研究在2005年发布的关于这个问题的研究,该研究非常全面。

最后,有一个源自Levenshtein Distance计算语言学中的关键概念,称为Damerau-Levenshtein距离,它将基本的Levenshtein的编辑距离的想法扩展到人类在键盘上打字的特定问题。

他在1964年的研究论文中的主要结论是,所有错别字中有80%可以用四个操作之一来描述 - 插入、删除、替换单个字符或交换两个字符。

Damerau不仅区分了这四个编辑操作,而且还指出它们对应于超过80%的人类拼写错误。(我提供的唯一D-L链接是维基百科文章;我这样做是因为我认为这是一个优秀而简洁的介绍,它包含了D-L算法的伪代码,最后该文章提供了D-L的主要在线来源链接。)


1

我在iPhone/Touch上打字时经常输错的键:

将c误按成f!“Cred clies crom Crance to Cinland on Cridays!”

此外,iPhone键盘底部任意一个字母的空格键也容易误按:

“Bob liste s to Z Top a d an Hale 。”


0

我不知道有什么统计数据来源,但似乎在以下情况下会有很大的区别:(1)由于手指位置不佳而误按了错误的键,大多数打字员会立即回退并进行纠正,因此这些事件的统计数据只能在实时捕获,而不是汇总大多数拼写纠正器遇到的情况;(2)打字员按下正确的键,但顺序错误(“naem”而不是“name”),原因是速度/分心/神经元问题;(3)打字员因不知道如何拼写而按错了键(“maintenence”而不是“maintenance”)。

对于情况#1,如果英语中最常见的字母是E,T,A...那么很可能它们也是最容易错过的键,按照顺序排列,尽管这并不能告诉您像“w”和“r”之类的邻居中哪个被最频繁地按下。试图按下行末键“a”的打字员实际上可能会与误按CAPS LOCK一样频繁地误按“s”。

个人而言,我通常会错过非字母字符,特别是在寻找/与\、{与[、'与"、逗号与句点等格式化数字和货币时。如果错过了Shift键,就会输入8而不是*等等。由于在编程中非字母字符的输入如此普遍,所以对于程序员来说,这些情况可能比非程序员更频繁发生。

有趣。虽然我在非字母字符方面有些困难,但我会说,在字母字符中,我最难的是x、c、v,而不是e、t、a。我怀疑尽管这些可能是最常见的字母,打字员们不太可能在输入它们时按错键,因为它们的位置和使用频率。如果您找到任何可靠的统计数据,请告诉我。 - Abe Miessler

0

基于嘈杂通道模型的拼写纠正程序,由Kernighan、Church和Gale编写,可能会有所帮助。在这篇论文中,作者将打字错误建模为作者和计算机之间的嘈杂通道。附录中列出了在美联社出版物语料库中发现的打字错误表。以下是每种打字错误的表格:

  • 删除
  • 插入
  • 替换
  • 转置

例如,检查插入表格,我们可以看到在l之后错误地插入了l 128次(该列中最高的数字)。使用这些表格,您可以计算出类似于您想要的数字。


链接已损坏。 - xuhdev

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接