现有的JavaScript OCR脚本

7
我有一个CMS增强的想法,可以从图像(例如扫描文档)中提取文本信息,并想知道是否已经有任何东西可以帮助我实现这个想法?
基本上,我想知道是否有现成的JavaScript OCR脚本,可以从图像(例如使用canvas)中提取句子/单词。
我知道有一些脚本可以完成相对较小的任务,比如破解验证码,但我还没有找到一个可以提取完整句子的脚本。
这种东西存在吗,还是我需要从头开始编写?

5
我真的怀疑你能否做到这一点。OCR不是你可以一夜之间编写代码的东西。对于非平凡的情况(比如某些CAPTCHA),它是一个极其困难的概念来编码的。此外,JavaScript也不是最好的语言来完成这个任务。 - Blender
我想用JavaScript来完成这个任务,因为我不想给服务器增加额外的负担。我现在这么做的原因是我有一本书上的推荐信需要扫描并添加到网站上,我也希望能够以可搜索的方式添加文本。当然,我可以事先通过OCR软件处理所有内容,但我也在考虑未来的项目,可能只需在任何计算机上从图像中运行OCR,无论它是否安装了OCR软件。 - Kae Verens
是的,OCR 很困难,不可能一蹴而就,这就是为什么我问它是否已经完成的原因。至于 JavaScript 不是正确的语言……为什么呢?JavaScript 中有缺少的东西使它无法实现吗? - Kae Verens
2
我建议您查看http://ejohn.org/blog/ocr-and-neural-nets-in-javascript/。 - James
@James发布的链接可能是网络上唯一讨论JS光学字符识别的资源。话虽如此,你可以成为第一个实现这样功能的人。你可以从许多通用OCR论文和工作中找到灵感。JavaScript现在已经足够强大(而且正在变得越来越强大)以处理这种类型的任务。我们应该利用它。 - Alex Turpin
谢谢@Xeon06 - 我有点这种感觉。几个月前我已经读了Resig的文章,希望已经有人在这方面做出了工作。我猜现在是计划的时间了! - Kae Verens
3个回答

4

3

我进行了增强,并且现在可以使用tesseract 3.01运行,同时允许提示语言和使用预处理器:https://github.com/joscha/nodecr - Joscha

3

看起来这是我们能得到的最接近解决方案!我更喜欢一个纯JS的解决方案,但它可能会很庞大和慢。谢谢@corvus - Kae Verens

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接