机器学习——按照示例学习文件格式的软件

4

我的程序可以读取数十种文件格式,采用传统方法编写每种文件格式的过程性代码。大多数格式都有自己独特的加载器库、自己的错误和限制,这对我来说是一个巨大的时间浪费。我想支持大量其他格式,但它们大多不值得我投入时间,因为它们并不受欢迎。

我希望用一个由文件格式描述符驱动的单一加载器替换我的现有加载器。我相信有人已经创建了通过示例学习文件格式的软件。我现有的加载器将成为这些格式的优秀适应度函数,而我也可以为新格式编写适应度函数。

我的问题是,我可以使用什么软件来通过示例“学习”文件格式,并如何将该“学习”转换为可用于通用加载器的描述符?

1个回答

3
除非你进行一些极大的限制,否则我认为你很难取得进展。虽然这是理想情况,但已超出了目前的技术水平。对于任意格式,你无法做到这一点,例如如果我给你200个JPG、PNG、BMP和GIF文件,学习系统很有可能无法学习这些格式。
以下是研究人员关注的一些问题:
- 从示例中学习正则表达式:可以看看这个问题:计算机能否通过用户提供的示例“学习”正则表达式?。 - 信息抽取:我给你一份分类广告列表,例如出租公寓。你需要提取卧室数量、租金、押金和单位大小等信息。你可以在这里了解更多信息:http://en.wikipedia.org/wiki/Information_extraction

1
因此,一台机器无法通过示例学习每种可能的文件格式,但这不应该阻止我。在格式具有压缩等复杂性的情况下,我当然会提供解压功能。如果某些文件格式太复杂了,我可以像以前一样编写一个加载器。我认为大多数文件格式都不超出学习算法的范畴,我想尽我所能。 - David

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接