问题:从给定文本中提取数据元组。
以下是数据的一些特征。
文本中的词汇(单词)仅限于特定领域。假设最多有100-200个单词。
需要解析的文本是类似于汽车广告数据的标题,因此每条记录对应一个元组(行)。
在某些情况下,某些属性可能会丢失。例如,在下面的原始数据行#5中,年份缺失。
一些单词是成对出现的(二元组)。像“低英里数”。
可用的历史数据= 10,000条记录
新数据量=每周1000-1500条记录
预期输出应为(年份,制造商,型号,功能)的形式。因此,输出应如下所示:
1 ->(2009年,福特,Fusion,SE)
2 ->(1997年,福特,塔鲁斯,旅行车)
3 ->(2000年,三菱,Mirage,DE)
4 ->(2007年,福特,Expedition,EL Limited)
5 ->( ,本田,雅阁,EX)
....
....
原始标题数据:
1 -> 2009年福特Fusion SE - $7000
2 -> 1997年福特Taurus旅行车 - $800(东圣何塞)
3 -> '00三菱Mirage DE - $2499(萨拉托加)图片
4 -> 2007年福特Expedition EL Limited - $7800 (x)
5 -> 本田雅阁ex低里程 - $2800(都柏林/普莱森顿/利弗莫尔)图片
6 -> 2004年本田Odyssey LX 68K英里 - $10800(丹维尔/圣拉蒙)
7 -> 93林肯马克 - $2000(奥克兰东部)图片
8 -> #######2006年黑色LEXUS GS 430黑色114KMI ####### - $19700(圣拉斐尔)图片
9 -> 2004奥迪A4 1.8T FWD - $8900(萨克拉门托)图片
10 -> #######2003 GMC C2500 HD EX-CAB 6.0 V8 EFI白色4X4 ####### - $10575(圣拉斐尔)图片
11 -> 1990年丰田Corolla跑得好!省油!5速手动干净!注册2011 O.B.O - $1600(海沃德/卡斯特罗谷)图片
12 -> 本田雅阁EX 2000年 - $4900(都柏林/普莱森顿/利弗莫尔)图片
13 -> 2009年雪佛兰Silverado LT Crew Cab - $23900(都柏林/普莱森顿/利弗莫尔)图片
14 -> 2010年Acura TSX - V6 - TECH - $29900(都柏林/普莱森顿/利弗莫尔)图片
15 -> 2003年日产Altima - $1830(旧金山)图片
可能的选择:
- 机器学习文本分类器(朴素贝叶斯等)
- 正则表达式
我试图弄清楚的是,对于这项工作,正则表达式是否过于复杂,而文本分类器是否过度?
如果选择使用文本分类器,那么您认为最容易实现的是什么。
提前感谢您的帮助。