我目前正在开发一个项目,旨在识别地址中的每个部分。例如从“str. Jack London 121, Corvallis, ARAD, ap. 1603, 973130” 中提取的输出应该如下所示:
street name: Jack London;
no: 121; city: Corvallis;
state: ARAD;
apartment: 1603;
zip code: 973130
问题在于并非所有输入数据都是相同的格式,因此有些元素可能会缺失或顺序不同,但保证其是一个地址。
我查阅了一些互联网上的资料,但很多都只适用于美国地址,比如Google API Places,而我的需求是另一个国家的地址。
正则表达式并不是一个好的选择,因为地址变化可能太大。
我还考虑过使用命名实体识别模型的NLP,但我不确定那是否可行。
您知道有什么好的方法可以入手吗?或者给我一些建议?