我正在开发一个Twitter机器人,该机器人将监听以下类似的推文:
或者,另一个例子:
然后它会回复出你预期问题返回的数据类型。我已经解决了大部分的问题,但却卡在了一些本应不难的地方;就是从推特中提取地址。
我将把地址转发给一个地理编码服务来获取经纬度,所以我不需要格式化或准备地址;我只需要将其与无关的文本如“我正在寻找附近餐厅”或“我饿了!”等隔离开来。
是否有任何自然语言处理工具可以在一段文本块中执行地址识别?或者有其他方式可以解决吗?由于Google的地理编码器处理各种各样的地址格式(甚至包括像“多伦多伊顿中心”这样的兴趣点),因此我无法使用正则表达式来提取地址。
换句话说,我只想删除不属于地址的任何文本。
我要寻找的地址需要适用于美国/加拿大。
在StackOverflow上有一些类似的问题,但没有一个能解决我能找到的这个确切的问题。因为Google的地理编码器很宽容,所以解决方案不必完美,只需去除足够多的噪声,使Google知道我想说什么即可。
我对自然语言处理非常新手,所以我会感激任何关于这个问题的指导。
Hey @twitterbot, I'm looking for restaurants around 123 Main Street, New York
或者,另一个例子:
@twitterbot, what's near Yonge & Dundas, Toronto? I'm hungry!
然后它会回复出你预期问题返回的数据类型。我已经解决了大部分的问题,但却卡在了一些本应不难的地方;就是从推特中提取地址。
我将把地址转发给一个地理编码服务来获取经纬度,所以我不需要格式化或准备地址;我只需要将其与无关的文本如“我正在寻找附近餐厅”或“我饿了!”等隔离开来。
是否有任何自然语言处理工具可以在一段文本块中执行地址识别?或者有其他方式可以解决吗?由于Google的地理编码器处理各种各样的地址格式(甚至包括像“多伦多伊顿中心”这样的兴趣点),因此我无法使用正则表达式来提取地址。
换句话说,我只想删除不属于地址的任何文本。
我要寻找的地址需要适用于美国/加拿大。
在StackOverflow上有一些类似的问题,但没有一个能解决我能找到的这个确切的问题。因为Google的地理编码器很宽容,所以解决方案不必完美,只需去除足够多的噪声,使Google知道我想说什么即可。
我对自然语言处理非常新手,所以我会感激任何关于这个问题的指导。