我正在使用Twitter提供的数据来筛选不同推文中的单词、名称、hashtag和短语。
我认为名称是以大写字母开头的几个单词,hashtag是#后面跟着除空格外的所有内容,短语是引号内的内容,而单词则是普通的单词。
如果能够提取出任何链接也很好,但这并非必要。
我想使用正则表达式,但如果有更好的解决方案,我也想了解一下。
以下是一个Twitter帖子的示例:
你知道你看了很多Wes Anderson电影当你看到他的新预告片时会想,“等等,Futura字体在哪里?” #MoviesILike http://bit.ly/HklUk
将分割出 Wes Anderson
, Wait, where's the Futura font?
, #MoviesILike
以及所有单词。
我现在正在使用的正则表达式是:
Regex _wordRegex = new Regex(@"(?:\""(?<Item>.*?)\"")|(?<Item>(?:[A-Z][a-z]*?[.\s])+)|(?<Item>#\S+)|(?<Item>\w+)");