如何以不区分大小写的方式搜索文件中的单词?
例如:
如果我正在搜索文件中的UpdaTe
,则如果文件包含update,则应将其作为匹配项选中并计数。
如何以不区分大小写的方式搜索文件中的单词?
例如:
如果我正在搜索文件中的UpdaTe
,则如果文件包含update,则应将其作为匹配项选中并计数。
strings.EqualFold()
可以检查两个字符串是否相等,而忽略大小写。它还能处理Unicode字符串。要了解更多信息,请参见http://golang.org/pkg/strings/#EqualFold。
http://play.golang.org/p/KDdIi8c3Ar
package main
import (
"fmt"
"strings"
)
func main() {
fmt.Println(strings.EqualFold("HELLO", "hello"))
fmt.Println(strings.EqualFold("ÑOÑO", "ñoño"))
}
两者都返回 true。
strings.EqualFold
,搜索策略可能是将您的 needle 字符串与 haystack 的每个可能的子字符串进行比较,其长度与 needle 相同。这会得到 O(len(haystack) * len(needle)) 的算法。我想这并不那么糟糕,如果它们适合内存,即使是大文件,也可以很好地使用。 - user7610假设您问题的重点是搜索,而不是从文件中读取部分,因此我将只回答那一部分。
可能最简单的方法是将两个字符串(您要搜索的字符串和要搜索的字符串)转换为全部大写或全部小写,然后进行搜索。例如:
func CaseInsensitiveContains(s, substr string) bool {
s, substr = strings.ToUpper(s), strings.ToUpper(substr)
return strings.Contains(s, substr)
}
你可以在这里看到它的实际运行效果。
strings.Contains
除非你只搜索ASCII字符,否则当前的所有答案都不正确。特定的分音符/变音符或其他Unicode字形修饰符,在少数语言(如英语)之外的大多数语言中有用。根据@snap提到的更“正确”的定义,“搜索非ASCII字符”的标准谷歌短语。
为了正确支持语言搜索,您需要使用http://golang.org/x/text/search。
func SearchForString(str string, substr string) (int, int) {
m := search.New(language.English, search.IgnoreCase)
return = m.IndexString(str, substr)
}
start, end := SearchForString('foobar', 'bar');
if start != -1 && end != -1 {
fmt.Println("found at", start, end);
}
如果你只需要起始索引:
func SearchForStringIndex(str string, substr string) (int, bool) {
m := search.New(language.English, search.IgnoreCase)
start, _ := m.IndexString(str, substr)
if start == -1 {
return 0, false
}
return start, true
}
index, found := SearchForStringIndex('foobar', 'bar');
if found {
fmt.Println("match starts at", index);
}
在这里搜索language.Tag
结构,以找到您想要搜索的语言,或者如果不确定,请使用language.Und
。
似乎有些混淆,因此以下示例应有助于澄清事情。
package main
import (
"fmt"
"strings"
"golang.org/x/text/language"
"golang.org/x/text/search"
)
var s = `Æ`
var s2 = `Ä`
func main() {
m := search.New(language.Finnish, search.IgnoreDiacritics)
fmt.Println(m.IndexString(s, s2))
fmt.Println(CaseInsensitiveContains(s, s2))
}
// CaseInsensitiveContains in string
func CaseInsensitiveContains(s, substr string) bool {
s, substr = strings.ToUpper(s), strings.ToUpper(substr)
return strings.Contains(s, substr)
}
strings.ToUpper()
,我是在谈论“不区分大小写的字符串搜索”。 - Xeoncrossstrings.ToUpper(s) == strings.ToUpper(s2)
完美地工作。 - snapÄ
。那么在芬兰,究竟是什么时候开始使用 Æ
的呢?除非正在构建处理历史文本的专业系统,否则这有何意义? - snap//create a regex `(?i)update` will match string contains "update" case insensitive
reg := regexp.MustCompile("(?i)update")
f, err := os.Open("test.txt")
if err != nil {
log.Fatal(err)
}
defer f.Close()
//Do the match operation
//MatchReader function will scan entire file byte by byte until find the match
//use bufio here avoid load entire file into memory
println(reg.MatchReader(bufio.NewReader(f)))
bufio包实现了一个缓冲读取器,它可能在许多小读取操作中具有高效性,并且还提供了额外的读取方法,因此非常有用。