在表格列中计算单词出现次数

7
我有一张包含varchar(255)字段的表格。我想通过查询、函数或存储过程来获取这张表格中某一组数据行出现的每个单词的数量。
如果有两行数据如下:
"I like to eat bananas" "I don't like to eat like a monkey"
我希望得到的结果是:
单词 | 数量 --------------- like 3 eat 2 to 2 i 2 a 1
请问有什么好的方法吗?我使用的是MySQL 5.2。

可能是统计每个单词的频率的重复问题。目前这个问题比较旧,但在另一个问题中已经有了解决方案。 - RandomSeed
5个回答

5

@Elad Meidar,我喜欢你的问题,我找到了一个解决方案:

SELECT SUM(total_count) as total, value
FROM (

SELECT count(*) AS total_count, REPLACE(REPLACE(REPLACE(x.value,'?',''),'.',''),'!','') as value
FROM (
SELECT SUBSTRING_INDEX(SUBSTRING_INDEX(t.sentence, ' ', n.n), ' ', -1) value
  FROM table_name t CROSS JOIN 
(
   SELECT a.N + b.N * 10 + 1 n
     FROM 
    (SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) a
   ,(SELECT 0 AS N UNION ALL SELECT 1 UNION ALL SELECT 2 UNION ALL SELECT 3 UNION ALL SELECT 4 UNION ALL SELECT 5 UNION ALL SELECT 6 UNION ALL SELECT 7 UNION ALL SELECT 8 UNION ALL SELECT 9) b
    ORDER BY n
) n
 WHERE n.n <= 1 + (LENGTH(t.sentence) - LENGTH(REPLACE(t.sentence, ' ', '')))
 ORDER BY value

) AS x
GROUP BY x.value

) AS y
GROUP BY value

这里是完整的工作示例:http://sqlfiddle.com/#!2/17481a/1 首先,我们执行一个查询来提取所有单词,详见@peterm在这里的解释(如果您想自定义要处理的单词总数,请按照他的指示操作)。然后,我们将其转换为子查询,然后使用COUNTGROUP BY对每个单词的值进行分组计数,然后在其上再次进行查询,以GROUP BY未分组的单词,其中可能存在附带符号的情况。例如:hello = hello!应用了REPLACE函数。

1
你可以尝试这种有点变态的方法:
SELECT 
(LENGTH(field) - LENGTH(REPLACE(field, 'word', ''))) / LENGTH('word') AS `count`
ORDER BY `count` DESC

这个查询可能非常慢。而且,它看起来相当丑陋。


1
我建议不要在SQL中这样做。你正在加载数据库的内容,而它并不擅长处理这种操作。在应用程序端选择一组行并进行频率计算将更容易实现,速度更快,并且维护起来也会更少出现问题和头疼。

真的,把它作为存储过程或函数运行不是更聪明吗?我一直认为将这样的计算卸载到数据库中更好。 - Elad Meidar
1
同意,使用常规SQL没有办法做到这一点。您可以编写一个存储过程,使用临时表和本文中一种技术的修改版本来实现:http://www.sommarskog.se/arrays-in-sql-2000.html(这是针对SQL Server 2000的,但可以相当轻松地适应MySQL的方言)。然而,问题仍然是,这样做会超出SQL的“舒适区”。 - Ken Keenan
你当然可以在SP中使用多次数据集遍历并使用正则表达式提取每个单词,然后将结果放入临时表中并进行迭代等操作。但是这相当复杂,编写和维护都很困难,我认为维护甚至比一开始编写还要重要。数据库适用于它们设计的用途-存储/读取/写入关系数据。让它们计算东西只是次优设计,最终会带来很多麻烦。 - Alex N.

0

我认为你应该像索引一样做,使用附加表。每当您在原始表中创建、更新或删除行时,都应该更新索引表。该索引表应包含单词和出现次数两列。


是的,但问题是我需要在用户范围内(FK在需要解析的字符串表上)使用联接表在单词、短语和用户之间似乎有点过度杀伤力? - Elad Meidar

-1
我认为如果每行中的所有单词都在一个字段中,您正在尝试使用SQL做太多事情。我建议在从数据库获取文本字段后,使用应用程序进行任何文本处理/计数。

真的,将其作为存储过程或函数运行不是更明智吗?我一直认为将这样的计算卸载到数据库中更好。 - Elad Meidar

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接