这个问题询问如何在SQL Server中获取随机样本记录,并得到的答案是使用TABLESAMPLE
。那么在Oracle 10中是否有相应的解决方法呢?
如果没有,有没有标准的方法从查询结果中得到随机样本呢?例如,如何从通常返回数百万行的查询中获取1,000个随机行?
SELECT *
FROM (
SELECT *
FROM mytable
ORDER BY
dbms_random.value
)
WHERE rownum <= 1000
SAMPLE子句将为您提供表中所有行的随机抽样百分比。
例如,在这里我们获取了25%的行:
SELECT * FROM emp SAMPLE(25)
以下SQL(使用其中一种分析函数)将为您提供表中特定值的每个出现次数的随机样本(类似于GROUP BY)。SELECT * FROM (
SELECT job, sal, ROW_NUMBER()
OVER (
PARTITION BY job ORDER BY job
) SampleCount FROM emp
)
WHERE SampleCount <= 10
SEED(n)
选项允许你始终得到相同的样本,因此具有相同的行数(当需要可重复的结果时可能很有用),例如SELECT * from emp SAMPLE(25) SEED(1)
。 - Julien KroneggSAMPLE(25)
的表,我看到返回的记录在24.41%到25.36%之间。 - Julien Kronegg这不是一个完美的答案,但会获得更好的性能。
SELECT *
FROM (
SELECT *
FROM mytable sample (0.01)
ORDER BY
dbms_random.value
)
WHERE rownum <= 1000
如果您真的想要1000行,则示例会给您实际表格的百分比,您需要调整该数字。但通常我只需要任意数量的行,因此我不限制结果。在我的具有200万行的数据库上,我可以获得2秒而非60秒。
select * from mytable sample (0.01)
dbms_random.value
是由数据库生成的随机值,因此行不应被认为是_真正_有序的(这只是为了使每个通过SAMPLE(n)
选择的行具有相同的概率出现在返回的1000行中)。 - Julien KroneggSAMPLE(n)
进行快速随机选取和使用rownum<=1000
精确定义返回结果数量)。 - Julien Kronegg我知道这个问题已经被回答了,但是由于这里的访问量如此之高,我想添加一个使用SAMPLE子句的版本,但仍然允许首先过滤行:
with cte1 as (
select *
from t_your_table
where your_column = 'ABC'
)
select * from cte1 sample (5)
需要注意的是,基本选择需要一个ROWID
列,这意味着它可能无法在某些视图中使用。
样例函数用于在 ORACLE 中的示例数据。因此,您可以尝试以下操作:
SELECT * FROM TABLE_NAME SAMPLE(50);
这里的50是表中所含数据的百分比。因此,如果您想从100000行中获取1000行,则可以执行以下查询:
SELECT * FROM TABLE_NAME SAMPLE(1);
希望这可以帮助你。
SELECT * FROM TABLE_NAME SAMPLE(1)
相比于确切的1/100观测数目,你只会得到大约1%的份额。可能的原因是Oracle为每个观测生成一个随机标志,表示是否包含在所生成的样本中。在这样的生成过程中,参数1(1%)扮演了每个观测被选入样本的概率角色。
如果这是真的,实际的样本大小分布将是二项式的。
应该可以这样做:
SELECT *
FROM table_name
WHERE primary_key IN (SELECT primary_key
FROM
(
SELECT primary_key, SYS.DBMS_RANDOM.RANDOM
FROM table_name
ORDER BY 2
)
WHERE rownum <= 10 );
with summary as (
Select Dbms_Random.Random As Ran_Number,
colmn1,
colm2,
colm3
Row_Number() Over(Partition By col2 Order By Dbms_Random.Random) As Rank
From table1, table2
Where Table1.Id = Table2.Id
Order By Dbms_Random.Random Asc)
Select tab1.col2,
tab1.col4,
tab1.col5,
From Summary s
Where s.Rank <= 2;
my_table
的表中选择恰好1,000个随机行。以下是一种方法:select
*
from
(
select
row_number() over(order by dbms_random.value) as random_id,
x.*
from
my_table x
)
where
random_id <= 1000
;
这与@Quassnoi发布的答案略有不同。它们的成本和执行时间相同,唯一的区别是您可以选择用于获取样本的随机数。
SAMPLE(n)
的查询只需要0.02秒(快了5倍)。因此对于我的数据量来说,速度并不慢... - Julien Kronegg