PG生成随机数字、字符串、日期、验证码以及UUID
在日常生活中,随机数对于我们而言并不陌生,例如手机短信验证码就是一个随机的数字字符串;对于统计分析、机器学习等领域而言,通常也需要生成大量的随机数据用于测试、数据抽样、算法验证等。
生成随机数字
生成 0 到 1 之间的随机数
PostgreSQL 中的RANDOM()
函数可以用于生成一个大于等于 0 小于 1 的随机数字。例如:
1 2 3 4 5 6 7 8 9 | SELECT random(); random | ------------------| 0.5573292311275964| SELECT random(); random | --------------------| 0.017827744704202786| |
该函数返回的数据类型为 double precision,每次调用都会返回不同的结果。
如果我们想要重现某个结果,需要生成相同的随机数;这种情况下可以使用SETSEED(d)
函数设置一个随机数种子,d 的类型为 double precision,取值范围从 -1.0 到 1.0。例如:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | SELECT setseed(0); SELECT random(); random | ------------------| 0.0000000000000391| random | ------------------| 0.0009853946746503| ... SELECT setseed(0); SELECT random(); random | ------------------| 0.0000000000000391| random | ------------------| 0.0009853946746503| |
从结果可以看出,设置相同的种子之后,随后的函数调用返回了一系列相同的随机数。
生成指定范围内的随机数
基于 RANDOM() 函数和一些运算,就可以返回任意两个数字之间的随机数:
1 | low + RANDOM() * (high - low) |
以上表达式将会返回一个大于等于 low,小于 high 的随机数。例如:
1 2 3 4 | SELECT 10 + random() * 10 AS rd; rd | ------------------| 15.680596127871453| |
以上示例返回了一个大于等于 10 且小于 20 的随机数字。
如果想要生成某个范围内的随机整数,可以加上 FLOOR 函数。例如:
1 2 3 4 | SELECT floor(10 + random() * 10); floor| -----| 12.0| |
该语句返回了一个大于等于 10,小于等于 19(不是 20)的随机整数。
生成 6 位数字手机验证码
我们已经知道了如何获取指定范围内的随机数,再加上 TO_CHAR 格式化函数就可以生成由 6 位数字字符组成的手机验证码。例如:
1 2 3 4 | SELECT to_char(random() * 1000000, '099999') AS captcha; captcha| -------| 076774| |
TO_CHAR 函数可以确保数据不够 6 位时在前面补足 0。
生成遵循正态分布的随机数
PostgreSQL 提供了一个扩展模块 tablefunc,可以用于生成遵循正态分布(normal distribution)的随机数。首先,输入以下命令启用该模块:
1 | CREATE EXTENSION tablefunc; |
然后使用该模块中的NORMAL_RAND(n,mean, stddev)
函数返回 n 个均值为 mean,标准差为 stddev 的随机数。例如:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | SELECT * FROM normal_rand(10, 0, 1); normal_rand | --------------------| 0.0936639131151394| -1.26936035550923| 2.006729235590952| 0.7869592803653096| -1.5740650326039192| -0.18656503408337746| 1.0665080022417979| -1.1240167023021148| 1.1073155396442795| 0.09360901134478303| |
以上查询返回了 10 个遵循标准正态分布的随机数。
我们也可以验证一下该函数是否遵循正态分布,例如:
1 2 3 4 5 | SELECT count(*), avg(v), stddev(v) FROM normal_rand(1000000, 0, 1) AS v; count |avg |stddev | -------|------------------|------------------| 1000000|0.0001662571158423|0.9992607627843408| |
另一种方法就创建一个存储函数来模拟正态分布的随机数:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | CREATE OR REPLACE FUNCTION normal_distrib(mean DOUBLE PRECISION, stdev DOUBLE PRECISION) RETURNS DOUBLE PRECISION LANGUAGE plpgsql AS $$ DECLARE x DOUBLE PRECISION; y DOUBLE PRECISION; rd DOUBLE PRECISION; BEGIN x := random(); y := random(); rd = (sqrt(-2 * ln(x)) * cos(2 * pi() * y)) * stdev + mean; RETURN rd; END $$; |
该函数利用 Box-Muller 变换算法通过两个平均分布的随机数生成正态分布的随机数。以下语句通过 normal_distrib 函数生成了一个遵循正态分布的随机数:
1 2 3 4 | SELECT normal_distrib(0,1); normal_distrib | -----------------| 0.404847649020953| |
以下语句可以用于验证 normal_distrib 函数是否遵循正态分布:
1 2 3 4 5 6 7 8 | WITH RECURSIVE d(n, v) AS ( SELECT 1 AS n, normal_distrib(0, 1) AS v UNION ALL SELECT n+1, normal_distrib(0, 1) FROM d WHERE n<1000000 ) count |avg |stddev | -------|---------------------|-----------------| 1000000|-0.001243494839949032|0.999320444731066| |
经过测试,自定义的 normal_distrib 函数执行时间为 12.5 s,normal_rand 函数只需要 1.5 s。
生成随机字符串
生成固定长度的随机字符串
除了随机数字之外,有时候我们也需要生成一些随机的字符串。PostgreSQL 没有提供专门生成随机字符串的函数,但是可以通过其他函数进行模拟。例如:
1 2 3 4 | SELECT chr(floor(random() * 26)::integer + 65); chr| ---| V | |
以上查询返回了一个随机的大写字母,chr 函数用于将 ASCII 码转换为对应的字符。我们可以基于该查询进一步创建一个存储函数:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | CREATE OR REPLACE FUNCTION random_string( num INTEGER, chars TEXT default '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz' ) RETURNS TEXT LANGUAGE plpgsql AS $$ DECLARE res_str TEXT := ''; BEGIN IF num < 1 THEN RAISE EXCEPTION 'Invalid length'; END IF; FOR __ IN 1..num LOOP res_str := res_str || substr(chars, floor(random() * length(chars))::int + 1, 1); END LOOP; RETURN res_str; END $$; |
random_string 函数可以返回由指定字符(默认为所有数字、大小写字母)组成的随机字符串。例如:
1 2 3 4 | SELECT random_string(10); random_string| -------------| etP3odkRgA | |
以上示例返回了一个由字母和数字组成、长度为 10 的随机字符串。以下语句也可以用于返回一个 6 位随机数字组成的手机验证码:
1 2 3 4 | SELECT random_string(6, '0123456789'); random_string| -------------| 082661 | |
生成可变长度的随机字符串
那么,怎么返回一个长度可变的随机字符串呢?很简单,为 random_string 函数指定一个随机的长度参数即可。例如:
1 2 3 4 | SELECT random_string(floor(10 + random() * 11)::int); random_string | ----------------| 8tz5zHcbKVKoVg4S| |
以上示例返回了一个长度大于等于 10 且小于等于 20 的随机字符串。
生成随机日期和时间
将指定日期增加一个随机的数字,就可以得到随机的日期。例如:
1 2 3 4 | SELECT current_date + floor((random() * 15))::int rand_date; rand_date | ----------| 2020-11-04| |
以上示例返回了当前日期 14 天之内的某个随机日期。以下语句则返回了一天中的某个随机时间:
1 2 3 4 | SELECT make_time(floor((random() * 12))::int, floor((random() * 60))::int, floor((random() * 60))::int) AS rand_time; rand_time| ---------| 10:04:52| |
其中,make_time 函数用于将代表时、分、秒的整数转换为时间。
获取表中的随机记录
对于返回多行数据的查询语句,RANDOM 函数每次都会返回不同的随机值。例如:
1 2 3 4 5 6 7 | SELECT random() FROM employee; random | -------------------| 0.10449782906204419| 0.3345344734009643| 0.7295074473683592| ... |
利用这个特性,我们可以从表中返回随机的数据行。例如:
1 2 3 4 5 6 7 8 9 10 11 | SELECT emp_id, emp_name FROM employee ORDER BY random() LIMIT 5; emp_id|emp_name | ------|---------| 2|关羽 | 9|赵云 | 13|关兴 | 25|孙乾 | 17|马岱 | |
以上示例从 employee 表中返回了 5 行随机记录。该方法需要为表中的每行数据都生成一个随机数,然后进行排序;所以会随着表中的数据量增加而逐渐变慢。
如果表中存在自增主键,也可以基于主键生成一个随机数据。例如:
1 2 3 4 | SELECT round(rand() * (SELECT max(emp_id) FROM employee)) AS id; id | ----| 10.0| |
然后基于这个随机数返回一条随机的记录:
1 2 3 4 5 6 7 8 9 | SELECT e.emp_id, e.emp_name FROM employee e INNER JOIN (SELECT round(random() * (SELECT max(emp_id) FROM employee)) AS id ) AS t ON e.emp_id >= t.id LIMIT 1; emp_id|emp_name| ------|--------| 10|廖化 | |
这种方法一次只能返回一条随机记录,而且只有当自增字段的值没有间隙时才会返回均匀分布的随机记录。
另外,PostgreSQL 中的查询语句支持 TABLESAMPLE 子句,可以实现数据的抽样。例如:
1 2 3 4 5 6 7 | SELECT emp_id, emp_name FROM employee TABLESAMPLE BERNOULLI (10); emp_id|emp_name| ------|--------| 4|诸葛亮 | 13|关兴 | |
除了 BERNOULLI 之外,也可以指定 SYSTEM 抽样方法,参数代表了抽样近似百分比。
生成 UUID
UUID(Universal Unique Identifier)或者 GUID(Globally Unique Identifier)是一个 128 比特的数字,可以用于唯一标识每个网络对象或资源。由于它的生成机制,一个 UUID 可以保证几乎不会与其他 UUID 重复,因此常常用于生成数据库中的主键值。
PostgreSQL 提供了一个用于加/解密的扩展模块 pgcrypto,其中的 gen_random_uuid() 函数可以用于返回一个 version 4 的随机 UUID。首先,输入以下命令启用该模块(gen_random_uuid() 从 PostgreSQL 13 开始成为了一个内置函数):
1 | CREATE EXTENSION pgcrypto; |
然后,通过该函数返回一个 UUID:
1 2 3 4 | SELECT gen_random_uuid(); gen_random_uuid | ------------------------------------| 2d757cf5-c18c-469c-8b5e-eed914eacc93| |
该函数返回的数据类型为 uuid。如果想要生成没有中划线(-)的 UUID 字符串,可以使用 REPLACE 函数:
1 2 3 4 | SELECT replace(gen_random_uuid()::text,'-',''); replace | --------------------------------| cabbfcdc62c54e2889bdd2b7095f1270| |
总结
本文介绍了在 PostgreSQL 中生成随机数据的方法,包括随机数字、验证码、随机字符串以及随机日期和时间等,同时还介绍了如何从表中返回随机记录,以及如何生成 UUID。