当您需要检验作业是否可以正常运行、逻辑是否正确时,为了减少外部系统开销和避免干扰因素,可以选择使用一些调试专用的 Connector。
Datagen 连接器是一个系统内置的调试专用源表,作用是周期性的生成随机数据,它可以作为数据源直接引用。
CREATE TABLE datagen_source ( name String, score INT ) WITH ( 'connector' = 'datagen', 'rows-per-second' = '5' );
参数 | 是否必选 | 默认值 | 数据类型 | 描述 |
---|---|---|---|---|
connector | 是 | (none) | String | 指定使用的连接器,此处是 Datagen 连接器。 |
rows-per-second | 否 | 10000 | Long | 每秒生成随机数的条数。 |
fields.#.kind | 否 | random | String | 指定生成随机数的方法:
|
fields.#.min | 否 | (Minimum value of type) | (Type of field) | 随机数的最小值,适用于数字类型。 |
fields.#.max | 否 | (Maximum value of type) | (Type of field) | 随机数的最大值,适用于数字类型。 |
fields.#.length | 否 | 100 | Integer | 随机生成字符的长度,适用于 char、varchar、string 类型。 |
fields.#.start | 否 | (none) | (Type of field) | 序列数据的起始值。 |
fields.#.end | 否 | (none) | (Type of field) | 序列数据的结束值。 |
CREATE TABLE datagen_source ( siteid INT, citycode SMALLINT, username STRING, pv BIGINT ) WITH ( 'connector' = 'datagen', 'rows-per-second' = '5', 'fields.username.length' = '30', 'fields.siteid.max' = '1000', 'fields.siteid.min' = '100' ); CREATE TABLE print_sink ( siteid INT, citycode SMALLINT, username STRING, pv BIGINT ) WITH ( 'connector' = 'print', 'print-identifier' = 'out' ); insert into print_sink select * from datagen_source;