IMPUTE
根据每列中变量的观察值,使用平均值或众数估算数据集中的缺失值。此函数支持数字和分类数据类型。
这是元函数。您必须在顶级 SELECT 语句中调用元函数。
行为类型
易变语法
IMPUTE( 'output‑view', 'input‑relation', 'input‑columns', 'method'
[ USING PARAMETERS [exclude_columns = 'excluded‑columns'] [, partition_columns = 'partition‑columns'] ] )
这是元函数。您必须在顶级 SELECT 语句中调用元函数。
行为类型
易变参数
- output‑view
- 显示输入表的视图的名称,其中包含估算值而不是缺失值。在此视图中,不含缺失值的行保持不变,而含缺失值的行则根据指定方法进行修改。
- input‑relation
- 包含缺失值插补数据的表或视图。 如果输入关系在 Hive 中定义,请使用
SYNC_WITH_HCATALOG_SCHEMA
以同步hcatalog
架构,然后运行机器学习功能。 - input‑columns
- 将替换缺失值的输入列的逗号分隔列表,或使用星号 (*) 指定所有列。所有列的类型必须为数字或布尔值。
- method
- 计算缺失值替换的方法,为以下之一:
-
mean
:每列中的缺失值将替换为该列的平均值。此方法仅适用于数字数据。 -
mode
:每列中的缺失值将替换为该列中出现频率最高的值。此方法仅适用于分类数据。
-
参数
exclude_columns
input-columns 中要排除在处理范围之外的列名的逗号分隔列表。
partition_columns
- 定义分区的输入关系中的列名的逗号分隔列表。
特权
非超级用户:
-
对输入关系的 SELECT 权限
-
输出视图架构的 CREATE 权限
示例
在 small_input_impute
表上执行 IMPUTE
,指定平均值方法:
=> SELECT impute('output_view','small_input_impute', 'pid, x1,x2,x3,x4','mean'
USING PARAMETERS exclude_columns='pid');
impute
--------------------------
Finished in 1 iteration
(1 row)
执行IMPUTE
,指定模式方法:
=> SELECT impute('output_view3','small_input_impute', 'pid, x5,x6','mode' USING PARAMETERS exclude_columns='pid');
impute
--------------------------
Finished in 1 iteration
(1 row)