NORMALIZE
对输入关系运行标准化算法。输出是具有标准化数据的视图。
注意
注意: 此函数与 NORMALIZE_FIT 不同,后者用于创建和存储模型,而不是创建视图定义。这可能会导致两个函数的性能特征不同。这是元函数。您必须在顶级 SELECT 语句中调用元函数。
行为类型
易变语法
NORMALIZE ( 'output‑view', 'input‑relation', 'input‑columns', 'normalization‑method'
[ USING PARAMETERS exclude_columns = 'excluded‑columns' ] )
参数
- output‑view
- 显示输入关系的视图的名称,其中标准化数据替换了指定的输入列。 .
- input‑relation
- 包含需要标准化的数据的表或视图。 如果输入关系在 Hive 中定义,请使用
SYNC_WITH_HCATALOG_SCHEMA
以同步hcatalog
架构,然后运行机器学习功能。 - input‑columns
- 数字输入列的逗号分隔列表,其中包含要标准化的值,或用于选择所有列的星号 (*)。
- normalization‑method
- 要使用的标准化方法,为以下之一:
-
minmax
-
zscore
-
robust_zscore
如果表中出现无穷大值,该方法将自动忽略这些值。
-
参数
exclude_columns
input-columns 中要排除在处理范围之外的列名的逗号分隔列表。
特权
非超级用户:
-
对输入关系的 SELECT 权限
-
输出视图架构的 CREATE 权限
示例
这些示例显示了如何在 mtcars 表的 wt
和 hp
列上使用 NORMALIZE 函数。
执行 NORMALIZE 函数,并指定 minmax
方法:
=> SELECT NORMALIZE('mtcars_norm', 'mtcars',
'wt, hp', 'minmax');
NORMALIZE
--------------------------
Finished in 1 iteration
(1 row)
执行 NORMALIZE 函数,并指定 zscore
方法:
=> SELECT NORMALIZE('mtcars_normz','mtcars',
'wt, hp', 'zscore');
NORMALIZE
--------------------------
Finished in 1 iteration
(1 row)
执行 NORMALIZE 函数,并指定 robust_zscore
方法:
=> SELECT NORMALIZE('mtcars_normz', 'mtcars',
'wt, hp', 'robust_zscore');
NORMALIZE
--------------------------
Finished in 1 iteration
(1 row)