自定义词干分析器和分词器的要求
有时,您需要的特定分词或词干抽取行为可能与 Vertica 所提供的不同。在这种情况下,您可以实施自己的自定义“用户定义的扩展 (UDx)”,以取代词干分析器或分词器。有关构建自定义 UDx 的详细信息,请参阅开发用户定义的扩展 (UDx)。
在 Vertica 中实现自定义词干分析器或分词器之前,请验证 UDx 扩展是否满足以下要求。
注意
自定义分词器可以返回多列文本索引。Vertica 词干分析器要求
创建自定义词干分析器时,应遵循以下要求:
-
必须是用户定义的标量函数 (UDSF) 或 SQL 函数
-
可使用 C++、Java 或 R 编写
-
波动性设置为稳定或不可变
支持的数据输入类型:
-
Varchar
-
Long varchar
支持的数据输出类型:
-
Varchar
-
Long varchar
Vertica 分词器要求
若要创建自定义分词器,请遵循以下要求:
-
必须是用户定义的转换函数 (UDTF)
-
可使用 C++、Java 或 R 编写
-
输入类型必须与输入文本的类型相匹配
支持的数据输入类型:
-
Char
-
Varchar
-
Long varchar
-
Varbinary
-
Long varbinary
支持的数据输出类型:
-
Varchar
-
Long varchar