自定义词干分析器和分词器的要求

有时,您需要的特定分词或词干抽取行为可能与 Vertica 所提供的不同。在这种情况下,您可以实施自己的自定义“用户定义的扩展 (UDx)”,以取代词干分析器或分词器。有关构建自定义 UDx 的详细信息,请参阅开发用户定义的扩展 (UDx)

在 Vertica 中实现自定义词干分析器或分词器之前,请验证 UDx 扩展是否满足以下要求。

Vertica 词干分析器要求

创建自定义词干分析器时,应遵循以下要求:

  • 必须是用户定义的标量函数 (UDSF) 或 SQL 函数

  • 可使用 C++、Java 或 R 编写

  • 波动性设置为稳定或不可变

支持的数据输入类型

  • Varchar

  • Long varchar

支持的数据输出类型

  • Varchar

  • Long varchar

Vertica 分词器要求

若要创建自定义分词器,请遵循以下要求:

  • 必须是用户定义的转换函数 (UDTF)

  • 可使用 C++、Java 或 R 编写

  • 输入类型必须与输入文本的类型相匹配

支持的数据输入类型

  • Char

  • Varchar

  • Long varchar

  • Varbinary

  • Long varbinary

支持的数据输出类型

  • Varchar

  • Long varchar