使用来自 Kafka 的数据

Kafka 使用者订阅一个或多个由 Kafka 群集管理的主题。每个主题都是一个数据流,一个表示为有序消息序列的无界数据集。Vertica 可以手动或自动使用 Kafka 主题对您的流式传输数据进行分析。

手动使用数据

通过调用 KafkaSource 函数和解析器的 COPY 语句手动使用来自 Kafka 的数据。当您希望执行以下操作时,手动加载会非常有帮助:

  • 使用 Kafka 中当前存在的消息填充表一次。

  • 分析一组特定的消息。可以选择从 Kafka 流中加载的数据子集。

  • 在把调度程序设置为连续将数据流式传输到 Vertica 之前,探索 Kafka 流中的数据。

  • 以调度程序无法实现的方式控制数据加载。例如,在从 Kafka 加载数据期间无法执行业务逻辑或自定义拒绝处理,因为调度程序在其事务期间不支持其他处理。相反,可以定期运行一个事务来执行用来从 Kafka 加载数据的 COPY 语句,然后执行其他处理。

有关详细示例,请参阅 手动使用来自 Kafka 的数据

自动使用数据

通过调度程序(一个在数据到达时加载数据的命令行工具)自动使用从 Kafka 到 Vertica 的流式传输数据。调度程序以微批处理(一个工作单元,在指定的持续时间内处理单个 Kafka 主题的分区)定义的分段加载数据。可以使用 vkconfig 工具管理调度程序配置和选项。

有关详细信息,请参阅使用调度程序自动使用来自 Kafka 的数据

监控使用情况

必须监控消息使用情况以确保 Kafka 和 Vertica 有效地通信。可以使用本机 Kafka 工具监控使用者组,或者可以使用 vkconfig 工具查看详细使用信息。

有关其他信息,请参阅监控消息使用情况

使用 Kafka 筛选器解析数据

您的数据流可能会对默认情况下无法由 Kafka 解析器函数解析的数据进行编码。使用 Kafka 筛选器来分隔流中的消息,以改善数据使用情况。

有关详细信息,请参阅解析自定义格式