数据流式传输集成术语

Vertica 使用以下术语来描述其流式传输功能。这些是通用术语,可能与每个特定流式传输平台的术语不同。

术语

主机
数据流式传输服务器。
通用类别的消息源,可将消息流式传输到相同的 Vertica 目标表。在 Apache Kafka 中,源称为主题。
分区
数据流式传输中的并行度单位。数据流式传输将源分为多个分区,这些分区可供使用者(例如 Vertica 数据库)并行使用。在一个分区内,消息通常按时间顺序排列。
偏移量
分区内的索引。此索引是指有序消息队列中的位置,而不是不透明字节流中的索引。
消息
数据流式传输中的数据单位。数据通常为 JSON 或 Avro 格式。消息会作为行加载到 Vertica 表中,并通过其源、分区和偏移量进行唯一标识。

数据加载程序术语

调度程序
一种外部工具,用于对将数据从流式数据传输源加载到 Vertica 进行调度。
微批处理
微批处理表示从流式数据传输源加载的数据的单个片段。它包含调度程序在执行从流式数据传输源到 Vertica 的加载时所需的所有信息。
时间范围
调度程序执行微批处理以加载数据的时间窗口。此窗口控制调度程序作为微批处理一部分运行每个 COPY 语句的持续时间。在该时间范围,调度程序为来自每个源的活动微批处理提供加载数据的机会。它根据先前微批处理的历史记录优先考虑需要更多时间来加载数据的微批处理。
由源和分区标识的消息源。

偏移量可唯一标识特定源-分区流内的位置。

通道
作业调度程序实例中的一个线程,用来发布微批处理来执行加载操作。

可用通道数基于作业调度程序资源池的 PlannedConcurrency。多通道允许调度程序在某个时间范围内为不同的源并行运行微型批处理。