HCatalog 连接器工作原理

规划访问 Hive 表中数据的查询时,启动程序节点上的 Vertica HCatalog 连接器将联系 Hadoop 群集中的 HiveServer2(或 WebHCat),以确定该表是否存在。如果该表存在,连接器将从元存储数据库检索该表的元数据,以便查询规划可以继续。查询执行时,Vertica 群集中的所有节点直接从 HDFS 检索完成查询所必需的数据。然后,它们使用 Hive SerDe 类提取数据,以便查询可以执行。访问 ORC 或 Parquet 格式的数据时,HCatalog 连接器使用 Vertica 的内部读取器(而不是 Hive SerDe 类)来处理这些格式。

这种方法利用了 Vertica 和 Hadoop 的并行性。此外,HCatalog 连接器还通过直接执行数据检索和提取,降低了查询对 Hadoop 群集的影响。

对于采用 Optimized Columnar Row (ORC) 或 Parquet 格式且不使用复杂类型的文件,HCatalog 连接器将创建外部表并使用 ORC 或 Parquet 读取器,而不是使用 Java SerDe。如果 Hive 在写入数据时使用自定义 Hive 分区位置,您可以指示这些读取器访问该位置。默认情况下,系统会关闭这些额外的检查以提高性能。