Apache Hadoop 集成

与 Vertica 一样,Apache™ Hadoop™ 使用一个节点群集进行分布式处理。最让人感兴趣的主要组件是 HDFS,也就是 Hadoop 分布式文件系统。

您可以通过多种方式将 Vertica 与 HDFS 结合使用:

  • 您可以将 HDFS 数据导入到本地存储的 ROS 文件中。

  • 您可以使用外部表访问相应位置的 HDFS 数据。您可以自己定义表或从 Hadoop 组件 Hive 获取架构信息。

  • 您可以将 HDFS 用作 ROS 文件的存储位置。

  • 您可以从 Vertica 导出数据,与其他使用 Hadoop 列式格式的 Hadoop 组件共享。有关详细信息,请参阅文件导出

Hadoop 文件路径在 webhdfshdfs URL 方案中表示为 URL。有关使用这些方案的详细信息,请参阅HDFS 文件系统

Hadoop 发行版

Vertica 可与 Hortonworks、Cloudera 和 MapR 推出的 Hadoop 发行版配合使用。请参阅Hadoop 集成了解受支持的特定版本。

如果您使用 Cloudera,则可以使用 Cloudera Manager 管理您的 Vertica 群集。请参阅与 Cloudera Manager 集成

如果您使用的是 MapR,请参阅集成 Vertica 与 Hadoop 的 MapR 发行版

WebHDFS 要求

默认情况下,如果您在 hdfs 方案中使用 URL,Vertica 会将其视为 webhdfs。如果您改用(已弃用的)LibHDFS++ 库,您必须仍然有可用的 WebHDFS 服务。LibHDFS++ 不支持某些 WebHDFS 功能,例如加密区域、线路加密或写入,并在需要时回退到 WebHDFS。

对于某些用途(例如 Eon 模式公共存储),您必须直接使用带有 webhdfs 方案的 WebHDFS。