Apache Hadoop 集成
与 Vertica 一样,Apache™ Hadoop™ 使用一个节点群集进行分布式处理。最让人感兴趣的主要组件是 HDFS,也就是 Hadoop 分布式文件系统。
您可以通过多种方式将 Vertica 与 HDFS 结合使用:
-
您可以将 HDFS 数据导入到本地存储的 ROS 文件中。
-
您可以使用外部表访问相应位置的 HDFS 数据。您可以自己定义表或从 Hadoop 组件 Hive 获取架构信息。
-
您可以将 HDFS 用作 ROS 文件的存储位置。
-
您可以从 Vertica 导出数据,与其他使用 Hadoop 列式格式的 Hadoop 组件共享。有关详细信息,请参阅文件导出。
Hadoop 文件路径在 webhdfs
或 hdfs
URL 方案中表示为 URL。有关使用这些方案的详细信息,请参阅HDFS 文件系统。
Hadoop 发行版
Vertica 可与 Hortonworks、Cloudera 和 MapR 推出的 Hadoop 发行版配合使用。请参阅Hadoop 集成了解受支持的特定版本。
如果您使用 Cloudera,则可以使用 Cloudera Manager 管理您的 Vertica 群集。请参阅与 Cloudera Manager 集成。
如果您使用的是 MapR,请参阅集成 Vertica 与 Hadoop 的 MapR 发行版。
WebHDFS 要求
默认情况下,如果您在 hdfs
方案中使用 URL,Vertica 会将其视为 webhdfs
。如果您改用(已弃用的)LibHDFS++ 库,您必须仍然有可用的 WebHDFS 服务。LibHDFS++ 不支持某些 WebHDFS 功能,例如加密区域、线路加密或写入,并在需要时回退到 WebHDFS。
对于某些用途(例如 Eon 模式公共存储),您必须直接使用带有 webhdfs
方案的 WebHDFS。