这是本节的多页打印视图。 点击此处打印.

返回本页常规视图.

使用 MC 从 Amazon S3 加载数据

您可以使用管理控制台中的“数据加载活动 (Data Load Activity)”页面,将数据从 Amazon S3 存储导入到现有 Vertica 表。当您运行加载作业时,Vertica 将行附加到您提供的目标表中。如果作业失败,或者您取消了作业,Vertica 则不会向目标表提交任何行。

在“实例 (Instance)”选项卡上查看加载历史记录时,使用 Amazon S3 在 MC 中启动的加载作业在“流名称 (Stream Name)”列中具有名称 MC_S3_Load。

先决条件

要使用 MC 加载功能,您必须:

  • 能够访问 Amazon S3 存储帐户。

  • 在 Vertica 数据库中具有可用来将数据复制到的现有表。您必须是此表的所有者。

  • (对于非 CloudFormation 模板安装)具有 S3 网关端点。

如果您不使用 CloudFormation 模板 (CFT) 来安装 Vertica,则必须在 VPC 中创建一个 S3 网关终端节点。有关详细信息,请参阅 AWS 文档

例如,Vertica CFT 具有以下 VPC 终端节点:

"S3Enpoint" : {
    "Type" : "AWS::EC2::VPCEndpoint",
    "Properties" : {
    "PolicyDocument" : {
        "Version":"2012-10-17",
        "Statement":[{
        "Effect":"Allow",
        "Principal": "*",
        "Action":["*"],
        "Resource":["*"]
        }]
    },
    "RouteTableIds" : [ {"Ref" : "RouteTable"} ],
    "ServiceName" : { "Fn::Join": [ "", [ "com.amazonaws.", { "Ref": "AWS::Region" }, ".s3" ] ] },
    "VpcId" : {"Ref" : "VPC"}
}

创建加载作业

将数据从 Amazon S3 存储桶加载到目标数据库的现有表:

  1. 在目标数据库 MC 仪表板上,单击页面底部的“加载 (Load)”选项卡查看“数据加载活动 (Data Load Activity)”页面。

  2. 单击“实例 (Instance)”选项卡。

  3. 单击选项卡右上方的“新建 S3 数据加载 (New S3 Data Load)”。此时将打开“创建新的 Amazon S3 加载作业 (Create New Amazon S3 Loading Job)”对话框。

  4. 在带有星号 (*) 的必填字段中输入您的 AWS 帐户凭据以及目标位置信息。对存储桶名称使用 S3:// 格式。

  5. (可选)通过填写以下字段指定其他选项:

    • COPY 参数 (COPY Parameters)

    • 将遭到拒绝的数据捕获到表中

    • 拒绝的最大数量 (Reject max)

    有关使用这些字段的更多信息,请参阅关于通过 S3 配置数据加载

取消已启动的加载作业

如果加载作业正在进行,您可以使用“加载历史记录 (Load History)”选项卡的“取消 (Cancel)”列中的“取消 (Cancel)”选项进行取消。单击“取消 (Cancel)”取消加载作业。取消作业时,Vertica 会回退所有行,而且不会向目标表提交任何数据。

另请参阅

1 - 关于通过 S3 配置数据加载

使用 MC 创建 S3 数据加载时,您可以选择进一步配置加载操作。您可以指定以下事项:

添加 COPY 参数

MC 使用 COPY 执行加载操作。您可以使用“COPY 参数 (COPY Parameters)”字段进一步配置 COPY 操作。此字段接受在 COPY 语句的 FROM 子句之后指定的参数。有关这些参数和特殊要求的详细信息,请参阅参数

例如,可以指定 DELIMITER 和 SKIP 参数以分别使用逗号分隔列和跳过一条输入数据记录:

DELIMITER ',' SKIP 1

还可以在此字段中使用标准 C 注释符号添加注释。

将遭到拒绝的数据捕获到表中

将遭到拒绝的数据捕获到表中 (Capture rejected data in a table) 设置为“是 (Yes)”以创建包含被拒绝行数据的表。可以在“加载历史记录 (Load History)”选项卡中查看此数据。

该表使用以下命名约定:

schema.s3_load_rejections_target-table-name

如果该表不存在,您必须对架构具有 CREATE 权限。当为同一个目标表调用多个加载进程时,MC 会将所有拒绝数据附加到同一个表。有关详细信息,请参阅将拒绝的数据保存到表中

设置拒绝记录的最大数量

拒绝的最大数量 (Reject max) 设置为在加载操作失败之前可以拒绝的最大行数。如果 COPY 拒绝指定的最大行数,Vertica 将回滚整个加载操作。

另请参阅

2 - 查看加载历史记录

可以在“数据加载活动 (Data Load Activity)”页面上查看 Vertica 中所有连续和实例加载作业的历史记录。

  • 连续作业: 连续监控源并从源流式传输数据的加载作业。

  • 实例作业: 从源进行批量加载的加载作业。与连续加载相比,实例作业的长度固定且需要的时间更短。

查看连续加载

“数据加载活动 (Data Load Activity)”页面上的“连续 (Continuous)”选项卡显示数据库连续加载作业的历史记录。例如,可以查看通过与 Kafka 集成的 Vertica 创建的加载作业(请参阅 Apache Kafka 集成)。此外,如果启用 MC 扩展监控功能,“连续 (Continuous)”选项卡会显示将数据从受监控数据库流式传输到存储数据库的连续作业。(有关 MC 如何使用 Kafka 从外部监控数据库的详细信息,请参阅扩展监控。)

使用“连续 (Continuous)”选项卡查看有关连续作业的详细信息,例如它们的源、目标表和其他微批处理配置详细信息。

如果已启用扩展监控,则流式传输到 MC 存储数据库的作业会将 mc_dc_kafka_config 显示为调度程序名称。取消选择选项卡顶部的显示 MC 数据收集器监控流 (Show MC data collector monitoring streams) 以从显示中移除这些作业。

在“连续 (Continuous)”选项卡中,单击调度程序 (Scheduler)微批处理 (Microbatch)最后一小时的错误 (Errors Last Hour) 中的标签以查看有关这些加载作业的更多详细信息。

有关连续数据流式传输术语的详细信息,请参阅数据流式传输集成术语

查看加载实例

在“实例 (Instance)”选项卡中,可以查看数据库一次性加载作业的历史记录。例如,可以查看您在 vsql 中使用 COPY 命令创建的实例作业(请参阅 COPY),或者在 MC 中创建的用于从 Amazon S3 存储桶中复制数据的实例作业。(有关在 MC 中启动加载作业的详细信息,请参阅使用 MC 从 Amazon S3 加载数据。)

在“实例 (Instance)”选项卡中,单击“状态 (Status)”列和“已拒绝的行 (Rejected Rows)”列中的标签以查看有关已完成作业的更多详细信息。有关已拒绝行的详细信息,请参阅处理杂乱的数据

“实例 (Instance)”选项卡上的加载历史记录结果数取决于发出的请求和完成的请求的数据收集器保留策略。要更改保留政策,请参阅配置数据保留策略

另请参阅