监控导出

您可以查看有关导出的信息,包括行组数、文件大小和文件名。

导出语句为 UDx。UDX_EVENTS 系统表会记录在 UDx 执行期间记录的事件,包括时间戳、节点名称和会话 ID。此表包含一列 (RAW),其中含有单个 UDx 记录的任何其他数据的 VMap。导出语句会在此表中记录有关已导出文件的详细信息。虽然可以直接使用此表并实体化 VMap 列中的值,但您可能更愿意定义用于简化访问的视图。

以下语句定义的视图将仅显示 EXPORT TO PARQUET 中的事件,从而实体化 VMap 值。

=> CREATE VIEW parquet_export_events AS
   SELECT
    report_time,
    node_name,
    session_id,
    user_id,
    user_name,
    transaction_id,
    statement_id,
    request_id,
    udx_name,
    file,
    created,
    closed,
    rows,
    row_groups,
    size_mb
   FROM
    v_monitor.udx_events
   WHERE
    udx_name ilike 'ParquetExport%';

导出程序将报告以下特定于 UDx 的列:

以下示例显示了单次导出的结果。

=> SELECT file,rows,row_groups,size_mb FROM PARQUET_EXPORT_EVENTS;
                                  file                                 | rows  | row_groups | size_mb
-----------------------------------------------------------------------+-------+------------+----------
 /data/outgZxN3irt/450c4213-v_vmart_node0001-139770732459776-0.parquet | 29696 | 1          | 0.667203
 /data/outgZxN3irt/9df1c797-v_vmart_node0001-139770860660480-0.parquet | 29364 | 1          | 0.660922
(2 rows)

在此表中,输出目录名称 (/data/out) 后面附加了生成的字符串 (gZxN3irt)。要多次导出到 HDFS 或本地文件系统(包括 NFS),EXPORT TO PARQUET 会先将数据写入临时目录,然后在操作结束时对其重命名。系统会在导出期间记录事件,因此显示临时名称。某些输出目标(例如 AWS S3)不支持重命名操作,因此在这些情况下,此表不会显示生成的名称。