监控导出
您可以查看有关导出的信息,包括行组数、文件大小和文件名。
导出语句为 UDx。UDX_EVENTS 系统表会记录在 UDx 执行期间记录的事件,包括时间戳、节点名称和会话 ID。此表包含一列 (RAW),其中含有单个 UDx 记录的任何其他数据的 VMap。导出语句会在此表中记录有关已导出文件的详细信息。虽然可以直接使用此表并实体化 VMap 列中的值,但您可能更愿意定义用于简化访问的视图。
以下语句定义的视图将仅显示 EXPORT TO PARQUET
中的事件,从而实体化 VMap 值。
=> CREATE VIEW parquet_export_events AS
SELECT
report_time,
node_name,
session_id,
user_id,
user_name,
transaction_id,
statement_id,
request_id,
udx_name,
file,
created,
closed,
rows,
row_groups,
size_mb
FROM
v_monitor.udx_events
WHERE
udx_name ilike 'ParquetExport%';
导出程序将报告以下特定于 UDx 的列:
以下示例显示了单次导出的结果。
=> SELECT file,rows,row_groups,size_mb FROM PARQUET_EXPORT_EVENTS;
file | rows | row_groups | size_mb
-----------------------------------------------------------------------+-------+------------+----------
/data/outgZxN3irt/450c4213-v_vmart_node0001-139770732459776-0.parquet | 29696 | 1 | 0.667203
/data/outgZxN3irt/9df1c797-v_vmart_node0001-139770860660480-0.parquet | 29364 | 1 | 0.660922
(2 rows)
在此表中,输出目录名称 (/data/out) 后面附加了生成的字符串 (gZxN3irt)。要多次导出到 HDFS 或本地文件系统(包括 NFS),EXPORT TO PARQUET 会先将数据写入临时目录,然后在操作结束时对其重命名。系统会在导出期间记录事件,因此显示临时名称。某些输出目标(例如 AWS S3)不支持重命名操作,因此在这些情况下,此表不会显示生成的名称。