作者:陈剑冬  历史版本:1  最后编辑:陈剑冬  更新时间:2024-07-24 17:26

概述

元数据采集功能主要负责将分散、异构的信息资源进行统一采集。
采集的主要内容是技术元数据,即数据库、数据表、视图、列属性、数据类型、属性长度、数据约束、索引等。
采集方法包括手动采集自动采集

数据源分类

在采集数据表之前,首先要在【系统管理】-【数据源管理】中创建数据源,数据源分类就自动显示在采集树中。

采集任务

注意:

  • 一个数据源只能建立一条采集任务,且采集任务会显示在相应的数据源下。
  • 当一个数据源已经建立了采集任务,无法再继续创建第二个采集任务。
  • 执行采集任务时,若采集表有修改,不存在的表就采集,已存在的表就更新,其他操作应在元数据维护中进行。

新建任务

  • 选中数据源分类,点击【新增】

  • 填写任务名称、选择采集数据源、设置采集范围、采集周期,点击确定。

    • 任务名称:必填。
    • 采集数据源:要采集的数据源。
    • 采集线程:当采集的数据量过大时,设置多个采集线程能有效地减轻系统压力和提高采集效率,最多设置5个线程。
    • 采集范围:需要采集的数据范围。选择库/schemas后,右侧会展示能采集的表。必须选择一个或者多个表,否则无法保存。
      • 选择库\schemas:一般情况下,单库数据库(如MySQL)只能选择单个库,而拥有多个schema的数据库(如Oracle)则可以选择多个schema的数据表。
      • 选择表\视图:选择表或者视图,支持跨schema采表。
    • 采集周期:设置手动采集或自动化采集。

基本信息

新建完毕后,采集任务会显示在任务列表中,并显示任务的基本信息。

  • 数据源名称:点击后可查看数据源的详情信息。
  • 执行周期:手动执行时此信息显示为空。
  • 采集状态:最后一次任务执行的状态。任务共有三种状态,分别是进行中、完成和失败。
  • 最后执行时间:最后一次执行的时间。

执行任务

  • 新建任务后,点击【立即执行】

  • 点击后,提示“采集任务已启动”,同时采集状态修改为“进行中”。

  • 采集完毕后,需要手动刷新,采集状态才会修改为“完成”或“失败”,同时采集的数据显示在元数据维护中。

执行历史

当采集任务执行失败或需要查看任务的详细执行信息时,点击【执行历史】-【查看日志】。
日志中一般记录行过程日志、读取的文件、运算、发生错误和自定义输出内容等。


编辑任务

编辑任务和新建任务相同,可以修改名称、采集范围和采集周期等。

注意:修改任务后,若采集范围有修改,则不存在的表就采集,已存在的表就更新。例如新建了一个任务,采集了a表和b表,执行后a表和b表已采集成功,再次编辑该任务,此时取消采集a表,增加了c表,执行后,元数据中会同时存在a、b、c三表的数据。