作者:陈剑冬 历史版本:1 最后编辑:陈剑冬 更新时间:2024-11-14 10:57
概述
元数据采集功能主要负责将分散、异构的信息资源进行统一采集。
采集的主要内容是技术元数据,即数据库、数据表、视图、列属性、数据类型、属性长度、数据约束、索引等。
采集方法包括手动采集和自动采集。
数据源分类
在采集数据表之前,首先要在【系统管理】-【数据源管理】中创建数据源,数据源分类就自动显示在采集树中。
采集任务
注意:
- 一个数据源只能建立一条采集任务,且采集任务会显示在相应的数据源下。
- 当一个数据源已经建立了采集任务,无法再继续创建第二个采集任务。
- 执行采集任务时,若采集表有修改,不存在的表就采集,已存在的表就更新,其他操作应在元数据维护中进行。
新建任务
选中数据源分类,点击【新增】
填写任务名称、选择采集数据源、设置采集范围、采集周期,点击确定。
- 任务名称:必填。
- 采集数据源:要采集的数据源。
- 采集线程:当采集的数据量过大时,设置多个采集线程能有效地减轻系统压力和提高采集效率,最多设置5个线程。
- 采集范围:需要采集的数据范围。选择库/schemas后,右侧会展示能采集的表。必须选择一个或者多个表,否则无法保存。
- 选择库\schemas:一般情况下,单库数据库(如MySQL)只能选择单个库,而拥有多个schema的数据库(如Oracle)则可以选择多个schema的数据表。
- 选择表\视图:选择表或者视图,支持跨schema采表。
- 采集周期:设置手动采集或自动化采集。
基本信息
新建完毕后,采集任务会显示在任务列表中,并显示任务的基本信息。
- 数据源名称:点击后可查看数据源的详情信息。
- 执行周期:手动执行时此信息显示为空。
- 采集状态:最后一次任务执行的状态。任务共有三种状态,分别是进行中、完成和失败。
- 最后执行时间:最后一次执行的时间。
执行任务
新建任务后,点击【立即执行】
点击后,提示“采集任务已启动”,同时采集状态修改为“进行中”。
采集完毕后,需要手动刷新,采集状态才会修改为“完成”或“失败”,同时采集的数据显示在元数据维护中。
执行历史
当采集任务执行失败或需要查看任务的详细执行信息时,点击【执行历史】-【查看日志】。
日志中一般记录行过程日志、读取的文件、运算、发生错误和自定义输出内容等。
编辑任务
编辑任务和新建任务相同,可以修改名称、采集范围和采集周期等。
注意:修改任务后,若采集范围有修改,则不存在的表就采集,已存在的表就更新。例如新建了一个任务,采集了a表和b表,执行后a表和b表已采集成功,再次编辑该任务,此时取消采集a表,增加了c表,执行后,元数据中会同时存在a、b、c三表的数据。