作者:陈剑冬  历史版本:1  最后编辑:陈剑冬  更新时间:2024-07-24 17:26

血缘关系

元数据的血缘关系指的是描述数据之间的关系的元数据信息,通过对元数据的分析和理解,可以了解数据的来源、数据之间的依赖关系,帮助更好地管理和分析数据。

血缘关系的作用如下:

  • 数据追溯:通过血缘关系可以追溯数据的来源和传输路径,确保数据来源的可靠性。
  • 数据质量管理:了解数据血缘关系可能帮助防线数据质量问题和数据异常,提高数据的准确性和一致性。
  • 支持分析与治理:血缘关系可以为数据分析和治理提供支持,例如追踪数据处理过程、评估风险和合规性等。
  • 优化资源:通过了解数据的血缘关系,可以优化数据资产的利用,避免冗余和重复工作。

血缘关系的几个要点

  • 支持跨库关联
  • 支持多字段关联关系
  • 血缘关联是全局联动的,例如:元数据A做了B的血缘关系,点开元数据B时,也会自动展示与元数据A的关联关系。
  • 血缘分析和影响分析分别对应数据的上游和下游,例如:A表的USER_ID关联着的B表的ID,则B表为A表的上游数据;A表为B表的下游数据。

目前配置血缘关系的方法有两种:血缘配置和上传SQL

血缘配置

  1. 选择需要配置血缘的数据源,点击【血缘配置】

  2. 在【选择库表】框中选择需要配置血缘关系的表,点击确定

  3. 手动连接关联键,点击保存。

    字段连线的方法:在字段列表中选中一个字段,此时光标会变成一个连线的样式,点击右键可以取消连线,在连线状态下点击其他表的字段,即可完成连线。

注意事项

  • 同库表使用蓝色,跨库表显示绿色。

  • 展示表信息时,在表头上,如果是当前库就不会显示库名,跨库时才会显示;

  • 有别名的表字段信息会展示表名/字段名(别名)这样的格式

  • 将光标悬浮在【详情】,会展示元数据的详细信息,包括数据源、数据库和数据表名称,以及字段名称。

  • 已连接的线,选中时会显示红色,此时右键点击【删除】或键盘del键就可以删除该条连线。

  • 血缘配置是一个叠加式的过程,点击血缘配置时,是为了增加更多的血缘关系进来,不会覆盖了原本已配置好的关系。

  • 通过放大和缩小按钮,或者鼠标滚轮调整界面大小。

  • 长按拖动表头,即可实现移动元数据。

  • 当前页面发生变动时,如配置、删除连线,就会出现保存和取消按钮。点击取消,会退回到发生变动之前。

上传SQL

通过SQL来配置血缘关系,可以输入sql语句,也可以导入sql文件来解析。

血缘SQL格式支持:

  • insert into table1 (code, name) select id, name from table2

示例:导入sql文件,将语句自动填充到输入框,点击【解析sql】,解析成功后会跳转到血缘配置页面。

sql语句:insert into t_id(sid) select id from t_students


全链分析

全链分析是指以某个元数据为目标节点,其前后与其有关系的所有元数据,其前反应数据的来源,其后反应数据的影响范围。

主要是用来分析指定元数据前后与其有关系的所有元数据,不仅反映了元数据的来源与加工过程,也反映了元数据的使用情况,使用全链分析可清晰地了解该元数据的来龙去脉。

注意事项:

  • 全链分析无法配置,只适用于查看和分析。
  • 全链分析能看到当前元数据的来龙去脉,例如,为数据源配置的血缘关系:A -> B -> C -> D -> E和 B -> D,查看C表的全链分析,只会显示B -> C -> D,而不会显示A -> B 和 B -> D 和 D -> E,因为这与C表无关。

示例如下:
为一个Oracle数据源配置了如下的血缘关系

查看ORC_TEACHER(教师表)的全链分析:

查看ORC_CLASS(班级表)的全链分析:

查看ORC_STUDENTS(学生表)的全链分析: