作者:陈剑冬  历史版本:1  最后编辑:陈剑冬  更新时间:2024-05-27 17:04

功能简介

该步骤去除指定字段中的重复数据,仅保留唯一一条流入后续节点。
去除重复记录的前提是需要将数据流中的数据进行排序,排序字段和去重字段应保持一致。

实现逻辑

去除重复记录步骤将需要比较的字段作为比较值来比较是否重复。如果我们按数据库的角度去理解,其实就是联合主键,需保证联合主键的唯一性。

基本配置

  • 步骤名称:指定去除重复记录的步骤名称,该名称在同一转换中唯一。
  • 增加计数器到输出:勾选后,可将计数器字段添加到输出流。
  • 重定向重复记录:勾选后可将重复行作为错误处理,并且将它们重定向到步骤的错误流。如果未选择此选项,则 重复的行将被删除。(暂未实现)
  • 字段名称:指定要查找其唯一值的字段名称。
  • 忽略大小写:选择是否忽略大小写。

使用示例

需求:现有一张test_fz表,要求去除其中的重复记录,并输出到另一张表中。

  1. 设计转换,将去除重复记录后的数据输出到另一张表中。

  2. 去除重复记录设置,由于表中没有唯一字段,因此需要增加两个字段构成唯一字段。

  3. 点击运行,查看输出