作者:陈剑冬  历史版本:1  更新时间:2024-05-27 17:04

[TOC]

功能简介

该步骤根据指定的字段或字段集合对输入行进行分组。

基本配置

- 步骤名称:指定分组的步骤名称,该名称在同一转换中唯一。 - 包括所有行:如果要在输出中包含所有行,请勾选此框。 如果只想输出聚合行,请清除此框。 - 总返回一个结果行:表示是否即使没有输入记录,也返回结果记录。当没有输入记录时,返回计数为0。如果只想有输入时才输出结果记录,则此参数不勾选。默认值为空。 - 构成分组的字段:表示分组的字段参数。分组的字段可以有多个,使用一个【构成分组的字段】表设置【分组字段】参数,可以设置多个分组子段。需要注意的是,如果没有分组的字段,那么该表留空来计算整个数据集的聚合函数。默认值为空。 - 聚合字段:表示聚合字段的参数,使用一个【聚合】表来设置聚合字段名称、聚合方法和输出结果新字段名称,有关聚合字段的参数说明如下内容所示。 - subject:表示对其使用聚合方法的对象字段,默认值为空。 - 类型:表示聚合方法。在下拉框中选取聚合方法,默认值为空。 - :表示聚合的值,默认值为空。

使用示例

在进行数据统计中,往往要对类别、区域、型号等范围进行统计,分组是对指定的字段或字段集合的数据进行分组统计,Kettle分组组件可以解决这一需求。

需求:现有一张ms_grade表,存着一组学生成绩数据,要求计算出每个班的“语文”平均成绩。

  1. 设计转换

  2. 根据class字段分组,对“Chinese”字段进行聚合,类型为平均

  3. 点击运行,查看输出结果