表的屏幕截图,其列显示年份 (2020)、国家/地区(美国、巴拿马或加拿大)、产品(衬衫或短裤)、销售渠道(在线或经销商)和单位(从 55 到 7500 的各种值)
分组依据
按钮位于三个位置:
在
主页
选项卡上的
转换
组中。
在“
转换
”选项卡上的“
表
”组中。
在快捷键菜单上,单击鼠标右键以选择列时。
详细信息预览窗格可能不会显示分组依据操作所使用的所有行。 可以选择 [表] 值,查看与对应分组依据操作相关的所有行。
接下来,需要提取在 column of the tables inside the 新
产品
列内表的
单位
列中具有最大值的行,并调用该新列
表现最佳产品
。
使用具有 [表] 值的新
产品
列,可以通过转到功能区上的
添加列
选项卡,并选择
常规
组中的
自定义列
来创建新的自定义列。
将新列命名为
表现最佳产品
。 在
自定义列公式
下输入公式
Table.Max([Products], "Units" )
。
该公式的结果将创建一个具有 [Record] 值的新列。 这些记录值本质上是一个只有一行的表。 这些记录包含具有
产品
列中每个 [表] 值的
单位
列的最大值的行。
使用此包含 [Record] 值的新
表现最佳产品t
列,可以选择
展开图标,选择
产品
和
单位
字段,然后选择
确定
。
删除“
产品
”列并为两个新展开的列设置数据类型后,结果将类似于下图。
以下功能仅在 Power Query Online 中可用。
为了演示如何执行“模糊分组”,请考虑下图所示的示例表。
模糊分组的目标是对文本字符串使用近似匹配算法执行分组依据操作。 Power Query 使用 Jaccard 相似性算法来度量实例对之间的相似性。 然后,它应用聚合分层聚类分析将实例分组在一起。 下图显示了预期的输出,其中表将按“
人员
”列进行分组。
若要执行模糊分组,请执行本文前面所述的相同步骤。 唯一的区别在于,这次在
分组依据
对话框中,选择
使用模糊分组
复选框。
对于每组行,Power Query 将选取最频繁的实例作为“规范”实例。 如果多个实例出现的频率相同,Power Query 将选取第一个实例。 在
分组依据
对话框中选择
确定
后,将获得预期的结果。
但是,通过展开
模糊分组选项
,可以更好地控制模糊分组操作。
以下选项可用于模糊分组:
相似性阈值(可选)
:此选项指示必须将两个值组合在一起的方式。 最小设置零 (0) 将导致将所有值分组在一起。 最大设置 1 仅允许将完全匹配的值分组在一起。 默认值为 0.8。
忽略大小写
:比较文本字符串时,忽略大小写。 默认情况下该选项处于启用状态。
通过组合文本部分进行分组
:该算法将尝试合并文本部分(如将
Micro
和
soft
合并为
Microsoft
)来对值进行分组。
显示相似性分数
:显示模糊分组后输入值与计算出的代表值之间的相似性分数。 需要添加操作(如
所有行
)以逐行显示该信息。
转换表(可选)
:可以选择一个转换表,该转换表将映射值(如将
MSFT
映射到
Microsoft
)以将它们分组在一起。
对于本示例,使用转换表来演示如何映射值。 转换表有两列:
来源
:要在表中查找的文本字符串。
目标
:用于替换
来源
列中的文本字符串。
下图显示本示例中使用的转换表。
重要的是,转换表具有与前一张图中所示相同的列和列名(它们必须标记为“来源”和“目标”)。 否则,Power Query 不会将该表识别为转换表。
返回到
分组依据
对话框,展开
模糊分组选项
,将操作从
统计行数
更改为
所有行
,启用
显示相似性分数
选项,然后选择
转换表
下拉菜单。
选择转换表后,选择
确定
。 该操作的结果提供以下信息:
在本示例中,已启用
忽略大小写
选项,因此
转换表
的
来源
列的值用于查找文本字符串,而不考虑字符串大小写。 首先进行此转换操作,然后进行模糊分组操作。
相似性分数也显示在人员列旁边的表值中,准确地反映了这些值的分组方式及其各自的相似性分数。 如果需要,可以展开此列,或者将新“频率”列中的值用于其他类型的转换。
按多列分组时,如果替换值会增加相似性分数,则转换表将对所有列执行替换操作。
有关转换表工作原理的详细信息,请转到
转换表规则
。
添加自定义列
删除重复项