如何使用模糊分组转换标识相似数据行

若要添加和配置模糊分组转换,包必须已包含至少一个数据流任务和一个源。

在数据流中实现模糊分组转换

  1. 在 Business Intelligence Development Studio 中,打开包含所需包的 Integration Services 项目。

  2. 在解决方案资源管理器中,双击该包将其打开。

  3. 单击**“数据流”选项卡,然后从“工具箱”**中将模糊分组转换拖动到设计图面。

  4. 将连接线(绿色或红色箭头)从数据源或前一个转换拖动到模糊分组转换,从而将模糊分组转换连接到数据流。

  5. 双击模糊分组转换。

  6. 在**“模糊分组转换编辑器”对话框中的“连接管理器”**选项卡上,选择连接到 SQL Server 数据库的 OLE DB 连接管理器。

    注意注意

    转换要求连接到 SQL Server 数据库,以创建临时表和索引。

  7. 单击**“列”选项卡,在“可用输入列”**列表中,选中要使用的输入列的复选框,以标识数据集中的相似行。

  8. 选中**“传递”**列中的复选框,以标识要传递到转换输出的输入列。在重复行的标识过程中不包含传递列。

    注意注意

    用于分组的输入列自动被选为传递列,所以当用于分组时无法取消选择这些输入列。

  9. 还可以更新**“输出别名”**列中的输出列名称。

  10. 还可以更新**“组输出别名”**中清除的列的名称。

    注意注意

    列的默认名称为输入列名称加“_clean”后缀。

  11. 还可以更新**“匹配类型”**列中所使用的匹配类型。

    注意注意

    至少有一列必须使用模糊匹配。

  12. 指定**“最低相似性”**列中的最低相似性级别列。该值必须介于 0 和 1 之间。值越接近 1,则输入列中的值必然越接近于组成一组。最低相似性为 1,则指示完全匹配。

  13. 还可以更新**“相似性输出别名”**列中的相似性列的名称。

  14. 指定数据值中数字的处理方式,更新**“数字”**列中的值。

  15. 若要指定转换如何比较列中的字符串数据,请修改**“比较标志”**列中比较选项的默认选择。

  16. 单击**“高级”**选项卡,修改该转换为唯一行标识符 (_key_in)、重复行标识符 (_key_out) 和相似性值 (_score) 添加到输出的列的名称。

  17. 还可以通过移动滑块来调节相似性阈值。

  18. 还可以清除标记分隔符复选框以忽略数据中的分隔符。

  19. 单击**“确定”**。

  20. 若要保存更新后的包,请单击**“文件”菜单上的“保存选定项”**。