Filtrado de registros duplicados

La manera más sencilla de eliminar registros duplicados es agregar a su flujo de datos una etapa Filter luego de una etapa de cruce. La etapa Filter elimina registros de colecciones de registros duplicados basándose en los ajustes que haya especificado.

  1. En Enterprise Designer, cree un flujo de datos que identifique los registros duplicados mediante comparación.

    El cruce es el primer paso en la desduplicación, ya que se necesita identificar registros que son similares, como por ejemplo registros que tienen el mismo número de cuenta o nombre. Consulte las siguientes secciones para obtener instrucciones acerca de la creación de flujo de datos que realicen cruce de registros.

    Nota: Solo necesita generar el flujo de datos en el punto donde lee datos y realiza el cruce con una etapa Interflow Match, Intraflow Match o Transactional Match. Cuando haya creado el flujo de datos hasta este punto, siga adelante con los pasos siguientes.
  2. Cuando haya definido un flujo de datos que lea datos y cruce registros, arrastre hacia el lienzo una etapa Filter y conéctela a la etapa que realiza el cruce (Interflow Match, Intraflow Match o Transactional Match).

    Por ejemplo, si su flujo de datos lee datos de un archivo y realiza cruces con Intraflow Match, tendría el siguiente aspecto luego de añadir una etapa Filter:

  3. Haga doble clic en el lienzo en la etapa Filter.
  4. En el campo Agrupar por, seleccione CollectionNumber.
  5. Deje seleccionada la opción Limitar la cantidad de registros duplicados obtenidos y defina el valor en 1. Esta es la configuración predeterminada.
  6. Decida si desea conservar el primer registro de cada colección, o si desea definir una regla para decidir cuál registro se mantendrá de cada una de las colecciones. Si desea conservar el primer registro de cada colección, omita este paso. Si desea definir una regla, en el árbol de regla, seleccione Reglas y luego siga los pasos siguientes:
    1. Haga clic en Agregar regla.

      Los registros de cada grupo son evaluados para ver si cumplen con las reglas que defina aquí. Si un registro cumple una regla, será este el registro sobreviviente y los demás registros del grupo serán descartados.

    2. Defina una regla para identificar el registro que se conservará de cada grupo.

      Use las siguientes opciones para definir una regla:

      Opción Descripción

      Nombre de campo

      Especifica el nombre del campo de flujo de datos cuyo valor desea evaluar, para determinar si se va a filtrar el registro.

      Tipo de campo

      Especifica el tipo de datos del campo. Una de las siguientes:

      No numérico
      Seleccione esta opción si el campo contiene datos no numéricos (por ejemplo, datos de cadena).
      Numérico
      Seleccione esta opción si el campo contiene datos numéricos (por ejemplo, doble, flotante, entre otros).

      Operador

      Especifica el tipo de comparación que desea utilizar en la evaluación del campo. Una de las siguientes:

      Contiene
      Determina si el campo contiene el valor especificado. Por ejemplo, "sailboat" contiene el valor "boat".
      IGUAL
      Determina si el campo contiene el valor exacto especificado.
      Mayor que
      Determina si el valor de campo es mayor que el valor especificado. Esta operación solamente funciona con campos numéricos.
      Mayor o igual que
      Determina si el valor de campo es mayor o igual que el valor especificado. Esta operación solamente funciona con campos numéricos.
      El más alto
      Compara el valor del campo en todo el grupo de registros y determina qué registro tiene el valor más alto en el campo. Por ejemplo, si los campos del grupo contienen valores de 10, 20, 30 y 100, quedaría seleccionado el registro con el valor 100. Esta operación solamente funciona con campos numéricos. Si hay múltiples registros que poseen el valor más largo, se selecciona uno de ellos.
      Está vacío
      Determina si el campo no contiene ningún valor.
      No está vacío
      Determina si el campo contiene algún valor.
      Menor que
      Determina si el valor de campo es menor que el valor especificado. Esta operación solamente funciona con campos numéricos.
      Menor o igual que
      Determina si el valor de campo es menor o igual que el valor especificado. Esta operación solamente funciona con campos numéricos.
      El más largo
      Compara el valor del campo en todo el grupo de registros y determina qué registro tiene el valor más largo (en bytes) en el campo. Por ejemplo, si el grupo contiene los valores "Mike" y "Michael", quedaría seleccionado el registro con el valor "Michael". Si hay múltiples registros que poseen el valor más largo, se selecciona uno de ellos.
      El más bajo
      Compara el valor del campo en todo el grupo de registros y determina qué registro tiene el valor más bajo en el campo. Por ejemplo, si los campos del grupo contienen valores de 10, 20, 30 y 100, quedaría seleccionado el registro con el valor 10. Esta operación solamente funciona con campos numéricos. Si hay múltiples registros que poseen el valor más largo, se selecciona uno de ellos.
      Más común
      Determina si el valor de campo contiene el valor que aparece más frecuentemente en este campo entre los registros del grupo. Si hay dos o más valores que son los más comunes, no se realiza acción alguna.
      Diferente
      Determina si el valor de campo no es el mismo que el valor especificado.

      Tipo de valor

      Especifica el tipo de valor que desea comparar al valor del campo. Una de las siguientes:

      Nota: Esta opción no está disponible si selecciona el operador El más alto, El más bajo, o El más largo.
      Campo
      Seleccione esta opción si desea comparar con este campo el valor del campo de otro flujo de datos.
      Cadena
      Seleccione esta opción si desea comparar el campo con un valor específico.
      Valor

      Especifica el valor que se va a comparar con el valor del campo. Si seleccionó Campo en el campo Tipo de campo seleccione un campo de flujo de datos. Si seleccionó Cadena en el campo de Tipo de valor, ingrese el valor que desea usar para la comparación.

      Nota: Esta opción no está disponible si selecciona el operador El más alto, El más bajo, o El más largo.
    3. Haga clic en Aceptar.

      Ahora ha configurado Filter con una regla. Puede añadir reglas adicionales si lo requiere.

  7. Haga clic en Aceptar para cerrar la ventana de Opciones de Filter.
  8. Arrastre hacia el lienzo una etapa receptora y conéctela a la etapa Filter.

    Por ejemplo, si estuviese utilizando la etapa receptora Write to File, su flujo de datos tendría el siguiente aspecto:

  9. Haga doble clic en la etapa receptora y configúrela.

    Para obtener información acerca de cómo configurar etapas receptoras, consulte la Guía de Dataflow Designer.

Ahora tiene un flujo de datos que identifica registros coincidentes y elimina todos los registros de cada grupo de duplicados, salvo uno, lo cual da como resultado un archivo de salida que contiene datos desduplicados.