Identificación de miembros de un hogar

Esta platilla de flujo de datos demuestra la manera de identificar a los miembros de un mismo hogar, por medio de la comparación de información contenida en un único archivo de entrada y la generación de un archivo de salida que contenga colecciones de hogar.

Situación empresarial posible

En su calidad de administrador de datos de una empresa de tarjetas de crédito, usted desea analizar su base de datos de clientes y averiguar cuáles direcciones figuran varias veces y con qué nombres, a fin de poder reducir a un mínimo la cantidad de correspondencia y de ofertas repetidas de tarjetas de crédito que se envían a una misma dirección.

El siguiente flujo de datos ofrece una solución ante una posible situación empresarial:

Esta plantilla de flujo de datos está disponible en Enterprise Designer. Vaya a Archivo > Nuevo > Flujo de datos > A partir de plantilla y seleccioneVínculos de hogar. Este flujo de datos requiere de los siguientes módulos: Advanced Matching, Data Normalization y Universal Name.

Para cada registro del archivo de entrada, este flujo de datos hará lo siguiente:

Read from File

La etapa Read from File (Lectura desde archivo) identifica el nombre, la ubicación y el diseño del archivo que contiene los nombres que desea analizar. El archivo contiene tanto nombres masculinos como femeninos.

Open Name Parser

Open Name Parser examina los campos de nombre y los compara con los datos almacenados en los archivos de bases de datos de nombres de Spectrum™ Technology Platform. Según la comparación, divide los datos de nombre en los campos de nombre, segundo nombre y apellido, y asigna un tipo de entidad y un género a cada nombre. También utiliza el reconocimiento de patrones además de los datos de nombre.

Estandarizar los apodos

En esta plantilla, la etapa Table Lookup (búsqueda de tabla) se denomina Standardize Nicknames (estandarización de apodos). La etapa Standardize Nickname busca nombres en la base de datos Nicknames.xml y reemplaza cualquier apodo con la forma más común del apodo. Por ejemplo, el nombre Tommy es reemplazado por Thomas.

Transformer

En esta plantilla, la etapa Transformer (Transformador) se denomina Assign Titles (Asignación de tratamientos). La etapa Assign Titles utiliza una secuencia de comandos personalizada para examinar cada fila en la transmisión de datos enviados por la etapa Parse Personal Name y les asigna un valor TitleOfRespect según el valor GenderCode.

La secuencia de comandos personalizada:

if (row.get('TitleOfRespect') == '') 
{ 
	if (row.get('GenderCode') == 'M') 
		row.set('TitleOfRespect', 'Mr') 
	if (row.get('GenderCode') == 'F') 
		row.set('TitleOfRespect', 'Ms')

Cada vez que la etapa Assign Titles encuentra M en el campo GenderCode, define el valor para TitleOfRespect como Mr. Cada vez que las etapas Assign Titles encuentran F en el campo GenderCode, define el valor para TitleOfRespect como Ms.

Match Key Generator

Match Key Generator (Generador de claves de cruce) procesa reglas definidas por el usuario que consisten en algoritmos y campos de origen de entrada para generar el campo de clave de cruce. Una clave de cruce es una clave no exclusiva compartida por registros similares que identifican registros como posibles duplicados. La clave de cruce se utiliza para facilitar el proceso de comparación porque limita la comparación únicamente a los registros que contienen la misma clave de cruce. La clave de cruce está compuesta por campos de entrada. Cada campo de entrada especificado cuenta con un algoritmo seleccionado que se ejecuta para el campo. A continuación, el resultado de cada campo es concatenado para crear un único campo de clave de cruce.

En esta plantilla se definen dos campos de clave de cruce: SubString (apellido (1:3) y SubString (código postal (1:5).

Por ejemplo, si la dirección entrante fuera:

FirstName: Fred

LastName: Mertz

PostalCode: 21114-1687

Y las reglas especificaran lo siguiente:


Campo de entrada	Posición de inicio	Longitud
LastName	1	3
PostalCode	1	5

Entonces la clave, basada en las reglas y los datos de entrada que se muestran arriba, sería:

Mer21114

Coincidencia de hogar

En esta plantilla de flujo de datos la etapa de cruce de intraflujo (Intraflow Match) se denomina Household Match (coincidencia de hogar). Esta etapa ubica los cruces (coincidencias) entre registros de datos similares, de un mismo flujo de entrada. Los registros cruzados también pueden calificarse mediante los datos sin nombre ni dirección. El motor de comparaciones permite crear reglas jerárquicas basadas en cualquier campo que se haya definido o creado en otras etapas.

Un flujo de registros por ser cruzados así como parámetros que especifican qué campos se deben comparar, cómo se deben computar las calificaciones y, por lo general, qué constituye un cruce exitoso.

En esta plantilla, se crea una regla de cruce personalizada que compara LastName y AddressLine1. Seleccione la casilla Generar datos para análisis a fin de generar datos para el informe resumido de intraflujo.

Estas son algunas pautas por seguir durante la creación de una jerarquía de comparación:

Los nodos principales deben tener un nombre único. No pueden ser campos.
El campo secundario debe ser un campo de tipo de dato de Spectrum™ Technology Platform, es decir, un tipo de dato disponible a través de uno o más componentes.
Todos los nodos secundarios de un nodo principal deben usar los mismos operadores lógicos. Para combinar conectores, primero deben crearse nodos principales intermedios.
Los umbrales del nodo principal pueden ser más altos que los umbrales de los nodos secundarios.
No es necesario que los nodos principales tengan umbral.

Write to File

La plantilla contiene una etapa Write to File (Escritura en archivo) que crea un archivo de texto que muestra las direcciones como una colección de hogares.

Informe resumido de intraflujo

La plantilla contiene el informe resumido Intraflow Match (Cruce de intraflujo). Después de ejecutar el trabajo, expanda Informas en la ventana Detalles de ejecución y después haga clic en Informe resumido de intraflujo.

El informe resumido Intraflow Match muestra las estadísticas de los registros procesados y un gráfico de barras que ilustra el recuento de registros y la calificación general de cruce.