Introducción al análisis

El análisis es el proceso a través del cual se evalúa una secuencia de caracteres de entrada en un campo y se disemina en varios campos. Por ejemplo, podría existir un campo llamado Nombre que contenga el valor "John A. Smith". Mediante el análisis, se puede dividir para tener un campo FirstName que contenga "John", un campo MiddleName que contenga "A" y un campo LastName que contenga "Smith".

Para crear un flujo de datos que analice, use la etapa Open Parser. Open Parser permite escribir reglas de análisis llamadas gramáticas. Una gramática es un conjunto de expresiones que mapean una secuencia de caracteres en un conjunto de entidades llamadas patrones de dominio. Un patrón de dominio es una secuencia de una o más muestras en sus datos de entrada que desea representar como una estructura de datos, como nombre, dirección o números de cuenta. Un patrón de dominio puede consistir en cualquier cantidad de muestras que pueden analizarse a partir de sus datos de entrada. Un patrón de dominio está representado en la gramática de análisis como la expresión <root>. Los datos de entrada generalmente contienen esas muestras en formatos mixtos o difíciles de usar. Por ejemplo:

  • Sus datos de entrada contienen nombres en un solo campo que desea separar en nombres de pila y apellidos.
  • Sus datos de entrada contienen direcciones de varias culturas y usted quiere extraer datos de dirección de una sola cultura específica.
  • Sus datos de entrada incluyen texto de forma libre que contiene direcciones de correo electrónico incrustadas y usted quiere extraer direcciones de correo electrónico, cruzarlas con datos personales y almacenarlas en una base de datos.

Hay dos tipos de gramáticas: específicas de cada cultura e independientes de dominio. Una gramática de análisis específica de cada cultura se asocia con una cultura o un idioma (por ejemplo, inglés, inglés de Canadá, español, español de México, etc.) y un determinado tipo de datos (números de teléfono, nombres de personas, etc.) Cuando Open Parse se configura para realizar análisis específico de cultura, la gramática de análisis de cada cultura se aplica a cada registro. La gramática con el mejor puntaje de análisis (o la primera en obtener un puntaje de 100) es la que mostrará sus resultados. Por otra parte, las gramáticas de análisis específicas de cada cultura pueden utilizar el valor del campo CultureCode del registro de entrada y procesar los datos según la configuración cultural que se haya incluido en la gramática de análisis de la cultura. Las gramáticas de análisis específicas de la cultura pueden heredar propiedades de un elemento principal. Una gramática de análisis independiente de dominio no se asocia ni a un lenguaje ni a un tipo de datos en particular. Las gramáticas de análisis independientes de dominio no heredan las propiedades de un elemento principal e ignoran cualquier información de CultureCode en los datos de entrada.

Open Parser analiza una secuencia de caracteres en los campos de entrada y los clasifica en una secuencia de muestras a través de un proceso llamado formación de muestras. La formación de muestras es el proceso de delimitar y clasificar secciones de una cadena de caracteres de entrada en un conjunto de muestras basado en caracteres separadores (también llamados caracteres formadores de muestras), como los espacios, los guiones, etc. Las muestras se colocan en los campos de salida que especifique.

El siguiente diagrama ilustra el proceso de creación de una gramática de análisis: