Big Data Quality SDK

Instalación automatizada de Acushare

El proceso para instalar Acushare en cada nodo de un clúster, necesario para ejecutar trabajos Validate Address, se automatizó en esta versión. Ahora solo tiene que ejecutar el archivo de secuencia de comandos sdkrts.bin provisto en cada nodo para instalar e iniciar el servicio de forma automática en el nodo.

Informes CASS para Validate Address

Ahora puede crear y ejecutar un trabajo Validate Address en el modo CASS Certified mediante Big Data Quality SDK. Además, puede generar los siguientes informes CASS:

  • Informe CASS 3553
  • Informe CASS detallado

También puede generar un informe resumido denominado Informe resumido Validate Address.

Ejecutar trabajos usando archivos de configuración

Ahora puede ejecutar un trabajo Big Data Quality usando un archivo JAR del módulo en la consola. Use los comandoshadoop o spark-submit y pase los archivos de configuración como argumentos.

Los archivos de configuración deben estar en formato XML. Existen archivos de configuración de muestra en:

BigDataQualityBundle\samples\configuration

Los archivos de configuración incluyen propiedades de archivo de entrada, propiedades de configuración de MapReduce y Spark, configuraciones del directorio de salida y propiedades generales para el trabajo.

Nueva configuración de archivos de entrada

Calificador de texto

Big Data Quality SDK ahora le permite especificar calificadores de texto en la configuración de entrada de trabajos de Spark y MapReduce. Los calificadores de texto identifican los valores del texto en la entrada.

Asignaciones de campos

Un campo nuevo en la clase JobPath le permite especificar la creación de mapas entre los nombres de la columna de origen y los nombres de la columna de salida. El campo toma un Map de pares de valor/clave para asignar los nombres de las columnas de origen a los nombres de las columnas de salida correspondientes.

Separador de campo para archivos de salida

Ahora se puede especificar el separador de campo cuando se definen los detalles del archivo de salida de un trabajo.

Compatibilidad para formato de archivo ORC

Los formatos de archivo ORC ahora son compatibles para la entrada y salida de trabajos suministrados en Big Data Quality SDK. Para los archivos candidatos, sospechosos, de entrada y de salida, puede utilizar archivos de texto u ORC.

Nota: Cuando usa Interflow Match, los archivos candidatos y sospechosos deben tener el mismo formato. Ambos deben ser archivos ORC o archivos de texto.