Definición de un programa de actualización del almacén de datos

Puede programar Spectrum™ Technology Platform flujos de datos para extraer y transformar los datos de la estructura normalizada de un origen de datos en la estructura del esquema de estrella del almacenamiento de datos. Programar flujos de datos es útil, ya que la mayoría de las operaciones de carga requieren recursos del sistema que no están disponibles durante el día laboral.

A la hora de elegir el programa de actualización, se debe considerar lo siguiente:

  • Frecuencia
  • Secuencia
  • Dependencias

Frecuencia

Debe programar flujos de datos que se ejecuten en base a la granularidad de la tabla de hechos más detallada. Por ejemplo:

  • Si la granularidad de la tabla de hechos es diaria, programe el flujo de datos de llenado de la tabla de hechos para que se ejecute cada día.
  • Si la granularidad es mensual, programe el flujo de datos de llenado de la tabla de datos para que se ejecute mensualmente y no antes, ya que los usuarios pueden trabajar solo con los datos de meses anteriores.

La mayor parte los flujos de datos de llenado procesan grandes cantidades de datos, por lo que es recomendable programar los flujos de datos e llenados para que se ejecuten cuando el uso del servidor Spectrum™ Technology Platform, el origen, las bases de datos del almacén de datos y la red es mínimo.

Rellene todas las dimensiones y tablas de hechos durante la carga inicial. Después de la carga inicial, actualice las tablas en base a lo que se ha agregado o cambiado. En general, las tablas de hecho se actualizan con más frecuencia que las tablas de dimensiones debido a que:

  • Las tablas de dimensiones generalmente son estáticas, a menos que uno de los atributos de la fuente se haya modificado o agregado.
  • Los datos de una tabla de hechos en una baso de datos de apoyo, comúnmente contiene información histórica y requiere que se agreguen datos periódicamente y se mantenga actualizada. La carga inicial y la mayoría de las cargas incrementales afectan a las tablas de hechos.

Secuencia

Existen relaciones de dependencia entre los datos en las bases de datos del almacén de datos, por lo que debe determinar la secuencia en la que se debe ejecutar el llenado de los flujos de datos antes de fijar el cronograma de ejecución.

Rellene las tablas de dimensión antes de las tablas de hechos, ya que cada registro clave y de dimensión debe existir antes de que se llenen las tablas de hechos. Esta restricción es una función de la relación clave principalmente extranjera entre las tablas de dimensión y de hechos en un esquema de estrella.

Actualice las tablas de nivel básico antes de llenar las tablas agregadas en su base de datos de apoyo de decisiones. Esta secuencia garantiza que las tablas agregadas y de nivel básico permanecerán sincronizadas.

El orden correcto de ejecución de llenado de un flujo de datos es:

  1. Planes de una tabla de dimensión de nivel básico
  2. Planes de una tabla de hechos de nivel básico
  3. Planes de una tabla de dimensión agregada
  4. Planes de una tabla de hechos agregada

Dependencias

Puede crear dependencias de flujos de datos si se requiere llenar varios flujos de datos para ejecutar una orden en específico o si no se puede predecir la cantidad de tiempo para ejecutar un flujo de datos. Solo se debe ejecutar un flujo de datos si se cumplen ciertos requisitos, como que el flujo de datos anterior se haya completado o el fluoj de datos anterior haya fallado.

Para crear dependencias de flujos de datos, cree un lfujo de proceso en Enterprise Designer. Para obtener más información sobre los flujos de proceso, consulte la Guía del diseñador de flujo de datos.