Définition d'un calendrier de mise à jour d'un entrepôt de données

Vous pouvez programmer les flux de données Spectrum™ Technology Platform de sorte à extraire et à transformer les données de la structure normalisée de la source de données dans la structure de schéma en étoile de l'entrepôt de données. La programmation de flux de données est utile, car la plupart des opérations de chargement requièrent des ressources système qui ne sont pas disponibles au cours de la journée.

Au moment de décider du calendrier de mise à jour, prenez en compte les points suivants :

Fréquence
Séquence
Dépendances

Fréquence

Vous devez programmer les flux de données à exécuter en fonction du grain de la table de faits la plus détaillée. Par exemple :

Si le grain de la table de faits est quotidien, programmez son flux de renseignement une fois par jour.
Si son grain est mensuel, programmez son flux de renseignement une fois par mois, pas plus souvent, car les utilisateurs utilisent uniquement les données de mois passés complets.

La plupart des flux de données de renseignement traitent de grandes quantités de données. Par conséquent, programmez-les de sorte qu'ils soient exécutés lorsque l'utilisation du serveur Spectrum™ Technology Platform, des bases de données source et de l'entrepôt de données et du réseau est minimale.

Lors du chargement initial, renseignez l'ensemble des tables de dimensions et de faits. Après le chargement initial, actualisez les tables en fonction des ajouts ou des modifications. En règle générale, les tables de faits sont actualisées plus fréquemment que les tables de dimensions. Plusieurs raisons à cela :

Les tables de dimensions sont généralement statiques, sauf en cas de modification ou d'ajout d'un attribut de la source.
Les données des tables de faits d'une base de données d'aide à la prise de décisions sont généralement historiques et requièrent des mises à jour et des ajouts réguliers pour rester d'actualité. Le chargement initial et la plupart des chargements incrémentiels affectent les tables de faits.

Séquence

Il existe des dépendances entre les données des bases de données de l'entrepôt de données, c'est pourquoi, avant de définir le calendrier d'exécution, vous devez déterminer la séquence d'exécution des flux de données de renseignement.

Renseignez les tables de dimensions avant les tables de faits, car chaque enregistrement et chaque clé de dimension doivent exister avant de pouvoir renseigner la table de faits associée. Cette restriction constitue une fonction de la relation clé primaire-clé étrangère entre les tables de dimensions et de faits d'un schéma en étoile.

Actualisez les tables de niveau de base avant de renseigner les tables agrégées de votre base de données d'aide à la prise de décisions. Cette séquence garantit la synchronisation des tables de niveau de base et des tables agrégées.

L'ordre correct d'exécution des flux de données de renseignement est le suivant :

Plans de tables de dimensions de niveau de base
Plans de tables de faits de niveau de base
Plans de tables de dimensions agrégées
Plans de tables de faits agrégées

Dépendances

Si plusieurs flux de données de renseignement doivent être exécutés dans un ordre précis, ou si le temps d'exécution des flux de données est difficile à prévoir, vous pouvez créer des dépendances de flux de données. Un flux de données est exécuté uniquement si certaines conditions sont remplies, par exemple, si le flux de données précédent est terminé, ou s'il a échoué.

Pour créer des dépendances de flux de données, créez un flux de processus dans Enterprise Designer. Pour plus d'informations sur les flux de processus, reportez-vous au Guide de Dataflow Designer.