Traitement distribué

Si vous avez une tâche très complexe, ou si vous êtes en train de traiter des données très volumineuses, contenant par exemple des millions d'enregistrements, vous pouvez peut-être améliorer les performances de flux de données en distribuant le traitement du flux de données auprès de plusieurs instances du serveur Spectrum™ Technology Platform sur un ou plusieurs serveurs physiques.

La solution la plus évolutive pour le traitement distribué est d'installer Spectrum™ Technology Platform dans un cluster. Pour obtenir des instructions d'installation et de configuration d'un cluster, reportez-vous au Guide d'installation.

Remarque : Même s'il est également possible d'utiliser le traitement distribué sur un seul serveur Spectrum™ Technology Platform, les informations suivantes décrivent l'utilisation du traitement distribué dans un cluster. Si vous utilisez un seul serveur, le traitement distribué des sous-flux est divisé en microlots et traité par ce serveur et non par le cluster.

Une fois votre environnement en cluster configuré, vous pouvez créer un traitement distribué dans un flux de données en créant des sous-flux pour les parties du flux de données que vous souhaiter distribuer auprès de plusieurs serveurs. Spectrum™ Technology Platform gère automatiquement la distribution du traitement, une fois que vous avez défini seulement quelques options de configuration pour le sous-flux.

Le schéma suivant illustre le traitement distribué :

À mesure que les enregistrements sont lus dans le sous-flux, les données sont regroupées en lots. Ces lots sont ensuite écrits dans le cluster et automatiquement distribués au nœud du cluster qui traite le lot. Ce traitement est appelé un microflux. Un sous-flux peut être configuré pour permettre le traitement simultané de plusieurs microflux, améliorant potentiellement les performances du flux de données. Lorsque l'instance distribuée a terminé le traitement d'un microflux, elle renvoie la sortie au flux de données parent.

Plus vous disposez de nœuds Spectrum™ Technology Platform, plus vous pouvez traiter de microflux simultanément, ce qui vous permet de mettre votre environnement à l'échelle selon les besoins, afin d'obtenir les performances requises.

Une fois configuré, un environnement en cluster est facile à maintenir, dans la mesure où tous les nœuds du cluster synchronisent automatiquement leur configuration, ce qui signifie que les paramètres que vous appliquez dans Management Console et les flux de données que vous concevez dans Enterprise Designer sont automatiquement disponibles pour toutes les instances.