Définition des options de performances de tri par défaut

Le tri de grands ensembles de données peut constituer l'une des opérations les plus longues effectuées lors du traitement par lots. C'est pourquoi la définition d'options de performances de tri appropriées peut avoir un impact significatif sur les performances de vos jobs. Les options de performances de tri contrôlent l'utilisation de la mémoire et du disque, ce qui vous permet de tirer pleinement parti de la capacité de mémoire et de disque disponible.

Vous pouvez configurer les paramètres de performances de tri à deux endroits différents. Le premier concerne Management Console. C'est là où vous spécifiez les options de performances de tri par défaut de votre système. Le deuxième concerne les stages de flux de données qui effectuent un tri. Les stages Sorter, Read from File, Write to File et tous les autres stages qui comprennent des opérations de tri comportent des options de performances de tri. Quand vous spécifiez des options de performances de tri dans un stage, vous remplacez les options de performances de tri par défaut en sélectionnant différents paramètres à appliquer aux stages individuels d'un flux de données.

Cette procédure explique comment définir les options de performances de tri par défaut des jobs exécutés sur votre serveur Spectrum™ Technology Platform.

  1. Ouvrez Management Console.
  2. Accédez à Flux > Paramètres par défaut.
  3. Utilisez ces paramètres pour contrôler les Performances du tri :
    Limite du nombre d'enregistrement en mémoire
    Spécifie le nombre maximum de rangées de données qu'un trieur peut contenir en mémoire avant que celui-ci commence à pager sur le disque. Par défaut, un tri de 10 000 enregistrements ou moins sera effectué en mémoire et un tri de plus de 10 000 enregistrements sera effectué sur le disque. La limite maximale est de 100 000 enregistrements. En général, un tri en mémoire est beaucoup plus rapide qu'un tri sur le disque ; donc, il faut définir une valeur assez haute pour que la plupart des tris s'effectuent en mémoire et que seuls les groupes de grande taille soient écrits sur le disque.
    Remarque : Soyez conscient du fait qu'au sein d'environnements où des jobs s'exécutent de manière simultanée, une augmentation du paramètre Dans la limite d'enregistrement mémoire augmente la probabilité de ne plus disposer de suffisamment de mémoire.
    Nombre maximal de fichiers temporaires
    Spécifie le nombre maximal de fichiers temporaires pouvant être employés par un processus de tri. L'utilisation d'un plus grand nombre de fichiers temporaires peut améliorer les performances. Cependant, le nombre optimal dépend très largement de la configuration du le serveur qui exécute Spectrum™ Technology Platform. Nous vous conseillons d'essayer différents paramètres et d'observer l'effet de l'utilisation d'un plus ou moins grand nombre de fichiers temporaires sur les performances. Pour calculer le nombre approximatif de fichiers temporaires nécessaires, utilisez l'équation suivante :
    (NumberOfRecords × 2) ÷ InMemoryRecordLimit = NumberOfTempFiles 
    Notez que le nombre maximal de fichiers temporaires ne peut pas être supérieure à 1 000.
    Activer la compression
    Spécifie si les fichiers temporaires sont compressés lors de leur écriture sur le disque.
    Remarque : Les paramètres de performances de tri optimal dépendent de la configuration matérielle de votre serveur. Néanmoins, l'équation suivante produit généralement de bonnes performances de tri :
    (InMemoryRecordLimit × MaxNumberOfTempFiles ÷ 2) >= TotalNumberOfRecords