Utilisation d'un job Duplicate Synchronization MapReduce
-
Créez une instance de
AdvanceMatchFactory
à l'aide de sa méthode statiquegetInstance()
. -
Fournissez les détails d'entrée et de sortie du job Duplicate Synchronization en créant une instance de
DuplicateSyncDetail
définissantProcessType
. L’instance doit utiliser le type MRProcessType.-
Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de
GroupbyOption
.Utilisez une instance de GroupbyMROption pour spécifier la colonne Group-By et le nombre de réducteurs requis. -
Générez les conditions de consolidation du job en créant une instance de
DuplicateSynchronizationConfiguration
. Dans cette instance, définissez les conditions de consolidation à l’aide d'instances deConsolidationCondition
, et en reliant les conditions à l’aide d'opérateurs logiques.Chaque instance deConsolidationCondition
est définie à l'aide d'une instanceConsolidationRule
et de son instanceConsolidationAction
correspondante.Remarque : Chaque instance deConsolidationRule
peut être définie soit à l'aide d'une seule instance deSimpleRule
, soit à l’aide d’une hiérarchie d'instancesSimpleRule
enfants et d'instancesConjoinedRule
imbriquées, liées à l’aide d'opérateurs logiques. Voir Énumération JoinType et Énumération Operation. -
Créez une instance de
DuplicateSyncDetail
en transmettant une instance de typeJobConfig
, l'instanceGroupbyOption
créée et l'instanceDuplicateSynchronizationConfiguration
créée ci-dessus comme arguments à son constructeur.Le paramètreJobConfig
doit être une instance de type MRJobConfig. -
Définissez les détails du fichier d'entrée à l'aide du champ
inputPath
de l'instanceDuplicateSyncDetail
.Pour un fichier d'entrée texte, créez une instance deFilePath
avec les détails pertinents du fichier d'entrée en appelant le constructeur approprié. Pour un fichier d'entrée ORC, créez une instance deOrcFilePath
avec le chemin d’accès au fichier d'entrée ORC comme argument. -
Définissez les détails du fichier de sortie à l'aide du champ
outputPath
de l'instanceDuplicateSyncDetail
.Pour un fichier de sortie texte, créez une instance deFilePath
avec les détails pertinents du fichier de sortie en appelant le constructeur approprié. Pour un fichier de sortie ORC, créez une instance deOrcFilePath
avec le chemin d’accès au fichier de sortie ORC comme argument. -
Définissez le nom du job à l'aide du champ
jobName
de l'instanceDuplicateSyncDetail
. -
Définissez l'indicateur
compressOutput
de l'instanceDuplicateSyncDetail
sur true pour compresser la sortie du job.
-
Spécifiez la colonne à l'aide de laquelle les enregistrements doivent être regroupés en créant une instance de
-
Créez le job à l'aide de l'instance précédemment créée de
AdvanceMatchFactory
pour appeler sa méthodecreateJob()
. Dans ce cas, transmettez l'instance ci-dessus deDuplicateSyncDetail
comme argument.La méthodecreateJob()
renvoie uneList
d'instances deControlledJob
. -
Exécutez le job créé à l’aide d’une instance de
JobControl
. -
Pour afficher les compteurs de reporting suite à l'exécution correcte d'un job MapReduce, utilisez l'instance précédemment créée
AdvanceMatchFactory
pour appeler sa méthodegetCounters()
, en transmettant le job créé comme argument.