Option Group-By |
Pour un job MapReduce, transmettez les arguments :
- Colonne GroupBy
- Nom de la colonne à l'aide de laquelle les enregistrements doivent être regroupés.
- Number of Reducer Tasks
- Nombre de tâches de réduction requises pour regrouper les enregistrements.
Pour un job Spark, pour créer une option Group-By, transmettez les arguments :
- Colonne GroupBy
- Nom de la colonne à l'aide de laquelle les enregistrements doivent être regroupés.
|
Match Rule |
Définissez autant de règles parents et enfants que nécessaire pour créer un objetMatchRule .Pour plus d'informations, reportez-vous à la section MatchRule.
|
Candidate File |
Pour les fichiers texte :
- Chemin d'accès au fichier
- Chemin d'accès au fichier texte candidat sur la plate-forme Hadoop.
- Record Separator
- Séparateur d'enregistrements utilisé dans le fichier candidat.
- Field Separator
- Séparateur utilisé entre deux champs consécutifs d'un enregistrement dans le fichier candidat.
- Qualificateur de texte
- Le caractère utilisé pour entourer les valeurs de texte dans un fichier délimité.
- Header Row Fields
- Série de champs d'en-tête du fichier candidat.
- Skip First Row
- Indicateur spécifiant si la première ligne doit être ignorée lors de la lecture des enregistrements du fichier suspect.
Cette option doit être définie sur true au cas où la première ligne est une ligne d'en-tête.
Avertissement : Appelez le constructeur approprié deFilePath .
Pour les fichiers de format ORC :
- Chemin d'accès au fichier ORC
- Chemin d'accès au fichier de format ORC d'entrée sur la plate-forme Hadoop.
Important : Les fichiers suspects et candidats doivent se présenter au même format. Soit les deux doivent être des fichiers texte, soit ils doivent être des fichiers de format ORC.
Paramètres communs :
- Rapprochements de champs
- Carte de paires clé/valeur, avec les noms de colonne existante comme clés et les noms de colonne de sortie souhaitée comme valeurs.
|
Suspect File |
Pour les fichiers texte :
- Chemin d'accès au fichier
- Chemin d'accès au fichier texte suspect sur la plate-forme Hadoop.
- Record Separator
- Séparateur d'enregistrements utilisé dans le fichier suspect.
- Field Separator
- Séparateur utilisé entre deux champs consécutifs d'un enregistrement dans le fichier suspect.
- Qualificateur de texte
- Le caractère utilisé pour entourer les valeurs de texte dans un fichier délimité.
- Header Row Fields
- Série de champs d'en-tête du fichier suspect.
- Skip First Row
- Indicateur spécifiant si la première ligne doit être ignorée lors de la lecture des enregistrements du fichier suspect.
Cette option doit être définie sur true au cas où la première ligne est une ligne d'en-tête.
Avertissement : Appelez le constructeur approprié deFilePath .
Pour les fichiers de format ORC :
- Chemin d'accès au fichier ORC
- Chemin d'accès au fichier de format ORC d'entrée sur la plate-forme Hadoop.
Paramètres communs :
- Rapprochements de champs
- Carte de paires clé/valeur, avec les noms de colonne existante comme clés et les noms de colonne de sortie souhaitée comme valeurs.
|
Fichier de sortie |
Pour les fichiers texte :
- Chemin d'accès au fichier
- Chemin d'accès au fichier texte de sortie sur la plate-forme Hadoop.
- Field Separator
- Séparateur utilisé entre deux champs consécutifs d'un enregistrement dans le fichier de sortie.
Avertissement : Appelez le constructeur approprié deFilePath .
Pour les fichiers de format ORC :
- Chemin d'accès au fichier ORC
- Chemin d'accès au fichier de format ORC de sortie sur la plate-forme Hadoop.
Paramètres communs :
- Écraser
- Indicateur spécifiant si le fichier de sortie doit écraser tout fichier existant du même nom.
- Create Output Header
- Indicateur spécifiant si le fichier d'en-tête doit être créé ou non sur le serveur Hadoop.
|
Configurations des jobs |
Configurations Hadoop du job. Pour un job MapReduce, l’instance doit être de type MRJobConfig. Pour un job Spark, l’instance doit être de type SparkJobConfig.
|
Match Key Settings |
Combinaison des colonnes et des algorithmes à appliquer pour générer la clé de correspondance, requise pour effectuer la correspondance. Remarque : Spécifiez une seule clé de correspondance.
Avertissement : Définissez les paramètres de clé de correspondance uniquement si vous souhaitez générer une clé de correspondance avant d'effectuer la mise en correspondance.
|
Nom du job |
Nom du job. |
Express Match Column |
Nom de la colonne à utiliser pour la mise en correspondance express d'enregistrements. |
Setting Collection Number Zero to Unique Records |
Définissez cette valeur sur true pour définir le nombre de collections d'enregistrements uniques sur 0 (zéro). |
Comparison Option |
Vous permet de sélectionner l'une des deux options :
|
Compress Output |
Indicateur permettant de spécifier si la sortie doit être compressée. Définissez cette valeur sur true pour compresser la sortie.
|