Write to Hive File

Le stage Write to Hive File écrit l'entrée de dataflow dans le fichier Hive de sortie spécifié.

Vous pouvez sélectionner l'un de ces formats de fichier Hive pris en charge pour le fichier de sortie : ORC, RC, Parquet et Avro.

Tâche associée :

Connexion à Hadoop : pour pouvoir utiliser le stage Write to Hive File, vous devez créer une connexion au serveur de fichiers Hadoop. Une fois que cela est fait, le nom sous lequel vous enregistrez la connexion est affiché comme nom de serveur.

Onglet propriétés du fichier

Tableau 1. Propriétés de fichier communes
Champs	Description
Server name	Indique que le fichier que vous sélectionnez dans le champ Nom de fichier se trouve sur le système Hadoop. Une fois que vous sélectionnez un fichier qui se trouve sur un système Hadoop, le nom du serveur reflète le nom du serveur de fichiers respectif, comme spécifié dans Management Console.
Nom de fichier	Cliquez sur le bouton d'ellipse (...) pour accéder au fichier de sortie Hive qui doit être créé dans le serveur de fichiers Hadoop défini. Les données de sortie de ce stage sont écrites dans le fichier sélectionné. Remarque : Avant de pouvoir l'utiliser dans le stage, vous devez créer une connexion au serveur de fichiers Hadoop dans Management Console.
File type	Sélectionnez l'un des quatre formats de fichier Hive pris en charge : ORC RC PARQUET Avro

Tableau 2. Propriétés de fichier ORC
Champs	Description
Taille du tampon	Définit la taille du tampon à allouer lors de l'écriture dans un fichier ORC. Cela est spécifié en kilooctets. Remarque : La taille du tampon par défaut est `256` Ko.
Taille de bande	Définit la taille de bande à créer lors de l'écriture dans un fichier ORC. Cela est spécifié en mégaoctets. Remarque : La taille de bande par défaut est `64` Mo.
Row index stride	Définit le nombre de lignes à écrire entre deux entrées d'index de ligne consécutives. Remarque : La valeur par défaut de Row Index Stride est `10 000` lignes.
Type de compression	Définit le type de compression à utiliser lors de l'écriture dans un fichier ORC. Les types de compression disponibles sont ZLIB et SNAPPY. Remarque : Le type de compression par défaut est `ZLIB`.
Padding	Indique si les bandes sont complétées pour minimiser les bandes qui croisent les limites de bloc HDFS lors de l'écriture dans un fichier ORC. Remarque : Par défaut, la case Pad est cochée.
Aperçu	Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.

Tableau 3. Propriétés de fichier RC
Champs	Description
Taille du tampon	Définit la taille du tampon à allouer lors de l'écriture dans un fichier RC. Cela est spécifié en kilooctets. Remarque : La taille du tampon par défaut est `256` Ko.
Taille du bloc	Définit la taille de bloc à créer lors de l'écriture dans un fichier RC. Cela est spécifié en mégaoctets. Remarque : La taille de bloc par défaut est de `64` Mo.
Type de compression	Définit le type de compression à utiliser lors de l'écriture dans un fichier RC. Les types de compression disponibles sont NONE et DEFLATE. Remarque : Le type de compression par défaut est `NONE`.
Aperçu	Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné. L'onglet Champs est utilisé pour définir la séquence et le type de données des champs obligatoires. Remarque : Pour le type de fichier RC, vous devez définir les métadonnées du fichier de sortie avant de cliquer sur Aperçu pour charger la grille Aperçu.

Tableau 4. Propriétés de fichier Parquet
Champs	Description
Type de compression	Définit le type de compression à utiliser lors de l'écriture dans un fichier PARQUET. Les types de compression disponibles sont `UNCOMPRESSED`, `GZIP` et `SNAPPY`. Remarque : Le type de compression par défaut est `UNCOMPRESSED`.
Taille du bloc	Définit la taille de bloc à créer lors de l'écriture dans un fichier PARQUET. Cela est spécifié en mégaoctets. Remarque : La taille de bloc par défaut est de `128` Mo.
Taille de la page	La taille de page est pour la compression. Lors de la lecture, chaque page peut être décompressée indépendamment. Cela est spécifié en kilooctets. Remarque : La taille de page par défaut est de `1 024` Ko.
Enable dictionary	Activer/désactiver le codage du dictionnaire. Avertissement : Le dictionnaire doit être activé pour que Dictionary Page Size soit activé. Remarque : La valeur par défaut est `true`.
Dictionary Page size	Il existe une page de dictionnaire par colonne par groupe de lignes lorsque le codage du dictionnaire est utilisé. La taille de page de dictionnaire fonctionne comme la taille de page. Cela est spécifié en kilooctets. Remarque : La taille de page de dictionnaire par défaut est de `1 024` Ko.
Writer version	Parquet prend en charge deux versions de l'API Writer : `PARQUET_1_0` et `PARQUET_2_0`. Remarque : La valeur par défaut est `PARQUET_1_0`.
Aperçu	Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.

Tableau 5. Propriétés de fichier Avro
Champs	Description
Intervalle de sync. (en octets)	Spécifie le nombre approximatif d’octets non compressés à écrire dans chaque bloc. La plage de valeurs valide est comprise entre 32 et 2^30. Cependant, il est conseillé de conserver l’intervalle de synchronisation entre 2 K et 2 M. Remarque : L'intervalle de sync. par défaut est `16000`.
Compression	Définit le type de compression à utiliser lors de l'écriture dans un fichier Avro. Les types de compression disponibles sont NONE, SNAPPY et DEFLATE. La sélection de la compression DEFLATE vous permet également de sélectionner le niveau de compression (décrit ci-dessous). Remarque : Le type de compression par défaut est `NONE`.
Niveau de compression	Ce champ s’affiche si vous sélectionnez l'option `DEFLATE` dans le champ Compression ci-dessus. Il peut prendre des valeurs comprises entre `0` et `9`, où `0` indique aucune compression. Le niveau de compression augmente de `1` à `9`, avec une augmentation simultanée du temps nécessaire pour compresser les données. Remarque : Le type de compression par défaut est `1`.
Aperçu	Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans cette grille, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.

Onglet Champs

L'onglet Champs définit les noms et les types des champs tels qu'ils figurent dans le fichier source de ce stage, et qui doivent être sélectionnés pour être écrits dans le fichier de sortie.

Pour plus d'informations, reportez-vous à la section Définition des champs du stage Writing to Hive File.

Onglet Exécution

L'onglet Exécution offre la possibilité d'écraser un fichier existant portant le même nom dans le serveur de fichiers Hadoop configuré. Si vous cochez la case Écraser, lors de l'exécution du dataflow, le nouveau fichier de sortie Hive remplace tout fichier existant portant le même nom dans le même serveur de fichiers Hadoop.

Par défaut, la case Écraser est décochée.

Remarque : Si vous ne sélectionnez pas Écraser, une exception est générée lors de l'exécution du dataflow, si le fichier à écrire porte le même nom qu'un fichier existant dans le même serveur de fichiers Hadoop.