Write to Hive File

Le stage Write to Hive File écrit l'entrée de dataflow dans le fichier Hive de sortie spécifié.

Vous pouvez sélectionner l'un de ces formats de fichier Hive pris en charge pour le fichier de sortie : ORC, RC, Parquet et Avro.

Tâche associée :

Connexion à Hadoop : pour pouvoir utiliser le stage Write to Hive File, vous devez créer une connexion au serveur de fichiers Hadoop. Une fois que cela est fait, le nom sous lequel vous enregistrez la connexion est affiché comme nom de serveur.

Onglet propriétés du fichier

Tableau 1. Propriétés de fichier communes
Champs Description
Server name Indique que le fichier que vous sélectionnez dans le champ Nom de fichier se trouve sur le système Hadoop. Une fois que vous sélectionnez un fichier qui se trouve sur un système Hadoop, le nom du serveur reflète le nom du serveur de fichiers respectif, comme spécifié dans Management Console.
Nom de fichier Cliquez sur le bouton d'ellipse (...) pour accéder au fichier de sortie Hive qui doit être créé dans le serveur de fichiers Hadoop défini. Les données de sortie de ce stage sont écrites dans le fichier sélectionné.
Remarque : Avant de pouvoir l'utiliser dans le stage, vous devez créer une connexion au serveur de fichiers Hadoop dans Management Console.
File type Sélectionnez l'un des quatre formats de fichier Hive pris en charge :
  • ORC
  • RC
  • PARQUET
  • Avro
Tableau 2. Propriétés de fichier ORC
Champs Description
Taille du tampon Définit la taille du tampon à allouer lors de l'écriture dans un fichier ORC. Cela est spécifié en kilooctets.
Remarque : La taille du tampon par défaut est 256 Ko.
Taille de bande Définit la taille de bande à créer lors de l'écriture dans un fichier ORC. Cela est spécifié en mégaoctets.
Remarque : La taille de bande par défaut est 64 Mo.
Row index stride Définit le nombre de lignes à écrire entre deux entrées d'index de ligne consécutives.
Remarque : La valeur par défaut de Row Index Stride est 10 000 lignes.
Type de compression Définit le type de compression à utiliser lors de l'écriture dans un fichier ORC. Les types de compression disponibles sont ZLIB et SNAPPY.
Remarque : Le type de compression par défaut est ZLIB.
Padding Indique si les bandes sont complétées pour minimiser les bandes qui croisent les limites de bloc HDFS lors de l'écriture dans un fichier ORC.
Remarque : Par défaut, la case Pad est cochée.
Aperçu Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.
Tableau 3. Propriétés de fichier RC
Champs Description
Taille du tampon Définit la taille du tampon à allouer lors de l'écriture dans un fichier RC. Cela est spécifié en kilooctets.
Remarque : La taille du tampon par défaut est 256 Ko.
Taille du bloc Définit la taille de bloc à créer lors de l'écriture dans un fichier RC. Cela est spécifié en mégaoctets.
Remarque : La taille de bloc par défaut est de 64 Mo.
Type de compression Définit le type de compression à utiliser lors de l'écriture dans un fichier RC. Les types de compression disponibles sont NONE et DEFLATE.
Remarque : Le type de compression par défaut est NONE.
Aperçu Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.

L'onglet Champs est utilisé pour définir la séquence et le type de données des champs obligatoires.

Remarque : Pour le type de fichier RC, vous devez définir les métadonnées du fichier de sortie avant de cliquer sur Aperçu pour charger la grille Aperçu.
Tableau 4. Propriétés de fichier Parquet
Champs Description
Type de compression Définit le type de compression à utiliser lors de l'écriture dans un fichier PARQUET. Les types de compression disponibles sont UNCOMPRESSED, GZIP et SNAPPY.
Remarque : Le type de compression par défaut est UNCOMPRESSED.
Taille du bloc Définit la taille de bloc à créer lors de l'écriture dans un fichier PARQUET. Cela est spécifié en mégaoctets.
Remarque : La taille de bloc par défaut est de 128 Mo.
Taille de la page La taille de page est pour la compression. Lors de la lecture, chaque page peut être décompressée indépendamment. Cela est spécifié en kilooctets.
Remarque : La taille de page par défaut est de 1 024 Ko.
Enable dictionary Activer/désactiver le codage du dictionnaire.
Avertissement : Le dictionnaire doit être activé pour que Dictionary Page Size soit activé.
Remarque : La valeur par défaut est true.
Dictionary Page size Il existe une page de dictionnaire par colonne par groupe de lignes lorsque le codage du dictionnaire est utilisé. La taille de page de dictionnaire fonctionne comme la taille de page. Cela est spécifié en kilooctets.
Remarque : La taille de page de dictionnaire par défaut est de 1 024 Ko.
Writer version Parquet prend en charge deux versions de l'API Writer : PARQUET_1_0 et PARQUET_2_0.
Remarque : La valeur par défaut est PARQUET_1_0.
Aperçu Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans la grille Aperçu, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.
Tableau 5. Propriétés de fichier Avro
Champs Description
Intervalle de sync. (en octets) Spécifie le nombre approximatif d’octets non compressés à écrire dans chaque bloc. La plage de valeurs valide est comprise entre 32 et 2^30. Cependant, il est conseillé de conserver l’intervalle de synchronisation entre 2 K et 2 M.
Remarque : L'intervalle de sync. par défaut est 16000.
Compression Définit le type de compression à utiliser lors de l'écriture dans un fichier Avro. Les types de compression disponibles sont NONE, SNAPPY et DEFLATE. La sélection de la compression DEFLATE vous permet également de sélectionner le niveau de compression (décrit ci-dessous).
Remarque : Le type de compression par défaut est NONE.
Niveau de compression

Ce champ s’affiche si vous sélectionnez l'option DEFLATE dans le champ Compression ci-dessus.

Il peut prendre des valeurs comprises entre 0 et 9, où 0 indique aucune compression. Le niveau de compression augmente de 1 à 9, avec une augmentation simultanée du temps nécessaire pour compresser les données.

Remarque : Le type de compression par défaut est 1.
Aperçu Les 50 premiers enregistrements du fichier écrit sont extraits et affichés dans cette grille, une fois que le dataflow a été exécuté au moins une fois, et que les données ont été écrites dans le fichier sélectionné.

Onglet Champs

L'onglet Champs définit les noms et les types des champs tels qu'ils figurent dans le fichier source de ce stage, et qui doivent être sélectionnés pour être écrits dans le fichier de sortie.

Pour plus d'informations, reportez-vous à la section Définition des champs du stage Writing to Hive File.

Onglet Exécution

L'onglet Exécution offre la possibilité d'écraser un fichier existant portant le même nom dans le serveur de fichiers Hadoop configuré. Si vous cochez la case Écraser, lors de l'exécution du dataflow, le nouveau fichier de sortie Hive remplace tout fichier existant portant le même nom dans le même serveur de fichiers Hadoop.

Par défaut, la case Écraser est décochée.
Remarque : Si vous ne sélectionnez pas Écraser, une exception est générée lors de l'exécution du dataflow, si le fichier à écrire porte le même nom qu'un fichier existant dans le même serveur de fichiers Hadoop.