Read from Hive File

Le stage Read from Hive File lit les données du fichier sélectionné, qui peuvent être sous l'un des formats suivants : ORC, RC, Parquet et Avro.
Tâche associée :

Connexion à Hadoop : pour pouvoir utiliser le stage Read from Hive File, vous devez créer une connexion au serveur de fichiers Hadoop. Une fois que cela est fait, le nom sous lequel vous enregistrez la connexion est affiché comme nom de serveur.

Onglet propriétés du fichier

Champs Description
Serveur Indique que le fichier que vous sélectionnez dans le champ Nom de fichier se trouve sur le système Hadoop.
Remarque : Vous devez créer une connexion au serveur de fichiers Hadoop avant de l'utiliser ici. Pour plus de détails sur la création d'une connexion, reportez-vous à la section Connexion à Hadoop.
Si vous sélectionnez un fichier sur le système Hadoop, le nom du serveur est le nom que vous indiquez lors de la création d'un serveur de fichiers.
Nom de fichier Indique le chemin du fichier. Cliquez sur le bouton de sélection (...) pour trouver le fichier souhaité.
Remarque : Le schéma d'un fichier d'entrée est importé dès que vous naviguez vers un emplacement correct et que vous sélectionnez le fichier. Ce schéma importé ne peut pas être modifié.

Vous pouvez, par contre, renommer les colonnes du schéma, le cas échéant.

Les 50 premiers enregistrements du fichier sont extraits dans la grille Aperçu lors de la sélection du fichier.
File type Sélectionnez le type de fichier lu :
  • ORC
  • RC
  • PARQUET
  • Avro
Remarque : S'il s'agit de fichiers RC, pour générer l'Aperçu, définissez le schéma dans l'onglet Champs, puis cliquez sur Aperçu dans l'onglet Propriétés de fichier.

Onglet Champs

L'onglet Champs définit les noms, les types et les positions des champs tels qu'ils figurent dans le fichier d'entrée, ainsi que les noms donnés par les utilisateurs pour les champs. Pour plus d'informations, reportez-vous à la section Définition des champs pour Read from Hive File.