Entrée

Le stage Import to Hub exige que votre flux de données contienne deux canaux : un qui fournit les données des entités entrant dans le port d'entité (le port supérieur) et un qui fournit les données des relations entrant dans le port Relation (le port inférieur). Cette exigence peut être respectée par deux stages source (chacun contenant un fichier d'entrée), ou elle peut provenir de plusieurs stages source fournis dans les Record Combiners et qui deviennent deux flux. Elle pourrait également provenir d'un fichier source dont les données passent pas un Conditional Router ou un Splitter qui émet les données dans deux flux. Peu importe la méthode que vous utilisez tant que le résultat final soit un canal de données d'entité et un canal de données de relation entrant dans le stage Import to Hub.

Données d'entité

Les données entrant dans le port d'entité doivent inclure les informations de type et d'ID pour vos entités. Vous pouvez disposer d'un champ Type (« Personne ») et d'un champ ID (« Bob »), ou vous pouvez ne disposer que d'un champ ID qui combine les informations de type et d'ID, séparées par un signe deux points (« Personne:Bob »). Par exemple, votre fichier peut ressembler aux données séparées par une virgule ci-dessous. Le champ Type nous indique que les entités sont des personnes et des lieux, et le champ ID fournit les noms des personnes et lieux.

Sinon, votre fichier d'entrée peut contenir un champ unique qui combine le type et l'ID :

Remarque : Les champs contenant les données de type et d'ID n'ont pas besoin d'être nommées « Type » et « ID » ; tout nom de champ est acceptable.

Données de relation

Les données entrant dans le port de relation doivent inclure les champs identifiant des types source, des ID source, des types cible, des ID cible et des libellés identifiant les relations entre les sources et les cibles. Toutes les informations d'entité source et cible doivent référencer les entités fournies sur le port d'entité. Vos données de relation doivent également inclure des propriétés sur ces relations. Par exemple, votre fichier peut ressembler aux données ci-dessous. Dans ce cas, le champ Type de la source nous indique que toutes les sources sont des personnes et le champ Type de la cible que les cibles sont des personnes et des lieux. Le champ ID source fournit le nom de toutes les sources, et le champ ID cible le nom des personnes et des lieux. Le champ Libellé identifie les relations ; dans ce cas « travaille avec », « travaille chez » ou « vit à ».

Exigences de tri

Le stage Import to Hub exige que les données d'entrée soient triées d'une certaine manière. Le fichier d'entrée de l'entité doit être trié tout d'abord en fonction du type, puis en fonction de l'ID, par ordre croissant. Les données d'entité affichées ci-dessus incluent les champs nécessaires mais ne sont pas triées correctement. Pour qu'un flux de données Import to Hub s'exécute correctement, les données d'entité doivent ressembler à ce qui suit :
Ou à cela, pour les champs combinés :
Le fichier d'entrée de relation doit également être trié. Si vos données de relation incluent le type et l'ID dans le même champ, le fichier d'entrée doit être trié comme suit, par ordre croissant :
  • Type/ID source
  • Type/ID cible
  • Libellé
  • ID unique (facultatif)
Si vos données de relation contiennent des informations de type dans un champ distinct, le fichier d'entrée doit être trié par ordre croissant avec ces champs répartis :
  • Type de la source
  • ID source
  • Type cible
  • ID cible
  • Libellé
  • ID unique (facultatif)
Tout comme pour les données d'entité, les données de relation affichées ci-dessus incluent les champs nécessaires mais ne sont pas triées correctement. Pour qu'un flux de données Import to Hub s'exécute correctement, les données de relation doivent ressembler à ce qui suit :
Ou à cela, pour les champs combinés :