入力

Import to Hub ステージでは、データフローに 2 つのチャンネルを含める必要があります。1 つはエンティティポート (上のポート) に入るエンティティのデータを渡すもので、もう 1 つは関連性ポート (下のポート) に入る関連性のデータを渡すものです。この要件は、2 つのソースステージ (それぞれが 1 つの入力ファイルを含む) によって実現することも、複数のソースステージから Record Combiner ステージにデータを渡し、最終的に 2 つのストリームにすることもできます。あるいは、1 つのソースファイルからデータを Conditional Router ステージまたは Splitter ステージに送って、2 つのストリームに出力することもできます。最終的にエンティティデータのチャネルと関連性データのチャネルが Import to Hub ステージに入るのであれば、どの方法を用いても構いません。

エンティティデータ

エンティティポートに入るデータには、エンティティのタイプ情報と ID 情報の両方を含める必要があります。タイプフィールド ("Person") と ID フィールド ("Bob") を持つことも、ID フィールドだけを持ち、タイプ情報と ID 情報をコロンで区切って結合する ("Person:Bob") こともできます。例えば、次のようなカンマ区切りデータのファイルがあるとします。タイプフィールドからはエンティティが人物と場所であることがわかり、ID フィールドには人物と場所の名前が格納されています。

あるいは、タイプと ID の両方を結合した単一のフィールドを入力ファイルに含めることができます。

注: タイプと ID のデータを含むフィールドの名前を実際に "Type" と "ID" にする必要はありません。どのようなフィールド名でも許容されます。

関連性データ

関連性ポートに入るデータには、ソースタイプ、ソース ID、ターゲットタイプ、およびターゲット ID を識別するフィールドと、ソースとターゲットの関連性を識別するラベルを含める必要があります。すべてのソースおよびターゲットエンティティの情報は、エンティティポートに入るエンティティを参照する必要があることに注意してください。関連性データには、その関連性に関するプロパティを含めることもできます。例えば、次のようなデータのファイルがあるとします。この場合、SourceType フィールドからは、すべてのソースが人物であることがわかり、TargetType フィールドからは、ターゲットが人物と場所であることがわかります。SourceID フィールドにはすべてのソースの名前が格納され、TargetID フィールドには人物と場所の名前が格納されています。ラベルフィールドは、関連性 (この場合は "Works_With"、"Works_At"、または "Lives_At") を識別します。

入力

エンティティ データ

関連性データ

エンティティデータ