Hadoop Pig 操作

以下のようなさまざまな Pig 操作があります。

  1. Sort: データをアルファベット順にソートします。ソート操作の詳細については、入力レコードのソートを参照してください。
  2. Filter: データを要件に応じてフィルタできます。フィルタ操作の詳細については、入力レコードをフィルタリングを参照してください。
  3. Aggregate: データに対して Sum (合計) や Count (総数) などの統計操作を実行できます。

    必要に応じて各フィールドに対する集計操作を選択します。

    • Sum: フィールド内の値の合計を計算します。
    • Average: フィールド内のすべての値の平均値を計算します。
    • Max: フィールド内の値の最大値を求めます。
    • Min: フィールド内の値の最小値を求めます。
    • Count: フィールド内の値の総数を計算します。
      注: Distinct 操作を選択する場合は、一意の値のみがカウントされます。
  4. Distinct: このオプションを選択すると、Aggregate Count 操作においてフィールドの一意の値のみがカウントされます。
  5. Limit: 0 より大きい値を入力して、処理するレコード数の上限値を指定します。