Group Statistics

Der „Group Statistics“-Schritt ermöglicht Ihnen, statistische Vorgänge für mehrere in Gruppen unterteilte Datenzeilen auszuführen, die Sie analysieren möchten. Wenn keine Gruppen definiert sind, werden alle Zeilen als zu einer Gruppe gehörig behandelt.

Gruppen werden durch ein oder mehr Felder definiert, die in mehreren Datenzeilen denselben Wert haben.

So könnten beispielsweise die Daten in dieser Relation nach Region, Bundesstaat oder beidem gruppiert werden.

Region Bundesstaat
Osten MD
Osten MD
Osten CT
Westen CA
Westen CA

Eine Gruppe nach Region würde Osten und Westen ergeben. Eine Gruppe nach Bundesstaat würde Kalifornien, Connecticut und Maryland ergeben. Eine Gruppe nach Region und Bundesstaat würde Osten/Maryland, Osten/Connecticut und Westen/Kalifornien ergeben.

Eingabe

Der „Group Statistics“-Schritt akzeptiert jedes Feld als Eingabe. Die Gruppierung kann für numerische Daten oder Zeichenfolgendaten ausgeführt werden.

Optionen

Tabelle 1. Registerkarte „Vorgänge“
Option Beschreibung

Eingabefelder

Listet die Felder im Datenfluss auf, die Sie zum Gruppieren von Datensätzen und Ausführen von Berechnungen verwenden können.

Row

Gibt das Feld bzw. die Felder an, die Sie als Kategorien für die Berechnungen verwenden möchten. Beispiel: Wenn Sie bei Daten mit einem Feld „Region“ die Gesamtbevölkerung nach Region berechnen wollten, würden Sie nach dem Feld „Region“ gruppieren.

Wählen Sie zum Hinzufügen eines Feldes das Feld in der Liste Eingabefelder aus, und klicken Sie dann auf >>.

Spalte

Optional: Gibt zum Erstellen einer Pivot-Relation das Feld bzw. die Felder an, deren Werte Sie zum Zweck der Kreuztabellierung in Spalten pivotisieren möchten.

Wählen Sie zum Hinzufügen eines Feldes das Feld in der Liste Eingabefelder aus, und klicken Sie dann auf >>.

Beispiel: Wenn Sie bei Daten mit Regionen und Versanddaten die Anzahl der Lieferungen pro Tag für jedes Bundesland nachzählen möchten, müssen Sie das Feld „State“ als Zeile und das Feld „Versanddatum“ als Spalte angeben.

Zeilen und Spalten werden in der konfigurierten Reihenfolge vorsortiert

Gibt an, ob die Eingabedaten bereits sortiert sind.

Wenn dieses Kästchen aktiviert ist, werden die Daten nicht im Schritt sortiert und der angegebene Vorgang wird direkt mit den Eingabedaten ausgeführt.

Bedienung

Gibt die Berechnung an, die für jede Gruppe ausgeführt werden soll. Wählen Sie zum Hinzufügen eines Vorgangs in der Liste Eingabefelder das Feld aus, das Sie für den Vorgang verwenden möchten, und klicken Sie dann auf >>.

Weitere Informationen über die unterstützten „Group Statistics“-Vorgänge finden Sie unter Vorgänge.

Typ

Gibt für die Eingabe- und Ausgabefelder den Datentyp an.

Ganze Zahl
Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -231 (-2.147.483.648) und 231-1 (2.147.483.647) enthält.
Lang
Ein numerischer Datentyp, der sowohl negative als auch positive ganze Zahlen zwischen -263 (-9.223.372.036.854.775.808) und 263-1 (9.223.372.036.854.775.807) enthält.
Float
Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit einfacher Genauigkeit zwischen 2-149 (1,4E-45) und (2-223)×2127 (3,4028235E38) enthält.
Double
Ein numerischer Datentyp, der sowohl negative als auch positive Zahlen mit doppelter Genauigkeit zwischen 2-1074 (4,9E-324) und (2-2-52)×21023 (1,7976931348623157E308) enthält.
Anmerkung: Bei Verwendung der Typen „Ganze Zahl“ und „Lang“ können Daten verlorengehen, wenn die Eingabezahl oder berechnete Zahl aus einem Vorgang dezimale Daten enthält.
Anzahl der Datensätze aufrufen, die berechnet werden Gibt die tatsächliche Anzahl der Datensätze in einer Gruppe zurück, mit denen der ausgewählte Vorgang ausgeführt wird.

In der Spalte Computational Count sind die Eingabedatensätze ausgeschlossen, bei denen die Spalte, mit der der Vorgang ausgeführt wird, den Wert null enthält.

Registerkarte „Felder“

Die Registerkarte „Felder“ wird beim Erstellen einer Pivot-Relation verwendet. Weitere Informationen finden Sie unter Erstellen einer Pivot-Tabelle.

Registerkarte „Ausgabe“

Option Beschreibung

Eine Zeile pro Gruppe zurückgeben

Gibt für jede Gruppe von Zeilen eine einzelne Zeile zurück, die die aggregierten Daten für alle Zeilen in der Gruppe enthält. Einzelnen Zeilen werden verworfen. Wenn diese Option nicht ausgewählt wird, werden alle Zeilen zurückgegeben. In diesem Fall werden keine Daten verworfen.

Diese Option ist nicht verfügbar, wenn Sie die Vorgänge Prozentrang oder Z-Score verwenden.

Eine Anzahl von Zeilen in jeder Gruppe zurückgeben

Gibt die Anzahl der Zeilen in jeder Gruppe zurück. Der Standard-Ausgabefeldname, der die Anzahl enthält, ist GroupCount.

Eine eindeutige ID für jede Gruppe zurückgeben

Gibt eine eindeutige ID für jede Gruppe von Zeilen zurück. Die ID beginnt bei 1 und wird für jede zusätzliche gefundene Gruppe um 1 inkrementiert. Die Standardfeldname ist GroupID.