Als Beispiel wird ein kleiner Fragebogen verwendet, dessen Ergebnisse mit weiteren Daten angereichert werden, die aus anderen Datenquellen stammen. Dies ist möglich, weil an einen bekannten Teilnehmerkreis wiederholt die gleichen Fragen gestellt wurden.

Es handelt sich um einen kurzen Fragebogen mit zwei Fragen, der die Kundenzufriedenheit messen soll. Dabei ist bekannt, welche Umsätze (Anzahl an Bestellungen und der Gesamtumsatz pro Monat) der einzelne Teilnehmer in der Berichtsperiode, die einen Monat dauert, generiert hat. So ist es dann möglich, auch für einzelne Kunden die Entwicklung ihrer Zufriedenheit vor dem Hintergrund ihrer getätigten Bestellungen zu sehen und dann bspw. versuchen zu erkennen, wie ihre Tendenz ist, dass sie bald nicht mehr bestellen. Darüber hinaus lassen sich natürlich auch allgemein die Kundenzufriedenheit über alle Kunden und Zeiträume hinweg ermitteln sowie auch auf einzelne Kundengruppen, die man bspw. anhand ihrer getätigten Umsätze klassifizieren kann, abrufen. Die hier schon kurz angedeuteten Auswertungsmöglichkeiten zeigen, dass man sich also gleichermaßen Untersuchungen vorstellen kann, welche einen Zeitpunkt oder Zeitraum (die Zufriedenheit in einem gegebenen Monat oder für eine Kundengruppe oder für alle Kunden überhaupt) genauso zum Ziel haben wie die Entwicklung und Veränderung entlang der Zeit. Neben Untersuchungen, welche die Veränderung der Zufriedenheit mit Bezug auf die Zeit untersuchen, kann man sich genauso Vergleiche vorstellen, die zwischen Kundengruppen vorgenommen werden oder die beide Aspekte miteinander kombinieren. Die eigentlichen Antworten auf die Fragen sollte man also gerade nicht einfach nur als einzig verfügbare Daten hinnehmen, sondern sollte sie auch in weiteren Verarbeitungsstufen einfließen lassen, sodass dann über sie hinaus sehr viel Informationen verfügbar werden als die ursprüngliche Antwort, ob man nun mit den Leistungen des Unternehmens zufrieden ist oder nicht. Die verschiedenen Beispiele werden hier zeigen, welche Untersuchungen schon auf einer solchen kleinen Datenbasis hin möglich sind.
Für die Kundenzufriedenheit werden zwei Fragen gestellt, mit denen die erwähnten Daten, die aus der betrieblichen Leistungserstellung stammen, ergänzt werden.
Die Rohdaten der Untersuchung sind in der nachfolgenden Abbildung angegeben. Man sieht durch die beiden geklammerten Bereiche, welche Daten aus dem Rechnungswesen oder anderen Datensystemen abgerufen und welche Daten aus der eigentlichen Befragung entnommen wurden. Beide werden für jeden einzelnen Kunden in einem eigenen Datensatz pro Monat zusammengeführt.
Die Rohdaten könnten so verarbeitet werden, wie sie nun dargestellt sind. Normalerweise ist es aber notwendig, sie vor der eigentlichen Auswertung noch einmal aufzubereiten. Dazu gehören solche Aufgaben wie die Validierung und Filterung von möglichen Fehleingaben oder unbrauchbaren Datensätzen. Diese kann man entweder aus den Rohdaten löschen oder sie im Rahmen des Kodierungsschritts passend kodieren, um möglicherweise Muster zu erkennen, welche systematische Ausfälle, Verzerrungen oder Fehleingaben erklären können. Interessant ist es bspw. für die allgemeine Qualitätssicherung, ob bestimmte Fragestellungen oder Eigenschaften von Teilnehmern zu solchen Ausfällen oder Fehlern führen. So hat man die Gelegenheit, bei der nächsten Auslieferung des Fragebogens, d.h. in diesem Beispiel im nächsten Monat, diese Ursachen zu beheben. Allerdings sind auch zufällige und damit unsystematische Fehldatensätze von Interesse, damit man sich bei Ihnen entscheiden kann, ob sie einfach gelöscht/nicht beachtet werden oder ob man sie als eigene Antwortgruppe in der Auswertung mitführt.
In jedem Fall ist eine Kodierung notwendig, bei der die Antworten numerisch übertragen werden. Dies erfolgt nach einem schon vorher festgelegten Prinzip und ist gerade bei den hier verwendeten beiden Antworten recht einfach. Bei einer Inhaltsanalyse von offenen Antworten müsste man möglicherweise erst aus den erhaltenen Antworten passende Antwortkategorien mit einer geeigneten Feinheit ableiten und diese dann für die Kodierung verwenden. Im Beispiel kann man sich leicht vorstellen, dass die Kodiervorschrift schon lange vorher festgelegt wurde.
Hier sind den einzelnen Antworten einfache numerische Werte zugeteilt worden. Einzig wichtig ist, dass bei diesen ordinalskalierten Antwortmöglichkeiten zwar eine Reihenfolge, nicht aber der Abstand definiert ist. Hier kann man also nur eine begrenzte Auswahl an statistischen Untersuchungen vornehmen. Die Zahlen stammen hier aus den Intervallen [1, 5] und [1, 3], könnten aber auch völlig beliebige unterschiedlichen Zahlwerte haben, was dann die Versuchung, Mittelwerte zu bilden, etwas verhindern würde.

Tabellarische Darstellungen zeigen normalerweise die Werte mit Filterungen auf Spalten- und Zeilenebene sowie Aggregationen an, wobei insbesondere Summen und Häufigkeiten ausgerechnet werden. Man kann zwischen einfachen Tabellen und Pivot-Darstellungen unterscheiden. Je nach Ausgabeprogramm (in diesem Fall MS Excel) kann man auch mit einfachen Darstellungen über automatische Gruppierungen schon interessante Ausgaben erzeugen, in denen übersichtlicher als in den Rohdaten die Ergebnisse aufbereitet sind.
Das Hauptziel der tabellarischen Darstellung sowie auch der statistischen Auswertung mit den Hilfsmitteln der deskriptiven Statistik ist es, eine große Datenmenge so zu verdichten, dass die charakteristischen Eigenschaften der Daten erhalten bleiben, diese jedoch in einer kompakteren Darstellung abgelesen werden können. Dies können entweder verdichtete Tabellendarstellungen sowie Diagramme oder auch sehr hoch aggregierte einzelne Werte wie der Mittelwert sowie andere Lage- und Streuungsmaße der deskriptiven Statistik sein.
Eine Tabelle bietet gegenüber einer einzelnen beschreibenden Zahl dem Leser die Möglichkeit, eigene Fragestellungen anhand der zusammengefassten Daten zu beantworten, ohne sich mit der Komplexität der Rohdaten direkt beschäftigen zu müssen. Zwar hat man bereits eine Vereinfachung vorgenommen, doch die Daten sind im Regelfall nur gruppiert, gezählt und mit einfachen mathematischen Operationen aufbereitet, welche im Regelfall noch erlauben, einen sehr detaillierten Blick auf die eigentlich erhobenen Daten zu werfen.
Man lenkt den Leser der Untersuchung, indem der Bearbeiter der Rohdaten für einzelne spezifische Fragestellungen Felder/Spalten aus dem Rohdatensatz auswählt und in einer gemeinsamen Tabelle nebeneinander stellt. Zusätzlich kann man auch noch Daten filtern und so einzelne Tabellen aufbauen, die jeweils die zusammengefassten Daten einzelner vorher definierter Gruppen enthalten. Es ist allerdings auch möglich, die Werte von verschiedenen Gruppen direkt nebeneinander zu stellen. Als weitere Option bietet es sich an, Berechnungen vorzunehmen. Hier sind insbesondere Summen und Häufigkeiten sicherlich die beiden gängigsten Aggregate. Weitere lassen sich über die Angabe von Durchschnitten, Extremwerten (Mini-/Maximum in einem Bereich) oder auch Differenzen zu geeigneten Vergleichswerten ableiten. Insbesondere die zuletzt erwähnten Techniken erfordern dann schon ein Werkzeug oder eine Syntax wie SQL für Datenbanken, um Formeln und Berechnungen für die Felder einer Spalte zu realisieren.
In der Abbildung ist eine umfassende Anzahl an Beispielen enthalten, die sowohl einfache gruppierte Tabellen wie auch die beliebten Pivot-Darstellungen für Vergleiche und sehr zusammenfassende Aufbereitungen zeigen. Anspruchsvolle Berechnungen über Summen und Häufigkeiten hinaus finden sich hier nicht.

Neben einfachen Tabellen und Pivot-Darstellungen sind auch Diagramme sowie in den Medien erweiterte Grafiken beliebte Darstellungsmittel für die Auswertung. Sie erlauben es, Zahlenmaterial auf besonders übersichtliche Weise darzustellen und Vergleiche von Werten übersichtlich und teilweise nicht nur optisch ansprechend, sondern fast schon unterhaltsam darzustellen. Eine attraktive Grafik kann mehr Leser anziehen als eine noch so übersichtlich gestaltete Tabelle. Grafiken bieten Möglichkeiten, Einzelwerte in Form von Punktwolken genauso darzustellen wie Häufigkeiten oder Summen in Form von Balken oder Kreisanteilen sowie Verläufe und Entwicklungen in Form von Linien.

Grafischen Darstellungen wird oftmals nachgesagt, dass sie besonders gut die tatsächlichen Tatbestände verschleiern könnten und daher geeignet seien, Daten zu beschönigen oder attraktiver darzustellen als sie es in Wirklichkeit sind. Grundsätzlich ist dies auch bei tabellarischen Darstellungen möglich, wobei hier die Möglichkeiten nicht ganz so zahlreich bzw. variantenreich sind wie bei einem Diagramm. Die Auswahl von zu vergleichenden Datenreihen, die Art der Zusammenfassung/Detailgenauigkeit, die Bildung von Gruppen oder die Auswahl von Bezugspunkten (insbesondere zeitlicher Natur) sowie deren Berücksichtigung bei Berechnungen und Vergleichen kann bei beiden Darstellungsformen und eigentlich auch bei jeder anderen Untersuchungsform dazu führen, dass ein Eindruck von den tatsächlichen Gegebenheiten in den Daten entsteht, der in dieser suggerierten Form nicht vorhanden ist. Dabei kann es sich in allen Fällen um einen Fehler, um ein absichtliches Vorgehen oder eine ungeschickte Auswahl von Darstellungsformen und ihren Untervarianten sowie Formatierungseigenschaften handeln.
Wenn man gerade darin interessiert ist, ein Diagramm einzusetzen, weil man Daten durchaus der Realität entsprechend darstellen will und dabei die besondere Übersichtlichkeit durch Farben, Größenverhältnisse oder auch übereinander gelagerte mehrdimensionale Darstellungsformen nutzen will, dann ist es oft so, dass die Auswahl an einsetzbaren Diagrammtypen deutlich kleiner ist als die bspw. in Berichts- und Tabellenkalkulations- und Präsentationsprogramen angebotene Vielfalt. Insbesondere dreidimensionale Grafiken und umfangreiche optische Effekte fallen hier eher unter den Tisch, weil gerade sie für optische Täuschungen, Fehlinterpretationen oder auch einfach nur Details verdeckende Effekte verantwortlich sind.
Tabellen und Diagramme stellen bereits verdichtete Darstellungen der Rohdaten dar, doch bieten sie in vielfältiger Weise immer noch sehr umfangreiche Möglichkeiten, einen sehr genauen Rückschluss auf die Rohdaten vorzunehmen und ggf. sogar eigene Untersuchungen auf Basis der veröffentlichten Werte vorzunehmen. Oft ist man allerdings auf der Suche nach einigen wenigen Werten, mit denen eine Datenmenge sehr verdichtet werden kann, wobei dann die eigene und weiter gehende Untersuchung der Daten prinzipiell nicht mehr möglich ist. Die statistischen Lage- und Streuungsparameter sind hierfür die geeigneten Werkzeuge. Ihr Ziel ist es gerade, einige charakteristische Elemente über eine Datenmenge zu ermitteln, die dann auf der einen Seite als besonders kurze und übersichtliche Beschreibung dieser Daten wie auch für Vergleiche mit anderen Datenmengen dienen können, die thematisch die gleiche Zielsetzung haben. Insbesondere der Vergleich mit anderen Datenmengen wird eigentlich erst durch sehr hoch verdichtete Aggregate oder weitere errechnete Eigenschaften einfach und übersichtlich möglich. Eine optimale Darstellung kombiniert die Angabe von diesen Lage- und Streuungsparametern mit weiteren Ausschnitten aus den Rohdaten, die dann wieder tabellarisch oder grafisch aufbereitet sind.

Ohne nun genauer auf die einzelnen vorhandenen und genutzten Parameter eingehen zu wollen oder die Formeln ausführlich darzustellen, soll nur eine kurze Erinnerung oder ein Hinweis gegeben werden, dass die verschiedenen Parameter in mehr oder weniger komplexen Formeln und Berechnungsvorschriften hinterlegt sind. Teilweise verbergen sich hinter dem gleichen allgemeinen Namen auch mehrere einzelne Formeln, die entsprechend zu verschiedenen Werten führen, aber eine gleichartige Information über Eigenschaften der Datenmenge geben wollen. Auch die Skalenart legt fest, wie verschiedene Berechnungen vorgenommen werden müssen bzw. erzwingt unterschiedlichen Formeln für das gleiche Merkmal und bedingt darüber hinaus auch, welche Berechnungen überhaupt zulässig sind.
Als Lagemaße bezeichnet man solche Merkmale einer Verteilung, die über die Lage von charakteristischen errechneten oder tatsächlich vorhandenen Werten Auskunft geben. Eine wesentliche Voraussetzung ist dabei, dass die Werte aufsteigend sortiert sind. Dies ist bspw. in der beispielhaften Abbildung genau der Fall.
Ein errechneter und sehr bekannter Wert aus diesem Spektrum wäre bspw. der Durchschnitt. Tatsächlich vorhandene und auf den ersten Blick möglicherweise wegen ihrer sehr einfachen Ermittlung nicht so interessant wirkende Werte wären dagegen das Minimum und das Maximum. Mit diesen drei Werten jedoch erhält man bereits eine grobe Vorstellung von der Verteilung. Ist bspw. der Durchschnitt näher am Minimum als am Maximum, kann man sich vorstellen, dass es sehr viele kleine Werte und dementsprechend eher wenige große Werte gibt. Umgekehrt könnte man sich vorstellen, dass es so viele große Werte gibt, dass sie den Durchschnitt sehr nach oben heben. Zusätzlich muss man neben der Anzahl der Werte auch die tatsächliche Höhe in Betracht ziehen. Einige wenige überaus hohe Werte können auch bei sehr vielen kleinen Werten den Durchschnitt sehr heben. Einfache Zahlenexperimente lassen sich leicht auch schon mit fünf Werten im jeweils einstelligen Bereich vornehmen, um die verschiedenen Extremsituationen zu entdecken.
Der Median kann hier helfen, diesen Umstand näher zu beleuchten. Er ist der mittlere Wert, von dem 50% der Werte (Anzahl der Messungen, der Merkmalsträger oder der Teilnehmer) links und 50% rechts liegen. Bei einer ungeraden Anzahl wie 5 wäre es gerade der dritte Wert, bei einer geraden Anzahl wie 6 wäre es der Mittelwert zwischen dem dritten und vierten Wert. Der Median kann also einmal als tatsächlicher oder berechneter/interpolierter Wert erscheinen.
Im Beispiel wurden die einzelnen ermittelten Daten der Reihe nach von Minimum nach Maximum sortiert und dann in die entstehende Abbildung die gängigen Lagemaße markiert. Zu erwähnen ist noch, dass man neben dem Median (50%-Quartil) noch häufig die Quartile für 25% und 75% ermittelt, deren Abstand wiederum manchmal einen genaueren Aufschluss über den Bereich von 50% aller Werte geben, ohne die beiden außen liegenden Viertel zu betrachten.

Mit den Streuungsmaßen erhält man Werte, mit denen man Maßzahlen hat, wie hoch die Streuung, Variation, Dispersion oder auch Spreizung der Werte ist. Trotz sehr unterschiedlicher Extremwerte, Anzahl von Werten und ihren einzelnen Höhen können zwei Datenmengen sehr unterschiedlich streuen. In der einen gibt es bspw. nur einen sehr geringen Abstand vom Durchschnitt, während in der anderen dieser sehr hoch werden kann und die Differenz zwischen Minimum und Maximum sehr groß sein kann. Beide Informationen können für die Bewertung und Beschreibung der Daten sehr aufschlussreich sein, sodass es notwendig ist, für diese Streuung Werte für ihren Vergleich zu ermitteln.
Während die Lagemaße sich weitestgehend direkt aus den tatsächlich vorhandenen Daten der Verteilung ableiten lassen, ist dies bei den Streuungsmaßen nur bedingt so. Die Spannweite als Differenz zwischen den beiden Extremwerten und der Quartilsabstand als Differenz zwischen dem ersten (25%) und dem dritten Quartil (75%) beziehen sich noch direkt auf Daten aus der Datenmenge und lassen sich auch sehr leicht nachvollziehen und inhaltlich verstehen.
Gerade die sehr viel wichtigere Varianz und Standardabweichung als Quadratwurzel der Varianz sowie die Bedeutung und Errechnung des Variationskoeffizienten hingegen sind gute Beispiele dafür, wie in der Statistik als Wissenschaft Werte berechnet werden, deren Bedeutung und Herleitung nicht direkt und ohne weitere Kenntnisse und Beschäftigung mit der statistischen Theorie verstanden und interpretiert werden können.
Bei der Standardabweichung betrachtet man den Abstand jedes einzelnen Wertes vom Durchschnitt, quadriert diesen Abstand, damit sie sich gegenseitig nicht aufheben, dividiert diesen durch die Anzahl der Werte und nimmt die positive Quadratwurzel. Die Varianz ist dann nur die Summe der Abstandsquadrate dividiert durch die Anzahl der Werte. Weil man die Quadratwurzel verwendet, erhält man einen Wert in der gleichen Dimension wie die Rohdaten. Sie ist eine rein rechnerische Größe und gibt die durchschnittliche Abweichung vom Durchschnittswert an.
Schließlich kann man sich auch relative Streuungsmaße vorstellen, von denen hier der Variationskoeffizient berechnet wird. Er gibt an, wie viel Prozent des Durchschnitts die Standardabweichung beträgt. Er wird als Quotient aus der Standardabweichung und dem Durchschnitt ermittelt.

comelio.com


