Komplexe Analysen & Zusammenhänge
Weiterführend:
- Vorwissen: Statistische Kennwerte (Lage- und Streumasse)
- Vorwissen: Daten visualisieren (Diagramme)
- Als Nächstes: Statistik kritisch hinterfragen
Lehrplan 21
MA.3.C.2.gGrundanspruchAbhängigkeit zweier Grössen mit Funktionsgraph darstellen; Graphenverläufe interpretieren (Erw: geeignete Skalierung wählen; lineare funktionale Zusammenhänge mit Term beschreiben)MA.3.A.3.kZu linearen Funktionen den Funktionsgraphen zeichnen; Steigung, y-Achsenabschnitt und Nullstelle bestimmenMA.3.B.1.jFunktionale und statistische Zusammenhänge erforschen; statistische Rohdaten zu sozialen/wirtschaftlichen/ökologischen Fragestellungen erforschenMA.3.C.1.jBeziehungen zwischen Grössen datengestützt herstellen; soziale, wirtschaftliche und ökologische Fragestellungen bearbeitenMA.3.C.2.hWertetabellen, Diagramme, Sachtexte, Terme und Graphen einander zuordnen und interpretieren; Sachsituationen nach funktionalen, statistischen und probabilistischen Gesichtspunkten bearbeiten
Quelle: Aargauer Lehrplan Volksschule, Fachbereich Mathematik (August 2022)
Eine kleine Zeitreise
Abschnitt betitelt „Eine kleine Zeitreise“Die Idee, Daten nicht nur zu sammeln, sondern sichtbar zu machen, ist jünger als du denkst. Im 18. Jahrhundert veröffentlichte der Schotte William Playfair erste Balken- und Liniendiagramme. Er wollte Handelsströme zwischen England und anderen Ländern verständlich zeigen. Sein Werk “The Commercial and Political Atlas” von 1786 gilt als Geburtsstunde der modernen Datenvisualisierung.
Einen Sprung machte die Statistik, als Francis Galton um 1885 den Begriff der Regression prägte. Galton untersuchte die Grösse von Eltern und ihren Kindern. Er entdeckte: Kinder sehr grosser Eltern sind im Durchschnitt wieder etwas kleiner. Diese “Rückkehr zum Mittelwert” — auf Englisch “regression” — brachte ihn dazu, die erste Ausgleichsgerade durch eine Punktwolke zu legen. Sein Schüler Karl Pearson formalisierte die Methode und erfand den Korrelationskoeffizienten.
Den Boxplot verdanken wir einem Amerikaner. John Tukey entwarf ihn 1977 in seinem Buch “Exploratory Data Analysis”. Tukey war frustriert: Klassische Statistiker verloren sich in Formeln, bevor sie die Daten überhaupt angeschaut hatten. Er forderte ein schnelles, visuelles Werkzeug. Der Boxplot zeigt in einer einzigen Grafik fünf wichtige Kennwerte gleichzeitig.
Die Geschichte der Streudiagramme reicht noch weiter zurück. Schon der Astronom John Herschel nutzte 1833 Punktwolken, um den Umlauf eines Doppelsterns zu analysieren. Heute findest du Streudiagramme überall — in Klimastudien, Medizinforschung, Ökonomie und Machine Learning.
Warum lohnt sich dieser historische Blick? Weil du verstehst: Jedes Werkzeug wurde aus einem konkreten Problem geboren. Wenn du einen Boxplot zeichnest, denkst du wie Tukey. Wenn du eine Ausgleichsgerade legst, folgst du Galton. Du stehst auf den Schultern von Riesen.
Die Grundlagen
Abschnitt betitelt „Die Grundlagen“Bevor du Boxplots und Streudiagramme erstellst, brauchst du zwei zentrale Begriffe: univariate und bivariate Daten.
Für den Boxplot nutzt du univariate Daten. Du fasst viele Einzelwerte zu einer Verteilung zusammen. Für das Streudiagramm brauchst du bivariate Daten, denn du willst herausfinden, wie zwei Grössen zusammenspielen.
Eine zweite Grundlage sind die Quartile. Du kennst sie schon aus dem Artikel zu den statistischen Kennwerten.
Diese fünf Zahlen heissen in der englischen Statistikliteratur Five-Number Summary. Tukey baute seinen Boxplot genau darum herum. Der Vorteil: Du brauchst keine komplizierte Formel. Du zählst ab, du zeichnest, du vergleichst.
Merke dir die Grundregel: Ein Boxplot zeigt, wie Daten verteilt sind. Ein Streudiagramm zeigt, wie zwei Grössen zusammenhängen. Beide Werkzeuge sind kein Selbstzweck. Sie helfen dir, Fragen zu beantworten, die eine reine Tabelle nicht verrät.
Die Kernmethode
Abschnitt betitelt „Die Kernmethode“Die Kernidee aller drei Methoden heisst: Struktur sichtbar machen. Eine unsortierte Zahlenliste verrät dir nichts. Eine Grafik verrät dir in Sekunden die wichtigsten Eigenschaften.
Der Boxplot zeigt dir vier Dinge auf einen Blick: die Lage (Median), die Streuung der Mitte (Kastenbreite), die Spannweite (Antennen) und eventuelle Schiefe (Median nicht mittig im Kasten).
Die Ausgleichsgerade findest du in zwei Varianten. Im Schulalltag reicht oft das “Daumen-Verfahren”: Du legst ein Lineal so durch die Punktwolke, dass etwa gleich viele Punkte darüber wie darunter liegen. Genauer geht es mit der Methode der kleinsten Quadrate. Sie minimiert die Summe der quadrierten Abstände aller Punkte zur Geraden. Diese Methode nutzt jeder Taschenrechner und jede Tabellenkalkulation.
Der Zusammenhang zwischen zwei Grössen heisst Korrelation. Er kann positiv (beide steigen gemeinsam), negativ (eine steigt, die andere sinkt) oder gleich null (kein Zusammenhang) sein.
Beispiel 1: Einen Boxplot zeichnen
Abschnitt betitelt „Beispiel 1: Einen Boxplot zeichnen“In einer Klasse wurden folgende Mathe-Noten geschrieben:
Lösung:
Es sind neun Werte. Ordnen muss ich nicht mehr — sie sind schon sortiert.
Minimum:
Maximum:
Median (5. Wert):
Unteres Quartil (Median der unteren vier Werte ):
Oberes Quartil (Median der oberen vier Werte ):
Interquartilsabstand:
Du zeichnest nun eine Zahlengerade von bis . Der Kasten reicht von bis , der Median-Strich sitzt bei . Die Antennen gehen bis und . Der Median sitzt rechts im Kasten — die Verteilung ist leicht linksschief.
Beispiel 2: Zwei Boxplots vergleichen
Abschnitt betitelt „Beispiel 2: Zwei Boxplots vergleichen“Zwei Klassen schreiben denselben Mathe-Test. Die Lehrerin fasst so zusammen:
| Klasse | |||||
|---|---|---|---|---|---|
| 9a | |||||
| 9b |
Lösung:
Du zeichnest beide Boxplots auf derselben Achse von bis .
Vergleich der Lage: Der Median der 9b () liegt höher als der der 9a (). Die 9b schneidet im Mittel besser ab.
Vergleich der Streuung: Der IQR der 9a ist . Der IQR der 9b ist . Die 9b ist deutlich homogener.
Ausreisser: Die 9a hat mit eine Schülerin oder einen Schüler mit einer sehr schwachen Note. Das zieht die linke Antenne nach unten.
Fazit: Die 9b ist besser und einheitlicher. In der 9a gibt es breite Leistungen und eine problematische Einzelnote. Für die Lehrerin heisst das: In der 9a braucht es Differenzierung, in der 9b kann sie mit dem gesamten Niveau weiterarbeiten.
Die häufigsten Stolpersteine
Abschnitt betitelt „Die häufigsten Stolpersteine“Drei Fehler begegnen dir in dieser Einheit besonders oft. Wenn du sie kennst, sparst du dir viele Punktverluste.
Beispiel 3: Streudiagramm und Ausgleichsgerade
Abschnitt betitelt „Beispiel 3: Streudiagramm und Ausgleichsgerade“Eine Schülergruppe misst Lernzeit (in Stunden) und erreichte Punkte (von 40) in einem Test:
| Lernzeit | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|---|---|---|---|---|---|---|---|---|
| Punkte | 12 | 18 | 22 | 25 | 28 | 31 | 35 | 38 |
Lösung:
Jede Zeile wird zu einem Punkt . Die Punkte liegen fast perfekt auf einer Geraden — ein starker positiver Zusammenhang.
Du legst ein Lineal durch die Wolke. Schätzung: Bei erreicht die Gerade etwa . Bei erreicht sie etwa .
Steigung:
y-Achsenabschnitt:
Die Ausgleichsgerade lautet also:
Interpretation: Pro zusätzlicher Lernstunde steigen die Testpunkte im Mittel um . Ohne Lernen erreichst du etwa Punkte — das wäre Grundwissen aus dem Unterricht.
Warnung: Für ergäbe die Gerade Punkte. Da es nur Punkte gibt, ist die Extrapolation sinnlos.
Beispiel 4: Korrelationstyp erkennen
Abschnitt betitelt „Beispiel 4: Korrelationstyp erkennen“Ordne den folgenden Sachverhalten den richtigen Korrelationstyp zu: positiv, negativ oder keine.
a) Anzahl Regentage pro Monat und verkaufte Sonnenbrillen b) Alter eines Autos und sein Wiederverkaufspreis c) Schuhgrösse und Intelligenz d) Höhe eines Bergs und Lufttemperatur am Gipfel
Lösung:
a) Negativ. Mehr Regen heisst weniger Sonne, also weniger Sonnenbrillen-Nachfrage. Im Streudiagramm fällt die Punktwolke von links oben nach rechts unten ab.
b) Negativ. Je älter das Auto, desto niedriger der Preis (mit wenigen Ausnahmen bei Oldtimern). Die Gerade hat eine negative Steigung.
c) Keine. Schuhgrösse hängt nicht mit Intelligenz zusammen. Die Punktwolke ist eine zufällige Wolke ohne Richtung.
d) Negativ. Je höher der Berg, desto kälter am Gipfel. Etwa pro Höhenmeter.
Transfer: Wenn du einen neuen Datensatz bekommst, frage dich immer zuerst: Ergibt eine Korrelation physikalisch Sinn? Bei Schuhgrösse und Intelligenz zeigt schon der gesunde Menschenverstand, dass hier kein Zusammenhang zu erwarten ist. Findest du trotzdem einen, liegt meist eine Scheinkorrelation vor (zum Beispiel, weil Erwachsene sowohl grössere Schuhe als auch einen höheren Bildungsstand haben als Kinder).
Vertiefung
Abschnitt betitelt „Vertiefung“Im Alltag reicht das Daumen-Verfahren oft aus. In Wissenschaft und Technik braucht es mehr Genauigkeit. Hier kommt der Korrelationskoeffizient ins Spiel.
Diese Formel sieht kompliziert aus. Die Idee dahinter ist einfach: Du schaust für jeden Punkt, wie weit er vom Mittelwert beider Grössen entfernt ist. Liegen Abweichungen immer im gleichen Vorzeichen, ist positiv. Wechseln sie, ist negativ.
Als Faustregel:
- : schwacher Zusammenhang
- : mittlerer Zusammenhang
- : starker Zusammenhang
Wichtig: misst nur lineare Zusammenhänge. Liegen die Punkte auf einer Parabel, kann trotzdem nahe null sein — obwohl ein perfekter Zusammenhang besteht. Ein Streudiagramm ist deshalb immer Pflicht, bevor du einen -Wert interpretierst.
Die Methode der kleinsten Quadrate liefert dir die beste Gerade analytisch. Für Daten mit gelten:
Moderne Taschenrechner haben diese Formeln eingebaut. Du gibst die Wertepaare ein, drückst auf “LinReg” oder “a+bx”, und bekommst Steigung, Achsenabschnitt und Korrelationskoeffizienten geliefert.
Beispiel 5: Korrelationskoeffizient interpretieren
Abschnitt betitelt „Beispiel 5: Korrelationskoeffizient interpretieren“Ein Sportforscher untersucht den Zusammenhang zwischen wöchentlicher Trainingszeit (Stunden) und der Zeit auf (Sekunden) bei zehn Jugendlichen. Sein Taschenrechner liefert:
Lösung:
Interpretation von : Der Wert ist betragsmässig gross (), also ein starker negativer Zusammenhang. Je mehr trainiert wird, desto schneller ist die -Meter-Zeit.
Gleichung der Ausgleichsgeraden:
Was bedeutet ? Pro zusätzlicher Trainingsstunde pro Woche sinkt die -Meter-Zeit im Mittel um Sekunden.
Was bedeutet ? Ohne Training wäre die Zeit im Mittel .
Vorsicht Kausalität: Der starke -Wert zeigt einen Zusammenhang. Er beweist aber nicht, dass mehr Training allein die Zeit senkt. Vielleicht sind die Jugendlichen, die viel trainieren, auch generell talentierter oder ernähren sich besser. Für einen echten Kausalnachweis bräuchte es eine Vergleichsgruppe und eine kontrollierte Studie.
Übungen
Abschnitt betitelt „Übungen“-
Bestimme zu den Daten die fünf Kennzahlen und zeichne den Boxplot.
-
Eine Klasse misst Körpergrössen (in cm): . Berechne , , und den IQR.
-
Zwei Betriebe zahlen folgende Löhne (in Tausend CHF pro Jahr). Betrieb A: . Betrieb B: . Zeichne beide Boxplots und vergleiche.
-
Trage die Wertepaare in ein Streudiagramm ein und beschreibe den Zusammenhang:
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| 2 | 4 | 5 | 7 | 9 | 10 |
- Eine Wetterstation hat für sieben Tage Mittagstemperatur (°C) und verkaufte Liter Eistee gemessen:
| Temp. | 15 | 18 | 21 | 24 | 27 | 30 | 33 |
|---|---|---|---|---|---|---|---|
| Eistee | 20 | 35 | 48 | 62 | 78 | 92 | 108 |
Zeichne das Streudiagramm und bestimme grafisch Steigung und Achsenabschnitt der Ausgleichsgeraden.
-
Für die Daten aus Aufgabe 5: Wie viel Eistee würdest du bei schätzen? Darfst du die Gleichung auch bei anwenden? Begründe.
-
Ein Student hat für seine Statistikarbeit den Korrelationskoeffizienten berechnet. Wie stark ist der Zusammenhang?
-
Erkläre den Unterschied zwischen Korrelation und Kausalität anhand eines eigenen Beispiels.
-
Die Ausgleichsgerade für den Zusammenhang zwischen Wochenstunden Sport und Ruhepuls lautet . Interpretiere Steigung und y-Achsenabschnitt.
-
Ein Datensatz zeigt die Anzahl Einwohner von Städten und die Zahl der Verbrechen. Der Korrelationskoeffizient beträgt . Bedeutet das, dass grosse Städte “gefährlicher” sind? Diskutiere.
Das Wichtigste in Kürze
Abschnitt betitelt „Das Wichtigste in Kürze“Der Boxplot fasst eine Verteilung mit fünf Kennzahlen zusammen: Minimum, , Median, , Maximum. Der Kasten zeigt die mittleren der Daten. Je schmaler der Kasten, desto homogener die Gruppe. Schiefe erkennst du an der Lage des Medians im Kasten.
Das Streudiagramm zeigt bivariate Daten als Punktwolke. Steigt die Wolke von links unten nach rechts oben, ist die Korrelation positiv. Fällt sie ab, ist sie negativ. Ist die Wolke diffus, gibt es keinen (linearen) Zusammenhang.
Die Ausgleichsgerade folgt der Punktwolke am besten. Die Steigung sagt, wie stark pro Einheit von wächst. Der Korrelationskoeffizient misst die Stärke des linearen Zusammenhangs (Werte zwischen und ).
Merke: Korrelation ist nicht Kausalität. Und eine Gerade gilt nur im Messbereich.
Welche fünf Kennzahlen brauchst du für einen Boxplot? a) Mittelwert, Modus, Median, Minimum, Maximum b) Minimum, , Median, , Maximum c) Minimum, Mittelwert, Median, Modus, Maximum
Lösung anzeigen
Was zeigt der Kasten im Boxplot an? a) Die Spannweite aller Daten b) Die mittleren der Daten (vom unteren bis zum oberen Quartil) c) Den Bereich um den Mittelwert
Lösung anzeigen
Der Korrelationskoeffizient beträgt . Was bedeutet das? a) Es gibt keinen Zusammenhang b) Starker positiver Zusammenhang c) Starker negativer Zusammenhang
Lösung anzeigen
Eistee-Verkäufe und Sonnenbrände korrelieren stark positiv. Was folgt daraus? a) Eistee verursacht Sonnenbrände b) Beide Werte werden von einer dritten Grösse beeinflusst (Sonne/Wärme) c) Ein statistischer Fehler liegt vor
Lösung anzeigen
Die Ausgleichsgerade lautet . Wie ändert sich , wenn um wächst? a) um b) um c) um
Lösung anzeigen
Ausblick
Abschnitt betitelt „Ausblick“In den nächsten Artikeln lernst du, wie du die Werkzeuge aus dieser Einheit kritisch einsetzt. Du siehst, wie Medien Grafiken manipulieren — durch abgeschnittene Achsen, ungeeignete Skalierungen oder bewusst gewählte Ausschnitte. Im Gymnasium begegnen dir Streudiagramme wieder bei der Regressionsanalyse. Dort wirst du Ausgleichskurven auch für nichtlineare Zusammenhänge berechnen. Später im Studium kommen multiple Regression und Kausalmodelle hinzu — die Kunst, echte von scheinbaren Zusammenhängen zu trennen.
Lösungen
Abschnitt betitelt „Lösungen“Aufgabe 1: Neun Werte, geordnet. Median (5. Wert) . Untere Hälfte: , . Obere Hälfte: , . IQR . Minimum , Maximum . Der Kasten reicht von bis , Median-Strich bei .
Aufgabe 2: Zehn Werte. Median . Untere Hälfte (5 Werte): , . Obere Hälfte: , . IQR .
Aufgabe 3: Betrieb A: , , , IQR . Der Wert ist ein klarer Ausreisser (Management-Gehalt). Betrieb B: , , , IQR . Fazit: Beide Betriebe zahlen ähnliche typische Löhne, aber A ist ungleicher und hat einen Spitzenverdiener.
Aufgabe 4: Die Punkte steigen fast linear. Ausgleichsgerade grafisch etwa . Starker positiver Zusammenhang, nahe .
Aufgabe 5: Punkte liegen nahezu perfekt auf einer Geraden. Zwischen () und () ergibt sich die Steigung: Achsenabschnitt: aus folgt , also . Die Ausgleichsgerade lautet .
Aufgabe 6: Bei ergibt sich Liter. Bei lieferte die Gleichung Liter — offensichtlich unsinnig, weil negative Verkaufsmengen nicht existieren. Ausserdem liegt ausserhalb des Messbereichs . Extrapolation nicht zulässig.
Aufgabe 7: . Schwacher Zusammenhang. Der Student sollte keine starken Aussagen über den Zusammenhang machen.
Aufgabe 8: Eigenes Beispiel möglich. Klassiker: Gemeinden mit vielen Störchen haben auch viele Geburten. Korrelation ist stark positiv. Kausalität? Nein. Beide hängen davon ab, ob es sich um eine ländliche Gegend mit vielen Familien und alten Dächern handelt.
Aufgabe 9: Steigung bedeutet: pro zusätzlicher Sportstunde pro Woche sinkt der Ruhepuls im Mittel um Schläge pro Minute. Der y-Achsenabschnitt ist der erwartete Ruhepuls ohne Sport. Beide Werte zusammen: Sport senkt den Ruhepuls — eine bekannte physiologische Wirkung.
Aufgabe 10: Der -Wert von ist sehr hoch. Die Interpretation “grosse Städte sind gefährlicher” ist dennoch falsch. Grund: Mehr Einwohner bedeutet mehr Menschen, die Verbrechen begehen oder erleiden können — ein reiner Grössen-Effekt. Fairer wäre der Vergleich der Verbrechensrate pro 1000 Einwohner. Dann verschwindet der starke Zusammenhang oft oder kehrt sich sogar um. Das Beispiel zeigt: Absolute Zahlen können in die Irre führen. Relative Vergleiche sind in der Statistik oft aussagekräftiger.
Quellen
- Lehrplan 21 — Mathematik — Deutschschweizer Erziehungsdirektoren-Konferenz (D-EDK)
- Lehrplan Volksschule Aargau — Mathematik — Kanton Aargau, Departement Bildung, Kultur und Sport