Zum Inhalt springen

Statistische Kennwerte (Lage- und Streumasse)

Weiterführend:

Lehrplan 21Zyklus 2 (3.–6. Klasse), Zyklus 3 (7.–9. Klasse) · 5Kompetenzen
  • MA.3.A.1.kGrundanspruchBegriffe absolute und relative Häufigkeit, x-Koordinate, y-Koordinate, x-Achse, y-Achse, Einheitsstrecke, Wahrscheinlichkeit; Masseinheiten Geschwindigkeit (km/h, m/s, kB/s, dpi)
  • MA.3.A.1.jBegriffe Koordinatensystem, Währung, arithmetisches Mittel (Erw: indirekte Proportionalität); Masseinheiten Flächenmasse (km², ha, a, m², dm², cm², mm²), Geld (CHF, €, $)
  • MA.3.C.1.fDatensätze nach Kriterien auswerten; Mittelwert, Maximum und Minimum bestimmen
  • MA.3.C.1.jBeziehungen zwischen Grössen datengestützt herstellen; soziale, wirtschaftliche und ökologische Fragestellungen bearbeiten
  • MA.3.C.2.hWertetabellen, Diagramme, Sachtexte, Terme und Graphen einander zuordnen und interpretieren; Sachsituationen nach funktionalen, statistischen und probabilistischen Gesichtspunkten bearbeiten

Quelle: Aargauer Lehrplan Volksschule, Fachbereich Mathematik (August 2022)

Die Idee, viele Zahlen zu einem einzigen Wert zusammenzufassen, ist alt. Schon im 4. Jahrhundert vor Christus berichtete der griechische Historiker Thukydides vom Mittelwert. Er schrieb, dass Soldaten die Höhe einer Mauer schätzten. Der häufigste Wert wurde als Grundlage für den Mauerbau genutzt. Das war der Modus in der Praxis.

Einen gewaltigen Sprung machte die Statistik im 17. Jahrhundert. John Graunt analysierte 1662 in London die Sterblichkeitsraten. Er legte damit den Grundstein für die moderne Demografie. Wenig später erfand Blaise Pascal zusammen mit Pierre de Fermat die Wahrscheinlichkeitsrechnung. Beide Bereiche gehören heute untrennbar zusammen.

Der wahre Durchbruch kam mit Carl Friedrich Gauss (1777-1855). Gauss untersuchte Messfehler in der Astronomie. Er entwickelte die Methode der kleinsten Quadrate. Aus dieser entstand später die Formel für die Standardabweichung. Sein Name ist bis heute mit der berühmten Glockenkurve verbunden. Sie steht sogar auf dem alten deutschen 10-DM-Schein.

Adolphe Quetelet (1796-1874) prägte den Begriff des «durchschnittlichen Menschen». Er wandte statistische Methoden auf Körpergrössen, Gewichte und Kriminalitätsraten an. Damit wurde die Statistik zu einer Gesellschaftswissenschaft. Kritiker warfen ihm vor, einzelne Menschen zu Zahlen zu machen.

Im 20. Jahrhundert revolutionierte Ronald Fisher die Statistik weiter. Er entwickelte die Varianzanalyse. John Tukey erfand 1977 den Boxplot. Diese Grafik zeigt Quartile und Ausreisser auf einen Blick. Bis heute ist sie das Standardwerkzeug in der explorativen Datenanalyse.

Heute nutzen wir Kennwerte überall. Streamingdienste werten Nutzerdaten aus. Klimaforscher analysieren Temperaturreihen. Ärzte vergleichen Therapien. Ohne Lage- und Streumasse gäbe es keine moderne Wissenschaft. Auch dein Notendurchschnitt ist direktes Erbe dieser jahrhundertelangen Entwicklung.

Um Daten sinnvoll zusammenzufassen, brauchst du zwei Arten von Kennwerten. Lagemasse beantworten die Frage nach dem Zentrum. Wo liegt die «Mitte» der Daten? Streumasse beantworten die Frage nach der Verteilung. Wie stark weichen die Werte voneinander ab?

Ein einzelnes Lagemass reicht oft nicht aus. Zwei Datenreihen können denselben Mittelwert haben, aber völlig unterschiedliche Streuungen. Klasse A schreibt die Noten 4,4,4,4,44, 4, 4, 4, 4. Klasse B schreibt 2,3,4,5,62, 3, 4, 5, 6. Beide Klassen haben den Mittelwert 44. Die erste Klasse ist homogen. Die zweite Klasse ist extrem heterogen. Deshalb gibst du bei einer seriösen Analyse immer beides an: ein Lage- und ein Streumass.

Die Berechnung der Kennwerte folgt klaren Formeln. Du lernst sie hier Schritt für Schritt.

Der Modus ist der einfachste Kennwert. Du suchst einfach den Wert, der am häufigsten vorkommt. Eine Datenreihe kann auch mehrere Modi haben. Dann nennt man sie bimodal oder multimodal.

Für die Spannweite brauchst du nur Maximum und Minimum: R=xmaxxminR = x_{\max} - x_{\min}. Die Standardabweichung ist anspruchsvoller. Du lernst sie in der Vertiefung.

Beispiel:

In einer Mathearbeit wurden folgende Noten geschrieben: 3,5,4,6,2,4,5,4,3,43, 5, 4, 6, 2, 4, 5, 4, 3, 4

Bestimme Mittelwert, Median und Modus.

Lösung:

Die Anzahl ist n=10n = 10.

Für den Mittelwert addierst du zuerst alle Werte: 3+5+4+6+2+4+5+4+3+4=403 + 5 + 4 + 6 + 2 + 4 + 5 + 4 + 3 + 4 = 40

Dann teilst du durch 1010: xˉ=4010=4,0\bar{x} = \dfrac{40}{10} = 4{,}0

Für den Median sortierst du die Werte: 2,3,3,4,4,4,4,5,5,62, 3, 3, 4, 4, 4, 4, 5, 5, 6

Bei geradem n=10n = 10 bildest du das Mittel aus dem 5. und 6. Wert. Beide sind 44. Also ist x~=4\tilde{x} = 4.

Für den Modus zählst du die Häufigkeiten. Die Note 44 erscheint viermal. Alle anderen weniger. Daher ist xmod=4x_{\text{mod}} = 4.

In diesem Fall stimmen alle drei Lagemasse überein. Das ist ein Zeichen für eine sehr symmetrische Verteilung.

Beispiel:

Eine kleine Firma hat sechs Mitarbeiter mit folgenden Monatslöhnen in Franken: 4200,4500,4600,4800,5000,180004200, 4500, 4600, 4800, 5000, 18000

Berechne Mittelwert und Median. Vergleiche die Aussagekraft.

Lösung:

Für den Mittelwert summierst du alle Löhne: 4200+4500+4600+4800+5000+18000=411004200 + 4500 + 4600 + 4800 + 5000 + 18000 = 41100

Der Mittelwert ist: xˉ=411006=6850 CHF\bar{x} = \dfrac{41100}{6} = 6850 \text{ CHF}

Die Löhne sind bereits sortiert. Bei n=6n = 6 brauchst du den 3. und 4. Wert: x~=4600+48002=4700 CHF\tilde{x} = \dfrac{4600 + 4800}{2} = 4700 \text{ CHF}

Der Mittelwert von 68506850 CHF ist deutlich höher als der Median von 47004700 CHF. Nur eine Person verdient mehr als 68506850 CHF. Der hohe Chefgehalt von 1800018000 zieht den Mittelwert stark nach oben. Der Median bleibt davon unbeeinflusst. Er ist robust gegenüber Ausreissern. Bei Einkommensdaten gibt man deshalb fast immer den Median an.

Bei Kennwerten passieren regelmässig dieselben Fehler. Hier sind die wichtigsten Fallen.

Beispiel:

Sieben Velofahrer haben folgende Zeiten (in Sekunden) für eine 200-Meter-Strecke: 25,30,28,35,27,26,4025, 30, 28, 35, 27, 26, 40

Bestimme Median, Spannweite und arithmetisches Mittel.

Lösung:

Zuerst sortierst du aufsteigend: 25,26,27,28,30,35,4025, 26, 27, 28, 30, 35, 40

Die Anzahl ist n=7n = 7, also ungerade. Der Median ist der (7+12)=4\left(\frac{7+1}{2}\right) = 4. Wert: x~=28 s\tilde{x} = 28 \text{ s}

Die Spannweite ergibt sich aus Maximum minus Minimum: R=4025=15 sR = 40 - 25 = 15 \text{ s}

Für den Mittelwert summierst du alle Werte: 25+26+27+28+30+35+40=21125 + 26 + 27 + 28 + 30 + 35 + 40 = 211

Damit gilt: xˉ=211730,14 s\bar{x} = \dfrac{211}{7} \approx 30{,}14 \text{ s}

Der Mittelwert liegt über dem Median. Das liegt am Ausreisser von 40 Sekunden. Dieser langsame Fahrer zieht den Durchschnitt nach oben.

Beispiel:

In einem Fitnesstest haben 12 Jugendliche folgende Anzahl Liegestütze geschafft: 12,15,18,20,22,25,25,27,30,32,35,4012, 15, 18, 20, 22, 25, 25, 27, 30, 32, 35, 40

Bestimme die drei Quartile und den Quartilsabstand.

Lösung:

Die Daten sind bereits sortiert. Die Anzahl ist n=12n = 12.

Der Median (= Q2Q_2) liegt zwischen dem 6. und 7. Wert: Q2=25+252=25Q_2 = \dfrac{25 + 25}{2} = 25

Für Q1Q_1 betrachtest du die untere Hälfte: 12,15,18,20,22,2512, 15, 18, 20, 22, 25. Der Median dieser sechs Werte liegt zwischen dem 3. und 4. Wert: Q1=18+202=19Q_1 = \dfrac{18 + 20}{2} = 19

Für Q3Q_3 betrachtest du die obere Hälfte: 25,27,30,32,35,4025, 27, 30, 32, 35, 40. Der Median dieser sechs Werte: Q3=30+322=31Q_3 = \dfrac{30 + 32}{2} = 31

Der Quartilsabstand ist: IQR=Q3Q1=3119=12\text{IQR} = Q_3 - Q_1 = 31 - 19 = 12

Die mittleren 50 Prozent der Jugendlichen schaffen zwischen 19 und 31 Liegestütze.

Die Standardabweichung ist das wichtigste Streumass. Sie misst die durchschnittliche Abweichung der Daten vom Mittelwert. Ihre Berechnung ist etwas aufwendiger, aber sehr lohnend. In fast jeder Statistik-Auswertung taucht sie auf.

Die Berechnung erfolgt in klaren Schritten. Zuerst berechnest du den Mittelwert xˉ\bar{x}. Dann bildest du für jeden Wert die Abweichung xixˉx_i - \bar{x}. Diese Abweichungen quadrierst du. Quadrieren ist wichtig, weil sich positive und negative Abweichungen sonst aufheben würden. Schliesslich bildest du den Durchschnitt der quadrierten Abweichungen und ziehst die Wurzel.

Der Boxplot visualisiert viele dieser Kennwerte auf einen Blick. Er zeigt Minimum, Q1Q_1, Median, Q3Q_3 und Maximum. Die «Box» reicht von Q1Q_1 bis Q3Q_3 und enthält die mittleren 50 Prozent der Daten. Die «Whisker» (Antennen) reichen bis zu den Extremwerten oder bis zu 1,5IQR1{,}5 \cdot \text{IQR} jenseits der Box. Punkte ausserhalb gelten als Ausreisser.

Die Standardabweichung hat dieselbe Einheit wie die Daten. Das macht sie gut interpretierbar. Wenn Körpergrössen in cm angegeben sind, ist auch ss in cm. Bei normalverteilten Daten liegen etwa 68 Prozent aller Werte innerhalb von xˉ±s\bar{x} \pm s. Diese Regel ist für viele Anwendungen in der Qualitätskontrolle wichtig.

Beispiel:

Fünf Messungen einer Länge ergaben: 10,2 cm,9,8 cm,10,0 cm,10,4 cm,9,6 cm10{,}2 \text{ cm}, 9{,}8 \text{ cm}, 10{,}0 \text{ cm}, 10{,}4 \text{ cm}, 9{,}6 \text{ cm}. Berechne die Standardabweichung.

Lösung:

Schritt 1: Mittelwert berechnen. xˉ=10,2+9,8+10,0+10,4+9,65=50,05=10,0 cm\bar{x} = \dfrac{10{,}2 + 9{,}8 + 10{,}0 + 10{,}4 + 9{,}6}{5} = \dfrac{50{,}0}{5} = 10{,}0 \text{ cm}

Schritt 2: Abweichungen und Quadrate.

xix_ixixˉx_i - \bar{x}(xixˉ)2(x_i - \bar{x})^2
10,20,20,04
9,8-0,20,04
10,00,00,00
10,40,40,16
9,6-0,40,16

Schritt 3: Summe der Quadrate. (xixˉ)2=0,04+0,04+0,00+0,16+0,16=0,40\sum (x_i - \bar{x})^2 = 0{,}04 + 0{,}04 + 0{,}00 + 0{,}16 + 0{,}16 = 0{,}40

Schritt 4: Varianz und Standardabweichung. s2=0,4051=0,10s=0,100,316 cms^2 = \dfrac{0{,}40}{5-1} = 0{,}10 \quad \Rightarrow \quad s = \sqrt{0{,}10} \approx 0{,}316 \text{ cm}

Die Messungen streuen durchschnittlich um etwa 0,320{,}32 cm vom Mittelwert.

Bearbeite die folgenden zehn Aufgaben. Die Lösungen findest du weiter unten.

Aufgabe 1: Berechne den Mittelwert der Zahlen 7,9,4,6,3,87, 9, 4, 6, 3, 8.

Aufgabe 2: Bestimme den Median der Datenreihe 5,2,8,3,7,4,95, 2, 8, 3, 7, 4, 9.

Aufgabe 3: Welche Zahl ist der Modus von 2,5,5,3,5,7,8,2,52, 5, 5, 3, 5, 7, 8, 2, 5?

Aufgabe 4: Bestimme die Spannweite von 12,18,25,9,30,15,2212, 18, 25, 9, 30, 15, 22.

Aufgabe 5: Eine Klasse hat die Noten 2,3,3,4,4,4,5,5,62, 3, 3, 4, 4, 4, 5, 5, 6. Berechne Mittelwert und Median. Welches Mass beschreibt die Klasse besser?

Aufgabe 6: Berechne die Quartile Q1Q_1 und Q3Q_3 sowie den Quartilsabstand von 4,7,8,10,12,14,15,18,20,224, 7, 8, 10, 12, 14, 15, 18, 20, 22.

Aufgabe 7: Eine Wetterstation hat folgende Höchsttemperaturen (in °C) in einer Woche gemessen: 22,25,19,27,24,26,2322, 25, 19, 27, 24, 26, 23. Berechne Mittelwert, Median und Spannweite.

Aufgabe 8: Berechne die Standardabweichung der Werte 3,5,7,9,113, 5, 7, 9, 11.

Aufgabe 9: In einem Betrieb arbeiten zehn Personen. Neun verdienen 50005000 CHF, eine verdient 5000050000 CHF. Berechne Mittelwert und Median. Welches Mass ist hier irreführend?

Aufgabe 10: Gegeben sind zwei Datensätze: A=(4,5,6,5,5)A = (4, 5, 6, 5, 5) und B=(1,8,5,9,2)B = (1, 8, 5, 9, 2). Beide haben denselben Mittelwert 55. Berechne die Standardabweichung beider Reihen. Welche streut stärker?

Statistische Kennwerte verdichten grosse Datenmengen zu wenigen aussagekräftigen Zahlen. Lagemasse beschreiben das Zentrum. Der Mittelwert xˉ\bar{x} ist der bekannteste Lagewert, aber anfällig für Ausreisser. Der Median x~\tilde{x} ist robust und eignet sich besser bei schiefen Verteilungen. Der Modus ist der häufigste Wert. Streumasse zeigen die Verteilung. Die Spannweite misst den Gesamtbereich. Der Quartilsabstand umfasst die mittleren 50 Prozent. Die Standardabweichung ss gibt die durchschnittliche Abweichung vom Mittelwert an. Jede seriöse statistische Auswertung kombiniert ein Lage- und ein Streumass. Denke immer daran: Dieselben Mittelwerte können völlig verschiedene Verteilungen beschreiben.

❓ Frage:
Was ist der Median der Zahlen 3,1,4,1,5,9,23, 1, 4, 1, 5, 9, 2? a) 4 b) 3 c) 1 d) 5
Lösung anzeigen
Antwort: b) 3. Sortiert: 1,1,2,3,4,5,91, 1, 2, 3, 4, 5, 9. Bei n=7n=7 ist der 4. Wert der Median, also 33.
❓ Frage:
Welches Lagemass ist am robustesten gegenüber Ausreissern? a) Arithmetisches Mittel b) Median c) Modus d) Spannweite
Lösung anzeigen
Antwort: b) Median. Der Median bleibt von extremen Werten unbeeinflusst, weil er nur die Position der Werte berücksichtigt. Der Mittelwert reagiert stark auf Ausreisser.
❓ Frage:
Zwei Klassen haben denselben Notendurchschnitt von 4,04{,}0. Klasse A: 4,4,4,4,44, 4, 4, 4, 4. Klasse B: 2,3,4,5,62, 3, 4, 5, 6. Was gilt? a) Beide Klassen sind identisch. b) Klasse A hat eine grössere Standardabweichung. c) Klasse B hat eine grössere Standardabweichung. d) Die Standardabweichung ist in beiden Klassen gleich.
Lösung anzeigen
Antwort: c) Klasse B hat eine grössere Standardabweichung. Klasse A streut überhaupt nicht (s=0s = 0). Klasse B hat deutliche Abweichungen vom Mittel, also eine positive Standardabweichung.
❓ Frage:
Was gibt die Spannweite an? a) Die Differenz zwischen grösstem und kleinstem Wert. b) Die durchschnittliche Abweichung vom Mittelwert. c) Den mittleren Wert der Daten. d) Den am häufigsten vorkommenden Wert.
Lösung anzeigen
Antwort: a) Die Differenz zwischen grösstem und kleinstem Wert. Formel: R=xmaxxminR = x_{\max} - x_{\min}.
❓ Frage:
Für die Datenreihe 10,20,30,40,50,60,70,8010, 20, 30, 40, 50, 60, 70, 80 (8 Werte) gilt: a) Der Median ist 40. b) Der Median ist 45. c) Der Median ist 50. d) Es gibt keinen Median.
Lösung anzeigen
Antwort: b) Der Median ist 45. Bei n=8n=8 bildest du das Mittel aus dem 4. und 5. Wert: 40+502=45\dfrac{40+50}{2} = 45.

Jetzt kennst du die wichtigsten Lage- und Streumasse. Im nächsten Schritt lernst du, wie du diese Kennwerte grafisch darstellst. Ein Boxplot visualisiert Quartile und Ausreisser auf einen Blick. Ein Histogramm zeigt die gesamte Verteilungsform. In fortgeschrittenen Themen untersuchst du Zusammenhänge zwischen zwei Variablen. Dort triffst du auf Korrelation und Regression. Auch die beurteilende Statistik baut auf Kennwerten auf. Mittelwert und Standardabweichung sind die Grundlage für Konfidenzintervalle und Hypothesentests. Damit wirst du in der Lage sein, wissenschaftliche Studien kritisch zu bewerten.

Lösung 1: xˉ=7+9+4+6+3+86=3766,17\bar{x} = \dfrac{7+9+4+6+3+8}{6} = \dfrac{37}{6} \approx 6{,}17

Lösung 2: Sortiert: 2,3,4,5,7,8,92, 3, 4, 5, 7, 8, 9. Bei n=7n=7 ist der 4. Wert der Median. Also x~=5\tilde{x} = 5.

Lösung 3: Die Zahl 55 kommt viermal vor. Alle anderen Zahlen kommen seltener vor. Also ist xmod=5x_{\text{mod}} = 5.

Lösung 4: Maximum: 3030. Minimum: 99. Spannweite: R=309=21R = 30 - 9 = 21.

Lösung 5: Summe: 2+3+3+4+4+4+5+5+6=362+3+3+4+4+4+5+5+6 = 36. Also xˉ=369=4,0\bar{x} = \dfrac{36}{9} = 4{,}0. Sortiert sind die Noten bereits. Bei n=9n=9 ist der 5. Wert der Median: x~=4\tilde{x} = 4. In diesem Fall sind Mittelwert und Median identisch. Die Verteilung ist symmetrisch. Beide Masse beschreiben die Klasse gleich gut.

Lösung 6: Die Daten sind sortiert. Bei n=10n=10 ist der Median das Mittel aus dem 5. und 6. Wert: Q2=12+142=13Q_2 = \dfrac{12+14}{2} = 13. Untere Hälfte: 4,7,8,10,124, 7, 8, 10, 12. Median davon: Q1=8Q_1 = 8. Obere Hälfte: 14,15,18,20,2214, 15, 18, 20, 22. Median davon: Q3=18Q_3 = 18. Quartilsabstand: IQR=188=10\text{IQR} = 18 - 8 = 10.

Lösung 7: Summe: 22+25+19+27+24+26+23=16622+25+19+27+24+26+23 = 166. Mittelwert: xˉ=166723,71\bar{x} = \dfrac{166}{7} \approx 23{,}71 °C. Sortiert: 19,22,23,24,25,26,2719, 22, 23, 24, 25, 26, 27. Median: x~=24\tilde{x} = 24 °C. Spannweite: R=2719=8R = 27 - 19 = 8 °C.

Lösung 8: Mittelwert: xˉ=3+5+7+9+115=355=7\bar{x} = \dfrac{3+5+7+9+11}{5} = \dfrac{35}{5} = 7. Abweichungen: 4,2,0,2,4-4, -2, 0, 2, 4. Quadrate: 16,4,0,4,1616, 4, 0, 4, 16. Summe: 4040. Varianz: s2=4051=10s^2 = \dfrac{40}{5-1} = 10. Standardabweichung: s=103,16s = \sqrt{10} \approx 3{,}16.

Lösung 9: Summe: 95000+50000=950009 \cdot 5000 + 50000 = 95000. Mittelwert: xˉ=9500010=9500\bar{x} = \dfrac{95000}{10} = 9500 CHF. Sortiert sind die Löhne: 5000,5000,5000,5000,5000,5000,5000,5000,5000,500005000, 5000, 5000, 5000, 5000, 5000, 5000, 5000, 5000, 50000. Median (5. und 6. Wert): x~=5000\tilde{x} = 5000 CHF. Der Mittelwert von 95009500 CHF ist hier irreführend. Niemand verdient tatsächlich diesen Betrag. Der Median von 50005000 CHF beschreibt die typische Person viel besser. Dieses Beispiel zeigt, warum bei Einkommensdaten meist der Median angegeben wird.

Lösung 10: Beide Reihen haben Mittelwert 55.

Datensatz A: Abweichungen 1,0,1,0,0-1, 0, 1, 0, 0. Quadrate: 1,0,1,0,01, 0, 1, 0, 0. Summe: 22. Varianz: sA2=24=0,5s_A^2 = \dfrac{2}{4} = 0{,}5. Standardabweichung: sA0,71s_A \approx 0{,}71.

Datensatz B: Abweichungen 4,3,0,4,3-4, 3, 0, 4, -3. Quadrate: 16,9,0,16,916, 9, 0, 16, 9. Summe: 5050. Varianz: sB2=504=12,5s_B^2 = \dfrac{50}{4} = 12{,}5. Standardabweichung: sB3,54s_B \approx 3{,}54.

Datensatz B streut deutlich stärker. Dies zeigt, dass der Mittelwert allein keine vollständige Information über die Daten gibt. Erst die Standardabweichung ergänzt das Bild.

Quellen