1973 stand die renommierte US-Universität Berkeley wegen vermeintlicher Diskriminierung von Frauen bei der Studienzulassung am Pranger. Was passiert war, lässt sich an folgendem vereinfachten Beispiel nachvollziehen. Stellen wir uns vor, es würden sich auf zwei Studiengänge insgesamt 500 Frauen und 500 Männer bewerben. Von den Frauen werden 240 zum Studium zugelassen (48% Zulassungsquote), von den Männern 300 (60% Zulassungsquote).

Auf den ersten Blick scheint der Vorwurf der Diskriminierung gegen Frauen also durchaus begründet. Allerdings sollten zu einer wirklichen Beurteilung auch die Bewerbungs- und Zulassungsquoten in den beiden Studiengängen berücksichtigt werden. Nehmen wir an, im ersten Studiengang gibt es 360 Studienplätze, auf die sich 100 Frauen und 400 Männer bewerben. Es werden 80 Frauen und 280 Männer zum Studium zugelassen, also 80% Zulassungsquote bei den Frauen und 70% bei den Männern. Im zweiten Studiengang gibt es 180 Studienplätze, auf die sich 400 Frauen und 100 Männer bewerben. 160 Frauen und 20 Männer werden zum Studium zugelassen, also 40% bei den Frauen und 20% bei den Männern. In beiden Studiengängen werden Frauen also zu einem höheren Anteil zugelassen, was eher als eine Diskriminierung der Männer angesehen werden kann.

Wie kann dieses kuriose Ergebnis – höhere Zulassungsquoten bei den Männern insgesamt, aber in jedem Studiengang höhere Zulassungsquoten bei den Frauen – erklärt werden? Inhaltlich liegt des Rätsels Lösung darin, dass sich im genannten Beispiel Frauen eher auf den Studiengang bewerben, bei dem die Zulassungsquote geschlechtsunabhängig niedriger ist, d.h. bei dem sich relativ mehr Bewerber auf die Studienplätze bewerben. Männer bewerben sich hingegen verstärkt auf den Studiengang mit mehr Studienplätzen. Die Betrachtung der Zulassungsquoten insgesamt, bei der Frauen scheinbar diskriminiert werden, lässt also schlicht außer Acht, dass im exemplarischen Fall Frauen und Männer offensichtlich unterschiedliche Studienvorlieben haben.

Dieses als Simpson-Paradoxon bekannte Phänomen kann immer dann eintreten, wenn die Gesamtbetrachtung durch nicht berücksichtigte Faktoren beeinflusst wird, wie im vorliegenden Fall das unterschiedliche Bewerbungsverhalten von Frauen und Männern auf die Studiengänge. Tatsächlich zeigte sich bei der Berkeley-Universität, dass von den 101 Departements der Universität 16 nur erfolgreiche Bewerber hatten oder nur Bewerber des einen Geschlechts vorlagen. Bei den übrigen 85 Departements ergab sich, dass nur bei vier Departements Männern signifikant höhere Erfolgsquoten aufwiesen als Frauen, bei sechs Departements hatten Frauen signifikant bessere Erfolgsquote bei ihrer Bewerbung als Männer. Eine Diskriminierung war also nicht erkennbar.

Das Beispiel zeigt, dass im schlimmsten Fall auf Basis der Gesamtbetrachtung vollkommen falsche Schlussfolgerungen gezogen werden können, da ein Unterschied, der in jeder Teilgruppe zu beobachten ist, verschwindet oder sich gar umkehrt, wenn die Teilgruppen zusammengefasst werden. Die Erklärung liegt in aller Regel wie im Beispiel dargestellt in einem nicht-erfassten Einflussfaktor. Um zu einer sinnvollen Interpretation zu gelangen, ist die Identifizierung solcher nicht-erfasster Einflussfaktoren unerlässlich. Und nicht immer liegen diese so klar auf der Hand wie im genannten Beispiel und es bedarf oft guter Kenntnis über die Sache, um sie identifizieren zu können.

Und tatsächlich spielt das Simpson Paradoxon auch in aktuellen politischen Diskussionen immer wieder eine Rolle. Zwar stellt das Beispiele in gewisser Weise einen Extremfall dar: Obwohl in allen Teilgruppen ein Trend in die eine Richtung erkennbar ist, liegt insgesamt ein Trend in die andere Richtung vor. Aber auch wenn diese auf den ersten Blick paradoxe Situation nicht vorliegt, ist bei der Interpretation von Gesamtmittelwerten und Mittelwerten in Untergruppen Vorsicht geboten, denn das gleiche Prinzip kann auch hier wirken. Gut erkennbar ist das jährlich wiederkehrend bei der Diskussion um den Gender Pay Gap. Dabei taucht immer wieder die Zahl auf, dass Frauen in Deutschland im Schnitt 22% weniger verdienen als Männer. Dies stimmt auch. Differenziert man allerdings nach Teilgruppen, so fällt die Gehaltsdifferenz jeweils deutlich geringer aus. Betrachtet man etwa den Durchschnittsverdienst von Männern und Frauen in Teilzeit miteinander, so ist die Gehaltsdifferenz „nur“ 4%, bei Männern und Frauen in Vollzeit 17%. In beiden Teilgruppen ist der Gehaltsunterschied also geringer als insgesamt. Die Erklärung ist wieder, dass deutlich mehr Frauen in Teilzeit arbeiten. Dies ist also auch als eine schwache Version des Simpson-Paradoxons zu interpretieren. In einer genaueren Analyse kann man nun noch weitere Faktoren mit einbeziehen und Vergleiche in spezifischeren Teilgruppen anstellen, um tatsächlich genauer zu ergründen, welchen direkten Einfluss das Geschlecht auf das Gehalt hat und welche Gehaltsunterschiede eher durch weitere Faktoren zu erklären sind. Eine solche Analyse hat etwa das Statistische Bundesamt anlässlich des Equal Pay Day am 21. März 2014 veröffentlicht. Das Ergebnis zeigt, dass unter Berücksichtigung unterschiedlicher Branchen und Berufe, Arbeitsplatzanforderungen hinsichtlich Führung und Qualifikation sowie Dienstalter und Beschäftigungsumfang der bereinigte Gender Pay Gap bei lediglich 7% liegt. Man mag diesen Unterschied als spitzfindig abtun, aber inhaltlich ist er gewichtig: Ganz offensichtlich ist das Hauptproblem weniger, dass Frauen für gleiche Arbeit direkt wegen ihres Geschlechts weniger Geld erhalten, sondern vielmehr, dass für Frauen nicht die gleichen Chancen wie für Männer auf bessere Positionen auf dem Arbeitsmarkt gegeben sind. Und dieser Unterschied sollte für die gesellschaftspolitische Diskussion durchaus von hoher Relevanz sein.

Die aufgeführten Beispiele zeigen, dass bei der Bewertung von Effekten im Mittel die Suche nach möglichen vernachlässigten Faktoren für ein vollständiges Bild nötig ist. Dabei ist festzuhalten, dass sich diese Notwendigkeit einer über den Mittelwertvergleich hinausgehenden Analyse direkt aus dem Wissen über das Simpson Paradoxon ergibt.