Der Humorist Will Rogers kommentierte einst Umzüge von Einwohnern Oklahomas nach Kalifornien mit den Worten: „Als die Einwohner von Oklahoma nach Kalifornien umzogen, hoben sie die durchschnittliche Intelligenz in beiden Staaten an“. Dies auf den ersten Blick kaum nachvollziehbare Phänomen stellte in Wirklichkeit einen kräftigen Seitenhieb auf den sonnigen Westküstenstaat der USA dar. Dieses lässt sich einfach an folgender – zugegebenermaßen überzogenen – grafischen Darstellung nachvollziehen.

Will Rogers hatte unterstellt, dass zum einen die Einwohner Oklahomas intelligenter als die Einwohner Kaliforniens seien. Zum zweiten legte er seiner Aussage zugrunde, dass nur „die dümmsten“ Einwohner Oklahomas nach Kalifornien umzögen, diese aber noch intelligenter als der durchschnittliche Kalifornier wären. Nur in diesem Fall wäre tatsächlich der beschriebene Effekt eingetreten, da die unterdurchschnittlich intelligenten fortziehenden Einwohner Oklahomas die durchschnittliche Intelligenz dort anheben würden. In Kalifornien wären sie hingegen überdurchschnittlich intelligent, so dass die durchschnittliche Intelligenz auch dort ansteigen würde.

Nun mag man über dieses Beispiel schmunzeln. Tatsächlich tritt das Will Rogers-Phänomen allerdings im Alltag wie in der Wissenschaft immer wieder auf. Allgemein kann das Will Rogers-Phänomen mit in zwei Gruppen steigenden (oder fallenden) Mittelwerten immer dann auftreten, wenn es einen Wechsel in der Gruppenzusammensetzung gibt.

In der Medizin ist ein klassisches Beispiel aus der Onkologie bekannt: Eine amerikanische Studie verglich zwei Studien zur Überlebensrate von Patienten mit Lungenkarzinom miteinander. Die erste Studie stammte aus den 50er und 60er Jahren des letzten Jahrhunderts, die zweite aus den 70er und 80er Jahren. Dabei waren die Patienten nach der Anzahl der gefundenen Metastasen jeweils in zwei Gruppen eingeteilt worden – Fälle mit einer geringeren Anzahl an Metastasen und Fälle mit einer höheren Anzahl an Metastasen. Die Einteilung in diese beiden Gruppen wurde in beiden Studien exakt identisch vorgenommen. Als Ergebnis der vergleichenden Untersuchung wurde eine höhere Sechs-Monate-Überlebensrate für beide gebildete Gruppen in der aktuelleren Studie gefunden. Dies Ergebnis war jedoch nicht (zumindest nicht alleinig) auf eine Therapieoptimierung zurückzuführen, sondern auf neue bildgebende Verfahren – bessere Röntgentechnologien –, die sich zwischenzeitig etabliert hatten, und die eine sensitivere Erfassung von Metastasen ermöglichten. Konkret wurden in der aktuellen Studie bei den Patienten insgesamt mehr Metastasen gefunden, wodurch ein Teil der Patienten, die eigentlich der Gruppe der gesünderen Patienten hätten zugeordnet werden müssen, in die Gruppe mit schwereren Erkrankungen migrierten. In der Gruppe mit weniger schweren Erkrankungen fehlten somit die Patienten mit fortgeschrittenem Krankheitsverlauf. Die waren nun der Gruppe mit schwereren Erkrankungen zugeteilt, stellten dort allerdings Fälle mit relativ wenig fortgeschrittenem Verlauf dar. Automatisch mussten also in beiden Gruppen die Sechs-Monate-Überlebensraten steigen. Mit diesem Studiendesign ließ sich also nicht valide ermitteln, ob sich Therapieerfolge zwischen der ersten und der zweiten Studie eingestellt hatten.

Und auch, wenn auf den ersten Blick gar nicht mehrere Gruppen, sondern nur eine Auswahlgruppe betrachtet wird, sollte man das Phänomen im Hinterkopf haben. So wurden im Zuge des ersten PISA-Tests im Jahr 2000 teilweise durchschnittliche Testergebnisse an Gymnasien in den einzelnen Bundesländern ausgewiesen und miteinander verglichen. Die folgende Abbildung stellt die mittleren Testergebnisse an Gymnasien in den Bereichen Lesen, Mathematik und Naturwissenschaften im Jahre 2000 dar. Die Ergebnisse sind dem Anteil der Schülerinnen und Schüler an Gymnasien gegenübergestellt. Es lässt sich hierbei unschwer erkennen, dass es zwischen beiden Größen tendenziell einen negativen Zusammenhang gibt: Je höher der Anteil der Schülerinnen und Schüler an Gymnasien in den einzelnen Bundesländern lag, desto tendenziell geringer waren die PISA-Ergebnisse. Inhaltlich kann dieses damit erklärt werden, dass bei höherem Gymnasialanteil auch Schülerinnen und Schüler die Gymnasien besuchen, die etwas weniger leistungsstark hinsichtlich der im PISA-Test geprüften Kompetenzen sind. Hätte man also zum Beispiel auch die mittleren Ergebnisse an den Real- und Hauptschulen zwischen den Bundesländern miteinander verglichen, dann hätte man in den Bundesländern mit geringem Gymnasialanteil (und tendenziell überdurchschnittlichen Testergebnissen) auch für die Ergebnisse an Real- und Hauptschulen tendenziell bessere Ergebnisse erwarten dürfen, denn auch etwas leistungsstärkere Schülerinnen und Schüler besuchen in diesen Bundesländern eher Real- bzw. Hauptschulen. Das bedeutet aber nicht zwangsläufig, dass die Schüler insgesamt und somit auch die Gesamtergebnisse in diesen Bundesländern besser sind.  Wie beschrieben spielt stattdessen vor allem die Gruppenzusammensetzung eine Rolle. Ein Extrembeispiel kann dies verdeutlichen: Würde in einem Bundesland nur die im PISA-Test beste Schülerin bzw. der beste Schüler vom Ministerium als einzige „Gymnasiastin“ gemeldet und alle anderen Schüler würden schlicht per Definition als Real- oder Hauptschüler bezeichnet, so wäre diesem Bundesland der Sieg beim Gymnasialvergleich beim PISA-Ranking kaum zu nehmen.