Das folgende Problem lässt sich auch ohne Mathematik lösen, aber mit macht es mehr Spaß und man lernt Dinge kennen, die weit über das Beispiel hinaus wichtig sind.

Problem: Auf einer großen Party sind viele Menschen, die sich wechselseitig nicht kennen. Wie können sie zu Gesprächsgruppen zusammenfinden, in denen man sich gut unterhält?

Um das Problem der Mathematik zugänglich zu machen, muss man den Charakter von Menschen quantifizieren. Das mag einem widerstreben, tut aber gar nicht weh: Der Gastgeber der Party überlegt sich eine gewisse Anzahl m von Meinungen, zu denen man die eigene Ablehnung oder Zustimmung auf einer Skala von -5 bis +5 (die Größe des Zahlbereichs ist irrelevant) einträgt. Die Aussagen sollten so sein, dass sie etwas polarisieren, z. B.: „Mathe ist / war mein Lieblingsfach“, „Flüchtlinge: Ja, wir schaffen das!“, „Lehrer haben zu viele Ferien“, „Vegane Ernährung ist gesund.“. Jeder Besucher der Party füllt einen Fragebogen aus, so dass man für ihn als DatenmZahlen, also einen Vektor mit Zahlen

hat.

Für einen zweiten Besucher hat man eine andere Zahlenreihe

Wie kann man nun vorhersagen, ob sich diese beiden Personen was zu sagen haben? Das ist psychologisch schwierig, aber im Sinne einer friedlichen Party geht man davon aus, dass sich Leute mit ähnlichen Einstellungen gut unterhalten.

Nun müssen diese Zahlen verrechnet werden in eine einzige Zahl, die angibt, wie ähnlich sich die beiden Personen in ihren (hier deutlich gewordenen) Einstellungen sind. Dazu gibt es mehrere Möglichkeiten:

Welche dieser Möglichkeiten man wählt, ist letztlich von außermathematischen Überlegungen abhängig. Das Winkelmaß hat den Vorteil, dass Menschen, die das gleiche Profil haben, aber die Skala unterschiedlich weit ausnutzen, als sehr ähnlich beurteilt werden, was bei den anderen beiden Maßen nicht der Fall ist.

Liegen die Daten aller Besucher vor, geht man folgendermaßen vor: Man berechnet für alle möglichen Paare von Besuchern (also von Datenvektoren), die beiden mit der größten Ähnlichkeit. Diese fasst man zu einer Gruppe (im Fachjargon: Cluster) zusammen und weist ihnen als Gruppe den Mittelwert der ihrer Vektoren zu. Jetzt wiederholt man das Verfahren und bekommt immer mehr Gruppen und Gruppen von Gruppen.

Machen wir das Verfahren konkret mit vier Personen A,B,C,D. Hier sind ihre fiktiven Antworten auf drei Fragen:

Schon auf den ersten Blick sieht man, dass A und C als eine Gruppe und B und D als zweite Gruppe jeweils besser zusammenpassen als A und D und B und C.

Berechnet man die Winkel (im Bogenmaß), ergibt sich folgende Tabelle:

Die 0 in der Diagonalen ist mathematisch notwendig: Der Winkel zwischen einem Vektor und sich selbst ist 0. Man würde sich also mit sich selbst am allerbesten unterhalten – zumindest bei unseren Modellannahmen. Außerdem sieht man, dass die Matrix symmetrisch ist: A passt so gut zu B wie B zu A. Auch das ist im wahren Leben nicht selbstverständlich, es mag Menschen geben, die sich mit Ihnen lieber unterhalten, als Sie sich mit ihnen.

Den kleinsten Winkel, also die größte Übereinstimmung, haben B und D. Diese bilden also die erste Zweiergruppe mit Gruppenvektor (-1.5 , 4.5, 0.5). Wiederholt man jetzt die Winkelberechnung mit A, {B,D},C ergibt sich:

Also gehören A und C in die nächste Gruppe. Je nachdem, wie die Fragen beantwortet werden, kann es natürlich auch sein, dass man eine andere Struktur bekommt, dass beispielsweise A besser zu {B,D} also zu C passt. Dann kann man entweder wirklich eine Dreier-Gruppe und einen Einzelgänger bilden, oder man legt eine Gruppenobergröße, z. B. zwei fest und sobald eine solche Gruppe gebildet ist, nimmt man diese heraus und rechnet nur noch mit dem Rest.

Soweit zum Partyproblem. Praktische Anwendungen haben solche Verfahren unzählige. Wenn man eine große Zahl von Personen befragt hat, kann man diese in Cluster einteilen und versuchen, das Gemeinsame an den Clustern zu bestimmen. Beispielsweise könnte man Lehrerinnen und Lehrer befragen, warum diese Lehrer geworden sind. Dann könnte es sein, dass man die Antworten in Cluster einteilen kann, die sich mit Überschriften belegen lassen, wie z. B. „motiviert durch die Arbeit mit Kindern“, „motiviert durch Beamtenstatus“, „motiviert durch Vermittlung von Mathematik“. Die Daten von Patienten einer bestimmten Krankheit könnten analysiert werden und so könnte man bestimmte Risiko-Typen für diese Krankheit herausfinden. Ein Onlinehändler könnte seine Kunden nach ihrem Kaufverhalten in Gruppen einteilen und dann einem Kunden Dinge zum Kauf anbieten, die andere Mitglieder seines Clusters gekauft haben.

Zurück zur Party, da lauert schon das nächste Problem: Nehmen wir mal an, alles hat super geklappt, die Gäste gehen nach einem unterhaltsamen Abend zufrieden nach Hause, einige merken aber an, dass die Frageliste am Anfang zu lang war. Kann man auf Basis der Daten systematisch ein paar Fragen weglassen, ohne die Qualität der Gruppeneinteilung nennenswert schlechter zu machen?