
Dieser Beitrag stellt ein Forschungsprogramm vor — eine These mit weiter Reichweite, die mehrere Linien öffnet und über einen einzelnen Befund hinausgreift.
Auf einem Spielplatz schiebt ein Kind ein anderes von der Schaukel. Ein drittes, das nichts mit der Sache zu tun hat, läuft hin und sagt: „Das macht man nicht.“ Es zieht keinen Vorteil daraus, es ist nicht das gestoßene Kind, und doch greift es ein. Wir nennen das den Anfang eines moralischen Sinns — und kaum jemand stört sich daran, dass dieser kleine Schiedsrichter aus dem Nichts aufzutauchen scheint.
Wer aber wissenschaftlich fragen will, wann in der Menschheitsgeschichte oder in der Entwicklung eines Kindes solche uneigennützige Korrektur zum ersten Mal auftritt, gerät in eine merkwürdige Lage. Denn um den Moment zu datieren, braucht man einen Begriff davon, was als „uneigennützige Korrektur“ überhaupt zählt. Und genau dieser Begriff stammt aus unseren heutigen Praktiken — aus Recht, Erziehung, aus dem Versuchsaufbau, mit dem wir messen. Misst man dann den Ursprung, oder zeichnet man nur den eigenen Maßstab in die Vergangenheit ein?
Diese Frage steht hinter der heutigen Hypothese. Sie klingt zunächst spitzfindig. Sie führt aber zu einer der ältesten Unterscheidungen der Philosophie: der zwischen der Geltung einer Norm und ihrer Genese, ihrem Entstehen. Lässt sich das eine vom anderen trennen — und wenn ja, woran erkennt man es?
Wie diese Hypothese entstand
Dieser Beitrag entsteht durch ein mehrstufiges Verfahren. Ein KI-gestützter Agent durchsucht eine über Monate gewachsene Wissenssammlung nach offenen Fragen und dichten Verbindungspunkten, bildet daraus drei Ausgangshypothesen und unterzieht jede einem Härtetest durch einen kritischen Prüfer. Die stärkste der drei geht anschließend in eine Runde mit sieben simulierten Denkerprofilen — heute Kant, Popper, Wittgenstein, Plessner, Cassirer, Habermas und Luhmann. Diese sieben Stimmen begutachten die These in zwei Runden: In der ersten formuliert jede ihren Haupteinwand, in der zweiten antwortet jede auf die Einwände der anderen. Erst eine abschließende Synthese — moderiert von einer schul-neutralen Sokrates-Stimme — formt daraus die These, die hier vorgestellt wird. Danach folgen ein Abgleich mit der aktuellen Forschungsliteratur und eine externe Prüfung durch Modelle, die nicht am internen Panel beteiligt waren.
Die Hypothese
Der Ausgangspunkt war ein anthropologischer Befund: Akteure, die Anzeichen von Scham und geteilter, dreieckiger Aufmerksamkeit zeigen, korrigieren häufiger uneigennützig das Fehlverhalten Dritter. Die naheliegende Deutung lautet, hier markiere sich eine echte Schwelle der Menschwerdung — ein Punkt, an dem Normativität beginnt. Der Philosoph Ian Hacking hat aber gezeigt, dass viele unserer Kategorien interaktive Arten sind: Sie wirken auf das zurück, was sie klassifizieren. Die Kategorie „der uneigennützige Korrektor“ wird durch Recht, Erziehung und sogar durch das messende Experiment erst stabilisiert. Dann aber wäre der gemessene Ursprung teils ein Artefakt unserer eigenen Begriffe.
Die ursprüngliche Fassung der These wollte zwischen zwei Möglichkeiten entscheiden: natürliche Art oder Klassifikationsartefakt. Das Expertenpanel hat diese Entweder-oder-Frage zerlegt. An ihre Stelle trat ein gradueller Begriff: die Invarianztiefe. Eine Norm trägt ihre Geltung umso weiter über die jeweilige Nachweispraxis hinaus, je tiefer der stabile Kern ihrer Korrektur sitzt — und „Tiefe“ meint hier eine geordnete Folge von Beobachterstufen: zuerst das Leibliche (Scham, Blickfolge), darauf das Sprachlich-Diskursive (der begründende, perspektiveneröffnende Einspruch), darauf das Systemische (Recht, Moral als ausdifferenzierte Ordnungen). Bleibt die Korrektur schon auf der leiblichen Stufe stabil, während die soziale Klassifikation darüber sich beliebig ändert, dann ruht ihre Geltung tiefer als die Praxis, die sie zu datieren versucht.
Ob die Geltung einer Norm sich von ihrer Genese trennen lässt, entscheidet die Invarianztiefe ihrer selbst-mitunterworfenen, perspektiveneröffnenden Drittkorrektur: Geltung reicht so weit über die Nachweispraxis hinaus, wie der Stabilitätskern der Korrektur auf einer tieferen, verkörperungsnäheren Formstufe sitzt als die klassifizierende Praxis, die ihn zu datieren versucht.
Finale Formulierung nach Expertenrunde und Sokrates-Synthese, 19. Juni 2026
Warum das mehr ist als Begriffsklauberei
Der entscheidende Zusatz lautet: Nicht jedes stabile Strafverhalten zählt. Ein Verhalten, das robust Trittbrettfahrer sanktioniert, den Strafenden selbst aber ausnimmt, mag über alle Kulturen hinweg auftreten — und ist normativ trotzdem leer. Geltung zeigt sich erst dort, wo der Korrigierende sich derselben Regel erkennbar mitunterwirft und dem Übertreter die Perspektive des Verletzten eröffnet, statt ihn nur auszustoßen. Damit ist die These nicht eine über Häufigkeiten, sondern über die Form der Korrektur.
Das verbindet einen sehr alten und einen sehr aktuellen Gedanken. Der alte ist Kants Einsicht, dass aus dem bloßen Entstehen einer Regel niemals folgt, dass sie gilt — die „genetische Verwechslung“ ist der Grundfehler jeder Naturalisierung der Vernunft. Der aktuelle ist die empirische Moralpsychologie, die bei Kleinkindern früheste Formen der Normdurchsetzung findet. Die Hypothese schlägt eine Brücke: Sie macht aus der philosophischen Unterscheidung eine prüfbare Tiefenfrage und aus dem empirischen Befund mehr als eine bloße Beobachtung.
Was das Expertenpanel dazu sagt
Die sieben Stimmen zogen die These in verschiedene Richtungen, und gerade daraus wuchs ihre endgültige Form. Plessner bestand darauf, dass der harte Kern der Korrektur leiblich sei — in der exzentrischen Positionalität, der Fähigkeit, zu sich selbst auf Distanz zu gehen. Er schlug ein Design mit drei Gruppen vor, das die leibliche Ausstattung von der sozialen Klassifikation trennt. Habermas hielt dagegen, Geltung bemesse sich nicht an der Robustheit eines Verhaltens, sondern an der Einlösbarkeit eines Anspruchs im Diskurs: Stabil bleiben müsse die Universalisierbarkeit der eröffneten Perspektive, nicht das Sanktionieren. Luhmann bestritt überhaupt, dass es ein praxis-jenseitiges Außen gebe, von dem aus „Geltung über die Praxis hinaus“ messbar wäre; „real“ heiße nur, in mehreren Beobachtersystemen zugleich invariant.
In der zweiten Runde liefen diese Einwände zusammen. Was zunächst wie Widerspruch aussah, erwies sich als drei Achsen eines Prüfmaßstabs: eine leibliche (Plessner), eine diskursive (Habermas) und eine systemische (Luhmann). Cassirer gab die ordnende Idee — nicht „wann begann Normativität?“, sondern „auf welcher Formstufe sitzt der stabile Kern?“. Popper sorgte für die methodische Härte: Wenn das Prüf-Set vorab und dreiachsig festgelegt wird, ist seine Wahl selbst ein Risiko, keine nachträgliche Ausrede. Kant schließlich hielt die ganze Runde an der entscheidenden Differenz fest: Eine bloß faktische Konformität ist kein Geltungsbeweis.
Die produktivste Spannung blieb ungelöst — mit Absicht. Sie verläuft zwischen einem Realismus, der einen leiblichen Kern jenseits aller Klassifikation annimmt, und einem Konstruktivismus, der „real“ durch „über viele Beobachter hinweg invariant“ ersetzt. Das Schöne an der Invarianztiefe ist, dass beide Lager mit ihr dieselbe Messung vornehmen können, ohne den Grundsatzstreit vorab zu entscheiden.
Bewertung der Hypothese
Jede Hypothese wird nach neun Kriterien bewertet (je 0–10 Punkte). Hier die finale Bewertung nach dem Expertenpanel:
| Kriterium | Score | Begründung |
|---|---|---|
| Originalität | 8 | Verbindet Hackings Arten-Debatte, verkörperte Korrektur und ein Tiefenmaß — eine in der Literatur unbesetzte Verschaltung. |
| Falsifizierbarkeit | 8 | Zwei symmetrische Widerlegungsfälle plus operationales Drei-Gruppen-Design; Höchstwert für diesen Methoden-Typ. |
| Begriffliche Klarheit | 9 | Schichtordnung statt vagem Kontinuum; das Prüf-Set wird vorab fixiert. |
| Tiefe | 9 | Trifft die Grundunterscheidung von Geltung und Genese frontal. |
| Forschungsrelevanz | 9 | Anschluss an Wissenschaftstheorie, Sozialontologie und Moralpsychologie. |
| Interdisziplinäre Anschlussfähigkeit | 9 | Epistemologie, Anthropologie, Entwicklungspsychologie, Systemtheorie docken an. |
| Vault-Anschluss | 9 | Vertieft den Drittkorrektur-Strang und das Kant-Plessner-Cassirer-Stufenmodell. |
| Antinomie-Test | 9 | Realismus gegen Konstruktivismus — eine lebendige, nicht einseitig auflösbare Spannung. |
| Publikationsmöglichkeit | 8 | Geeignet für Fachzeitschriften der Wissenschaftstheorie und Sozialontologie. |
| Gesamt | 78 | von 90 möglichen Punkten — nach externer Prüfung 76. |
Was diese Hypothese neu macht
Dass man Geltung an eine Form von Invarianz bindet, ist nicht völlig neu. Robert Nozick hat in Invariances (2001) Objektivität ausdrücklich als Stabilität unter einer Vielzahl von Transformationen bestimmt und sie nach Breite und Tiefe abgestuft — der nächste echte Vorläufer dieses Gedankens. Auch Brandom bindet Geltung an ein öffentliches Korrektur- und Rechtfertigungsnetz. Anders als Nozick aber, der von Tatsachen und Gesetzen handelt, und anders als Brandom, der auf der rein diskursiven Ebene bleibt, koppelt diese Hypothese die Invarianz an eine verkörperte Drittkorrektur und ordnet sie in eine Schichtung von Beobachterstufen, die im Leib beginnt. Diese systematische Verbindung — Geltung als gestufte, leiblich fundierte Invarianztiefe — ist in der Literatur bislang nicht ausgearbeitet. Das ist die präzise Stelle, an der die These über das Bekannte hinausgeht.
Ein Einwand von außen
Die externe Prüfung, gesprochen aus der Perspektive Hackings, traf den wundesten Punkt. Die Schichtordnung — leiblich tiefer als diskursiv, diskursiv tiefer als systemisch — ist eine Entscheidung, keine Entdeckung. Wer sie vorab festlegt, riskiert, dass das Drei-Gruppen-Experiment am Ende nicht die Invarianztiefe misst, sondern die hineingelegte Ordnung bestätigt. Hinzu kommt, dass die Kontrollgruppe der „gestörten affektiven Resonanz“ selbst keine stabile Naturtatsache ist: Schon die Diagnose wirkt auf die Diagnostizierten zurück — genau jener Rückkopplungseffekt, den die These bei anderen Kategorien aufdeckt, holt sie hier selbst ein.
Der Einwand ist ernst, und er wird nicht weggeredet. Produktiv ist der Gegenvorschlag: die Frage zu verschieben von „Wo sitzt der Kern?“ zu „Unter welchen Bedingungen gilt eine Korrekturform überhaupt als stabil und als geltungsrelevant?“. Das nimmt die Rückkopplung zwischen Begriff und Sache ernst, ohne sie in eine starre Hierarchie zu sperren. Die These hält dem Einwand stand, sofern sie ihn als Auftrag liest: Die Schichtordnung darf nicht gesetzt, sie muss aus voneinander unabhängigen Befunden gewonnen werden. Genau das bleibt die schärfste offene Flanke dieses Forschungsprogramms.
Was die Falsifikationsbedingung verlangt
Die These ist prüfbar, und sie benennt zwei Wege, auf denen sie scheitern kann. Erstens: Zeigt die Gruppe mit gestörter affektiver Resonanz ebenso starke, selbst-mitunterworfene Drittkorrektur wie die Gruppe mit leiblicher Ausstattung ohne ausgebildete Klassifikation — oder fehlt sie umgekehrt dort, wo die leibliche Ausstattung vorhanden ist —, dann sitzt der stabile Kern eben nicht auf der leiblichen Stufe. Die Behauptung von der Tiefe wäre widerlegt.
Zweitens, spiegelbildlich: Bleibt das Korrekturverhalten unter dem vorab festgelegten dreiachsigen Prüf-Set vollkommen stabil, müsste man es aber aus unabhängigen Gründen dennoch als reines Klassifikationsartefakt einstufen — oder zerfällt es unter dem Set, während seine Geltung unbestritten bleibt —, dann trennt die Invarianztiefe nicht entlang der Linie von Geltung und Genese. Beide Fälle sind konkret beschreibbar, und beide würden die These kosten. Damit ist sie kein bloßes Bild, sondern eine Behauptung, die sich der Möglichkeit ihres Irrtums aussetzt.
Was das bedeutet
Wenn der Gedanke trägt, ändert sich, wie wir über die Ursprünge von Moral reden. Die beliebte Frage „Wann begann die Normativität?“ verliert ihren Anspruch auf einen einzigen Zeitpunkt und wird zu einer Frage nach Schichten und ihrer Stabilität. Das entschärft einen alten Streit: Man muss nicht mehr wählen zwischen denen, die Moral für eine Naturtatsache halten, und denen, die sie für eine soziale Konstruktion erklären. Beide messen — wenn der Vorschlag stimmt — dasselbe, nur auf verschiedenen Tiefen.
Über die Moralphilosophie hinaus berührt das jede Wissenschaft, die einen „Ursprung“ datieren will und dabei mit eigenen Begriffen hantiert — von der Hominisationsforschung bis zur Entwicklungspsychologie. Die Lehre ist unbequem und nützlich zugleich: Bevor man einen Anfang misst, sollte man prüfen, wie tief die eigene Messlatte selbst in dem steckt, was man zu finden meint.
Was bleibt
Der heutige Tag hat aus einer Entweder-oder-Frage ein Maß gemacht. Statt zu entscheiden, ob die uneigennützige Korrektur eine natürliche Art oder ein Artefakt ist, fragt die These nun, wie tief ihr stabiler Kern reicht — und macht daraus ein prüfbares Programm mit drei Achsen und zwei Widerlegungswegen. Im Lauf der Begutachtung stieg ihre Bewertung von 73 auf 78 von 90 Punkten; die externe Prüfung zog sie auf 76 zurück, mit gutem Grund, denn die vorab gesetzte Schichtordnung bleibt ihre verwundbarste Stelle.
Vielleicht ist das die eigentliche Pointe: Ein Maßstab, der seine eigene Tiefe mitmisst, ist ehrlicher als einer, der vorgibt, von nirgendwo aus zu blicken. Wer das nächste Mal ein Kind sieht, das für ein anderes eintritt, darf ruhig fragen, woran es seinen Maßstab gewonnen hat — und wie tief der schon in ihm sitzt.
Dieser Beitrag ist das Ergebnis des automatisierten Hypothesentags vom 19. Juni 2026. Drei Hypothesen wurden gebildet, vom Kritischen Professor geprüft, in sieben Expertenstimmen und zwei Runden begutachtet, durch eine Empirie-Brücke an die Forschungsliteratur angeschlossen und einer externen Prüfung unterzogen. Die hier vorgestellte ging als beste hervor (Score: 73 → 78 von 90, nach externer Prüfung 76).
Vollständiges Gutachten (Expertenrunden + Synthese)
Die nachfolgende PDF-Datei enthält die Gewinnerthese in ihrer Ausgangsform sowie alle Expertengutachten, Repliken und die abschließende Synthese des Hypothesentags 2026-06-19.