AI Noon — Tag 11/365 — SocioloVerse.AI

Training: Wo kommen die Daten her?

Pre-Training vs. Fine-Tuning. Oder: Warum dein KI-Assistent Chinesisch kann, aber nicht kochen.

Mal ehrlich. Wenn du mit einer KI sprichst — mit wem sprichst du eigentlich? Ich meine nicht die Firma dahinter. Sondern: Wer hat gesprochen, damit die KI antworten kann?

Pre-Training: Das Internet als Lehrbuch

Beim Pre-Training saugt das Modell Unmengen an Text aus dem Internet. Bücher, Wikipedia, Reddit, Foren, wissenschaftliche Paper, Blogs — alles, was öffentlich zugänglich ist. Das Modell lernt Muster. Kein Verständnis. Nur: Dieses Wort folgt häufig auf jenes.

Fine-Tuning: Vom Generalisten zum Spezialisten

Nach dem Pre-Training kann das Modell Sätze bilden. Aber es antwortet nicht unbedingt hilfreich. Fine-Tuning ist der Schritt, der aus einem rohen Sprachmodell einen Assistenten macht. Meist mit Reinforcement Learning from Human Feedback (RLHF): Menschen bewerten Antworten, das Modell lernt, was erwünscht ist.

Der Bias im Training

Wenn die Trainingsdaten überwiegend aus westlichen, englischsprachigen Quellen stammen, lernt das Modell eine westliche, englischsprachige Perspektive. Das ist kein "Bug" — es ist die logische Konsequenz der Daten. Wer über Datensouveränität spricht, muss auch über Datenherkunft sprechen.