ChatGPT, GROK en overige opensource ‘Large Language Models’ (AI Taalmodellen), geven vaak misinformatie, maar niet met de intentie onjuist te zijn.
Let wel, dit betekent alleen dat de informatie die ze teruggeven niet BEWUST of met INTENTIE fout is. Het komt door de manier waarop deze platformen werken.
In een Generatieve AI omgeving, of Large Language Model, wordt een grote hoeveelheid tekst (niet per definitie informatie) ingevoerd. De volgorde van letters en woorden wordt door het model onderzocht op waarschijnlijkheid van opvolging. Met andere woorden: Wat komt het vaakst na een A? Wat komt het vaakst na een ‘de’ of ‘wat’? Het model geeft aan iedere letter en ieder woord een waarde afhankelijk van hoe vaak het wordt gebruikt. Dit kan met een hele kleine set aan woorden, maar is natuurlijk veel interessanter als het gebeurt met de hele inhoud van bijvoorbeeld het internet. Want het internet is grotendeels de kennis en informatie die de mensheid heeft voortgebracht (inmiddels aangevuld met wat AI voortbrengt).
Waarom is wat ChatGPT schrijft misinformatie en toch vaak correct? Dat klinkt tegenstrijdig.
Het feit dat het antwoord dat ChatGPT geeft vaak heel ‘formeel’ lijkt en daarom ook ‘correct’ lijkt, heeft te maken met de hoeveelheid gegevens waar het uit put. Als je vraagt: Wat voor weer is het vandaag? Dan zal ChatGPT je een antwoord geven dat ligt tussen: ‘Van welke plaats wil je het weer weten?’ en ‘Het is vandaag zonnig met een kans op regen’. Dat is vergelijkbaar met wat een persoon je zou kunnen zeggen. De eerste optie geeft hij als ChatGPT geen verdere informatie over je positie heeft. De andere optie geeft hij als je eerder al hebt aangegeven waar je bent, of als ChatGPT ook locatiegegevens mag uitlezen.
De reactie zal juist zijn, afhankelijk van de situatie. Waar mensen bij het gebruik van ChatGPT mis gaan, is dat ze denken dat ChatGPT je vraag heeft gelezen, deze heeft ‘geïnterpreteerd’ en dan een antwoord heeft gezocht. Dat is niet het geval. Wat hij heeft gedaan is door een wirwar van cijfertjes gelopen, die de meest waarschijnlijke woorden zijn die komen in alle gesprekken die eerder hebben plaatsgevonden en in het model zijn ingevoerd. Als alle antwoorden op de wereld voorheen waren: ‘Het is altijd slecht weer’, dan had ChatGPT je het antwoord gegeven: ‘Het is altijd slecht weer’, dus NIET het weer dat het vandaag is. Hier ligt hem de crux.
Zolang je vragen stelt die eerder zijn gesteld, of vertaalbaar zijn voor ChatGPT naar zijn model, zal er een redelijk goed antwoord uitkomen. Wijk je te ver af, dan gaat het gewoon door zijn model heen en probeert de woorden te vinden die dan (weliswaar minder) het meest dichtbij een mogelijk antwoord liggen.