
Taalmodellen: slim, maar niet eerlijk
16/06/2026Wie AI gebruikt, herkent AI
Negen mensen, 300 artikelen, en een uitkomst die meer zegt over hoe we schrijven dan over hoe we detecteren.
Gokniveau van 299 op 300,het verschil is dagelijks gebruik
Onderzoekers van de University of Maryland, Microsoft en UMass Amherst lieten dit jaar negen mensen 300 Engelstalige artikelen lezen. De helft was geschreven door mensen, de andere helft door GPT-4o, Claude 3.5 Sonnet of o1-Pro. De vraag: wie heeft dit geschreven?
De annotatoren die zelden of nooit een taalmodel gebruiken, zaten op gokniveau. Ze gaven hun antwoorden wel met hoge zelfverzekerdheid. De vijf annotatoren die dagelijks met ChatGPT of Claude werken aan teksten, redacteurs, copywriters, een taaldocent, scoorden samen 299 op 300. Ook als de AI-teksten geparafraseerd of bewust "gehumaniseerd" waren. Pangram, een commerciële detector, haalde een vergelijkbare score. Open-source detectoren als Binoculars en Fast-DetectGPT zakten naar 7% en 23% zodra de teksten waren bewerkt.
Wat zien die experts? Geen enkel signaal op zich. Wel een opeenstapeling van kleine dingen. Bepaalde woorden duiken steeds op: crucial, delve, testament, vibrant. Opsommingen komen vaak in groepjes van drie. Conclusies eindigen met een vage hoopvolle toon. Quotes klinken te netjes en sluiten te strak aan op de tekst eromheen. En de personages heten opvallend vaak Sarah of Emily. Bij Claude in 70% van de gevallen.
"Bepaalde woorden duiken steeds op: crucial, delve, testament, vibrant. Opsommingen komen vaak in groepjes van drie. Conclusies eindigen met een vage hoopvolle toon."
Dezelfde dynamiek bij design, en straks bij fysieke producten
Een collega vertelde me deze week over Claude design, en op Reddit las ik een thread waarin ontwerpers klaagden dat apps gebouwd met Claude allemaal op elkaar gaan lijken. Dezelfde card layouts, dezelfde paarse gradients, dezelfde micro-interacties. Dat is dezelfde dynamiek als bij tekst: een taalmodel kiest het statistisch gemiddelde, en dat gemiddelde wordt herkenbaar zodra je er genoeg van hebt gezien.
Toen moest ik denken aan een FD-stuk dat ik onlangs las over Schematik, een Amsterdams bedrijf dat taalmodellen gebruikt om hardware te ontwerpen. Stopwatches, raketten. De oprichter haalde een flinke investeringsronde op. Als de Reddit-ontwerpers gelijk hebben en de annotatoren in het Maryland-onderzoek ook, dan is het waarschijnlijk een kwestie van tijd voor we hetzelfde zien bij fysieke producten. Behuizingen die op elkaar lijken. Dezelfde rondingen, dezelfde knopposities, dezelfde "veilige" keuze voor warmteafvoer.
Niet omdat AI-ontworpen producten slecht zijn. Het Maryland-onderzoek vond geen kwaliteitsverschil tussen menselijke en AI-teksten. Annotatoren die fout zaten, dachten regelmatig dat het AI-werk juist de mooiere tekst was. Het probleem is iets anders: zodra een tool naar het gemiddelde optimaliseert en miljoenen mensen die tool gebruiken, wordt het gemiddelde de standaard. En de standaard is saai.
Weten waar het gemiddelde ligt, zodat je bewust anders kunt kiezen
Als je iets maakt dat opvalt, helpt het om te weten waar het gemiddelde ligt. De Wikipedia-pagina "Signs of AI writing" is daar een goede beginhulp voor — een lijst met patronen die schrijvers onbewust van AI overnemen, ook als ze de tekst zelf typen. Dezelfde lijst zou je kunnen maken voor knoppen, paginalayouts, productvormen. Niet om AI te vermijden. Om te weten wat je bewust anders moet doen.
Daar zit het denk ik. Een taalmodel doet zijn best om iedereen tegelijk tevreden te stellen. Een mens durft één lezer voor het hoofd te stoten.
Benieuwd hoe wij omgaan met AI-geletterdheid?
We schrijven regelmatig over automatiseringen, datagedreven oplossingen en AI-toepassingen. Check onze andere blogs of neem gewoon contact op, we denken graag mee.
Altijd als eerste het nieuws van Univia ontvangen?
Volg ons op social media, en houd onze blog pagina in de gaten voor de laatste updates! Of schrijf je nu in voor onze nieuwsbrief!









