Mysterie van de dag: waarom vindt een automatisch vertaalsysteem soms nieuwe woorden uit?
De kwaliteit van automatische vertaalsystemen zoals Google Translate of DeepL is de laatste jaren enorm verbeterd. Maar af en toe creëert zo’n systeem nieuwe woorden zoals bekinnen, klotterend of zetmeelarchitect. Hoe komt dat?
Een automatisch vertaalsysteem is datagebaseerd. Aan de hand van enorm veel voorbeeldvertalingen leert zo’n systeem hoe het moet vertalen. Om eender welke tekst over eender welk onderwerp te kunnen vertalen heb je echter een quasi oneindige lijst van woorden nodig. En daar zit nu het probleem. Automatische vertaalsystemen zijn beperkt in het aantal woorden dat ze kunnen coderen. Daarom werken ze met eenheden die kleiner zijn dan woorden, `subwoorden’ zeg maar. Dat heeft veel voordelen. Door te werken met subwoorden weet een automatisch vertaalsysteem dat laugh, laughing, laughed, laughter allemaal gerelateerde woorden zijn.
Een automatisch vertaalsysteem leert die subwoorden op basis van frequentie. Vaak voorkomende karaktersequenties onder het woordniveau vormen telkens een subwoord. Een automatisch vertaalsysteem vertaalt dus niet enkel op basis van woorden maar ook op basis van subwoorden. Heel vaak gaat het goed, maar af en toe gaat het mis en dan krijg je als lezer heel vreemde woorden voorgeschoteld zoals bekinnen voor pelvic fins (pelvic = bekken + fins = vinnen).
Een ander voordeel van het werken met subwoorden is dat een automatisch vertaalsysteem ook woorden die het zelf nooit heeft geleerd, zoals bijvoorbeeld neologismen, of foutief gespelde woorden, kan vertalen. Neologismen zijn nieuwe woorden in een taal. Een voorbeeld van een neologisme is starchitect, een nieuw Engels woord voor een gerenomeerde of beroemde architect, dat door DeepL vertaald werd aan de hand van subwoorden als zetmeelarchitect (starch = zetmeel + architect = architect).
Mensen zijn echter niet altijd in staat om te begrijpen wat de automatische vertaalmachine nu precies bedoelt met die nieuwe creaties. Onderzoek heeft aangetoond dat in 60% van de gevallen lezers die nieuw uitgevonden woorden niet begrijpen, alhoewel ze soms zelf van het tegendeel overtuigd zijn.
Mysterie van de dag
Fout opgemerkt of meer nieuws? Meld het hier