van onze redacteur
Steven Stroeykens
02/07/2004
BRUSSEL - Een journalist van De Standaard die zich achter een pseudoniem zou willen verschuilen, is er vanaf nu aan voor de moeite. Een computerprogramma herkent aan de schrijfstijl wie welk artikel geschreven heeft.
,,Pas afgestudeerde jongeren krijgen in de plaats van de wachttijd een baan voor negen maanden en een opleiding aangeboden.'' Ongetwijfeld komt die zin u, als trouwe De Standaard-lezer, bekend voor - hij stond in de krant van eergisteren. Maar herinnert u zich ook nog wie hem geschreven heeft? Of deze, van vorige week: ,,Meteen ziet het er minder goed uit voor de parlementaire toekomst van Hermans Lauwers (Spirit).'' Bent u zó'n kenner dat u de auteur feilloos aan zijn of haar schrijfstijl herkent? Ziet u meteen dat zin 1 uit het toetsenbord van Anja Otte is komen rollen en dat zin 2 van niemand anders dan Bart Brinckman kan zijn?
De computer van linguïste Kim Luyckx is bíjna zó'n kenner. Toegegeven, de machine heeft meer dan één zin nodig om de auteur te identificeren, liefst een heel artikel, en zelfs dan biedt ze lang geen zekerheid. Maar ze kan toch in een indrukwekkende 62 procent van de gevallen correct de stukken van Anja Otte en Bart Brinckman herkennen aan hun stijl.
Luyckx heeft het programma dat de redacteurs van De Standaard herkent, ontwikkeld voor haar licentiaatsverhandeling, onder begeleiding van professor Walter Daelemans van het Centrum voor Nederlandse Taal en Spraak van de Universiteit Antwerpen.
Ze trainde het programma - in feite een reeks programma's - met driehonderd artikels uit De Standaard, honderd van Otte, honderd van Brinckman en honderd van andere auteurs. Door die teksten te analyseren, ontdekte de computer een reeks typische kenmerken van elke auteur - waaronder kenmerken die geen mens zouden opvallen. Zoals dit pareltje: als in een artikel minstens één keer een telwoord gevolgd door een zelfstandig naamwoord voorkomt ('drie ministers') en nooit een lidwoord+telwoord+bijvoeglijk naamwoord+zelfstandig naamwoord ('de twee federale bevoegdheden') en nooit een lidwoord+telwoord+zelfstandig naamwoord en evenmin telwoord+bijvoeglijk naamwoord+zelfstandig naamwoord, dan gaat het om een typische Anja Otte. Andere kenmerken waren eenvoudiger: de percentages werkwoorden en andere soorten woorden in de teksten.
Computerprogramma's die auteurs herkennen, bestaan al - zo werd in 2002 ontdekt dat de schrijver Arnon Grunberg zich verscholen had achter het pseudoniem Marek van der Jagt om een debuutprijs te kunnen opstrijken. Maar de meeste van die programma's kijken eerder naar de woorden en uitdrukkingen die in teksten voorkomen. Die techniek heeft een zwakke plek, volgens Luyckx: ,,Stel dat een journalist plots over een ander onderwerp gaat schrijven, bijvoorbeeld maandenlang alleen nog over de zaak-Dutroux.'' Dan gebruikt hij ineens een hele reeks andere woorden. In plaats van naar de woorden kijkt Luyckx' software naar de grammaticale kenmerken van de schrijfstijl. Software die auteurs herkent, is nuttig om bedrog en plagiaat op te sporen. ,,Nu het dankzij het Internet heel gemakkelijk is geworden om teksten te vinden en te kopiëren, is plagiaat een ernstig probleem op scholen en universiteiten,'' zegt Luyckx. Zou Kim Luyckx zélf de teksten van Anja Otte en Bart Brinckman uit elkaar kunnen houden als er geen naam bij staat? ,,Ik denk het niet'', geeft ze toe, ,,ik vertrouw op mijn programma.''