WikiWoordenboek:Project Gangbaarheid Nederlandse woorden

Doel

Dit project heeft aan meer dan 54 duizend lemma's van Nederlandse woorden informatie toegevoegd over de gangbaarheid daarvan. Dit is gedaan in samenwerking met het Centrum voor Leesonderzoek (Ugent), dat de uitkomsten van zijn onderzoek uit 2013 voor dit doel ter beschikking stelde. Rapportages over iets eerdere fases van dit onderzoek zijn Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal (Nederlands) en Word knowledge in the crowd: Measuring vocabulary size and word prevalence in a massive online experiment (Engels).

Voor dit project gebruikten we in de eerste fase (tot 2020) een bestand dat identiek is aan het bestand dat op woorden.org werd gebruikt. In de tweede fase wordt het bestand aangevuld en bijgewerkt overeenkomstig de laatst gepubliceerde onderzoeksgegevens.

Achtergrond

Als je Nederlands leert of wanneer je begrijpelijk wil schrijven is het nuttig om te weten of het om een veelgebruikt woord gaat. Je kunt daar op verschillende manieren naar kijken, die op Gangbaarheid zijn beschreven. Deze invalshoeken vullen elkaar aan. In het project Woordfrequenties worden andere gegevens die hierbij van belang zijn verzameld.

Daarnaast bleken deze gegevens ook van waarde bij het uitbreiden van WikiWoordenboek met behulp van onze Nederlandstalige Top 70. Er zijn op deze manier zo'n 19 duizend lemma's aan WikiWoordenboek toegevoegd. Gedurende het project nam het bezoek aan WikiWoordenboek gestaag toe. Waarschijnlijk komt dat ook doordat de inhoud van het woordenboek steeds beter ging aansluiten bij de woordenschat die Nederlanders en Vlamingen echt gebruiken.

Informatie over de gangbaarheid van woorden wordt zelfs wel eens gebruikt in rechtszaken: "Zij onderbouwt deze stelling door te verwijzen naar een onderzoek van het Centrum voor Leesonderzoek uit 2013, waaruit blijkt dat het woord kornuit wordt herkend door 95% van de Nederlanders, en het woord kordaat door 96% van de Nederlanders." Het geciteerde cijfer voor "kornuit" kwam uit een oudere fase van het onderzoek.

Opzet

kopje Gangbaarheid

In de eerste fase is op de betreffende lemma's aan het eind, net voor {{refs}}/{{-ref-}} en {{-info-}} een kopje Gangbaarheid toegevoegd, dat net als de vergelijkbare kopjes naar een projectpagina verwijst. Omdat de sjablonen voor kopjes allemaal op het Engels zijn gebaseerd, heet het sjabloon zelf {{-preval-}} van "prevalence".

Aangezien de lezer al vrij veel informatie door moet, voor hij bij de betekenissen komt, is ervoor gekozen deze informatie aan het eind te plaatsen. Het ging bij dit project om gegevens die gekoppeld zijn aan het woord als lettercombinatie, in dat opzicht lijkt het wel op {{-info-}}. Het lastige van deze keus was dat het vinden van de gekozen plaats aan het eind van een Nederlandstalig lemma niet zo gemakkelijk te automatiseren is: zowel wat erna als wat ervoor komt kan nogal verschillen. Met een combinatie van zoekopdrachten en handmatige correcties via AutoWikiBrowser is het toch gelukt.

link woordenlijst.org

Aangezien de Woordenlijst deels ook gebaseerd is op onderzoek naar het gebruik van woorden is het gegeven of een woord daarin staat ook van betekenis voor de gangbaarheid. Dit kan met een sjabloon met een link worden aangetoond. Het valt te overwegen om dit in de toekomst uit te breiden met gegevens over opneming in eerdere edities van het Groene Boekje.

Het sjabloon voor dit doel is {{wel-GB}} gedoopt; sinds december 2018 wordt na een voorstel in De kroeg ook informatie van {{niet-GB}} op deze plaats aangeboden voor zover zij niet op een specifieke vorm betrekking heeft.

categorieën

De pagina's waarop getalsmatige uitkomsten van het onderzoek worden gegeven worden alle in twee categorieën geplaatst die corresponderen met het percentage in Vlaanderen respectievelijk Nederland. Deze categorieën staan weer in twee overkoepelende categorieën: Prevalentie Vlaanderen en Prevalentie Nederland.

prevalentie

Vervolgens worden de gegevens getoond uit het van het Centrum voor Leesonderzoek van de Universiteit Gent, met een link naar de projectpagina van dit onderzoek. Die diende in de eerste fase primair als bronvermelding, maar het is natuurlijk ook wel mooi dat een crowdsourced onderzoek en een crowdsourced woordenboek elkaar een beetje van dienst zijn. Het onderzoek loopt immers nog steeds door.

Het gaat om twee percentages, respectievelijk voor Nederland en voor Vlaanderen. Er is in het verleden wel eens discussie geweest of er bij sommige woorden een label moest komen dat dit niet in het hele taalgebied (even) gangbaar was. Bezwaar was dan dat dit vaak nogal subjectief zou zijn. Nu kunnen we de lezer daar redelijk neutraal over informeren.

Aangezien nog niet alle woorden uit dit onderzoek een lemma op WikiWoordenboek hebben, worden de woorden per gebied en percentage in een categorie gestopt, waarbij is aangegeven hoeveel woorden die uiteindelijk zou moeten bevatten. Omgekeerd vermeldt WikiWoordenboek ook veel worden die niet in het onderzoek zijn opgenomen, zoals verbogen vormen woorden, schrijfwijzen die verouderd zijn, namen en vaktermen.

In de eerste fase werden deze gegevens worden met het sjabloon {{crr13}} getoond. Deze benaming verwijst naar de Engelse naam van het instituut "Center for Reading Research) en het jaar van het onderzoek.

In de tweede fase is voor dit doel een nieuw sjabloon gebruikt, {{Leesonderzoek-2013}}, dat zijn gegevens uit subpagina's van het sjabloon haalt. Het bijhouden van deze cijfers op de lemma's zelf bleek minder praktisch: wanneer eenmaal vaststaat dat de gegevens kloppen met de bron, wordt de bewerkbaarheid juist een bron van fouten. Het lexicografische model van WikiData kon voor de opslag van deze cijfers geen soelaas bieden. Dat model is nadrukkelijk gebaseerd op lexemen, terwijl de cijfers betrekking hebben op woordvormen die in het Nederlands vaak bij verschillende lexemen horen.

Het nieuwe sjabloon bevatte ook een link naar het gepubliceerde bestand met onderzoeksgegevens, waardoor belangstellenden zelf kunnen nagaan dat de gepresenteerde informatie in overeenstemt met dat bestand. Voor een overzichtelijke presentatie, zonder schijnnauwkeurigheid worden eenvoudige percentages zonder decimalen gebruikt. Het Centrum voor Leesonderzoek heeft WikiWoordenboek uitdrukkelijk toestemming verleend om de onderzoeksgegevens te bewerken en het resultaat onder CC-BY-SA te publiceren.

Aanpak

Fase 1

Aankondiging in De Kroeg
Projectpagina
Sjablonen en categorieën aanmaken en op zichzelf testen
Testen gecombineerde plaatsing
Plaatsing van sjablonen op al bestaande lemma's
Op bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord toevoegen
Aanvullen ontbrekende woorden

Deze fase is begin mei 2020 voltooid. Het sjabloon is op 52.028 lemma's geplaatst en er zijn ongeveer 18.000 ontbrekende lemma's toegevoegd.

Fase 2

Nieuwe opzet ontwikkelen op basis van de officieel gepubliceerde onderzoeksgegevens
Formele toestemming voor het gebruik van deze onderzoeksgegevens is vastgelegd in OTRS met nummer 2020043010008462
Bijwerken van deze projectpagina en haar subpagina
Nieuw sjabloon met subpagina's aanmaken, testen en met gegevens vullen
Bijwerken van de tekst op de categorieën
Plaatsing van het nieuwe sjabloon op ruim 1.400 bestaande lemma's waarvoor nu ook cijfers beschikbaar zijn
Het oude sjabloon laten doorverwijzen naar het nieuwe sjabloon
Op ongeveer 60 bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord met het nieuwe sjabloon toevoegen
Aanvullen met ruim 800 ontbrekende woorden

Deze fase is in november 2020 voltooid.

Aanpassingen in lijst

De vorm die in het onderzoek aan de deelnemers is voorgelegd blijft bepalend voor de vermelding in WikiWoordenboek. Geprobeerd is de uitkomsten zoveel mogelijk een plaats te geven. Het was daarbij niet altijd mogelijk elke regel uit de onderzoeksresultaten aan een afzonderlijk lemma te koppelen. Het te bereiken totaal voor de betreffende categorieën is in die gevallen verlaagd.

Minieme spellingsverschillen

Bij een aantal woorden vertoont de vorm in het onderzoek een minimaal verschil met de officiële schrijfwijze. In deze gevallen is de informatie uit het onderzoek op het lemma vermeld, met informatie over de form die feitelijk in het onderzoek gebruikt is. Het gaat in de meeste gevallen om de spelling met een kleine letter in plaats van een hoofdletter.

Allerheiligen : allerheiligen
Aswoensdag : aswoensdag
Biblebelt : biblebelt
Bijbelvast : bijbelvast
Boekenweek : boekenweek
Doema : doema
iPod : ipod
Kamerlid : kamerlid
Keistad: keistad
Koningsdag : koningsdag
Moederdag : moederdag
onder meer : ondermeer
oorlog voeren : oorlogvoeren
open haard : openhaard
pico bello : picobello
Pasen : pasen
Pinksteren : pinksteren
Prinsjesdag : prinsjesdag
Rijnboog : rijnboog
Septuagint : septuagint
Suikerfeest : suikerfeest
Vaderdag : vaderdag
Viking : viking
Wetstraat : wetstraat

Oude spelling

Een klein aantal woorden in het onderzoek had een schrijfwijze die niet meer tot de huidige officiële spelling behoort. De gegevens uit het onderzoek zijn in dat geval vermeld op het lemma in de oude schrijfwijze en op het lemma in de huidige schrijfwijze wordt onder Gangbaarheid naar het lemma in de oude schrijfwijze verwezen.

Schrijfwijze nooit officieel

Van de volgende woorden is ook de daarachter vermelde schrijfwijze in het onderzoek opgenomen. Deze vormen zijn nooit officiële spelling geweest en worden daarom niet in WikiWoordenboek opgenomen. De cijfers zijn als bijkomende informatie vermeld op het correct gespelde trefwoord. De woorden met een asterisk zijn in hun officiële spelling niet in het onderzoek betrokken.

bureau : buro
cadeau : kado
caissière : cassière
carnaval : karnaval
clandestien : klandestien
eega : ega
gechargeerd : gecharcheerd
geliket* : geliked
horen bij* : bijhoren
houvast : holvast
installeren : instaleren
koine : koinè
oké : okee
oubliëtte : oubliette
penoze : penose
quaestor : questor
slip-over : slipover
terneergeslagen : teneergeslagen
tofoe : tofu
weeïg : weeig

Dubbel vermeld

Drie woorden zijn in een deel van het onderzoek meegenomen met een (onzichtbare) spatie achter het woord. Hierdoor staan zij tweemaal in de uiteindelijke lijst met resultaten. De in WikiWoordenboek vermelde waarden zijn gebaseerd op het totaal van beide vermeldingen.

Niet opgenomen

Het woord balu is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen.
De tekenreeks "hboer" is vermoedelijk een verschrijving van hbo'er. Dit abuis is kennelijk al vroeg in het onderzoek ontdekt, omdat het maar aan een relatief klein aantal deelnemers is voorgelegd; het is uiteraard niet in WikiWoordenboek opgenomen.
Het woord "stakenas" is sinds 1996 in de Woordenlijst vermeld, maar daarbuiten nergens te attesteren. Hier is mogelijk verwarring is ontstaan met de in de vroege jaren 90 bekende Litouwse wielrenner Kestitutis Stakenas. De Taalunie heeft desgevraagd bevestigd "dat het inderdaad een fout lijkt te zijn, en dat het woord uit de lijst zal worden geschrapt." Ook de vermelding van "holvast" (zie onder Schrijfwijze nooit officieel) is vermoedelijk op een vergelijkbare manier ontstaan.
Het woord "klimo" is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen. Geschreven met een hoofdletter is Klimo wel een familienaam, een merknaam en een Indonesische plaatsnaam.

Resultaat in beeld

Onderstaande tabel geeft aan hoeveel woorden door een bepaald percentage van de mensen (middenkolom) werd herkend, links voor Nederland, rechts voor Vlaanderen.

Het meest rechtse getal is het aantal woorden dat in het onderzoek door dat percentage deelnemers werd herkend, het getal daarvoor is het aantal van die woorden in de betreffende categorie op WikiWoordenboek en daarvoor staat het percentage dat een beeld geeft van de volledigheid van WikiWoordenboek.

Nederland			bekend bij	Vlaanderen
af	pagina's	woorden	%	af	pagina's	woorden
100%	6053	6054	100	100%	5413	5414
100%	10853	10854	99	100%	7747	7747
100%	4733	4733	98	100%	5430	5431
100%	2805	2805	97	100%	3247	3246
100%	2073	2072	96	100%	2443	2443
100%	1640	1640	95	100%	1912	1912
100%	1420	1420	94	100%	1553	1553
100%	1173	1173	93	100%	1368	1368
100%	1056	1057	92	100%	1151	1151
100%	941	941	91	100%	1011	1011
100%	903	903	90	100%	928	928
100%	792	792	89	100%	867	868
100%	735	735	88	100%	841	841
100%	635	636	87	100%	729	729
100%	607	607	86	100%	691	691
100%	575	575	85	100%	653	653
100%	590	590	84	100%	621	621
100%	519	519	83	100%	586	587
100%	483	484	82	100%	584	585
100%	523	523	81	100%	488	488
100%	449	449	80	100%	501	501
100%	439	439	79	100%	463	463
100%	445	445	78	100%	483	483
100%	421	421	77	100%	451	451
100%	394	394	76	100%	445	445
100%	352	352	75	100%	417	417
100%	372	372	74	100%	415	415
100%	335	335	73	100%	374	374
100%	369	369	72	100%	376	376
100%	308	308	71	100%	375	375
100%	307	307	70	100%	355	355
100%	299	299	69	100%	325	325
100%	312	312	68	100%	323	323
100%	294	294	67	100%	312	312
100%	301	301	66	100%	290	290
100%	298	298	65	100%	324	324
100%	247	247	64	100%	284	284
100%	260	260	63	100%	299	299
100%	229	229	62	100%	284	284
100%	240	240	61	100%	270	270
100%	231	231	60	100%	243	243
100%	258	258	59	100%	248	248
100%	227	227	58	100%	239	239
100%	185	185	57	100%	239	239
100%	218	218	56	100%	281	281
100%	232	232	55	100%	257	257
100%	231	231	54	100%	234	234
100%	213	213	53	100%	222	222
100%	206	206	52	100%	243	243
100%	161	161	51	100%	247	247
100%	188	188	50	100%	217	217
100%	205	205	49	100%	203	203
100%	194	194	48	100%	189	189
100%	195	195	47	100%	203	203
100%	191	191	46	100%	181	181
100%	185	185	45	100%	192	192
100%	207	207	44	100%	179	179
100%	168	168	43	100%	183	183
100%	182	182	42	100%	178	178
100%	168	168	41	100%	191	191
100%	190	190	40	100%	182	182
100%	154	154	39	100%	169	169
100%	168	168	38	100%	165	165
100%	157	157	37	100%	154	154
100%	148	148	36	100%	147	147
100%	128	128	35	100%	137	137
100%	164	164	34	100%	166	166
100%	132	132	33	100%	161	161
100%	141	141	32	100%	144	144
100%	145	145	31	100%	139	139
100%	130	130	30	100%	153	153
100%	129	129	29	100%	127	127
100%	142	142	28	100%	134	134
100%	153	153	27	100%	125	125
100%	155	155	26	100%	139	139
100%	142	142	25	100%	121	121
100%	123	123	24	100%	138	138
100%	128	128	23	100%	105	105
100%	131	131	22	100%	133	133
100%	140	140	21	100%	132	132
100%	144	144	20	100%	126	126
100%	106	106	19	100%	105	105
100%	127	127	18	100%	124	124
100%	129	129	17	100%	115	115
100%	99	99	16	100%	109	109
100%	109	109	15	100%	103	103
100%	86	86	14	100%	93	93
100%	114	114	13	100%	90	90
100%	101	101	12	100%	87	87
100%	99	99	11	100%	90	90
100%	92	92	10	100%	73	73
100%	89	89	9	100%	70	70
100%	69	69	8	100%	62	62
100%	48	48	7	100%	50	50
100%	46	46	6	100%	45	45
100%	40	40	5	100%	37	37
100%	25	25	4	100%	15	15
100%	28	28	3	100%	14	14
100%	8	8	2	100%	8	8
	0	0	1		0	0
100%	3	3	0	100%	2	2

Het gaat in linkerdeel en het rechterdeel in totaal om dezelfde woorden, alleen anders geordend. De Nederlandse deelnemers waren gemiddeld ouder dan de Vlaamse deelnemers. Omdat het aantal herkende woorden toeneemt met de leeftijd is dit mogelijke verklaring waarom er relatief veel woorden door 99 of 100% van de Nederlanders werd herkend.

Toekomst

In de toekomst kunnen andere relevante gegevens zoals de woordfrequenties (Open Taal, Open Subtitles) onder hetzelfde kopje een plek krijgen. Die gegevens vormen een goede aanvulling van elkaar. Hoewel je op het eerste gezicht misschien zou denken dat bekendheid en frequentie van woorden op hetzelfde neerkomen, blijkt er heel wat bekende woorden een lage frequentie te hebben. Dat kan komen doordat de teksten waaruit de frequenties worden berekend niet helemaal representatief zijn voor het taalgebruik en doordat weinig gebruikte woorden voor mensen toch van grote betekenis kunnen zijn. Aan de andere kant omvat Open Taal juist wel verbuigingen en functiewoorden, waardoor het voor 5 tot 6 keer meer lemma's informatie zal bieden.

Het Nationaal Publieksonderzoek 2019 had betrekking op Nederlandse uitdrukkingen. Omdat we steeds meer lemma's voor uitdrukkingen hebben, zouden we mogelijk de resultaten van dat onderzoek op een vergelijkbare manier kunnen laten zien. Dat zou een project op zichzelf zijn.

Het Centrum voor Leesonderzoek heeft onder Britten en Amerikanen ook de bekendheid van Engelse woorden onderzocht. We hebben in principe toestemming om die gegevens ook te gebruiken, maar we hebben maar voor heel groot deel van die woorden hebben we nog geen lemma's. Dit vervolgproject heeft een eigen projectpagina.

Contactpersonen

WikiWoordenboek: Gebruiker:MarcoSwart
Centrum voor Leesonderzoek UGent: Marc Brysbaert