WikiWoordenboek:Project Gangbaarheid Nederlandse woorden

Dit project heeft aan meer dan 54 duizend lemma's van Nederlandse woorden informatie toegevoegd over de gangbaarheid daarvan. Dit is gedaan in samenwerking met het Centrum voor Leesonderzoek (Ugent), dat de uitkomsten van zijn onderzoek uit 2013 voor dit doel ter beschikking stelde. Rapportages over iets eerdere fases van dit onderzoek zijn Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal (Nederlands) en Word knowledge in the crowd: Measuring vocabulary size and word prevalence in a massive online experiment (Engels).

Voor dit project gebruikten we in de eerste fase (tot 2020) een bestand dat identiek is aan het bestand dat op woorden.org werd gebruikt. In de tweede fase wordt het bestand aangevuld en bijgewerkt overeenkomstig de laatst gepubliceerde onderzoeksgegevens.

Achtergrond

bewerken

Als je Nederlands leert of wanneer je begrijpelijk wil schrijven is het nuttig om te weten of het om een veelgebruikt woord gaat. Je kunt daar op verschillende manieren naar kijken, die op Gangbaarheid zijn beschreven. Deze invalshoeken vullen elkaar aan. In het project Woordfrequenties worden andere gegevens die hierbij van belang zijn verzameld.

Daarnaast bleken deze gegevens ook van waarde bij het uitbreiden van WikiWoordenboek met behulp van onze Nederlandstalige Top 70. Er zijn op deze manier zo'n 19 duizend lemma's aan WikiWoordenboek toegevoegd. Gedurende het project nam het bezoek aan WikiWoordenboek gestaag toe. Waarschijnlijk komt dat ook doordat de inhoud van het woordenboek steeds beter ging aansluiten bij de woordenschat die Nederlanders en Vlamingen echt gebruiken.

Informatie over de gangbaarheid van woorden wordt zelfs wel eens gebruikt in rechtszaken: "Zij onderbouwt deze stelling door te verwijzen naar een onderzoek van het Centrum voor Leesonderzoek uit 2013, waaruit blijkt dat het woord kornuit wordt herkend door 95% van de Nederlanders, en het woord kordaat door 96% van de Nederlanders." Het geciteerde cijfer voor "kornuit" kwam uit een oudere fase van het onderzoek.

kopje Gangbaarheid

bewerken

In de eerste fase is op de betreffende lemma's aan het eind, net voor {{refs}}/{{-ref-}} en {{-info-}} een kopje Gangbaarheid toegevoegd, dat net als de vergelijkbare kopjes naar een projectpagina verwijst. Omdat de sjablonen voor kopjes allemaal op het Engels zijn gebaseerd, heet het sjabloon zelf {{-preval-}} van "prevalence".

Aangezien de lezer al vrij veel informatie door moet, voor hij bij de betekenissen komt, is ervoor gekozen deze informatie aan het eind te plaatsen. Het ging bij dit project om gegevens die gekoppeld zijn aan het woord als lettercombinatie, in dat opzicht lijkt het wel op {{-info-}}. Het lastige van deze keus was dat het vinden van de gekozen plaats aan het eind van een Nederlandstalig lemma niet zo gemakkelijk te automatiseren is: zowel wat erna als wat ervoor komt kan nogal verschillen. Met een combinatie van zoekopdrachten en handmatige correcties via AutoWikiBrowser is het toch gelukt.

bewerken

Aangezien de Woordenlijst deels ook gebaseerd is op onderzoek naar het gebruik van woorden is het gegeven of een woord daarin staat ook van betekenis voor de gangbaarheid. Dit kan met een sjabloon met een link worden aangetoond. Het valt te overwegen om dit in de toekomst uit te breiden met gegevens over opneming in eerdere edities van het Groene Boekje.

Het sjabloon voor dit doel is {{wel-GB}} gedoopt; sinds december 2018 wordt na een voorstel in De kroeg ook informatie van {{niet-GB}} op deze plaats aangeboden voor zover zij niet op een specifieke vorm betrekking heeft.

categorieën

bewerken

De pagina's waarop getalsmatige uitkomsten van het onderzoek worden gegeven worden alle in twee categorieën geplaatst die corresponderen met het percentage in Vlaanderen respectievelijk Nederland. Deze categorieën staan weer in twee overkoepelende categorieën: Prevalentie Vlaanderen en Prevalentie Nederland.

prevalentie

bewerken

Vervolgens worden de gegevens getoond uit het van het Centrum voor Leesonderzoek van de Universiteit Gent, met een link naar de projectpagina van dit onderzoek. Die diende in de eerste fase primair als bronvermelding, maar het is natuurlijk ook wel mooi dat een crowdsourced onderzoek en een crowdsourced woordenboek elkaar een beetje van dienst zijn. Het onderzoek loopt immers nog steeds door.

Het gaat om twee percentages, respectievelijk voor Nederland en voor Vlaanderen. Er is in het verleden wel eens discussie geweest of er bij sommige woorden een label moest komen dat dit niet in het hele taalgebied (even) gangbaar was. Bezwaar was dan dat dit vaak nogal subjectief zou zijn. Nu kunnen we de lezer daar redelijk neutraal over informeren.

Aangezien nog niet alle woorden uit dit onderzoek een lemma op WikiWoordenboek hebben, worden de woorden per gebied en percentage in een categorie gestopt, waarbij is aangegeven hoeveel woorden die uiteindelijk zou moeten bevatten. Omgekeerd vermeldt WikiWoordenboek ook veel worden die niet in het onderzoek zijn opgenomen, zoals verbogen vormen woorden, schrijfwijzen die verouderd zijn, namen en vaktermen.

In de eerste fase werden deze gegevens worden met het sjabloon {{crr13}} getoond. Deze benaming verwijst naar de Engelse naam van het instituut "Center for Reading Research) en het jaar van het onderzoek.

In de tweede fase is voor dit doel een nieuw sjabloon gebruikt, {{Leesonderzoek-2013}}, dat zijn gegevens uit subpagina's van het sjabloon haalt. Het bijhouden van deze cijfers op de lemma's zelf bleek minder praktisch: wanneer eenmaal vaststaat dat de gegevens kloppen met de bron, wordt de bewerkbaarheid juist een bron van fouten. Het lexicografische model van WikiData kon voor de opslag van deze cijfers geen soelaas bieden. Dat model is nadrukkelijk gebaseerd op lexemen, terwijl de cijfers betrekking hebben op woordvormen die in het Nederlands vaak bij verschillende lexemen horen.

Het nieuwe sjabloon bevatte ook een link naar het gepubliceerde bestand met onderzoeksgegevens, waardoor belangstellenden zelf kunnen nagaan dat de gepresenteerde informatie in overeenstemt met dat bestand. Voor een overzichtelijke presentatie, zonder schijnnauwkeurigheid worden eenvoudige percentages zonder decimalen gebruikt. Het Centrum voor Leesonderzoek heeft WikiWoordenboek uitdrukkelijk toestemming verleend om de onderzoeksgegevens te bewerken en het resultaat onder CC-BY-SA te publiceren.

  1. Aankondiging in De Kroeg
  2. Projectpagina
  3. Sjablonen en categorieën aanmaken en op zichzelf testen
  4. Testen gecombineerde plaatsing
  5. Plaatsing van sjablonen op al bestaande lemma's
  6. Op bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord toevoegen
  7. Aanvullen ontbrekende woorden

Deze fase is begin mei 2020 voltooid. Het sjabloon is op 52.028 lemma's geplaatst en er zijn ongeveer 18.000 ontbrekende lemma's toegevoegd.

  1. Nieuwe opzet ontwikkelen op basis van de officieel gepubliceerde onderzoeksgegevens
  2. Formele toestemming voor het gebruik van deze onderzoeksgegevens is vastgelegd in OTRS   met nummer 2020043010008462
  3. Bijwerken van deze projectpagina en haar subpagina
  4. Nieuw sjabloon met subpagina's aanmaken, testen en met gegevens vullen
  5. Bijwerken van de tekst op de categorieën
  6. Plaatsing van het nieuwe sjabloon op ruim 1.400 bestaande lemma's waarvoor nu ook cijfers beschikbaar zijn
  7. Het oude sjabloon laten doorverwijzen naar het nieuwe sjabloon
  8. Op ongeveer 60 bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord met het nieuwe sjabloon toevoegen
  9. Aanvullen met ruim 800 ontbrekende woorden

Deze fase is in november 2020 voltooid.

Aanpassingen in lijst

bewerken

De vorm die in het onderzoek aan de deelnemers is voorgelegd blijft bepalend voor de vermelding in WikiWoordenboek. Geprobeerd is de uitkomsten zoveel mogelijk een plaats te geven. Het was daarbij niet altijd mogelijk elke regel uit de onderzoeksresultaten aan een afzonderlijk lemma te koppelen. Het te bereiken totaal voor de betreffende categorieën is in die gevallen verlaagd.

Minieme spellingsverschillen

bewerken

Bij een aantal woorden vertoont de vorm in het onderzoek een minimaal verschil met de officiële schrijfwijze. In deze gevallen is de informatie uit het onderzoek op het lemma vermeld, met informatie over de form die feitelijk in het onderzoek gebruikt is. Het gaat in de meeste gevallen om de spelling met een kleine letter in plaats van een hoofdletter.

  1. Allerheiligen : allerheiligen
  2. Aswoensdag : aswoensdag
  3. Biblebelt : biblebelt
  4. Bijbelvast : bijbelvast
  5. Boekenweek : boekenweek
  6. Doema : doema
  7. iPod : ipod
  8. Kamerlid : kamerlid
  9. Keistad: keistad
  10. Koningsdag : koningsdag
  11. Moederdag : moederdag
  12. onder meer : ondermeer
  13. oorlog voeren : oorlogvoeren
  14. open haard : openhaard
  15. pico bello : picobello
  16. Pasen : pasen
  17. Pinksteren : pinksteren
  18. Prinsjesdag : prinsjesdag
  19. Rijnboog : rijnboog
  20. Septuagint : septuagint
  21. Suikerfeest : suikerfeest
  22. Vaderdag : vaderdag
  23. Viking : viking
  24. Wetstraat : wetstraat

Oude spelling

bewerken

Een klein aantal woorden in het onderzoek had een schrijfwijze die niet meer tot de huidige officiële spelling behoort. De gegevens uit het onderzoek zijn in dat geval vermeld op het lemma in de oude schrijfwijze en op het lemma in de huidige schrijfwijze wordt onder Gangbaarheid naar het lemma in de oude schrijfwijze verwezen.

Schrijfwijze nooit officieel

bewerken

Van de volgende woorden is ook de daarachter vermelde schrijfwijze in het onderzoek opgenomen. Deze vormen zijn nooit officiële spelling geweest en worden daarom niet in WikiWoordenboek opgenomen. De cijfers zijn als bijkomende informatie vermeld op het correct gespelde trefwoord. De woorden met een asterisk zijn in hun officiële spelling niet in het onderzoek betrokken.

  1. bureau : buro
  2. cadeau : kado
  3. caissière : cassière
  4. carnaval : karnaval
  5. clandestien : klandestien
  6. eega : ega
  7. gechargeerd : gecharcheerd
  8. geliket* : geliked
  9. horen bij* : bijhoren
  10. houvast : holvast
  11. installeren : instaleren
  12. koine : koinè
  13. oké : okee
  14. oubliëtte : oubliette
  15. penoze : penose
  16. quaestor : questor
  17. slip-over : slipover
  18. terneergeslagen : teneergeslagen
  19. tofoe : tofu
  20. weeïg : weeig

Dubbel vermeld

bewerken

Drie woorden zijn in een deel van het onderzoek meegenomen met een (onzichtbare) spatie achter het woord. Hierdoor staan zij tweemaal in de uiteindelijke lijst met resultaten. De in WikiWoordenboek vermelde waarden zijn gebaseerd op het totaal van beide vermeldingen.

  1. onbevreesd
  2. ontlopen
  3. sardonisch

Niet opgenomen

bewerken
  1. Het woord balu is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen.
  2. De tekenreeks "hbo’er" is vermoedelijk een verschrijving van hbo'er. Dit abuis is kennelijk al vroeg in het onderzoek ontdekt, omdat het maar aan een relatief klein aantal deelnemers is voorgelegd; het is uiteraard niet in WikiWoordenboek opgenomen.
  3. Het woord "stakenas" is sinds 1996 in de Woordenlijst vermeld, maar daarbuiten nergens te attesteren. Hier is mogelijk verwarring is ontstaan met de in de vroege jaren 90 bekende Litouwse wielrenner Kestitutis Stakenas. De Taalunie heeft desgevraagd bevestigd "dat het inderdaad een fout lijkt te zijn, en dat het woord uit de lijst zal worden geschrapt." Ook de vermelding van "holvast" (zie onder Schrijfwijze nooit officieel) is vermoedelijk op een vergelijkbare manier ontstaan.
  4. Het woord "klimo" is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen. Geschreven met een hoofdletter is Klimo wel een familienaam, een merknaam en een Indonesische plaatsnaam.

Resultaat in beeld

bewerken

Onderstaande tabel geeft aan hoeveel woorden door een bepaald percentage van de mensen (middenkolom) werd herkend, links voor Nederland, rechts voor Vlaanderen.

Het meest rechtse getal is het aantal woorden dat in het onderzoek door dat percentage deelnemers werd herkend, het getal daarvoor is het aantal van die woorden in de betreffende categorie op WikiWoordenboek en daarvoor staat het percentage dat een beeld geeft van de volledigheid van WikiWoordenboek.


Nederland bekend bij Vlaanderen
af pagina's woorden % af pagina's woorden
100% 6053 6054 100 100% 5413 5414
100% 10853 10854 99 100% 7747 7747
100% 4733 4733 98 100% 5430 5431
100% 2805 2805 97 100% 3247 3246
100% 2073 2072 96 100% 2443 2443
100% 1640 1640 95 100% 1912 1912
100% 1420 1420 94 100% 1553 1553
100% 1173 1173 93 100% 1368 1368
100% 1057 1057 92 100% 1151 1151
100% 941 941 91 100% 1011 1011
100% 903 903 90 100% 928 928
100% 792 792 89 100% 868 868
100% 735 735 88 100% 841 841
100% 635 636 87 100% 729 729
100% 607 607 86 100% 691 691
100% 575 575 85 100% 653 653
100% 590 590 84 100% 621 621
100% 519 519 83 100% 586 587
100% 483 484 82 100% 584 585
100% 523 523 81 100% 488 488
100% 449 449 80 100% 501 501
100% 439 439 79 100% 463 463
100% 445 445 78 100% 483 483
100% 421 421 77 100% 451 451
100% 394 394 76 100% 445 445
100% 352 352 75 100% 417 417
100% 372 372 74 100% 415 415
100% 335 335 73 100% 374 374
100% 369 369 72 100% 376 376
100% 308 308 71 100% 375 375
100% 307 307 70 100% 355 355
100% 299 299 69 100% 325 325
100% 312 312 68 100% 323 323
100% 294 294 67 100% 312 312
100% 301 301 66 100% 290 290
100% 298 298 65 100% 324 324
100% 247 247 64 100% 284 284
100% 260 260 63 100% 299 299
100% 229 229 62 100% 284 284
100% 240 240 61 100% 270 270
100% 231 231 60 100% 243 243
100% 258 258 59 100% 248 248
100% 227 227 58 100% 239 239
100% 185 185 57 100% 239 239
100% 218 218 56 100% 281 281
100% 232 232 55 100% 257 257
100% 231 231 54 100% 234 234
100% 213 213 53 100% 222 222
100% 206 206 52 100% 243 243
100% 161 161 51 100% 247 247
100% 188 188 50 100% 217 217
100% 205 205 49 100% 203 203
100% 194 194 48 100% 189 189
100% 195 195 47 100% 203 203
100% 191 191 46 100% 181 181
100% 185 185 45 100% 192 192
100% 207 207 44 100% 179 179
100% 168 168 43 100% 183 183
100% 182 182 42 100% 178 178
100% 168 168 41 100% 191 191
100% 190 190 40 100% 182 182
100% 154 154 39 100% 169 169
100% 168 168 38 100% 165 165
100% 157 157 37 100% 154 154
100% 148 148 36 100% 147 147
100% 128 128 35 100% 137 137
100% 164 164 34 100% 166 166
100% 132 132 33 100% 161 161
100% 141 141 32 100% 144 144
100% 145 145 31 100% 139 139
100% 130 130 30 100% 153 153
100% 129 129 29 100% 127 127
100% 142 142 28 100% 134 134
100% 153 153 27 100% 125 125
100% 155 155 26 100% 139 139
100% 142 142 25 100% 121 121
100% 123 123 24 100% 138 138
100% 128 128 23 100% 105 105
100% 131 131 22 100% 133 133
100% 140 140 21 100% 132 132
100% 144 144 20 100% 126 126
100% 106 106 19 100% 105 105
100% 127 127 18 100% 124 124
100% 129 129 17 100% 115 115
100% 99 99 16 100% 109 109
100% 109 109 15 100% 103 103
100% 86 86 14 100% 93 93
100% 114 114 13 100% 90 90
100% 101 101 12 100% 87 87
100% 99 99 11 100% 90 90
100% 92 92 10 100% 73 73
100% 89 89 9 100% 70 70
100% 69 69 8 100% 62 62
100% 48 48 7 100% 50 50
100% 46 46 6 100% 45 45
100% 40 40 5 100% 37 37
100% 25 25 4 100% 15 15
100% 28 28 3 100% 14 14
100% 8 8 2 100% 8 8
0 0 1 0 0
100% 3 3 0 100% 2 2

Het gaat in linkerdeel en het rechterdeel in totaal om dezelfde woorden, alleen anders geordend. De Nederlandse deelnemers waren gemiddeld ouder dan de Vlaamse deelnemers. Omdat het aantal herkende woorden toeneemt met de leeftijd is dit mogelijke verklaring waarom er relatief veel woorden door 99 of 100% van de Nederlanders werd herkend.

Toekomst

bewerken

In de toekomst kunnen andere relevante gegevens zoals de woordfrequenties (Open Taal, Open Subtitles) onder hetzelfde kopje een plek krijgen. Die gegevens vormen een goede aanvulling van elkaar. Hoewel je op het eerste gezicht misschien zou denken dat bekendheid en frequentie van woorden op hetzelfde neerkomen, blijkt er heel wat bekende woorden een lage frequentie te hebben. Dat kan komen doordat de teksten waaruit de frequenties worden berekend niet helemaal representatief zijn voor het taalgebruik en doordat weinig gebruikte woorden voor mensen toch van grote betekenis kunnen zijn. Aan de andere kant omvat Open Taal juist wel verbuigingen en functiewoorden, waardoor het voor 5 tot 6 keer meer lemma's informatie zal bieden.

Het Nationaal Publieksonderzoek 2019 had betrekking op Nederlandse uitdrukkingen. Omdat we steeds meer lemma's voor uitdrukkingen hebben, zouden we mogelijk de resultaten van dat onderzoek op een vergelijkbare manier kunnen laten zien. Dat zou een project op zichzelf zijn.

Het Centrum voor Leesonderzoek heeft onder Britten en Amerikanen ook de bekendheid van Engelse woorden onderzocht. We hebben in principe toestemming om die gegevens ook te gebruiken, maar we hebben maar voor heel groot deel van die woorden hebben we nog geen lemma's. Dit vervolgproject heeft een eigen projectpagina.

Contactpersonen

bewerken