WikiWoordenboek:Project Gangbaarheid Nederlandse woorden
Doel
bewerkenDit project heeft aan meer dan 54 duizend lemma's van Nederlandse woorden informatie toegevoegd over de gangbaarheid daarvan. Dit is gedaan in samenwerking met het Centrum voor Leesonderzoek (Ugent), dat de uitkomsten van zijn onderzoek uit 2013 voor dit doel ter beschikking stelde. Rapportages over iets eerdere fases van dit onderzoek zijn Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal (Nederlands) en Word knowledge in the crowd: Measuring vocabulary size and word prevalence in a massive online experiment (Engels).
Voor dit project gebruikten we in de eerste fase (tot 2020) een bestand dat identiek is aan het bestand dat op woorden.org werd gebruikt. In de tweede fase wordt het bestand aangevuld en bijgewerkt overeenkomstig de laatst gepubliceerde onderzoeksgegevens.
Achtergrond
bewerkenAls je Nederlands leert of wanneer je begrijpelijk wil schrijven is het nuttig om te weten of het om een veelgebruikt woord gaat. Je kunt daar op verschillende manieren naar kijken, die op Gangbaarheid zijn beschreven. Deze invalshoeken vullen elkaar aan. In het project Woordfrequenties worden andere gegevens die hierbij van belang zijn verzameld.
Daarnaast bleken deze gegevens ook van waarde bij het uitbreiden van WikiWoordenboek met behulp van onze Nederlandstalige Top 70. Er zijn op deze manier zo'n 19 duizend lemma's aan WikiWoordenboek toegevoegd. Gedurende het project nam het bezoek aan WikiWoordenboek gestaag toe. Waarschijnlijk komt dat ook doordat de inhoud van het woordenboek steeds beter ging aansluiten bij de woordenschat die Nederlanders en Vlamingen echt gebruiken.
Informatie over de gangbaarheid van woorden wordt zelfs wel eens gebruikt in rechtszaken: "Zij onderbouwt deze stelling door te verwijzen naar een onderzoek van het Centrum voor Leesonderzoek uit 2013, waaruit blijkt dat het woord kornuit wordt herkend door 95% van de Nederlanders, en het woord kordaat door 96% van de Nederlanders." Het geciteerde cijfer voor "kornuit" kwam uit een oudere fase van het onderzoek.
Opzet
bewerkenkopje Gangbaarheid
bewerkenIn de eerste fase is op de betreffende lemma's aan het eind, net voor {{refs}}/{{-ref-}} en {{-info-}} een kopje Gangbaarheid toegevoegd, dat net als de vergelijkbare kopjes naar een projectpagina verwijst. Omdat de sjablonen voor kopjes allemaal op het Engels zijn gebaseerd, heet het sjabloon zelf {{-preval-}} van "prevalence".
Aangezien de lezer al vrij veel informatie door moet, voor hij bij de betekenissen komt, is ervoor gekozen deze informatie aan het eind te plaatsen. Het ging bij dit project om gegevens die gekoppeld zijn aan het woord als lettercombinatie, in dat opzicht lijkt het wel op {{-info-}}. Het lastige van deze keus was dat het vinden van de gekozen plaats aan het eind van een Nederlandstalig lemma niet zo gemakkelijk te automatiseren is: zowel wat erna als wat ervoor komt kan nogal verschillen. Met een combinatie van zoekopdrachten en handmatige correcties via AutoWikiBrowser is het toch gelukt.
link woordenlijst.org
bewerkenAangezien de Woordenlijst deels ook gebaseerd is op onderzoek naar het gebruik van woorden is het gegeven of een woord daarin staat ook van betekenis voor de gangbaarheid. Dit kan met een sjabloon met een link worden aangetoond. Het valt te overwegen om dit in de toekomst uit te breiden met gegevens over opneming in eerdere edities van het Groene Boekje.
Het sjabloon voor dit doel is {{wel-GB}} gedoopt; sinds december 2018 wordt na een voorstel in De kroeg ook informatie van {{niet-GB}} op deze plaats aangeboden voor zover zij niet op een specifieke vorm betrekking heeft.
categorieën
bewerkenDe pagina's waarop getalsmatige uitkomsten van het onderzoek worden gegeven worden alle in twee categorieën geplaatst die corresponderen met het percentage in Vlaanderen respectievelijk Nederland. Deze categorieën staan weer in twee overkoepelende categorieën: Prevalentie Vlaanderen en Prevalentie Nederland.
prevalentie
bewerkenVervolgens worden de gegevens getoond uit het van het Centrum voor Leesonderzoek van de Universiteit Gent, met een link naar de projectpagina van dit onderzoek. Die diende in de eerste fase primair als bronvermelding, maar het is natuurlijk ook wel mooi dat een crowdsourced onderzoek en een crowdsourced woordenboek elkaar een beetje van dienst zijn. Het onderzoek loopt immers nog steeds door.
Het gaat om twee percentages, respectievelijk voor Nederland en voor Vlaanderen. Er is in het verleden wel eens discussie geweest of er bij sommige woorden een label moest komen dat dit niet in het hele taalgebied (even) gangbaar was. Bezwaar was dan dat dit vaak nogal subjectief zou zijn. Nu kunnen we de lezer daar redelijk neutraal over informeren.
Aangezien nog niet alle woorden uit dit onderzoek een lemma op WikiWoordenboek hebben, worden de woorden per gebied en percentage in een categorie gestopt, waarbij is aangegeven hoeveel woorden die uiteindelijk zou moeten bevatten. Omgekeerd vermeldt WikiWoordenboek ook veel worden die niet in het onderzoek zijn opgenomen, zoals verbogen vormen woorden, schrijfwijzen die verouderd zijn, namen en vaktermen.
In de eerste fase werden deze gegevens worden met het sjabloon {{crr13}} getoond. Deze benaming verwijst naar de Engelse naam van het instituut "Center for Reading Research) en het jaar van het onderzoek.
In de tweede fase is voor dit doel een nieuw sjabloon gebruikt, {{Leesonderzoek-2013}}, dat zijn gegevens uit subpagina's van het sjabloon haalt. Het bijhouden van deze cijfers op de lemma's zelf bleek minder praktisch: wanneer eenmaal vaststaat dat de gegevens kloppen met de bron, wordt de bewerkbaarheid juist een bron van fouten. Het lexicografische model van WikiData kon voor de opslag van deze cijfers geen soelaas bieden. Dat model is nadrukkelijk gebaseerd op lexemen, terwijl de cijfers betrekking hebben op woordvormen die in het Nederlands vaak bij verschillende lexemen horen.
Het nieuwe sjabloon bevatte ook een link naar het gepubliceerde bestand met onderzoeksgegevens, waardoor belangstellenden zelf kunnen nagaan dat de gepresenteerde informatie in overeenstemt met dat bestand. Voor een overzichtelijke presentatie, zonder schijnnauwkeurigheid worden eenvoudige percentages zonder decimalen gebruikt. Het Centrum voor Leesonderzoek heeft WikiWoordenboek uitdrukkelijk toestemming verleend om de onderzoeksgegevens te bewerken en het resultaat onder CC-BY-SA te publiceren.
Aanpak
bewerkenFase 1
bewerken- Aankondiging in De Kroeg
- Projectpagina
- Sjablonen en categorieën aanmaken en op zichzelf testen
- Testen gecombineerde plaatsing
- Plaatsing van sjablonen op al bestaande lemma's
- Op bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord toevoegen
- Aanvullen ontbrekende woorden
Deze fase is begin mei 2020 voltooid. Het sjabloon is op 52.028 lemma's geplaatst en er zijn ongeveer 18.000 ontbrekende lemma's toegevoegd.
Fase 2
bewerken- Nieuwe opzet ontwikkelen op basis van de officieel gepubliceerde onderzoeksgegevens
- Formele toestemming voor het gebruik van deze onderzoeksgegevens is vastgelegd in OTRS met nummer 2020043010008462
- Bijwerken van deze projectpagina en haar subpagina
- Nieuw sjabloon met subpagina's aanmaken, testen en met gegevens vullen
- Bijwerken van de tekst op de categorieën
- Plaatsing van het nieuwe sjabloon op ruim 1.400 bestaande lemma's waarvoor nu ook cijfers beschikbaar zijn
- Het oude sjabloon laten doorverwijzen naar het nieuwe sjabloon
- Op ongeveer 60 bestaande pagina's die nu een woord alleen in een vreemde taal beschrijven, ook het Nederlandse woord met het nieuwe sjabloon toevoegen
- Aanvullen met ruim 800 ontbrekende woorden
Deze fase is in november 2020 voltooid.
Aanpassingen in lijst
bewerkenDe vorm die in het onderzoek aan de deelnemers is voorgelegd blijft bepalend voor de vermelding in WikiWoordenboek. Geprobeerd is de uitkomsten zoveel mogelijk een plaats te geven. Het was daarbij niet altijd mogelijk elke regel uit de onderzoeksresultaten aan een afzonderlijk lemma te koppelen. Het te bereiken totaal voor de betreffende categorieën is in die gevallen verlaagd.
Minieme spellingsverschillen
bewerkenBij een aantal woorden vertoont de vorm in het onderzoek een minimaal verschil met de officiële schrijfwijze. In deze gevallen is de informatie uit het onderzoek op het lemma vermeld, met informatie over de form die feitelijk in het onderzoek gebruikt is. Het gaat in de meeste gevallen om de spelling met een kleine letter in plaats van een hoofdletter.
- Allerheiligen : allerheiligen
- Aswoensdag : aswoensdag
- Biblebelt : biblebelt
- Bijbelvast : bijbelvast
- Boekenweek : boekenweek
- Doema : doema
- iPod : ipod
- Kamerlid : kamerlid
- Keistad: keistad
- Koningsdag : koningsdag
- Moederdag : moederdag
- onder meer : ondermeer
- oorlog voeren : oorlogvoeren
- open haard : openhaard
- pico bello : picobello
- Pasen : pasen
- Pinksteren : pinksteren
- Prinsjesdag : prinsjesdag
- Rijnboog : rijnboog
- Septuagint : septuagint
- Suikerfeest : suikerfeest
- Vaderdag : vaderdag
- Viking : viking
- Wetstraat : wetstraat
Oude spelling
bewerkenEen klein aantal woorden in het onderzoek had een schrijfwijze die niet meer tot de huidige officiële spelling behoort. De gegevens uit het onderzoek zijn in dat geval vermeld op het lemma in de oude schrijfwijze en op het lemma in de huidige schrijfwijze wordt onder Gangbaarheid naar het lemma in de oude schrijfwijze verwezen.
- alle drie - alledrie
- alle twee - alletwee
- Antarctisch - antarctisch
- co-existentie - coëxistentie
- coelacant - coelacanth
- decheance - déchéance
- djoinen - joinen
- erin luizen - er inluizen
- Eskimo - eskimo
- gojiem - gojim
- klavarskribo - klavarscribo
- na-ijverig - naijverig
- Onzevader - onzevader
- re-iteratie - reïteratie
- Semiet - semiet
- status quo - status-quo
- ten gevolge - tengevolge
- vélocipède - velocipède
Schrijfwijze nooit officieel
bewerkenVan de volgende woorden is ook de daarachter vermelde schrijfwijze in het onderzoek opgenomen. Deze vormen zijn nooit officiële spelling geweest en worden daarom niet in WikiWoordenboek opgenomen. De cijfers zijn als bijkomende informatie vermeld op het correct gespelde trefwoord. De woorden met een asterisk zijn in hun officiële spelling niet in het onderzoek betrokken.
- bureau : buro
- cadeau : kado
- caissière : cassière
- carnaval : karnaval
- clandestien : klandestien
- eega : ega
- gechargeerd : gecharcheerd
- geliket* : geliked
- horen bij* : bijhoren
- houvast : holvast
- installeren : instaleren
- koine : koinè
- oké : okee
- oubliëtte : oubliette
- penoze : penose
- quaestor : questor
- slip-over : slipover
- terneergeslagen : teneergeslagen
- tofoe : tofu
- weeïg : weeig
Dubbel vermeld
bewerkenDrie woorden zijn in een deel van het onderzoek meegenomen met een (onzichtbare) spatie achter het woord. Hierdoor staan zij tweemaal in de uiteindelijke lijst met resultaten. De in WikiWoordenboek vermelde waarden zijn gebaseerd op het totaal van beide vermeldingen.
Niet opgenomen
bewerken- Het woord balu is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen.
- De tekenreeks "hboer" is vermoedelijk een verschrijving van hbo'er. Dit abuis is kennelijk al vroeg in het onderzoek ontdekt, omdat het maar aan een relatief klein aantal deelnemers is voorgelegd; het is uiteraard niet in WikiWoordenboek opgenomen.
- Het woord "stakenas" is sinds 1996 in de Woordenlijst vermeld, maar daarbuiten nergens te attesteren. Hier is mogelijk verwarring is ontstaan met de in de vroege jaren 90 bekende Litouwse wielrenner Kestitutis Stakenas. De Taalunie heeft desgevraagd bevestigd "dat het inderdaad een fout lijkt te zijn, en dat het woord uit de lijst zal worden geschrapt." Ook de vermelding van "holvast" (zie onder Schrijfwijze nooit officieel) is vermoedelijk op een vergelijkbare manier ontstaan.
- Het woord "klimo" is voor het Nederlands niet te attesteren en wordt daarom niet in WikiWoordenboek opgenomen. Geschreven met een hoofdletter is Klimo wel een familienaam, een merknaam en een Indonesische plaatsnaam.
Resultaat in beeld
bewerkenOnderstaande tabel geeft aan hoeveel woorden door een bepaald percentage van de mensen (middenkolom) werd herkend, links voor Nederland, rechts voor Vlaanderen.
Het meest rechtse getal is het aantal woorden dat in het onderzoek door dat percentage deelnemers werd herkend, het getal daarvoor is het aantal van die woorden in de betreffende categorie op WikiWoordenboek en daarvoor staat het percentage dat een beeld geeft van de volledigheid van WikiWoordenboek.
Nederland | bekend bij | Vlaanderen | ||||
---|---|---|---|---|---|---|
af | pagina's | woorden | % | af | pagina's | woorden |
100% | 6053 | 6054 | 100 | 100% | 5413 | 5414 |
100% | 10853 | 10854 | 99 | 100% | 7747 | 7747 |
100% | 4733 | 4733 | 98 | 100% | 5430 | 5431 |
100% | 2805 | 2805 | 97 | 100% | 3247 | 3246 |
100% | 2073 | 2072 | 96 | 100% | 2443 | 2443 |
100% | 1640 | 1640 | 95 | 100% | 1912 | 1912 |
100% | 1420 | 1420 | 94 | 100% | 1553 | 1553 |
100% | 1173 | 1173 | 93 | 100% | 1368 | 1368 |
100% | 1056 | 1057 | 92 | 100% | 1151 | 1151 |
100% | 941 | 941 | 91 | 100% | 1011 | 1011 |
100% | 903 | 903 | 90 | 100% | 928 | 928 |
100% | 792 | 792 | 89 | 100% | 867 | 868 |
100% | 735 | 735 | 88 | 100% | 841 | 841 |
100% | 635 | 636 | 87 | 100% | 729 | 729 |
100% | 607 | 607 | 86 | 100% | 691 | 691 |
100% | 575 | 575 | 85 | 100% | 653 | 653 |
100% | 590 | 590 | 84 | 100% | 621 | 621 |
100% | 519 | 519 | 83 | 100% | 586 | 587 |
100% | 483 | 484 | 82 | 100% | 584 | 585 |
100% | 523 | 523 | 81 | 100% | 488 | 488 |
100% | 449 | 449 | 80 | 100% | 501 | 501 |
100% | 439 | 439 | 79 | 100% | 463 | 463 |
100% | 445 | 445 | 78 | 100% | 483 | 483 |
100% | 421 | 421 | 77 | 100% | 451 | 451 |
100% | 394 | 394 | 76 | 100% | 445 | 445 |
100% | 352 | 352 | 75 | 100% | 417 | 417 |
100% | 372 | 372 | 74 | 100% | 415 | 415 |
100% | 335 | 335 | 73 | 100% | 374 | 374 |
100% | 369 | 369 | 72 | 100% | 376 | 376 |
100% | 308 | 308 | 71 | 100% | 375 | 375 |
100% | 307 | 307 | 70 | 100% | 355 | 355 |
100% | 299 | 299 | 69 | 100% | 325 | 325 |
100% | 312 | 312 | 68 | 100% | 323 | 323 |
100% | 294 | 294 | 67 | 100% | 312 | 312 |
100% | 301 | 301 | 66 | 100% | 290 | 290 |
100% | 298 | 298 | 65 | 100% | 324 | 324 |
100% | 247 | 247 | 64 | 100% | 284 | 284 |
100% | 260 | 260 | 63 | 100% | 299 | 299 |
100% | 229 | 229 | 62 | 100% | 284 | 284 |
100% | 240 | 240 | 61 | 100% | 270 | 270 |
100% | 231 | 231 | 60 | 100% | 243 | 243 |
100% | 258 | 258 | 59 | 100% | 248 | 248 |
100% | 227 | 227 | 58 | 100% | 239 | 239 |
100% | 185 | 185 | 57 | 100% | 239 | 239 |
100% | 218 | 218 | 56 | 100% | 281 | 281 |
100% | 232 | 232 | 55 | 100% | 257 | 257 |
100% | 231 | 231 | 54 | 100% | 234 | 234 |
100% | 213 | 213 | 53 | 100% | 222 | 222 |
100% | 206 | 206 | 52 | 100% | 243 | 243 |
100% | 161 | 161 | 51 | 100% | 247 | 247 |
100% | 188 | 188 | 50 | 100% | 217 | 217 |
100% | 205 | 205 | 49 | 100% | 203 | 203 |
100% | 194 | 194 | 48 | 100% | 189 | 189 |
100% | 195 | 195 | 47 | 100% | 203 | 203 |
100% | 191 | 191 | 46 | 100% | 181 | 181 |
100% | 185 | 185 | 45 | 100% | 192 | 192 |
100% | 207 | 207 | 44 | 100% | 179 | 179 |
100% | 168 | 168 | 43 | 100% | 183 | 183 |
100% | 182 | 182 | 42 | 100% | 178 | 178 |
100% | 168 | 168 | 41 | 100% | 191 | 191 |
100% | 190 | 190 | 40 | 100% | 182 | 182 |
100% | 154 | 154 | 39 | 100% | 169 | 169 |
100% | 168 | 168 | 38 | 100% | 165 | 165 |
100% | 157 | 157 | 37 | 100% | 154 | 154 |
100% | 148 | 148 | 36 | 100% | 147 | 147 |
100% | 128 | 128 | 35 | 100% | 137 | 137 |
100% | 164 | 164 | 34 | 100% | 166 | 166 |
100% | 132 | 132 | 33 | 100% | 161 | 161 |
100% | 141 | 141 | 32 | 100% | 144 | 144 |
100% | 145 | 145 | 31 | 100% | 139 | 139 |
100% | 130 | 130 | 30 | 100% | 153 | 153 |
100% | 129 | 129 | 29 | 100% | 127 | 127 |
100% | 142 | 142 | 28 | 100% | 134 | 134 |
100% | 153 | 153 | 27 | 100% | 125 | 125 |
100% | 155 | 155 | 26 | 100% | 139 | 139 |
100% | 142 | 142 | 25 | 100% | 121 | 121 |
100% | 123 | 123 | 24 | 100% | 138 | 138 |
100% | 128 | 128 | 23 | 100% | 105 | 105 |
100% | 131 | 131 | 22 | 100% | 133 | 133 |
100% | 140 | 140 | 21 | 100% | 132 | 132 |
100% | 144 | 144 | 20 | 100% | 126 | 126 |
100% | 106 | 106 | 19 | 100% | 105 | 105 |
100% | 127 | 127 | 18 | 100% | 124 | 124 |
100% | 129 | 129 | 17 | 100% | 115 | 115 |
100% | 99 | 99 | 16 | 100% | 109 | 109 |
100% | 109 | 109 | 15 | 100% | 103 | 103 |
100% | 86 | 86 | 14 | 100% | 93 | 93 |
100% | 114 | 114 | 13 | 100% | 90 | 90 |
100% | 101 | 101 | 12 | 100% | 87 | 87 |
100% | 99 | 99 | 11 | 100% | 90 | 90 |
100% | 92 | 92 | 10 | 100% | 73 | 73 |
100% | 89 | 89 | 9 | 100% | 70 | 70 |
100% | 69 | 69 | 8 | 100% | 62 | 62 |
100% | 48 | 48 | 7 | 100% | 50 | 50 |
100% | 46 | 46 | 6 | 100% | 45 | 45 |
100% | 40 | 40 | 5 | 100% | 37 | 37 |
100% | 25 | 25 | 4 | 100% | 15 | 15 |
100% | 28 | 28 | 3 | 100% | 14 | 14 |
100% | 8 | 8 | 2 | 100% | 8 | 8 |
0 | 0 | 1 | 0 | 0 | ||
100% | 3 | 3 | 0 | 100% | 2 | 2 |
Het gaat in linkerdeel en het rechterdeel in totaal om dezelfde woorden, alleen anders geordend. De Nederlandse deelnemers waren gemiddeld ouder dan de Vlaamse deelnemers. Omdat het aantal herkende woorden toeneemt met de leeftijd is dit mogelijke verklaring waarom er relatief veel woorden door 99 of 100% van de Nederlanders werd herkend.
Toekomst
bewerkenIn de toekomst kunnen andere relevante gegevens zoals de woordfrequenties (Open Taal, Open Subtitles) onder hetzelfde kopje een plek krijgen. Die gegevens vormen een goede aanvulling van elkaar. Hoewel je op het eerste gezicht misschien zou denken dat bekendheid en frequentie van woorden op hetzelfde neerkomen, blijkt er heel wat bekende woorden een lage frequentie te hebben. Dat kan komen doordat de teksten waaruit de frequenties worden berekend niet helemaal representatief zijn voor het taalgebruik en doordat weinig gebruikte woorden voor mensen toch van grote betekenis kunnen zijn. Aan de andere kant omvat Open Taal juist wel verbuigingen en functiewoorden, waardoor het voor 5 tot 6 keer meer lemma's informatie zal bieden.
Het Nationaal Publieksonderzoek 2019 had betrekking op Nederlandse uitdrukkingen. Omdat we steeds meer lemma's voor uitdrukkingen hebben, zouden we mogelijk de resultaten van dat onderzoek op een vergelijkbare manier kunnen laten zien. Dat zou een project op zichzelf zijn.
Het Centrum voor Leesonderzoek heeft onder Britten en Amerikanen ook de bekendheid van Engelse woorden onderzocht. We hebben in principe toestemming om die gegevens ook te gebruiken, maar we hebben maar voor heel groot deel van die woorden hebben we nog geen lemma's. Dit vervolgproject heeft een eigen projectpagina.
Contactpersonen
bewerken- WikiWoordenboek: Gebruiker:MarcoSwart
- Centrum voor Leesonderzoek UGent: Marc Brysbaert