WikiWoordenboek:Gangbaarheid

De gangbaarheid van een woord geeft informatie over hoeveel het wordt gebruikt of hoeveel mensen het kennen. Dit kan op verschillende manieren die elkaar aanvullen.

Bekendheid

Het is via internet goed uitvoerbaar om grote aantallen taalgebruikers een reeks woorden voor te leggen (bestaand en niet-bestaand) en hun vragen bij elk woord aan te geven of ze dit (her-)kennen of niet. Met grote aantallen respondenten en doordacht variëren van de reeksen wordt het mogelijk om van tienduizenden woorden vast te stellen hoe bekend ze zijn. Dit wordt ook wel prevalentie genoemd.

Woordfrequentie

Sinds er computers zijn is het mogelijk om grote aantallen teksten op te splitsen in losse woorden en dan te tellen hoe vaak elk woord voorkomt. Het blijkt dat een beperkt aantal woorden een heel groot deel van alle teksten uitmaakt en dat er aan de andere kant enorme aantallen woorden zijn die weinig voorkomen. Dit verschijnsel heet naar een van de ontdekkers de wet van Zipf. Het aantal keren dat een woord voorkomt zegt alleen iets over de gangbaarheid als het op de een of andere manier wordt vergeleken met het totale aantal woorden in de teksten.

Frequentie

Het aantal keren dat een bepaald woord voorkomt gedeeld door het totale aantal woorden in alle teksten geeft per definitie de frequentie van het woord. Het nadeel van deze maatstaf is dat het grotendeels om kleine getallen gaat, breuken met eerst wat nullen achter de komma, die niet zo gemakkelijk te gebruiken zijn.

Relatieve frequentie

Een andere benadering is om het woord te vergelijken met het meestvoorkomende woord in de taal. Het aantal keren dat een bepaald woord in een de teksten voorkomt gedeeld door het aantal keren dat het meestvoorkomende woord in die teksten voorkomt. Dit levert wat grotere waarden op, maar zeker bij grote bestanden zijn er nog steeds woorden met hele lage frequenties. Een ander probleem is dat het meestvoorkomende woord soms ook afhankelijk is van de geselecteerde teksten en dat het tussen talen nogal kan verschillen hoe vaak het meestvoorkomende woord gebruikt wordt. Daardoor is deze maatstaf niet goed te gebruiken bij vergelijkingen tussen talen.

Rangorde

In plaats van de frequentie zelf, kunnen de woorden ook op een rij worden gezet naar aflopende frequentie. De rangorde in die rij kan dan als maatstaf voor de frequentie worden gebruikt. Dit levert goed te begrijpen getallen op, maar door de Wet van Zipf heeft eenzelfde verschil in rangorde steeds minder betekenis als het om minder gangbare woorden gaat.

Zipf

Tegenwoordig worden er vaak bestanden met vele miljoenen woorden gebruikt. Als je frequenties uit verschillende bronnen wil vergelijken, is het nodig ze in een percentage uit te drukken, maar de verschillen in frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljard woorden en van dat aantal de log₁₀ te nemen. Bij de vergelijking tussen bestanden kan er ook sprake zijn van woorden die (toevallig) niet in het bestand voorkomen. Daarom wordt op de frequenties de Laplacetransformatie toegepast: bij elke frequentie wordt 1 opgeteld en het totale aantal woorden in het bestand wordt vermeerderd met het totaal aantal verschillende woorden in het bestand. Deze maat heet zipf.

Mathematisch kunnnen waarden van 0 tot 9 zipf voorkomen, in de praktijk gaat het om waarden van 1 tot 7, waarbij een hogere waarde aangeeft dat een woord veel voorkomt: woorden met 6 of 7 zipf zijn meestal woorden die meer een rol spelen bij de structuur van een tekst en op zichzelf meestal weinig betekenis hebben. Woorden met 4 of 5 zipf zijn woorden die vaak gebruikt worden, terwijl je woorden met 2 of 3 niet zo vaak tegenkomt.

Woordspreiding

Het maakt voor de gangbaarheid van een woord wel verschil of het in één tekst honderd keer voorkomt of dat het in honderd teksten één keer voorkomt. In het eerste geval kan het gaan om een heel specifieke term die weinig betekenis heeft voor mensen de die tekst niet lezen, in het tweede geval is het mogelijk juist een woord dat veel mensen kennen, maar dat niet zo vaak herhaald wordt. Onderzoekers splitsen daarom hun tekstbestanden soms op in min of meer even grote delen en tellen dan in hoeveel verschillende delen een woord voorkomt.

Woordenlijsten

Traditioneel worden er ook woordenlijsten gemaakt met woorden die je in een bepaalde situatie zou moeten kennen. Tegenwoordig spelen de voorgaande soorten onderzoek hier vaak een rol bij, maar vroeger gebeurde dit meer op basis van de opvattingen die één of meer deskundigen daar over hadden. In de meest eenvoudige vorm is de informatie beperkt tot wel of niet in de lijst. Soms wordt er via etiketten als "frequent" of "zeldzaam" nog wat meer informatie gegeven. Voor het hedendaagse Nederlands is de "Woordenlijst Nederlandse taal" van de Taalunie van belang: deze is voor een belangrijk deel gebaseerd op onderzoek naar het voorkomen van woorden.