WikiWoordenboek:Gangbaarheid: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
k Wijzigingen door 2001:1C02:2C0D:F000:B170:9379:B336:25F7 (Overleg) hersteld tot de laatste versie door MarcoSwart
Label: Terugdraaiing
Torvalu4 (overleg | bijdragen)
Regel 5:
 
== Woordfrequentie ==
Sinds er computers zijn is het mogelijk om grote aantallen teksten op te splitsen in losse woorden en dan te tellen hoe vaak elk woord voorkomt. Het blijkt dat een beperkt aantal woorden een heel groot deel van alle teksten uitmaakt en dat er aan de andere kant enorme aantallen woorden zijn die weinig voorkomen. Dit verschijnsel heet naar een van de ontdekkers de [[w:Wet van Zipf|wet van Zipf]]. Tegenwoordig worden er vaak bestanden met vele miljoenen woorden gebruikt. Als je frequenties uit verschillende bronnen wil vergelijken, is het nodig ze in een percentage uit te drukken, maar de verschillen in frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljard woorden en van dat aantal de log10log<sub>10</sub> te nemen. Deze maat heet Zipf.
 
== Woordspreiding ==