WikiWoordenboek:Gangbaarheid: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
Geen bewerkingssamenvatting
Pjetter (overleg | bijdragen)
Versie 3509390 van 82.148.212.100 (overleg) ongedaan gemaakt
Regel 5:
 
== Woordfrequentie ==
Sinds er computers zijn is het mogelijk om kleinegrote aantallen teksten op te splitsen in losse woorden en dan te tellen hoe vaak elk woord voorkomt. Het blijkt dat een beperkt aantal woorden een heel groot deel van alle teksten uitmaakt en dat er aan de andere kant enorme aantallen woorden zijn die weinig voorkomen. Dit verschijnsel heet naar een van de ontdekkers de [[w:Wet van Zipf|wet van Zipf]]. Tegenwoordig worden er vaak bestanden met vele miljoenen woorden gebruikt. Als je frequenties uit verschillende bronnen wil vergelijken, is het nodig ze in een percentage uit te drukken, maar de verschillen in frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljard woorden en van dat aantal de log10 te nemen. Deze maat heet Zipf.
 
== Woordspreiding ==