WikiWoordenboek:Gangbaarheid: verschil tussen versies

Verwijderde inhoud Toegevoegde inhoud
Hamish (overleg | bijdragen)
k Undid edits by 31.21.62.175 (talk) to last version by MarcoSwart
Labels: Ongedaan maken SWViewer [1.3]
Regel 5:
 
== Woordfrequentie ==
Sinds er computers zijn is het mogelijk om grote aantallen teksten op te splitsen in losse woorden en dan te tellen hoe vaak elk woord voorkomt. Het blijkt dat een beperkt aantal woorden een heel groot deel van alle teksten uitmaakt en dat er aan de andere kant enorme aantallen woorden zijn die weinig voorkomen. Dit verschijnsel heet naar een van de ontdekkers de [[w:Wet van Zipf|wet van Zipf]]. TegenwoordigHet wordenaantal erkeren vaakdat bestandeneen metwoord velevoorkomt miljoenenzegt woordenalleen gebruikt.iets Alsover jede frequentiesgangbaarheid uit verschillende bronnen wil vergelijken, isals het nodigop ze inde een percentageof uitandere temanier drukken,wordt maarvergeleken demet verschillenhet intotale frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljardaantal woorden en van dat aantalin de log<sub>10</sub> te nemen. Deze maat heet Zipfteksten.
=== Frequentie ===
Het aantal keren dat een bepaald woord voorkomt gedeeld door het totale aantal woorden in alle teksten geeft per definitie de frequentie van het woord. Het nadeel van deze maatstaf is dat het grotendeels om kleine getallen gaat, breuken met eerst wat nullen achter de komma, die niet zo gemakkelijk te gebruiken zijn.
=== Relatieve frequentie ===
Een andere benadering is om het woord te vergelijken met het meestvoorkomende woord in de taal. Het aantal keren dat een bepaald woord in een de teksten voorkomt gedeeld door het aantal keren dat het meestvoorkomende woord in die teksten voorkomt. Dit levert wat grotere waarden op, maar zeker bij grote bestanden zijn er nog steeds woorden met hele lage frequenties. Een ander probleem is dat het meestvoorkomende woord soms ook afhankelijk is van de geselecteerde teksten en dat het tussen talen nogal kan verschillen hoe vaak het meestvoorkomende woord gebruikt wordt. Daardoor is deze maatstaf niet goed te gebruiken bij vergelijkingen tussen talen.
=== Rangorde ===
In plaats van de frequentie zelf, kunnen de woorden ook op een rij worden gezet naar aflopende frequentie. De rangorde in die rij kan dan als maatstaf voor de frequentie worden gebruikt. Dit levert goed te begrijpen getallen op, maar door de Wet van Zipf heeft eenzelfde verschil in rangorde steeds minder betekenis als het om minder gangbare woorden gaat.
=== Zipf ===
Tegenwoordig worden er vaak bestanden met vele miljoenen woorden gebruikt. Als je frequenties uit verschillende bronnen wil vergelijken, is het nodig ze in een percentage uit te drukken, maar de verschillen in frequentie leveren dan al snel onoverzichtelijk lange getallen op. Het is daarom overzichtelijker om alle frequenties om te rekenen naar een bestand met 1 miljard woorden en van dat aantal de log<sub>10</sub> te nemen. Bij de vergelijking tussen bestanden kan er ook sprake zijn van woorden die (toevallig) niet in het bestand voorkomen. Daarom wordt op de frequenties de Laplacetransformatie toegepast: bij elke frequentie wordt 1 opgeteld en het totale aantal woorden in het bestand wordt vermeerderd met het totaal aantal verschillende woorden in het bestand. Deze maat heet '''zipf'''.
 
Mathematisch kunnnen waarden van 0 tot 9 zipf voorkomen, in de praktijk gaat het om waarden van 1 tot 7, waarbij een hogere waarde aangeeft dat een woord veel voorkomt: woorden met 6 of 7 zipf zijn meestal woorden die meer een rol spelen bij de structuur van een tekst en op zichzelf meestal weinig betekenis hebben. Woorden met 4 of 5 zipf zijn woorden die vaak gebruikt worden, terwijl je woorden met 2 of 3 niet zo vaak tegenkomt.
 
== Woordspreiding ==