Zingen in Perfecte Frequenties: de spelregels

In Zingen in Perfecte Frequenties neem ik de liedteksten van Nederlandstalige artiesten onder de loep. Welke woorden worden het meest gebruikt? En wordt daarmee voldaan aan de wet van Zipf?

Hierbij de spelregels die ik bij het analyseren hanteer:

De liedteksten
Ik analyseer alleen de liedteksten van nummers die op de oorspronkelijke variant van een album of ep hebben gestaan. Losse singles die een album niet hebben gehaald neem ik niet mee. Dit geldt ook voor later toegevoegde bonustracks, of duetten die alleen op het album van de andere artiest zijn uitgebracht. Tot slot analyseer ik alleen de Nederlandstalige liedteksten van een artiest.

Zinnen, woorden, lemma’s,
Ik analyseer de teksten op zinsniveau. Dat betekent dat een zin die (meerdere malen) herhaald wordt, maar één keer wordt meegenomen in de analyse. Zinnen die op een paar woorden van elkaar verschillen worden wel meegenomen. Daarnaast analyseer ik lemma’s. Dat betekent dat ik, bijvoorbeeld, de voorkomens van de woorden wasbenbentiswarenzijn, etc. bij elkaar optel en allemaal onder het lemma ‘zijn’ plaats. Net zoals dat de voorkomens van hond en honden allebei onder het lemma ‘hond’ worden geplaatst.

Wet van Zipf
De wet van Zipf beschrijft het fenomeen dat optreedt bij het berekenen van woordfrequenties. Woordfrequenties laten namelijk de volgende trend zien: als het meest voorkomende woord 100 keer voorkomt, dan heeft het tweede meest voorkomende woord een half keer zoveel voorkomens als het eerste woord (in dit voorbeeld dan 50 keer). Het derde meest voorkomend woord heeft vervolgens 1/3 keer zoveel voorkomens als het eerste woord (33 keer), het vierde woord 1/4 keer (25 keer), het vijfde woord 1/5 (20 keer), etc. Ik onderzoek in welke mate dit effect ook optreedt binnen de liedteksten. Dit doe ik door de correlatie te berekenen tussen de Zipf-lijn die verwacht wordt naar aanleiding van het aantal voorkomens van het eerste woord en de daadwerkelijke aantallen die gevonden zijn.

Pareto-principe
Ik onderzoek alleen de 20% meest voorkomende unieke woorden die worden geteld. Aan de ene kant scheelt dit onderzoekswerk, maar aan de andere kant is dit te verantwoorden door het Pareto-principe. Dit principe houdt – in moeilijke woorden – in dat 20% van de oorzaken 80% van de uitkomsten bepaald. In mijn onderzoek zou dit betekenen dat ik met het aantal voorkomens van de eerste 20% van alle unieke woorden 80% van alle liedteksten zou moeten kunnen schrijven. Oftewel: als ik alleen de eerste 20% onderzoek, dan heb ik daarmee 80% van de liedteksten meegenomen in mijn onderzoek. Ik controleer bij elke artiest of dit inderdaad het geval is.

Het overzicht
Hieronder staat een overzicht van alle Zingen in Perfecte Frequenties. De uitkomsten van de wet van Zipf en het Pareto-principe staan al aangegeven:

ArtiestWet van ZipfPareto-principe
Suzan & Freek99,0%20 : 75

Gepubliceerd door

Vincent Zonder Klinkers

In de taal verdwaald

Eén gedachte over “Zingen in Perfecte Frequenties: de spelregels”

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s