Wat is dit?

Deze “ngramviewer” maakt het mogelijk om het gebruik van een woord of een frase (meerdere, opeenvolgende woorden) in Nederlandse kranten tussen 1840 en 1995 te visualiseren. Analoog aan de Google Books Ngramviewer laat deze applicatie zien hoe termen die in het zoekveld ingevuld worden voorkomen in een corpus van (gedigitaliseerde) Nederlandse kranten.

Daarnaast kan er door op een bolletje in de grafiek te klikken in dat jaar op de term gezocht worden in de krantencollectie op Delpher.

Data

De Koninklijke Bibliotheek digitaliseert op grote schaal Nederlandse nationale, regionale en koloniale dagbladen, en stelt die beschikbaar via Delpher. De data in deze applicatie is geanalyseerd en getransformeerd om deze applicatie te kunnen realiseren.

De distributie van kranten over tijd in deze collectie is niet uniform: er zijn veel meer artikelen (en dus woorden) van kranten die rond de Tweede Wereldoorlog zijn gepubliceerd beschikbaar. Om te voorkomen dat elke grafiek, ongeacht op welke ngrammen er gezocht is, er hetzelfde uitziet, wordt op de y-as de relatieve frequentie van een ngram in een jaar weergegeven in plaats van de absolute frequentie. De y-as toont dus het percentage dat het betreffende ngram uitmaakt van alle ngrammen in dat jaar.

Wat zit er in de zoekmachine?

De data die in deze applicatie gebruikt wordt is afkomsting van scans waar OCR op toegepast is om tekst te detecteren. De kwaliteit van die tekstherkenning varieert sterk, omdat de conditie van de oorspronkelijke krant sterk varieert. Zo is de drukkwaliteit van de originele krant vaak slecht, zijn kranten beschadigd geraakt of vergaan, of zijn kranten dusdanig strak ingebonden in verzamelbanden dat de “ingebonden” kant vervormd is, wat digitalisatie bemoeilijkt. Een deel van de gedigitaliseerde kranten is afkomstig van microfilm, waarmee de kwaliteit van de filmdrager een factor is.

Deze variatie leidt tot een enorme variatie in het aantal termen: “groan- en meclzakken” zou bijvoorbeeld “graan- en meelzakken” moeten zijn. Bij analyse van de ruwe tekst vinden we daarom een helebooel termen die maar heel weinig voorkomen, en dus waarschijnlijk aan een OCR-fout toe te schrijven zijn. Daarom is de data gefilterd: een 1-gram moet minstens twee keer voorkomen in de hele collectie voordat hij opgenomen wordt in de index. 2- tot 5-grammen moeten minstens meer dan 5 keer voorkomen in minstens één jaar. Op deze manier worden de meeste fouten weggefilterd, en de overhead op de zoekmachine beperkt.

De tabel hier onder geeft de grootte van het vocabulair n weer. Extra informatie, evenals de ruwe data, is bij PoliticalMashup te vinden.

nUnieke ngrammen
1-grammen49.514.842
2-grammen39.156.451
3-grammen65.169.507
4-grammen47.955.070
5-grammen46.222.852
d-bpedia_men0
d-bpmen0
n-l.men1.621.427
Total249.640.149

Analyse

Voor deze ngramviewer is het krantencorpus op Delpher geanalyseerd. Eerst is de tekst opgedeeld in zinnen, en in elke zin zijn alle 1-, 2-, 3-, 4- en 5-grammen geëxtraheerd. De onderstaande zin zou bijvoorbeeld in losse woorden (“lorem”, “ipsum”, ...), 2-grammen (“lorem ipsum”, “ipsum dolor”, ...), tot en met 5-grammen (“lorem ipsum dolor sit amet”) worden opgedeeld.

Lorem ipsum dolor sit amet, consectetur adipiscing elit.

Daarnaast zijn leestekens verwijderd, zodat “amet” en “amet,” niet als verschillende termen worden gezien. Ook zijn alle hoofdletters vervangen door kleine letters, zodat “Lorem” en “lorem” als dezelfde woorden gezien worden. Het nadeel is dat woorden waar hoofdletters een andere betekenis aanduiden (“Bakker” bijvoorbeeld) op één hoop worden gegooid.

Totstandkoming

Deze applicatie is ontwikkeld door Dispectu en PoliticalMashup en is mede tot stand gekomen met de financiële bijdrage van de Nederlandse Dataprijs 2012 van DANS-KNAW.

Open source

De code van de ngramvieuwer is open source (GNU GPL) en te verkrijgen via bitbucket. Gelieve te verwijzen naar:

B. de Goede, J. van Wees en M. Marx, 'PoliticalMashup Ngramviewer', in: Proceedings of the 13th Ductch-Belgian Workshop on Information Retrieval 2013, p. 54-55.