WikiWoordenboek:Widawiwo

Widawiwo is een (geïnverteerd) acroniem voor "Wikiwoordenboek Lexemen in bulk opladen naar Wikidata".

Sinds 2012 biedt Wikidata ook lexicografische mogelijkheden. Enkele WikiWoordenaars hebben het plan opgevat om te kijken hoe we daar gebruik van kunnen maken. Een middagje werken heeft onderstaande projectopzet opgeleverd.

Woordenboek-informatie nog beter vrij beschikbaar maken.

a. ondersteuning WikiWoordenboek (automatisch inhoud presenteren, kwaliteitscontrole)
b. gebruikers en toepassingen buiten WikiWoordenboek die een structuur nodig hebben die anders is dan die van WikiWoordenboek
c. polyglot kunnen werken (per lexeem)
d. nog ruimer te gebruiken: CC0 licentie i.p.v. CC BY-SA[1]

Het is voor deze doelen nuttig als er grotere aantallen gecontroleerde gegevens van Nederlandse woorden beschikbaar komen. Dit lijkt op een redelijk korte termijn haalbaar.

Afbakening

bewerken

Nederlandse woorden (taalcode: nld) waarvan al behoorlijk wat betrouwbare gegevens in een bruikbare vorm beschikbaar zijn. Op den duur kunnen de opgedane ervaringen ook nuttig zijn voor uitbreiding met andere gegevens, lexemen of talen, maar dat is nu bewust niet meegenomen, omdat we kleinschalig willen beginnen.

Vraag: zouden er anderstalige Wiktionaries zijn die een gelijkaardig project zouden hebben?

Aandachtspunten

bewerken

Er is een verschil in licentie tussen WikiWoordenboek (CC BY-SA) en de gegevens in Wikidata (CC0). Hiermee moeten we zorgvuldig omgaan. Omdat sommige bewerkers ook eigen bestanden hebben opgebouwd hoeft dit geen onoverkomelijk probleem te zijn.

Taal blijft zich ontwikkelen, dus bestanden moeten regelmatig worden bijgewerkt. Voor een duurzaam resultaat is het belangrijk om activiteiten zo op te zetten dat er steeds meer mensen gaan meedoen en dubbel werk wordt voorkomen.

In onderstaand ontwikkelpad bestaat uit vier fasen. De eerste fase is met het publiceren van deze pagina afgerond. Fase twee is uitgewerkt in deelactiviteiten, maar het is op dit moment nog niet goed mogelijk om aan te geven hoeveel tijd ermee gemoeid zal zijn. Voor deze fase is grondigheid belangrijker dan snelheid. Pas bij afronding van deze fase is het zinvol een tijdschema voor het vervolg te maken. Naar verwachting zullen dan ook de vervolgfasen meer gedetailleerd zijn.

Als je onderdelen in de opzet mist of andere opmerkingen of voorstellen hebt: laat het gerust weten op de overlegpagina. Als je nu al mee wil doen met de verkenningsfase of straks in een latere fase kan je dat op dezelfde manier laten weten. Op dit moment is de verkenning van het gegevensmodel (zie 1.4 en 2.2 hieronder) het meest dringend.

Stappenpad

bewerken
 
Wiki woordenboek Lexemes 20190526 - mass upload

Startfase

bewerken
1.1   Uitgevoerd Kort verslag bijeenkomst (staat op verenigingswiki)
1.2   Uitgevoerd Projectpagina op WikiWoordenboek (deze pagina}
1.4   Uitgevoerd Subpagina voor verkenning gegevensmodel: laaghangend fruit (het kan altijd beter)
1.5   Uitgevoerd Project aankondigen in De Kroeg, op Wikidata, Wikidata project en in de Wikidata Status Updates

Verkenningsfase

bewerken

Betrokkenheid Wikiwoordenaars

bewerken
2.1.1 Uitbreiden informatie over Wikidata op WikiWoordenboek
2.1.2 Peilen interesse om mee te meedoen
2.1.3 Licentievragen goed uitzoeken

Uitwerken gegevensmodel

bewerken
2.2.1 Voorbeeldlemma's maken: bestaande lexemen uitwerken aan de hand van verkenning gegevensmodel
2.2.2 Toevoegen lexemen voor ontbrekende woordsoorten/aspecten
2.2.3 Uitzoeken vraagpunten gegevensmodel (entiteiten, eigenschappen, waarden)

Techniek

bewerken
2.3.1 Inventariseren geschikte programmatuur voor upload van grote aantallen gegevens, zoals QuickStatement, PyWikiBot of iets nieuws?
2.3.2 Nagaan bruikbare bestandsformaat (-formaten) csv?
2.3.3 Inventariseren geschikte (eenvoudig beschikbare) bestanden
2.3.4 Kunnen deze nog eenvoudig worden verrijkt?
2.3.5 Nagaan opvraagbaar maken WikiData vanuit WikiWoordenboek

Voorbereidingsfase

bewerken
3.1 Afspraken op WikiWoordenboek maken (omgaan met auteursrecht, gewenste toepassingen)
3.2 Verfijnen gegevensmodel/laaghangend fruit aan de hand van opgedane ervaringen
3.3 Afspraken op Wikidata (vereist om zinvolle gegevensuitwisseling tussen Wikidata en WikiWoordenboek mogelijk te maken, zoals omgaan met spellingvarianten; bijwoordelijk gebruikte bijvoeglijke naamwoorden)
3.4 Uitwerken tijdschema
3.5 Gereedmaken bestanden

Uitvoeringsfase

bewerken
4.1 Testimport
4.2 Grootschalig invoeren bestanden
4.3 Ontwikkelen toepassingen op WikiWoordenboek

Deelnemers

bewerken
 
Eerste vergadering in Breda

Bewerkers die mee willen helpen zijn uiteraard welkom. Je kunt je naam onder aan deze lijst toevoegen. Het is handig als je op de overlegpagina laat weten wat je kan of wil gaan doen.

Initieel team[2] Geïnteresseerden Anderen
  • ...

Zie verder

bewerken

Zie ook

bewerken

Voetnoten

bewerken
  1. We moeten hier opletten dat we de originele uploads herbruiken en niet de lemma's uit Wiki woordenboek
  2. Vergadering van 26 mei 2019 in Breda