WikiWoordenboek:Widawiwo
Widawiwo is een (geïnverteerd) acroniem voor "Wikiwoordenboek Lexemen in bulk opladen naar Wikidata".
Sinds 2012 biedt Wikidata ook lexicografische mogelijkheden. Enkele WikiWoordenaars hebben het plan opgevat om te kijken hoe we daar gebruik van kunnen maken. Een middagje werken heeft onderstaande projectopzet opgeleverd.
Doel
bewerkenWoordenboek-informatie nog beter vrij beschikbaar maken.
- a. ondersteuning WikiWoordenboek (automatisch inhoud presenteren, kwaliteitscontrole)
- b. gebruikers en toepassingen buiten WikiWoordenboek die een structuur nodig hebben die anders is dan die van WikiWoordenboek
- c. polyglot kunnen werken (per lexeem)
- d. nog ruimer te gebruiken: CC0 licentie i.p.v. CC BY-SA[1]
Het is voor deze doelen nuttig als er grotere aantallen gecontroleerde gegevens van Nederlandse woorden beschikbaar komen. Dit lijkt op een redelijk korte termijn haalbaar.
Afbakening
bewerkenNederlandse woorden (taalcode: nld) waarvan al behoorlijk wat betrouwbare gegevens in een bruikbare vorm beschikbaar zijn. Op den duur kunnen de opgedane ervaringen ook nuttig zijn voor uitbreiding met andere gegevens, lexemen of talen, maar dat is nu bewust niet meegenomen, omdat we kleinschalig willen beginnen.
Vraag: zouden er anderstalige Wiktionaries zijn die een gelijkaardig project zouden hebben?
Aandachtspunten
bewerkenEr is een verschil in licentie tussen WikiWoordenboek (CC BY-SA) en de gegevens in Wikidata (CC0). Hiermee moeten we zorgvuldig omgaan. Omdat sommige bewerkers ook eigen bestanden hebben opgebouwd hoeft dit geen onoverkomelijk probleem te zijn.
Taal blijft zich ontwikkelen, dus bestanden moeten regelmatig worden bijgewerkt. Voor een duurzaam resultaat is het belangrijk om activiteiten zo op te zetten dat er steeds meer mensen gaan meedoen en dubbel werk wordt voorkomen.
In onderstaand ontwikkelpad bestaat uit vier fasen. De eerste fase is met het publiceren van deze pagina afgerond. Fase twee is uitgewerkt in deelactiviteiten, maar het is op dit moment nog niet goed mogelijk om aan te geven hoeveel tijd ermee gemoeid zal zijn. Voor deze fase is grondigheid belangrijker dan snelheid. Pas bij afronding van deze fase is het zinvol een tijdschema voor het vervolg te maken. Naar verwachting zullen dan ook de vervolgfasen meer gedetailleerd zijn.
Als je onderdelen in de opzet mist of andere opmerkingen of voorstellen hebt: laat het gerust weten op de overlegpagina. Als je nu al mee wil doen met de verkenningsfase of straks in een latere fase kan je dat op dezelfde manier laten weten. Op dit moment is de verkenning van het gegevensmodel (zie 1.4 en 2.2 hieronder) het meest dringend.
Stappenpad
bewerkenStartfase
bewerken- 1.1 Uitgevoerd Kort verslag bijeenkomst (staat op verenigingswiki)
- 1.2 Uitgevoerd Projectpagina op WikiWoordenboek (deze pagina}
- 1.4 Uitgevoerd Subpagina voor verkenning gegevensmodel: laaghangend fruit (het kan altijd beter)
- 1.5 Uitgevoerd Project aankondigen in De Kroeg, op Wikidata, Wikidata project en in de Wikidata Status Updates
Verkenningsfase
bewerkenBetrokkenheid Wikiwoordenaars
bewerken- 2.1.1 Uitbreiden informatie over Wikidata op WikiWoordenboek
- 2.1.2 Peilen interesse om mee te meedoen
- 2.1.3 Licentievragen goed uitzoeken
Uitwerken gegevensmodel
bewerken- 2.2.1 Voorbeeldlemma's maken: bestaande lexemen uitwerken aan de hand van verkenning gegevensmodel
- 2.2.2 Toevoegen lexemen voor ontbrekende woordsoorten/aspecten
- 2.2.3 Uitzoeken vraagpunten gegevensmodel (entiteiten, eigenschappen, waarden)
Techniek
bewerken- 2.3.1 Inventariseren geschikte programmatuur voor upload van grote aantallen gegevens, zoals QuickStatement, PyWikiBot of iets nieuws?
- 2.3.2 Nagaan bruikbare bestandsformaat (-formaten) csv?
- 2.3.3 Inventariseren geschikte (eenvoudig beschikbare) bestanden
- 2.3.4 Kunnen deze nog eenvoudig worden verrijkt?
- 2.3.5 Nagaan opvraagbaar maken WikiData vanuit WikiWoordenboek
Voorbereidingsfase
bewerken- 3.1 Afspraken op WikiWoordenboek maken (omgaan met auteursrecht, gewenste toepassingen)
- 3.2 Verfijnen gegevensmodel/laaghangend fruit aan de hand van opgedane ervaringen
- 3.3 Afspraken op Wikidata (vereist om zinvolle gegevensuitwisseling tussen Wikidata en WikiWoordenboek mogelijk te maken, zoals omgaan met spellingvarianten; bijwoordelijk gebruikte bijvoeglijke naamwoorden)
- 3.4 Uitwerken tijdschema
- 3.5 Gereedmaken bestanden
Uitvoeringsfase
bewerken- 4.1 Testimport
- 4.2 Grootschalig invoeren bestanden
- 4.3 Ontwikkelen toepassingen op WikiWoordenboek
Deelnemers
bewerkenBewerkers die mee willen helpen zijn uiteraard welkom. Je kunt je naam onder aan deze lijst toevoegen. Het is handig als je op de overlegpagina laat weten wat je kan of wil gaan doen.
Initieel team[2] | Geïnteresseerden | Anderen |
---|---|---|
|