Op weg naar een functionele labelset voor het online woordenboek Vlaamse Gebarentaal
Caro Brosens, Hannes De Durpel, Inez Beuckeleers, Beatrijs Wille
Inleiding
Hoe weten we wanneer, bij wie en in welke context we een bepaald gebaar moeten/kunnen gebruiken? De meeste verklarende woordenboeken van gesproken talen bevatten verduidelijkende labels die wijzen op de gevoelswaarde en/of het gebruik van specifieke woorden, b.v. archaïsch, neologisme, beledigend, eufemisme, enz. In de meeste woordenboeken van gebarentalen ontbreken deze labels.
Online gebarentaalwoordenboeken zijn de afgelopen tien jaar meer toegankelijk geworden door nieuwe technologische ontwikkelingen. Digitale woordenboeken zijn daarom niet langer beperkt in ruimte/volume en is het technologisch mogelijk geworden om gebarentaalcorpora samen te stellen en analyseren. Dit biedt veel nieuwe mogelijkheden. Om het online woordenboeken Vlaamse Gebarentaal – Nederlands te verbeteren, is het Vlaams GebarentaalCentrum (VGTC) onderzoek aan het doen naar een labelsysteem en een methodologie die past bij VGT en gebarentalen.
Dit project heeft 2 doelen:
1) Het technische aspect: Zowel Signbank als het woordenboek VGT moeten aangepast worden. Labels kunnen al toegevoegd worden in Signbank, maar die worden enkel intern gebruikt. Daarom moet er een tweede labelset toegevoegd worden die op het woordenboek te zien kan zijn. Daarvoor zal het woordenboek eerst aangepast moeten worden.
2) Het onderzoeksaspect: Een labelset die geschikt is voor Vlaamse Gebarentaal (VGT) wordt gecreëerd. Het idee is dat die set moet overdraagbaar zijn op alle gebarentalen en hun woordenboeken. Daarnaast moet er ook een functionele methodologie uitgewerkt worden om te bepalen wanneer (en welke) labels aan een bepaald gebaar moeten worden toegekend. Voor dit laatste baseren we ons zowel op het corpus als op de gemeenschap.
Dit artikel focust vooral op het onderzoeksaspect.
Theoretische achtergrond
Gebruikslabels geven waardevolle informatie weer over “het toepassingsgebied van een bepaalde definitie”. Dit mag niet verward worden met de definitie. Labels beperken de definitie verder zonder er deel van uit te maken.
Tot nu toe is er onder lexicografen en onderzoekers nog geen consensus. Een nuttig onderscheid is wel groepslabels en registerlabels.
Groepslabels geven aan wie of welke groep het lexeem doorgaans gebruikt. Deze categorie wordt verder onderverdeeld in vier subcategorieën: geografische labels (b.v. Brits Engels en Amerikaans Engels), tijdsgebonden labels (b.v. verouderd en neologisme), frequentielabels (b.v. zeldzaam) en domeinlabels (b.v. geneeskunde, onderwijs, …). Sommige online gebarentaalwoordenboeken bevatten al geografische of domeinlabels, nog maar weinig woordenboeken bevatten beide soorten labels, waaronder de woordenboeken Vlaamse Gebarentaal (VGT), Frans-Belgische Gebarentaal (LSFB), en Australische Gebarentaal (Auslan). Aangezien eerder onderzoek in Vlaanderen gericht was op regionale variatie, het identificeren van hiaten en het ontwikkelen en implementeren van de huidige labels in het woordenboek VGT, onderzoeken we nu registerlabels.
Registerlabels geven het register van het lexeem aan. Ze geven aan in welke situatie het lexeem doorgaans wordt gebruikt. Voorbeelden van registerlabels zijn vulgair, (in)formeel, bijbels, en poëtisch/literair. Tot nu toe zijn er zeer weinig online gebarentaalwoordenboeken met registerlabels – b.v. dat van Nieuw-Zeelandse Gebarentaal. Hun vijf labels bestaan uit drie groepslabels (neologisme, archaïsch en zeldzaam), en twee registerlabels (informeel en obsceen).
Elk woordenboek heeft z’n eigen benadering, dat brengt mogelijk valkuilen met zich mee
- Onvolledigheid van de labelset
- Labels worden vaak niet consistent of systematisch toegepast. Interne afspraken binnen het team zijn daarom heel belangrijk. Door de labelset te beperken en door te werken met verschillende onderzoekers die de gegevens controleren, hopen we dit risico te minimaliseren.
- Niet (consequent) definiëren van de betekenis van een label. Het is niet vanzelfsprekend dat gebruikers zomaar weten wat gebruikslabels zijn, wat ze betekenen en hoe gebruikers ze moeten interpreteren. Niet elk woordenboek legt uit wat de reikwijdte van de labels is of hoe ze gebruikt worden in hun woordenboek. Op het woordenboek VGT zal een informatiepagina voorzien worden met een legende voor de betekenissen en de reikwijdte van alle labels, zowel in VGT als in geschreven Nederlands.
Daarnaast zijn er nog enkele aandachtspunten die we het hele project in het oog gehouden hebben
- Labels moeten opvallen en mogen niet afgekort worden. Het is aangeraden om in gebarentaalwoordenboeken zowel een duidelijk, onverkort label als (indien beschikbaar) informatie in de definitie op te nemen.
- Ten tweede overspant connotatie een continuüm. Behalve neutraal (m.a.w. zonder label), moeten alle aspecten van het continuüm opgenomen worden. Als negatieve connotaties opgenomen worden, moeten ook positieve connotaties (zoals humoristisch of liefkozend) opgenomen worden. Ook de labelset van het woordenboek VGT moet het volledige continuüm weerspiegelen.
- Bij het benoemen van een label is een evenwicht tussen beknoptheid, juistheid en duidelijkheid belangrijk.
- Het is enkel de bedoeling om de taal te beschrijven, maar via labels, in het bijzonder registerlabels, zal de onderliggende mening van de lexicograaf toch doorschijnen. Met het label beledigend geeft de lexicograaf impliciet mee dat het beter dat woord niet te gebruiken.
- Er moet nagegaan worden of er een verband bestaat met de omringende gesproken taal. Op vlak van lexicografie liggen gesproken talen ver voor op gebarentalen. Kan de gebruiksinformatie van lexemen in de omringende gesproken taal helpen om een duidelijker beeld te krijgen van hoe bepaalde gebaren worden gebruikt? Verder onderzoek is nodig om dit te kunnen beantwoorden.
- Ten slotte vormt corpusanalyse een moeilijke kwestie. Gesproken taalcorpora bevatten uitgebreide taalgegevens die gebruikt kunnen worden om te bepalen door wie en in welke registers een bepaald woord doorgaans wordt gebruikt. Voor gebarentaalcorpora is (nog) niet zoveel natuurlijke taaldata beschikbaar. Daarnaast kost het annoteren van een volledig gebarentaalcorpus veel tijd. In de afgelopen tien jaar is er veel werk gestoken in het samenstellen van het VGT-corpus. Het bestaat uit 5 TB of 140 uur aan video-data, gebaard door 120 dove L1-gebaarders. Bij het verzamelen van lexicografische gegevens over VGT moet het zoveel mogelijk gebruikt worden.
Methodologie
Er waren twee belangrijke methodologische uitdagingen in dit project:
- Het maken van een labelset die volledig beantwoord aan de modaliteitsspecifieke noden van gebarentalen.
- Het onderzoeken van het natuurlijke gebruik van lexicale gebaren om de juiste label(s) toe te kennen.
Hieronder zullen deze twee componenten verder worden toegelicht
Het samenstellen van een labelset voor gebarentalen
Het samenstellen van een labelset is moeilijk omwille van de volgende redenen:
- De labelset moet vanaf nul worden opgebouwd, er is weinig tot geen literatuur en er zijn weinig of geen voorbeelden van andere woordenboeken met labels
- Sommige labels passen duidelijk niet bij gebarentalen, bijvoorbeeld geschreven of bijbels, bij andere labels is het nog niet duidelijk hoe ze in gebarentalen gebruikt worden, bijvoorbeeld ironie en sarcasme. Dit moet nog verder onderzocht worden.
- Labels uit woordenboeken van gesproken talen moeten aangevuld worden met labels specifiek voor gebarentalen. Dan is er altijd het risico voor hiaten.
Uit vier woordenboeken werden de stijl- en attitudelabels verzameld. De woordenboeken werden geselecteerd omdat: 1) ze de gebruiker een overzicht geven van hun labelset en 2) ze een breed scala aan verschillende soorten woordenboeken vertegenwoordigen. De vier woordenboeken waren:
- Online dictionary of NZSL = online drietalig (NZSL – Engels – Maori) bimodaal vertaalwoordenboek
- Algemeen Nederlands Woordenboek (ANW) = online eentalig woordenboek voor moedertaalsprekers
- Oxford Advanced Learners Dictionary = eentalig gedrukt woordenboek voor L2-leerders
- Van Dale (Nederlands – Engels) = tweetalig gedrukt vertaalwoordenboek
Een overzicht van de labels die voorkomen in de vier vooraf bepaalde woordenboeken kan je zien in het artikel.
De labelsets uit de vier woordenboeken werden opgelijst, deze lijst werd gebruikt als ruwe eerste versie. De set werd daarna als volgt aangepast: labels die hetzelfde concept aanduiden maar met een verschillende gradatie, zoals informeel en straattaal, werden gecombineerd. Labels die hetzelfde betekenen maar in verschillende woordenboeken anders benoemd worden, krijgen één label. Andere labels, zoals geschreven, werden niet meegenomen omdat ze irrelevant zijn. Labels zoals ironie en sarcasme worden in een latere fase toegevoegd omdat deze gebruiken nog niet goed onderzocht zijn in gebarentalen. De verdeling van deze labels in fasen is gebaseerd op twee criteria: 1) bruikbaarheid en relevantie van de gebruikslabels voor de lokale dovengemeenschap en 2) haalbaarheid.
De bestaande labels moeten aangevuld worden met labels die van toepassing zijn op gebarentalen en/of minderheidstalen. Een suggestie zou expliciet kunnen zijn om te tonen dat een gebaar (mogelijk) beledigend is door de visuele aard of motivatie ervan, bijvoorbeeld JOODS of ZOLDER. De meeste gebaren-specifieke labels die geïdentificeerd werden, hebben vaak te maken met grammatica en woordsoorten en werden niet opgenomen in deze labelset.
Tabel 2: Onze primaire labelset
Fase 1 | Fase 2 | Fase 3 |
beledigend goedkeurend afkeurend neologisme ouderwets expliciet | formeel informeel obsceen eufemistisch frequent zeldzaam | ironisch sarcastisch liefkozend humoristisch figuurlijk letterlijk beïnvloed door gesproken taal beïnvloed door gebarentaal |
Het natuurlijke gebruik van lexicale gebaren vaststellen
Het is niet makkelijk om de bepalen welke gebaren toegewezen moeten worden aan welke labels. Vaak wordt er gesteund op de intuïtie van gebaarders waardoor het moeilijk is om te bepalen of de resultaten betrouwbaar zijn. Om een zo duidelijk mogelijk beeld te krijgen van het gebruik van een gebaar, is de volgende fase opgedeeld in vier stappen:
- inventarisatie: het team gaat na welke gebaren een label nodig hebben, de thematische categorieën zullen hierbij als vertrekpunt worden gebruikt
- verificatie: formeel controleren van de vermoedens in stap 1 door corpusanalyse of de expertengroep. Door beide te combineren hopen we het gebruik van gebaren sneller te kunnen achterhalen
- publicatie: verzamelde informatie wordt een laatste maal door het team gecontroleerd, de labels worden toegevoegd in de databank. Gebaren met goedgekeurde labels zullen openbaar worden gemaakt in het online woordenboek. Gevallen waarover geen consensus is bereikt, worden, in afwachting van verder onderzoek, voor intern gebruik in de databank opgeslagen
- opvolging: taal verandert en evolueert; dit betekent dat toegekende labels moeten worden opgevolgd.
Conclusie
Deze verkennende studie heeft bijgedragen tot een ruimer begrip van labelsets en hun gebruik, en heeft de discussie over taal- en modaliteitsspecifieke labels opnieuw aangewakkerd. Geïnspireerd door de labelsets van vier vooraf bepaalde woordenboeken, is een eerste labelset samengesteld voor het online woordenboek VGT. Om technische en andere methodologische beperkingen met betrekking tot de toekenning van de labels op te vangen, werd een combinatie van twee methoden voorgesteld, namelijk corpusanalyse en community sourcing. Door deze methodologische keuze kunnen we nu verder gaan naar de volgende stap, namelijk het inventariseren van gebaren en het integreren van de labels in het online woordenboek VGT.