Op weg naar een functionele labelset voor het online woordenboek  Vlaamse Gebarentaal

Caro Brosens, Hannes De Durpel, Inez Beuckeleers, Beatrijs Wille

Inleiding

Hoe weten we wanneer, bij wie en in welke context we een bepaald gebaar moeten/kunnen gebruiken? De meeste verklarende woordenboeken van gesproken talen bevatten verduidelijkende labels die wijzen op de gevoelswaarde en/of het gebruik van specifieke woorden, b.v. archaïsch, neologisme, beledigend, eufemisme, enz. In de meeste woordenboeken van gebarentalen ontbreken deze labels.

Online gebarentaalwoordenboeken zijn de afgelopen tien jaar meer toegankelijk geworden door nieuwe  technologische ontwikkelingen. Digitale woordenboeken zijn daarom niet langer beperkt in ruimte/volume en is het  technologisch mogelijk geworden om gebarentaalcorpora samen te stellen en analyseren. Dit biedt veel nieuwe mogelijkheden. Om het online woordenboeken Vlaamse Gebarentaal – Nederlands te verbeteren, is het Vlaams GebarentaalCentrum (VGTC) onderzoek aan het doen naar een labelsysteem en een methodologie die past bij VGT en gebarentalen.  

Dit project heeft 2 doelen: 

1) Het technische aspect: Zowel Signbank als het woordenboek VGT moeten aangepast worden. Labels kunnen  al toegevoegd worden in Signbank, maar die worden enkel intern gebruikt. Daarom moet er een tweede  labelset toegevoegd worden die op het woordenboek te zien kan zijn. Daarvoor zal het woordenboek eerst  aangepast moeten worden. 

2) Het onderzoeksaspect: Een labelset die geschikt is voor Vlaamse Gebarentaal (VGT) wordt gecreëerd. Het  idee is dat die set moet overdraagbaar zijn op alle gebarentalen en hun woordenboeken. Daarnaast moet er  ook een functionele methodologie uitgewerkt worden om te bepalen wanneer (en welke) labels aan een  bepaald gebaar moeten worden toegekend. Voor dit laatste baseren we ons zowel op het corpus als op de gemeenschap. 

Dit artikel focust vooral op het onderzoeksaspect. 

Theoretische achtergrond

Gebruikslabels geven waardevolle informatie weer over “het toepassingsgebied van een bepaalde  definitie”. Dit mag niet verward worden met de definitie. Labels  beperken de definitie verder zonder er deel van uit te maken. 

Tot nu toe is er onder lexicografen en onderzoekers nog geen consensus. Een nuttig onderscheid is wel groepslabels en registerlabels.

Groepslabels geven aan wie of welke groep het  lexeem doorgaans gebruikt. Deze categorie wordt verder onderverdeeld in vier subcategorieën: geografische labels (b.v. Brits Engels en Amerikaans Engels), tijdsgebonden labels (b.v. verouderd en neologisme), frequentielabels (b.v.  zeldzaam) en domeinlabels (b.v. geneeskunde, onderwijs, …). Sommige online gebarentaalwoordenboeken bevatten  al geografische of domeinlabels, nog maar weinig woordenboeken bevatten beide soorten labels, waaronder de  woordenboeken Vlaamse Gebarentaal (VGT), Frans-Belgische Gebarentaal (LSFB), en Australische Gebarentaal  (Auslan). Aangezien eerder onderzoek in Vlaanderen gericht was op regionale variatie, het  identificeren van hiaten en het ontwikkelen en implementeren van de huidige labels in het woordenboek VGT,  onderzoeken we nu registerlabels.

Registerlabels geven het register van het lexeem  aan. Ze geven aan in welke situatie het lexeem doorgaans wordt gebruikt. Voorbeelden van registerlabels zijn  vulgair, (in)formeel, bijbels, en poëtisch/literair. Tot nu toe zijn er zeer weinig online gebarentaalwoordenboeken  met registerlabels – b.v. dat van Nieuw-Zeelandse Gebarentaal. Hun vijf labels bestaan uit drie groepslabels  (neologisme, archaïsch en zeldzaam), en twee registerlabels (informeel en obsceen).

Elk woordenboek heeft z’n eigen benadering, dat brengt mogelijk valkuilen met zich mee

  • Onvolledigheid van de labelset
  • Labels worden vaak niet consistent of systematisch toegepast. Interne afspraken binnen het team zijn  daarom heel belangrijk. Door de labelset te beperken en door te werken met verschillende onderzoekers die de  gegevens controleren, hopen we dit risico te minimaliseren.
  • Niet (consequent) definiëren van de betekenis van een label. Het is niet vanzelfsprekend dat gebruikers zomaar weten wat gebruikslabels zijn, wat ze betekenen  en hoe gebruikers ze moeten interpreteren. Niet elk woordenboek legt uit wat de reikwijdte van de labels is of hoe  ze gebruikt worden in hun woordenboek. Op het woordenboek VGT zal  een informatiepagina voorzien worden met een legende voor de betekenissen en de reikwijdte van alle labels, zowel  in VGT als in geschreven Nederlands. 

Daarnaast zijn er nog enkele aandachtspunten die we het hele project in het oog gehouden hebben

  • Labels moeten opvallen en mogen niet afgekort worden. Het is aangeraden om in gebarentaalwoordenboeken zowel een  duidelijk, onverkort label als (indien beschikbaar) informatie in de definitie op te nemen.
  •  Ten tweede overspant connotatie een continuüm. Behalve neutraal (m.a.w. zonder label), moeten alle aspecten van  het continuüm opgenomen worden. Als negatieve connotaties opgenomen worden, moeten ook positieve  connotaties (zoals humoristisch of liefkozend) opgenomen worden. Ook de labelset van het woordenboek VGT moet het  volledige continuüm weerspiegelen. 
  • Bij het benoemen van een label is een evenwicht tussen beknoptheid, juistheid en duidelijkheid belangrijk.
  • Het is enkel de bedoeling om de taal te beschrijven, maar via labels, in het bijzonder registerlabels, zal de  onderliggende mening van de lexicograaf toch doorschijnen. Met het label beledigend geeft de lexicograaf impliciet  mee dat het beter dat woord niet te gebruiken. 
  • Er moet nagegaan worden of er een verband bestaat met de omringende gesproken taal. Op vlak van lexicografie  liggen gesproken talen ver voor op gebarentalen. Kan de gebruiksinformatie van lexemen in de omringende  gesproken taal helpen om een duidelijker beeld te krijgen van hoe bepaalde gebaren worden gebruikt? Verder onderzoek is nodig om dit te kunnen  beantwoorden. 
  • Ten slotte vormt corpusanalyse een moeilijke kwestie. Gesproken taalcorpora bevatten uitgebreide taalgegevens die  gebruikt kunnen worden om te bepalen door wie en in welke registers een bepaald woord doorgaans wordt  gebruikt. Voor gebarentaalcorpora is (nog) niet zoveel natuurlijke taaldata beschikbaar. Daarnaast kost het  annoteren van een volledig gebarentaalcorpus veel tijd. In de afgelopen tien jaar is er veel werk gestoken in het samenstellen van het VGT-corpus. Het bestaat uit 5 TB of  140 uur aan video-data, gebaard door 120 dove L1-gebaarders. Bij het verzamelen van lexicografische gegevens over VGT moet het zoveel  mogelijk gebruikt worden. 

Methodologie

Er waren twee belangrijke methodologische uitdagingen in dit project: 

  1. Het maken van een labelset die volledig beantwoord aan de modaliteitsspecifieke noden van gebarentalen.
  2. Het onderzoeken van het natuurlijke gebruik van lexicale gebaren om de juiste label(s) toe te kennen. 

Hieronder zullen deze twee componenten verder worden toegelicht

Het samenstellen van een labelset voor gebarentalen

Het samenstellen van een labelset is moeilijk omwille van de volgende redenen:

  1. De labelset moet vanaf nul worden opgebouwd, er is weinig tot geen literatuur en er zijn weinig of geen voorbeelden van andere woordenboeken met labels
  2. Sommige labels passen duidelijk niet bij gebarentalen, bijvoorbeeld geschreven of bijbels, bij andere labels is het nog niet duidelijk hoe ze in gebarentalen gebruikt worden, bijvoorbeeld ironie en sarcasme. Dit moet nog verder onderzocht worden.
  3. Labels uit woordenboeken van gesproken talen moeten aangevuld worden met labels specifiek voor gebarentalen. Dan is er altijd het risico voor hiaten.

Uit vier woordenboeken werden de stijl- en attitudelabels verzameld. De woordenboeken werden geselecteerd  omdat: 1) ze de gebruiker een overzicht geven van hun labelset en 2) ze een breed scala aan verschillende soorten  woordenboeken vertegenwoordigen. De vier woordenboeken waren: 

  • Online dictionary of NZSL = online drietalig (NZSL – Engels – Maori) bimodaal vertaalwoordenboek 
  • Algemeen Nederlands Woordenboek (ANW) = online eentalig woordenboek voor moedertaalsprekers 
  • Oxford Advanced Learners Dictionary = eentalig gedrukt woordenboek voor L2-leerders 
  • Van Dale (Nederlands – Engels) = tweetalig gedrukt vertaalwoordenboek 

Een overzicht van de labels die voorkomen in de vier vooraf bepaalde woordenboeken kan je zien in het artikel.

De labelsets uit de vier woordenboeken werden opgelijst, deze lijst werd gebruikt als ruwe eerste versie. De set werd daarna als volgt aangepast: labels die hetzelfde concept aanduiden maar met een verschillende gradatie, zoals informeel en straattaal, werden gecombineerd. Labels die hetzelfde betekenen maar  in verschillende woordenboeken anders benoemd worden, krijgen één label. Andere labels, zoals geschreven,  werden niet meegenomen omdat ze irrelevant zijn. Labels zoals ironie en sarcasme worden in een latere fase toegevoegd omdat deze gebruiken nog niet goed  onderzocht zijn in gebarentalen. De verdeling van deze labels in fasen is gebaseerd op twee criteria: 1) bruikbaarheid  en relevantie van de gebruikslabels voor de lokale dovengemeenschap en 2) haalbaarheid. 

De bestaande labels moeten aangevuld worden met labels die van toepassing zijn op  gebarentalen en/of minderheidstalen. Een suggestie zou expliciet kunnen zijn om te tonen dat een gebaar (mogelijk)  beledigend is door de visuele aard of motivatie ervan, bijvoorbeeld JOODS of ZOLDER. De meeste gebaren-specifieke labels die geïdentificeerd werden, hebben vaak te maken met grammatica en woordsoorten en werden niet opgenomen in  deze labelset. 

Tabel 2: Onze primaire labelset 

Fase 1 Fase 2 Fase 3
beledigend 

goedkeurend 

afkeurend 

neologisme 

ouderwets 

expliciet

formeel 

informeel 

obsceen 

eufemistisch 

frequent 

zeldzaam

ironisch 

sarcastisch 

liefkozend 

humoristisch 

figuurlijk 

letterlijk 

beïnvloed door gesproken taal beïnvloed door gebarentaal

Het natuurlijke gebruik van lexicale gebaren vaststellen

Het is niet makkelijk om de bepalen welke gebaren toegewezen moeten worden aan welke labels. Vaak wordt er gesteund op de intuïtie van gebaarders waardoor het moeilijk is om te bepalen of de resultaten betrouwbaar zijn. Om een zo duidelijk mogelijk beeld te krijgen van het gebruik van een gebaar, is de volgende fase opgedeeld in vier stappen: 

  • inventarisatie: het team gaat na welke gebaren een label nodig hebben, de thematische categorieën zullen hierbij als vertrekpunt worden gebruikt
  • verificatie: formeel controleren van de vermoedens in stap 1 door corpusanalyse of de expertengroep. Door beide te combineren hopen we het gebruik van gebaren sneller te kunnen achterhalen
  • publicatie: verzamelde informatie wordt een laatste maal door het team gecontroleerd, de labels worden toegevoegd in de databank. Gebaren met goedgekeurde labels zullen openbaar worden gemaakt in het  online woordenboek. Gevallen waarover geen consensus is bereikt, worden, in afwachting van verder onderzoek,  voor intern gebruik in de databank opgeslagen
  • opvolging: taal verandert en evolueert; dit betekent dat toegekende labels moeten worden opgevolgd. 

Conclusie

Deze verkennende studie heeft bijgedragen tot een ruimer begrip van labelsets en hun gebruik, en heeft de discussie over taal- en modaliteitsspecifieke labels opnieuw aangewakkerd. Geïnspireerd door de labelsets van vier vooraf bepaalde woordenboeken, is een eerste labelset samengesteld voor het online woordenboek VGT. Om technische en andere methodologische beperkingen met betrekking tot de toekenning van de labels op te vangen, werd een combinatie van twee methoden voorgesteld, namelijk corpusanalyse en community sourcing. Door deze methodologische keuze kunnen we nu verder gaan naar de volgende stap, namelijk het inventariseren van gebaren en het integreren van de labels in het online woordenboek VGT.