Arbeidsmarktdiscriminatie & algoritmes (3/8): op zoek naar de ideale werknemer

Ontwerpers van algoritmes voor recruitmentsoftware staan voor een lastige uitdaging. Ze moeten bij de zoektocht naar kandidaten regels formuleren die gemeten kunnen worden door het algoritme: zoals diploma’s, verkoopcijfers, enzovoorts. Maar het probleem met variabelen is dat ze nooit een volledig beeld van een kandidaat geven. Iemand kan bijvoorbeeld geen diploma hebben, maar wel degelijk vaardigheden hebben verkregen door zelfstudie of ervaring. Daarnaast ontstaan het risico dat digitaal kwaliteiten die lastig te vangen zijn in variabelen – zoals collegialiteit – minder belangrijk worden. In dit derde artikel in deze serie gaan we dieper in op bias in recruitmentsoftware waarbij zowel bias in het algoritme als bias in de data aan de orde komt.

Discriminatie op de arbeidsmarkt en algoritmes

In een achttal artikelen brengen we een belangrijk onderwerp in kaart, discriminatie op de arbeidsmarkt en de rol van algoritmes bij het wervingsproces. In dit derde artikel gaan we dieper in op vooringenomenheid, bias, in recruitmentsoftware. Waarbij onder meer bias in het algoritme en bias in de data aan de orde komen.

Jawel, witte mannen

Bij algoritmes in recruitmenttechnologieën bestaat het gevaar dat deze bestaande ongelijkheden reproduceren. Ze zijn namelijk zozeer ingebed in en verweven met allerlei aspecten van onze cultuur en komen door zoveel verschillende vormen van menselijk handelen tot stand, dat je ze niet als geïsoleerde stukken computercode kunt zien. En aangezien de meeste algoritme-ontwerpers nog altijd witte mannen zijn, kunnen ze de onbewuste vooroordelen die in deze ‘groep’ leven reproduceren. Ook kunnen zij ongelijke behandeling versterken, omdat technologie opgeschaald kan worden. Daarnaast kan recruitmenttechnologie door klikgedrag ook nieuwe redenen voor uitsluiting introduceren.

Misleiding met ‘Oxford’

In de vorige artikelen in deze serie (2/8 en 1/8) hadden we het al over zogeheten rule based algoritmes, met een als-dan structuur. Het voordeel van het gebruik van deze algoritmes is dat goed kan worden gecontroleerd of ze wellicht vooringenomen zijn en vervolgens aangepast kunnen worden. Maar juist dergelijke algoritmes zijn door kandidaten vrij makkelijk te misleiden. Zo kan een sollicitant met minder goede bedoelingen bijvoorbeeld een trefwoord als ‘Oxford’ met een witte tekstkleur in de kop- of voettekst verwerken van een CV. Hoewel het trefwoord dan voor het menselijk oog niet zichtbaar is, zal een simpel als-dan-algoritme alle woorden in het document scannen, inclusief de kop- en voetteksten en dus ook het woord ‘Oxford’ detecteren. Het algoritme kan hierdoor de sollicitant hoger waarderen, ook al heeft hij of zij niet aan Oxford gestudeerd.

Statistisch verband niet altijd oorzakelijk

Aan de andere kant, als er met zelflerende niet makkelijk ‘fopbare’ algoritmes wordt gewerkt, ontstaan er wel andere gevaren. Bijvoorbeeld dat een statistisch verband niet altijd een oorzakelijk verband is. Door de komst van zelflerende algoritmes worden namelijk nogal eens (wonderlijke) verbanden – correlaties – in data ontdekt tussen schijnbaar onbelangrijke kenmerken en de kwaliteiten van een goede werknemer. Zo bleek uit een onderzoek een statistisch verband tussen het liken van krulfriet op Facebook en hogere intelligentie.

Een ander voorbeeld, het Amerikaanse bedrijf Gild gebruikt algoritmes om op het internet onder meer sociale media te analyseren om zo goede programmeurs op te sporen. Volgens de chief scientist van het bedrijf is een interesse voor een specifieke Japanse animatie (manga) website een sterke voorspeller voor een goede programmeur, terwijl er geen duidelijke reden is waarom liefhebbers van Japanse animatie betere programmeurs zouden zijn.

Twee gegevens die statistisch verbonden zijn, hoeven dus niet in oorzakelijk verband te staan met elkaar. ‘Op dagen dat er veel zomerse kleding wordt gedragen, wordt er veel ijs verkocht’, zou een algoritme op basis van data kunnen concluderen. Algoritmes kunnen dus wonderlijke relaties leggen en daarmee ook ongewenste, discriminerende verbanden produceren.

Over die discriminerende verbanden, grofweg twee vormen van bias

  • Vooroordelen in het algoritme zelf en (onbewuste) vooroordelen van de algoritme-ontwerpers.
  • Bias in de data waarmee het algoritme getraind wordt (bias in de data kan uiteindelijk ook weer tot bias in het algoritme leiden).

Vooroordelen in het algoritme zelf

Een mooi, duidelijk voorbeeld van een onbewust vooroordeel van algoritmeontwerpers dat als variabele in een algoritme sloop, zien we bij de vrouw in het Verenigd Koninkrijk die niet met haar pasje in de vrouwenkleedkamer bij de sportschool kon. Ze gebruikte namelijk de universitaire titel ‘Dr.’ (Doctor) Het systeem, algoritme, herkende dit als een exclusieve indicator voor het mannelijk geslacht.

Zo enorm duidelijk is het echter meestal niet. Vooroordelen van recruitmentbouwers kunnen ook op een veel subtielere manier een algoritme ‘binnensluipen’.

Vooroordelen in de gebruikte data

Het gebruik van een algoritme kan ook tot discriminerende resultaten leiden als het algoritme is getraind op basis van biased data. Grofweg gebeurt dit in twee gevallen, namelijk als de data bestaande of oude discriminerende vooroordelen bevatten die worden gereproduceerd door het algoritme of omdat de verzamelde data niet representatief zijn voor de doelgroep.

Vooroordelen reproduceren

Een algoritme dat was getraind op biased data deed zich voor bij een selectiealgoritme van het bedrijf Amazon in de Verenigde Staten. Gebaseerd op de werknemers bij Amazon van de afgelopen tien jaar, leerde het algoritme dat mannen de voorkeur hadden bij technische functies. CV’s met een referentie naar het woord ‘vrouw’, zoals ‘voorzitter vrouwenschaakclub’, belandden daarom onderop de stapel.

Niet-representatieve data

Het tweede geval, niet-representatieve data, doet zich voor als data worden verzameld op een wijze waardoor bepaalde groepen worden uitgesloten of oververtegenwoordigd zijn. Om natuurrampen te bestrijden wordt bijvoorbeeld gebruik gemaakt van Twitterdata voor crisisinterventies. Het probleem hiervan is echter dat vooral oudere mensen geen internet of smartphones hebben waardoor interventies hert oudere deel van de bevolking slechter bereiken. Hetzelfde kan gebeuren bij recruitmenttechnologie waarbij gebruik wordt gemaakt van data op sociale media. Veel jonge mensen zitten op sociale media, terwijl ouderen en mensen met een beperking hierop vaak minder actief zijn. Over hen zijn dus minder data aanwezig. Dit heeft weer invloed op het ‘trainen’ van het algoritme, waardoor ouderen of mensen met beperking vanwege gebrekkige data anders door het algoritme beoordeeld kunnen worden.

Klikgedrag traint bias in het algoritme

Als een algoritme al in gebruik is, kan een algoritme vanwege zoek- en klikgedrag van gebruikers ook bias gaan vertonen. Algoritmes kunnen namelijk bijleren op basis van deze nieuwe informatie. Werkgevers klikten op internationaal opererende vacaturewebsites Indeed, Monster en CareerBuilder vaker op CV’s van mannen, waardoor de algoritmes van die websites op den duur leerden dat curricula vitae van mannen relevanter waren dan die van vrouwen. Vervolgens werden daardoor de curricula vitae van mannen vaker naar voren geschoven.

De vooroordelen die bepaalde groepen over zichzelf hebben kan ook bias in de data veroorzaken. Als vrouwen bijvoorbeeld minder snel klikken op managementposities, omdat ze denken dat ze als vrouw minder kans maken, dan kan het algoritme niet alleen deze vrouwen naar verloop van tijd minder van dit type vacatures tonen, maar ook andere vrouwen, die wel degelijk kans denken te maken. Maar het kan ook dat vrouwen simpelweg de advertenties voor hogere managementposities minder te zien krijgen, zoals bleek uit een onderzoek in 2015 van Google. Als vooral mannen die advertenties voor goedbetaalde banen zien en erop klikken, zal het algoritme leren om die advertenties alleen aan mannen te laten zien.

In het volgende artikel gaan we nog dieper in op hoe algoritmes bepaalde vooroordelen in de maatschappij kunnen verdiepen.

Blijf op de hoogte met de e-mail update

Ontvang iedere dinsdag de e-mail update met het laatste nieuws op gebied van recruitmenttechnologie. En maak kans op online en offline vrijkaarten voor de 1e editie van het hybride event Recruitment Tech Case_Day op donderdag 3 november 2022 live vanuit Pathé Utrecht Leidscherijn. 


LAAT EEN REACTIE ACHTER