Hatebase catalogiseert 's werelds haatdragende taal in realtime, zodat u dat niet hoeft te doen – TechCrunch


Hate speech controleren is iets waar bijna elk online communicatieplatform mee worstelt. Omdat om het te bewaken, je het moet detecteren; en om het te detecteren, moet je het begrijpen. Hatebase is een bedrijf dat begrip haatzaaien tot zijn primaire missie heeft gemaakt, en het biedt dat begrip als een dienst – een steeds waardevollere.

Hatebase analyseert in wezen het taalgebruik op het web, structureert en contextualiseert de resulterende gegevens en verkoopt (of levert) de resulterende database aan bedrijven en onderzoekers die niet de expertise hebben om dit zelf te doen.

Het Canadese bedrijf, een kleine maar groeiende onderneming, kwam voort uit onderzoek bij het Sentinel-project naar het voorspellen en voorkomen van wreedheden op basis van analyse van de taal die wordt gebruikt in een door conflicten geteisterde regio.

"Wat Sentinel ontdekte, was dat haatzaaien vaak escalatie van deze conflicten voorafgaat," verklaarde Timothy Quinn, oprichter en CEO van Hatebase. “Ik werkte met hen samen om Hatebase te bouwen als een pilootproject – eigenlijk een lexicon van meertalige haatdragende taal. Wat ons verbaasde was dat veel andere NGO's [non-governmental organizations] begonnen onze gegevens voor hetzelfde doel te gebruiken. Toen begonnen we veel commerciële entiteiten te krijgen met behulp van onze gegevens. Dus vorig jaar hebben we besloten om het als startup uit te draaien. ”

Je denkt misschien, "wat is er zo moeilijk aan het ontdekken van een handvol etnische smet en hatelijke uitdrukkingen?" En zeker, iedereen kan je vertellen (misschien met tegenzin) de meest voorkomende smet en aanstootgevende dingen om te zeggen – in hun taal … die ze kennen. Er is veel meer om een ​​hekel aan spraak te hebben dan alleen een paar lelijke woorden. Het is een heel genre jargon en het jargon van een enkele taal zou een woordenboek vullen. Hoe zit het met het jargon van alle talen?

Een verschuivend lexicon

Zoals Victor Hugo in Les Miserables heeft opgemerkt, is jargon (of "argot" in het Frans) het meest veranderlijke deel van elke taal. Deze woorden kunnen "eenzame, barbaarse, soms afschuwelijke woorden zijn … Argot is het idioom van corruptie en is gemakkelijk corrupt. Bovendien transformeert het zichzelf, omdat het altijd vermomming zoekt zodra het merkt dat het wordt begrepen. '

Niet alleen is jargon en haatspraak omvangrijk, maar het is altijd in beweging. Dus de taak om het te catalogiseren is een continue.

Hatebase maakt gebruik van een combinatie van menselijke en geautomatiseerde processen om het openbare web te zoeken naar gebruik van haatgerelateerde termen. “We gaan naar een aantal bronnen – de grootste, zoals je je misschien kunt voorstellen, is Twitter – en we halen het er allemaal in en dragen het over aan Hatebrain. Het is een programma in natuurlijke taal dat de post doorloopt en waar, onwaar of onbekend retourneert. "

True betekent dat het vrij zeker is dat het haatdragende taal is – zoals je je kunt voorstellen, er zijn genoeg voorbeelden hiervan. False betekent natuurlijk niet. En onbekend betekent dat het niet zeker kan zijn; misschien is het sarcasme, of academisch geklets over een zin, of iemand die een woord gebruikt dat tot de groep behoort en probeert het terug te vorderen of anderen te berispen die het gebruiken. Dat zijn de waarden die via de API uitgaan en gebruikers kunnen ervoor kiezen om meer informatie of context op te zoeken in de grotere database, inclusief locatie, frequentie, niveau van aanstootgevend gedrag, enzovoort. Met dat soort gegevens kunt u wereldwijde trends begrijpen, activiteiten correleren met andere gebeurtenissen, of gewoon op de hoogte blijven van de snel veranderende wereld van etnische smetten.

Haatdragende taal wordt wereldwijd gemarkeerd – dit waren vandaag een handjevol gedetecteerd, samen met de lengte- en breedtegraad van het IP-adres waar ze vandaan kwamen.

Quinn beweert echter niet dat het proces magisch of perfect is. "Er komen maar weinig 100 procent uit Hatebrain," legde hij uit. “Het verschilt een beetje van de machine learning-benadering die anderen gebruiken. ML is geweldig als je een ondubbelzinnige trainingsset hebt, maar met menselijke spraak en haatspraak, die zo genuanceerd kan zijn, dat is wanneer je vooringenomenheid krijgt. We hebben gewoon geen massale groep van haatspraak, omdat niemand kunnen het eens worden over wat haatzaaien is. "

Dat is een deel van het probleem waarmee bedrijven als Google, Twitter en Facebook worden geconfronteerd – u kunt niet automatiseren wat niet automatisch kan worden begrepen.

Gelukkig maakt Hatebrain ook gebruik van menselijke intelligentie, in de vorm van een korps van vrijwilligers en partners die de meer dubbelzinnige gegevenspunten authenticeren, beoordelen en verzamelen.

“We hebben een aantal ngo's die met ons samenwerken in taalkundig diverse regio's over de hele wereld, en we hebben zojuist ons programma 'burgerlinguïsten' gelanceerd, dat een vrijwillige tak van ons bedrijf is, en ze zijn voortdurend bezig met bijwerken en goedkeuren en opruimen definities, 'zei Quinn. "We plaatsen een hoge mate van authenticiteit op de gegevens die ze ons verstrekken."

Dat lokale perspectief kan cruciaal zijn om de context van een woord te begrijpen. Hij gaf het voorbeeld van een woord in Nigeria, dat wanneer het wordt gebruikt tussen leden van de ene groep vriend betekent, maar wanneer het door die groep wordt gebruikt om naar iemand anders te verwijzen, betekent dit ongeschoold. Het is onwaarschijnlijk dat iemand anders dan een Nigeriaan je dat kan vertellen. Momenteel bestrijkt Hatebase 95 talen in 200 landen en daar voegen ze voortdurend aan toe.

Verder zijn er 'versterkers', woorden of uitdrukkingen die op zichzelf niet aanstootgevend zijn, maar die aangeven of iemand de nadruk legt op de smet of zin. Er spelen ook andere factoren een rol, waarvan sommige een engine voor natuurlijke taal misschien niet kunnen herkennen omdat er zo weinig gegevens over zijn. Dus naast het up-to-date houden van definities, werkt het team ook constant aan het verbeteren van de parameters die worden gebruikt om de ontmoetingen tussen Hatebrain en spraak te categoriseren.

Een betere database bouwen voor wetenschap en winst

Het systeem heeft zojuist zijn miljoenste haatdragende spraak waargenomen (uit misschien tientallen keren dat veel zinnen zijn geëvalueerd), wat tegelijkertijd als veel en een beetje klinkt. Het is een beetje omdat het spraakvolume op internet zo groot is dat je zelfs verwacht dat zelfs het kleine deel dat haatspraak vormt, miljoenen en miljoenen zal vormen.

Maar het is veel omdat niemand anders een database van deze omvang en kwaliteit heeft samengesteld. Een doorgelichte verzameling van miljoenen gegevenspunten en zinnen die zijn geclassificeerd als haatdragende taal of niet als haatdragende taal, is op zichzelf al een waardevolle handelswaar. Daarom biedt Hatebase het gratis aan onderzoekers en instellingen die het gebruiken voor humanitaire of wetenschappelijke doeleinden.

Maar bedrijven en grotere organisaties die haatdetectiedetectie willen uitbesteden voor moderatiedoeleinden, betalen licentiekosten, waardoor het licht blijft branden en de free tier kan bestaan.

"We hebben, denk ik, vier van de tien grootste sociale netwerken ter wereld die onze gegevens verzamelen. We hebben de VN gegevens laten ophalen, ngo's, de hyperlokale die in conflictgebieden werken. We hebben de afgelopen paar jaar gegevens verzameld voor de LAPD. En we praten steeds meer met overheidsdiensten, 'zei Quinn.

Ze hebben een aantal commerciële klanten, waarvan er vele onder NDA vallen, merkte Quinn op, maar de meest recente die lid werd deed dit publiekelijk, en dat is TikTok. Zoals u zich kunt voorstellen, heeft zo'n populair platform grote behoefte aan snelle, nauwkeurige moderatie.

Het is in feite een crisis, omdat er wetten in werking treden die bedrijven enorme bedragen straffen als ze niet onmiddellijk aanstootgevende inhoud verwijderen. Dat soort bedreiging maakt de portemonnee echt los; Als een boete in de tientallen miljoenen dollars zou kunnen liggen, is het betalen van een aanzienlijk deel daarvan voor een dienst als die van Hatebase een goede investering.

"Deze grote online ecosystemen moeten dit soort dingen van hun platformen krijgen en ze moeten een bepaald percentage van hun contentmoderatie automatiseren," zei Quinn. "We denken nooit dat we menselijke moderatie kunnen kwijtraken, dat is een belachelijk en onbereikbaar doel; Wat we willen doen, is helpen met automatisering die al aanwezig is. Het wordt steeds onrealistischer dat elke online community onder de zon zijn eigen enorme database met meertalige haatdragende taal gaat opbouwen, hun eigen AI. Op dezelfde manier waarop bedrijven geen eigen mailserver meer hebben, gebruiken ze Gmail, of hebben ze geen serverruimtes, gebruiken ze AWS – dat is ons model, we noemen onszelf haatdragende taal als een service. Ongeveer de helft van ons houdt van die term, de helft niet, maar dat is echt ons model. "

De commerciële klanten van Hatebase hebben het bedrijf vanaf de eerste dag winstgevend gemaakt, maar ze zijn "op geen enkele manier contant".

"We waren non-profit tot we uit de boot kwamen en we lopen daar niet voor weg, maar we wilden zelffinanciering zijn", zei Quinn. Vertrouwen op de vriendelijkheid van rijke vreemden is immers geen manier om zaken te blijven doen. Het bedrijf werft en investeert in zijn infrastructuur, maar Quinn gaf aan dat ze niet op zoek zijn naar sapgroei of wat dan ook – zorg er gewoon voor dat de taken die daarvoor nodig zijn iemand hebben om ze te doen.

Ondertussen lijkt het Quinn en alle anderen duidelijk dat dit soort informatie echte waarde heeft, hoewel het zelden eenvoudig is.

"Het is echt een heel ingewikkeld probleem. We worstelen er altijd mee, weet je, in termen van, nou ja, welke rol speelt haatdragende taal? Welke rol speelt verkeerde informatie? Welke rol speelt sociaaleconomie? 'Zei hij. "Er is een geweldig artikel verschenen van de Universiteit van Warwick, ze bestudeerden de correlatie tussen haatzaaien en geweld tegen immigranten in Duitsland, ik wil zeggen, 2015 tot 2017. Ze brengen het in kaart. En zijn piek voor piek, weet je, geldig voor Valley. Het is geweldig. We doen niet veel analyses, we zijn een gegevensaanbieder. "

“Maar nu hebben bijna 300 universiteiten gegevens verzameld, en ze doe dat soort van dat soort analyses. Dus dat is erg geldig voor ons. "

U kunt meer leren over Hatebase, lid worden van de Citizen Linguists of onderzoekspartnerschap, of recente waarnemingen en updates van de database bekijken op de website van het bedrijf.