Hatebase répertorie les discours de haine du monde en temps réel pour que vous n’ayez pas à le faire – TechCrunch – Resoudre les problemes d’un serveur MineCraft

Contrôler le discours de haine est une chose à laquelle presque chaque plate-forme de communication en ligne se débat. Parce que pour le contrôler, vous devez le détecter; et pour le détecter, vous devez le comprendre. Hatebase est une entreprise qui a fait de la compréhension du discours de haine sa mission première et qui fournit cette compréhension en tant que service – de plus en plus précieux.

Essentiellement Hatebase analyse l’utilisation des langues sur le Web, structure et contextualise les données résultantes, et vend (ou fournit) la base de données résultante à des entreprises et à des chercheurs qui n’ont pas l’expertise pour le faire eux-mêmes.

La société canadienne, une petite mais en pleine croissance, est issue des recherches du projet Sentinel visant à prédire et à prévenir les atrocités en analysant le langage utilisé dans une région déchirée par le conflit.

«Ce que Sentinel a découvert, c’est que le discours de haine tend à précéder l’escalade de ces conflits», a expliqué Timothy Quinn, fondateur et PDG de Hatebase. «Je me suis associé à eux pour construire Hatebase en tant que projet pilote – essentiellement un lexique de discours de haine multilingues. Ce qui nous a surpris, c’est que beaucoup d’autres ONG [non-governmental organizations] commencé à utiliser nos données dans le même but. Nous avons ensuite commencé à demander à de nombreuses entités commerciales d’utiliser nos données. L'année dernière, nous avons donc décidé de le lancer en tant que startup. ”

Vous pensez peut-être «qu’il est difficile de détecter une poignée d’insultes ethniques et de phrases haineuses?». Bien sûr, tout le monde peut vous dire (peut-être à contrecœur) les insultes et les propos offensants les plus courants – dans leur langue… qu’ils connaissent. Le discours de haine ne se résume pas à quelques mots laids. C’est tout un genre d’argot, et l’argot d’une seule langue remplirait un dictionnaire. Qu'en est-il de l'argot de toutes les langues?

Un lexique changeant

Comme Victor Hugo l'a souligné dans Les Misérables, l'argot (ou «argot» en français) est la partie la plus mutable de toutes les langues. Ces mots peuvent être «solitaires, barbares, parfois hideux»… Argot, étant le langage de la corruption, est facilement corrompu. De plus, comme il cherche toujours le déguisement dès qu'il perçoit qu'il est compris, il se transforme ».

L'argot et le discours de haine sont volumineux, mais ils changent constamment. La tâche de le cataloguer est donc continue.

Hatebase utilise une combinaison de processus humains et automatisés pour interroger le Web public lors de l'utilisation de termes liés à la haine. «Nous consultons de nombreuses sources – la plus importante, comme vous pouvez l’imaginer, est Twitter – et nous intégrons tous ces éléments pour les remettre à Hatebrain. C’est un programme en langage naturel qui passe par la poste et renvoie vrai, faux ou inconnu. "

Vrai signifie qu’il est pratiquement certain que c’est un discours haineux – comme vous pouvez l’imaginer, il existe de nombreux exemples. Faux veut dire non, bien sûr. Et inconnu signifie que ça ne peut pas être sûr; c’est peut-être un sarcasme, ou une conversation académique à propos d’une phrase, ou une personne utilisant un mot qui appartient au groupe et qui tente de la récupérer ou de réprimander ceux qui l’utilisent. Ce sont les valeurs qui sortent via l'API, et les utilisateurs peuvent choisir de rechercher plus d'informations ou de contexte dans la base de données plus grande, y compris l'emplacement, la fréquence, le niveau d'offensivité, etc. Avec ce type de données, vous pouvez comprendre les tendances mondiales, mettre en corrélation l'activité avec d'autres événements ou simplement vous tenir au courant du monde en constante évolution des insultes ethniques.

Le discours de haine a été signalé partout dans le monde – une poignée a été détectée aujourd'hui, ainsi que la latitude et la longitude de la propriété intellectuelle d'où ils proviennent.

Quinn ne prétend pas que le processus est magique ou parfait. "Il y a très peu de 100 pour cent de Hatebrain", a-t-il expliqué. «Cela varie un peu de l'approche d'apprentissage automatique utilisée par d'autres. ML est formidable lorsque vous avez un ensemble d’entraînement sans ambiguïté, mais avec un discours humain et un discours de haine, qui peuvent être si nuancés, c’est là que se produisent des préjugés. Nous n’avons tout simplement pas un corpus énorme de discours peut convenir de ce que le discours de haine est.

Cela fait partie du problème auquel font face des entreprises comme Google, Twitter et Facebook: vous ne pouvez pas automatiser ce qui ne peut pas être compris automatiquement.

Heureusement, Hatebrain utilise également l'intelligence humaine, sous la forme d'un corps de volontaires et de partenaires qui authentifient, évaluent et agrègent les points de données les plus ambigus.

«Nous avons un groupe d’ONG qui travaillent en partenariat avec nous dans des régions linguistiquement diverses du monde entier et nous venons de lancer notre programme de« linguistes citoyens », une branche bénévole de notre société, qui met constamment à jour, approuve et nettoie définitions ", a déclaré Quinn. «Nous accordons une grande authenticité aux données qu’ils nous fournissent.»

Cette perspective locale peut être cruciale pour comprendre le contexte d'un mot. Il a donné l'exemple d'un mot au Nigeria qui, lorsqu'il est utilisé entre les membres d'un groupe, signifie ami, mais lorsqu'il est utilisé par ce groupe pour désigner quelqu'un d'autre, signifie non éduqué. Il est peu probable que quiconque sauf un Nigérian puisse vous le dire. Actuellement, Hatebase couvre 95 langues dans 200 pays et s’y ajoute constamment.

En outre, il existe des «intensificateurs», des mots ou des expressions qui ne sont pas choquants en soi, mais servent à indiquer si quelqu'un insiste sur l'insulte ou la phrase. D'autres facteurs entrent également en jeu, dont certains qu'un moteur en langage naturel pourrait ne pas être en mesure de reconnaître, car il dispose de très peu de données à leur sujet. Ainsi, en plus de maintenir les définitions à jour, l'équipe travaille également de manière constante à l'amélioration des paramètres utilisés pour classer par catégorie les rencontres de Hatebrain par la parole.

Construire une meilleure base de données pour la science et le profit

Le système vient d’absorber sa millionième observation de discours de haine (sur peut-être des dizaines de fois le nombre de phrases évaluées), ce qui semble simultanément et peu à la fois. C’est un peu parce que le volume de discours sur Internet est si vaste que l’on s’attend plutôt à ce que même une infime proportion de ceux qui constituent le discours de haine s’élève à des millions et des millions.

Mais c’est beaucoup parce que personne d’autre n’a constitué une base de données de cette taille et de cette qualité. Un ensemble de mots et d'expressions approuvés, comportant des millions de points de données, classés comme discours de haine ou comme discours de haine est un bien précieux à lui tout seul. C’est pourquoi Hatebase le fournit gratuitement aux chercheurs et aux institutions qui l’utilisent à des fins humanitaires ou scientifiques.

Mais les entreprises et les grandes organisations qui cherchent à sous-traiter la détection de discours de haine à des fins de modération paient un droit de licence, ce qui permet de garder la lumière et d’exister.

«Nous avons, je pense, quatre des dix plus grands réseaux sociaux du monde qui extraient nos données. Les Nations Unies collectent des données, des ONG et des organisations hyper locales travaillant dans des zones de conflit. Nous extrayons des données pour la LAPD depuis deux ans. Et nous parlons de plus en plus aux ministères », a déclaré Quinn.

Ils ont un certain nombre de clients commerciaux, dont beaucoup sont sous NDA, a noté Quinn, mais le plus récent à s’être joint au public l’a été publiquement, c’est TikTok. Comme vous pouvez l’imaginer, une plate-forme populaire de ce type a grandement besoin d’une modération rapide et précise.

En fait, il s’agit d’une crise, dans la mesure où des lois pénalisent énormément les entreprises qui ne suppriment pas le contenu incriminé dans les meilleurs délais. Ce genre de menace détend vraiment les cordons de la bourse; Si une amende peut atteindre des dizaines de millions de dollars, en payer une fraction importante pour un service comme celui de Hatebase est un bon investissement.

«Ces grands écosystèmes en ligne doivent extraire ces informations de leurs plates-formes et automatiser un certain pourcentage de leur contenu modéré», a déclaré Quinn. "Nous ne pensons jamais que nous serons capables de nous débarrasser de la modération humaine, c’est un objectif ridicule et irréalisable; Ce que nous voulons faire, c'est aider à l'automatisation déjà en place. Il est de plus en plus irréaliste que chaque communauté en ligne sous le soleil construise sa propre base de données massive de discours de haine multilingues, sa propre intelligence artificielle. De la même manière que les entreprises n’ont plus leur propre serveur de messagerie, elles utilisent Gmail ou des salles de serveurs, elles utilisent AWS – c’est notre modèle, nous nous appelons le discours de haine en tant que service. Environ la moitié d’entre nous adorons ce terme, mais pas la moitié, mais c’est vraiment notre modèle. "

Les clients commerciaux de Hatebase ont rendu la société rentable dès le premier jour, mais ils ne «roulent pas d’argent par tous les moyens».

"Nous étions à but non lucratif jusqu'à ce que nous partions, et nous ne nous en séparons pas, mais nous voulions nous autofinancer", a déclaré Quinn. S'en remettre à la gentillesse de riches étrangers n'est pas un moyen de rester en affaires, après tout. La société embauche et investit dans son infrastructure, mais Quinn a indiqué qu’elle ne cherchait pas à faire croître le secteur des jus de fruits, mais s’assurait que les emplois qu’il fallait faire demandaient à quelqu'un de les faire.

Entre-temps, Quinn et tous les autres utilisateurs ont compris que ce type d’information a une réelle valeur, même s’il est rarement simple.

«C’est un problème vraiment compliqué. Nous sommes toujours aux prises avec ce problème, vous savez, quel est le rôle joué par le discours de haine? Quel rôle joue la désinformation? Quel rôle la socioéconomie joue-t-elle? «L’Université de Warwick a publié un excellent article qui étudie la corrélation entre le discours de haine et la violence à l’égard des immigrés en Allemagne entre 2015 et 2017, je tiens à le dire. Et son pic de pic, vous savez, est valable pour Valley. C'est incroyable. Nous n’effectuons pas beaucoup d’analyses, nous sommes un fournisseur de données. ”

"Mais maintenant, comme, près de 300 universités extrayant les données, et ils faire ce genre d'analyses. C’est donc très validant pour nous.

Vous pouvez en apprendre plus sur Hatebase, rejoindre le Citizen Linguists ou un partenariat de recherche, ou consulter des observations récentes et des mises à jour de la base de données sur le site Web de la société.

  • Barbie La Coiffeuse taille réelle de Barbie
    Pour être toujours au top, Barbie n'hésite pas à passer du temps devant sa coiffeuse pour que ses cheveux prennent la forme parfaite. Peut-être souhaiterais-tu en faire de même : Barbie te prête ses accessoires...
  • Ezviz Caméra EZVIZ C6N
    Profitez de communications améliorées et d'une sécurité accrue grâce à la Caméra EZVIZ C6N, un objet polyvalent et motorisé que vous adopterez en un rien de temps. Des images de haute qualité Parmi les promesses de la Caméra EZVIZ C6N, on retrouve tout d'abord une qualité d'image optimale. En effet, cette
  • IBM ThinkSmart Hub 500 10V5 - Pour Microsoft Teams - tout-en-un - Core i5 7500T / 2.7 GHz - RAM 8 Go - SSD 128 Go - HD Graphics 630 - GigE - LAN sans fil: 802.11a/b/g/n/ac, Bluetooth 4.1 - Win 10 IoT Enterprise - moniteur : LED 11.6" 1920 x 1080 (Full HD) écran tactile - TopSeller - avec 3 ans de support Lenovo Premier
    Parce que personne n'a de temps à perdreUne manière plus efficace de travailler à plusieursConçu pour simplifier les réunions virtuelles, dans le monde entierGestion sécurisée des câbles Parce que personne n'a de temps à perdre Les réunions sont déjà assez chronophages, pas besoin de perdre en plus du temps à
  • Asus VivoBook Flip 12 TP202NA EH008R - Conception inclinable - Celeron N3350 / 1.1 GHz - Win 10 Pro - 4 Go RAM - 64 Go eMMC - 11.6" écran tactile 1366 x 768 (HD) - HD Graphics - 802.11ac, Bluetooth - gris étoile
    Écran 11,6'' HD rotatif à 360°Connectivité complète8 heures d'autonomie Écran tactile 11,6'' HD rotatif à 360 La charnière métallique à 360° du VivoBook Flip Pro 12 permet un parfait maintien de l'écran tactile, quel que soit la position.#br/#Vous pouvez ainsi passer en un rien de temps d'un ordinateur
  • Toshiba N300 NAS - Disque dur - 10 To - interne - 3.5" - SATA 6Gb/s - 7200 tours/min - mémoire tampon : 256 Mo
    Fonctionnement 24 h sur 24 et 7 jours sur 7Compatible avec les NAS comptant de 1 à 8 baiesContrôle de la températureParfait pour un NAS comptant de 1 à 8 baiesHaute fiabilité et performances en temps réel améliorées Conçu pour les NAS C'est en s'entretenant avec des fabricants de NAS que Toshiba a reconnu la
  • Toshiba N300 NAS - Disque dur - 6 To - interne - 3.5" - SATA 6Gb/s - 7200 tours/min - mémoire tampon : 128 Mo
    Fonctionnement 24 h sur 24 et 7 jours sur 7Compatible avec les NAS comptant de 1 à 8 baiesContrôle de la températureParfait pour un NAS comptant de 1 à 8 baiesHaute fiabilité et performances en temps réel améliorées Conçu pour les NAS C'est en s'entretenant avec des fabricants de NAS que Toshiba a reconnu la
  • Victorinox Swiss Army Watches Montres Victorinox Swiss Army 241859 I.n.o.x. Carbon Black Paracord Strap Watch Set Saphir
    Le nouveau I.N.O.X. Carbon, inspiré de l’armée, est le garde-temps visionnaire qui incarne la force d’un guerrier au design clairvoyant. C’est une question de clarté : les chiffres, le logo et les mains sont rehaussés de Super-LumiNova® pour permettre une vision prolongée dans l’obscurité. Que vous soyez au
  • Avant que j'oublie
    Pierre, 58 ans, prisonnier de son passé, a de plus en plus de mal avec la solitude, avec le temps, avec le monde extérieur, a recours à des psychotropes, s'enferme chez lui, seul lieu où il est le moins mal, dans l'attente d'une inspiration, n'arrive plus à écrire. Pierre se confronte à la police… à la
  • BRGM Guide LES TEMPS GÉOLOGIQUES
    Les ?ditions du BRGM vous proposent une histoire ? 4,5 milliards d?ann?es avec ce guide. L?histoire fascinante de notre plan?te n?aura plus de secrets pour vous. La vie et les paysages des temps anciens ?taient bien diff?rents que ceux que nous connaissons. Ce guide vous permettra de naviguer ? travers les
  • Asus VivoBook Flip 14 TP401MA BZ148T - Conception inclinable - Pentium Silver N5000 / 1.1 GHz - Windows 10 in S mode 64-bit - 4 Go RAM - 128 Go SSD - 14" écran tactile 1366 x 768 (HD) - UHD Graphics 605 - 802.11ac, Bluetooth - gris clair
    Écran 14'' HD NanoEdge rotatif à 360°Finesse et légèretéConnectivité complète Écran NanoEdge 14'' rotatif à 360° dans un châssis 13'' La charnière à 360° du Asus VivoBook Flip 14 permet un parfait maintien de l'écran, quel que soit la position.#br/#Vous pouvez ainsi passer en un rien de temps d'un ordinateur