Serveur d'impression

L’intelligence artificielle génère des visages basés sur leurs voix | Smart News – Bien choisir son serveur d impression

Le 9 juillet 2019 - 5 minutes de lecture

UNE Un nouveau réseau de neurones mis au point par des chercheurs du Massachusetts Institute of Technology est capable de construire une approximation approximative du visage d’un individu sur la base d’un extrait de son discours, article publié sur le serveur de pré-impression. arXiv rapports.

L'équipe a formé l'intelligence artificielle tool – un algorithme d'apprentissage automatique programmé pour "penser" un peu comme le cerveau humain – à l'aide de millions de clips en ligne capturant plus de 100 000 locuteurs différents. Surnommé Speech2Face, le réseau de neurones a utilisé cet ensemble de données pour déterminer les liens entre les indices vocaux et des caractéristiques faciales spécifiques. comme les scientifiques l’ont écrit dans l’étude, l’âge, le sexe, la forme de la bouche, la taille de la lèvre, la structure osseuse, la langue, l’accent, la vitesse et la prononciation jouent tous un rôle dans la mécanique de la parole.

Selon GizmodoMelanie Ehrenkranz, Speech2Face s’appuie sur les associations entre l’apparence et la parole pour générer des rendus photoréalistes d’individus de face aux expressions neutres. Bien que ces images soient trop génériques pour être identifiées comme une personne spécifique, la majorité d’entre elles identifient avec précision le sexe, la race et l’âge du locuteur.

Fait intéressant, Jackie Snow explique pour Entreprise rapide, la nouvelle recherche s’appuie non seulement sur des recherches antérieures concernant les prédictions d’âge et de sexe fondées sur la parole, mais met également en lumière les liens entre la voix et les «caractéristiques cranofaciales» telles que la structure du nez.

Les auteurs ajoutent: «Ceci est réalisé sans information préalable ni existence de classificateurs précis pour ces types de caractéristiques géométriques fines."

Pourtant, l'algorithme a ses défauts. Comme Science en directMindy Weisberger, le modèle a du mal à analyser les variations linguistiques. Speech2Face a reproduit un visage de l’ethnie appropriée, mais un individu asiatique parlant chinois, par exemple, a reproduit le visage, mais lorsque le même individu a été enregistré en anglais, l’intelligence artificielle a généré l’image d’un homme blanc.

Dans d’autres cas, les hommes aigus, y compris les enfants, ont été identifiés à tort comme des femmes, révélant ainsi le biais sexiste du modèle consistant à associer des voix graves aux hommes et des voix aiguës aux femmes. Étant donné que les données sur la formation proviennent en grande partie de vidéos éducatives postées sur YouTube, les chercheurs soulignent en outre que l’algorithme ne parvient pas à «représenter de manière égale la population mondiale entière».

Selon ArdoiseJane C. Hu, la légalité d’utiliser des vidéos de YouTube pour la recherche scientifique est assez claire. Ces clips sont considérés comme des informations accessibles au public; Même si un utilisateur détient les droits d'auteur de leurs vidéos, les scientifiques peuvent inclure les éléments dans leurs expériences dans le cadre d'une clause d'utilisation équitable.

Mais l'éthique de cette pratique est moins simple. Nick Sullivan, responsable de la cryptographie à Cloudflare, s’est dit surpris de voir une photo de lui-même présentée dans l’étude de l’équipe du MIT, car il n’avait jamais signé de renonciation ni entendu les chercheurs directement. Bien que Sullivan ait dit à Hu qu'il aurait été «agréable» d'être informé de son inclusion dans la base de données, il reconnaît que, compte tenu de la taille même du pool de données, il serait difficile pour les scientifiques de contacter toutes les personnes représentées.

Au même moment, Sullivan conclut: «Puisque mon image et ma voix ont été citées en exemple dans le document Speech2Face, plutôt que simplement utilisées comme point de données dans une étude statistique, il aurait été poli de contacter demande ma permission.

Une application potentielle réelle de Speech2Face dans le monde utilise ce modèle pour «joindre un visage représentatif» aux appels téléphoniques sur la base de la voix du locuteur. Snow ajoute que la technologie de reconnaissance vocale est déjà utilisée dans un certain nombre de domaines, souvent sans que les personnes en aient expressément connaissance ni le consentement. L’année dernière, Chase a lancé un «Voice ID », un programme qui apprend à reconnaître les clients de cartes de crédit appelant une banque, tandis que les établissements pénitentiaires du pays construisent des bases de données sur les« empreintes vocales »des personnes incarcérées.

Vous aimez cet article?
S'INSCRIRE pour notre newsletter

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.