Après Google et Amazon, Apple a tourné la page sur le vaste problème de la traduction vocale. Ou du moins – pour reprendre les mots des auteurs d'un article récent – fait le point sur notre situation.
Publié sur le populaire serveur de préimpression arXiv, le 17 avril 2020, «La traduction de la parole et la promesse de bout en bout: faire le point sur notre situation» a été rédigée par deux chercheurs d'Apple.
Matthias Sperber est un scientifique Siri R&D en traduction automatique basé dans la ville thermale allemande d'Aix-la-Chapelle. Matthias Paulik est un cadre supérieur du siège de Cupertino.
Les deux Matthias ont obtenu leur doctorat du Karlsruhe Institute of Technology (KIT) à une décennie d'intervalle. Les deux ont fait partie du personnel de recherche du KIT, l'un se concentrant sur la reconnaissance automatique de la parole (ASR), la traduction automatique et les réseaux de neurones (Paulik), et l'autre, l'annotation linguistique, l'ASR et la synthèse vocale (Sperber).
Dans leur récent article, Sperber et Paulik ont passé en revue la valeur de trois décennies de recherche sur la traduction vocale, définissant ses défis, ses techniques et ses exigences pour «encourager des comparaisons significatives et généralisables dans notre quête pour surmonter les problèmes de longue date rencontrés dans les modèles ST. Comme le disent les auteurs, «Compte tenu de l'abondance des travaux antérieurs, une image claire de notre situation actuelle est nécessaire.»
Packages d'intelligence de marché
Données et recherche, Market Intelligence, rapports Slator
Accédez aux actualités sensibles à l'heure de SlatorSweep et à l'analyse approfondie de SlatorPro avec notre service Market Intelligence et économisez de l'argent.
Selon la définition du duo, la traduction vocale (ST) est «la tâche de traduire des signaux vocaux acoustiques en texte dans une langue étrangère». Et bien que ST, en termes simples, ait à voir avec la génération de sortie de texte précise à partir de la saisie vocale, le voyage pour y arriver est complexe et multiforme car il s'appuie sur des travaux antérieurs en reconnaissance automatique de la parole (ASR) et en traduction automatique (MT), les auteurs souligné.
Pris dans le contexte des travaux antérieurs de Google et d'Amazon (ainsi que de la démonstration de l'hologramme de Microsoft en 2019), l'anneau en laiton dans tout cela est, bien sûr, la traduction (précise) de la parole à la parole.
Surtout, les auteurs soulignent que la seule approche possible, jusqu'à récemment, a été «l'approche en cascade qui applique un ASR aux entrées vocales, puis transmet les résultats à un système MT».
Ils notent qu'il y a eu depuis des progrès en ST sur deux fronts: «des améliorations générales dans les modèles ASR et MT, et le passage de la cascade à couplage lâche dans sa forme la plus élémentaire à un couplage plus serré» (plus sous Chronological Survey ci-dessous).
SlatorSweep
Données et recherche, Market Intelligence
Organisé par des milliers de sources, le service de nouvelles quotidiennes de SlatorSweep vous offre un avantage concurrentiel sur les informations de marché sensibles au facteur temps.
Sperber et Paulik qualifient qu '«une grande partie des progrès est sans doute due simplement aux améliorations générales de l'ASR et de la MT [but] «Récemment, de nouvelles techniques de modélisation et en particulier des modèles de codeur-décodeur entraînables de bout en bout ont alimenté l'espoir de relever les défis de la ST d'une manière plus fondée sur des principes.»
Ils ajoutent cependant que «malgré ces espoirs, les preuves empiriques indiquent que le succès de tels efforts a été jusqu'à présent mitigés»; ainsi, leur tentative de découvrir les raisons potentielles derrière cela à travers leur étude.
L'article de Sperber et Paulik fait essentiellement trois choses: Premièrement, il analyse le développement historique de la traduction vocale plus large. Ensuite, il met en évidence les défis liés à la ST – soulignant que la recherche a jusqu'à présent été insuffisante pour analyser ces défis. Ce faisant, le document met ensuite en évidence des questions de recherche ouvertes qui, espérons-le, pourront être traitées dans de futures études.
Enquête chronologique
Le document commence par une étude chronologique de plus de 30 ans de recherche en ST, présentant les concepts clés. Par exemple, il cite deux premiers articles de 1988 et 1991 pour définir «la cascade à couplage lâche», où les chercheurs ont utilisé des systèmes ASR et MT construits séparément, puis utilisé «la meilleure hypothèse de l'ancien […] comme contribution à ce dernier. "
Selon les auteurs, ces premiers systèmes étaient sujets à des erreurs «propagées à partir de l'ASR, étant donné l'utilisation généralisée de la MT basée sur l'interlingua qui comptait sur des analyseurs incapables de gérer les entrées mal formées».

Forfaits Visibilité
Publicité avec Slator, Business Development, Marketing
Augmentez votre visibilité, générez du trafic de référence et économisez de l'argent en intégrant vos communiqués de presse à une liste d'annuaire
Ils ont ajouté que les systèmes ultérieurs, qui s'appuyaient sur une MT statistique basée sur les données, «ont quelque peu atténué le problème et ont également ouvert la voie à une intégration plus étroite».
À noter également: Sperber et Paulik soulignent que «la possibilité de traduction de la parole à la parole, qui étend la cascade en ajoutant une composante de synthèse vocale, a également été envisagée très tôt (Waibel et al., 1991)».
Défis
L'article définit ensuite «les principaux défis, techniques et exigences, motivés par l'observation que les travaux récents n'analysent pas suffisamment ces défis».
Certains de ces défis centraux proviennent de la cascade faiblement couplée susmentionnée (par exemple, propagation d'erreur, langue source non concordante, perte d'information). Sperber et Paulik énumèrent ensuite les contre-mesures typiques pour chaque défi.
Dans le cas de la langue source non appariée, par exemple – qui est causée par (a) des hypothèses de modélisation, telles que l'ASR ne modélisant que des transcriptions non ponctuées et (b) des données d'entraînement non appariées, ce qui conduit à une «divergence stylistique et topique» – contre-mesures typiques basées sur les études précédentes serait «les techniques d'adaptation de domaine, la suppression des disfluences, la normalisation du texte et l'insertion de segmentation / ponctuation».
RFP Center
Développement des affaires, Market Intelligence
Recevez quotidiennement des alertes par e-mail des appels d'offres et des appels d'offres lancés par des gouvernements, des ONG et des entités privées du monde entier.
Questions de recherche ouvertes
En conclusion, Sperber et Paulik suggèrent des points de départ possibles pour de futures recherches.
Ils notent, par exemple, que «si les décisions précoces et l'efficacité des données ont été reconnues comme des questions centrales, les perspectives empiriques sont encore limitées et une analyse plus approfondie est nécessaire. Le langage source et la perte d'informations incompatibles ne sont souvent pas explicitement analysés. »
De plus, ont écrit les auteurs, «Nous conjecturons que le compromis apparent entre l'efficacité des données et la puissance de modélisation peut expliquer le succès mitigé de la surperformance de la cascade faiblement couplée. Afin de progresser à cet égard, les questions en jeu (décisions précoces, langue source inadaptée, perte d'informations, efficacité des données) doivent être analysées avec précision et davantage de variantes de modèles doivent être explorées. »
Quant aux modèles traditionnels, ils suggèrent de les étendre plutôt que de les modifier en, par exemple, «en appliquant une formation de bout en bout comme étape de réglage fin, en utilisant un modèle direct pour le recadrage ou en ajoutant une connexion triangulaire à une cascade faiblement couplée. "
Commentaires
Laisser un commentaire