La reconnaissance vocale, généralités

Dimanche 06 juillet 2025 - 05:13

Translate

Rubriques

Actualité (récente)
Actualité (archive)
Comparatifs
Dossiers
Entrevues
Matériel (tests)
Matériel (bidouilles)
Points de vue
En pratique
Programmation
Reportages
Quizz
Tests de jeux
Tests de logiciels
Tests de compilations
Trucs et astuces
Articles divers

Articles in English

Réseaux sociaux

Suivez-nous sur X

Liste des jeux Amiga

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z,
ALL

Trucs et astuces

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z

Glossaire

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z

Galeries

Menu des galeries

BD d'Amiga Spécial
Caricatures Dudai
Caricatures Jet d'ail
Diagrammes de Jay Miner
Images insolites
Fin de jeux (de A à E)
Fin de Jeux (de F à O)
Fin de jeux (de P à Z)
Galerie de Mike Dafunk
Logos d'Obligement
Pubs pour matériels
Systèmes d'exploitation
Trombinoscope Alchimie 7
Vidéos

Téléchargement

Documents
Jeux
Logiciels
Magazines
Divers

Liens

Associations
Jeux
Logiciels
Matériel
Magazines et médias
Pages personnelles
Réparateurs
Revendeurs
Scène démo
Sites de téléchargement
Divers

Partenaires

A Propos

A propos d'Obligement

Contact

David Brunet

Dossier : La reconnaissance vocale, généralités
(Article écrit par Nicolas Fournel et extrait d'A-News (Amiga News) - juillet 1990)

Reconnaissances des formes

La reconnaissance des formes est l'une des branches de l'intelligence artificielle qui pose encore le plus de problèmes aux spécialistes. Ceci est du en particulier au fait que la forme à reconnaître peut souvent se présenter de façons fort différentes. Lorsque l'on cherche à analyser une photographie pour savoir s'il y a un arbre dessus par exemple, il nous faut jouer avec des variantes telles que l'angle de vue, la luminosité de la scène ou tout simplement le type d'arbre. Lorsque en plus une partie de l'arbre est cachée, cela tient du treizième travail d'Hercule. Il en est de même en reconnaissance vocale : le mot à reconnaître peut être prononcé plus ou moins rapidement, avec un timbre différent, etc.

Pourtant l'Homme s'acquitte de cette tâche avec une facilité déconcertante des millions de fois par jour, sans même s'en rendre compte. En effet, chez l'Homme, c'est l'oreille interne qui va transformer les signaux acoustiques en messages nerveux, messages qui seront à leur tour modifiés avant d'arriver au cerveau qui prendra une décision. On peut donc dégager trois étapes essentielles dans la reconnaissance de la parole : la phase d'acquisition par le capteur (oreille externe et tympan), le prétraitement (réalisé par l'oreille moyenne et l'oreille interne), la décision, ou reconnaissance, effectuée par le système nerveux central.

Le cheminement de l'ordinateur

Ces trois étapes vont se retrouver dans toute tentative de reconnaissance automatique de la parole par ordinateur. L'acquisition est faite par un micro qui transforme le signal acoustique en signal électrique, qui sera lui-même converti en nombres par un convertisseur analogique/numérique. Le prétraiternent pourra par exemple être effectué à l'aide d'une série de filtres qui fourniront à intervalles de temps réguliers le spectre du signal. L'ordinateur aura alors en mémoire, pour chaque mot à identifier, un ensemble d'informations, caractéristique des propriétés acoustiques de ce mot. C'est en procédant par comparaisons entre les différentes analyses spectrales mémorisées et l'analyse du mot à reconnaître que l'ordinateur devra ensuite prendre sa décision.

Ce qui paraît évident sur le papier devient nettement plus hasardeux dès que l'on passe à la pratique. En effet, l'ordinateur doit prendre en compte les particularités de chaque locuteur : timbre, intensité, rythme, débit de la parole, autant de paramètres qui peuvent complètement fausser une analyse. Prenez un testeur bègue à l'accent polonais qui de plus "zozote" et est enrhumé, et vous allez droit au plantage du système ! Et ce n'est que le début...

Apprentissage

En effet, pour prendre sa décision, nous avons vu que l'ordinateur doit comparer le spectre avec une analyse spectrale de référence présente en mémoire. Mais comment choisir cette dernière, pour, qu'à coup sûr, le mot soit reconnu ? Ces spectres de référence auront été enregistrés pendant une phase d'apprentissage qui consiste généralement à faire prononcer l'un après l'autre les différents mots du vocabulaire. Ici intervient une première limitation.

Comme d'un locuteur à l'autre la manière de prononcer un mot peut considérablement varier, on s'est tout d'abord borné à construire des systèmes monolocuteurs, où chaque usager désirant se servir de la machine doit passer obligatoirement par la phase d'apprentissage. Comme cet usager lui-même est bien incapable de prononcer le même mot exactement de la même façon deux fois de suite, il devra le répéter plusieurs fois et on conservera pour chaque mot deux ou trois analyses spectrales (ou une seule si elles sont suffisamment proches l'une de l'autre, ou suffisamment typées).

Il existe des systèmes qui mettent régulièrement et automatiquement leur banque de références à jour lorsqu'il y a de très petits changements (par exemple le Tetravox, système de reconnaissance de la parole conçu au laboratoire d'informatique médicale de la faculté de médecine de Marseille), ceci permet par exemple de reconnaître encore la voix de quelqu'un qui a une rhino-pharyngite sans le forcer à recommencer toute sa période d'apprentissage. Néanmoins, l'obligation de passer par une phase d'apprentissage pour chaque locuteur est une lourde contrainte, surtout si le vocabulaire est abondant.

On cherche donc à réaliser des systèmes multilocuteurs fiables, par exemple en ne faisant enregistrer par chaque utilisateur qu'une ou deux phrases contenant assez d'informations pour permettre une adaptation du système au locuteur. Une autre approche est dite multiréférence : elle consiste à procéder à un apprentissage avec un nombre suffisant de locuteurs, par exemple 50, avec des voix et des prononciations bien typées. Votre voix est alors forcément proche de l'une d'entre elles.

Phrase complète et phonèmes

Seconde limitation, nous nous sommes bornés pour l'instant à reconnaître un mot isolé. Si l'on veut analyser le contenu d'une phrase, la tâche se complique de façon notable : en effet, il va falloir déjà opérer une segmentation de la phrase et donc trouver la valeur d'un silence entre deux mots successifs. De plus, la prononciation d'un mot dépend de sa place dans la phrase et des effets de coarticulation induits par les mots voisins. Les pièges sont donc nombreux dans lesquels l'ordinateur peut tomber lors d'une tentative de reconnaissance de la parole. Un échec de sa part peut aboutir à deux conclusions : le rejet (dans ce cas la machine ne trouve aucune analyse de spectre assez proche de celle du mot à reconnaître et refuse de prendre une décision), ou, plus grave, la confusion (la machine prend un mot pour un autre à cause de leurs analyses de spectre voisines).

Nous avons vu que l'on pouvait baser notre analyse soit sur un mot, soit sur un groupe de mots, mais on peut aussi, à l'inverse, faire une reconnaissance à partir des phonèmes des mots. On appelle reconnaissance globale une reconnaissance par mot et analytique, une reconnaissance par phonèmes. Les deux méthodes ont bien sûr leurs avantages et leurs inconvénients.

La reconnaissance globale est indépendante de la langue utilisée puisque l'on compare avant tout des paramètres physiques (analyse spectrale du mot entier) et est donc facilement "exportable" mais elle ne peut s'appliquer qu'à un vocabulaire assez restreint (chaque mot doit être enregistré plusieurs fois par tous les locuteurs et à partir d'une centaine de mots la fatigue se fait sentir...). De plus, elle nécessite une place importante pour stocker les spectres des mots.

La reconnaissance analytique, quant à elle, autorise une phase d'apprentissage beaucoup moins fastidieuse puisqu'il suffit à l'utilisateur de prononcer quelques phrases bien choisies contenant tous les phonèmes de la langue avec leurs principales variations. Le stockage de la transcription phonétique d'un mot nécessite moins de place que celui des paramètres issus de l'analyse acoustique de ce dernier et le vocabulaire peut donc être plus facilement étendu. Par contre, la segmentation d'un mot en phonèmes est une tâche particulièrement ardue et les phonèmes sont dépendants de la langue utilisée.

Notons pour terminer que lors de l'analyse d'une phrase parlée, il faudrait normalement ajouter un filtrage sémantique : si l'ordinateur hésite entre des mots d'analyses spectrales proches mais aux sens radicalement différents, il faut qu'il soit capable de choisir le mot qui correspond le mieux au sens de la phrase.

[Retour en haut] / [Retour aux articles]