Suivez-nous sur X
|
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z,
ALL
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z
|
|
0,
A,
B,
C,
D,
E,
F,
G,
H,
I,
J,
K,
L,
M,
N,
O,
P,
Q,
R,
S,
T,
U,
V,
W,
X,
Y,
Z
|
|
A propos d'Obligement
|
|
David Brunet
|
|
|
|
Dossier : La reconnaissance vocale, généralités
(Article écrit par Nicolas Fournel et extrait d'A-News (Amiga News) - juillet 1990)
|
|
Reconnaissances des formes
La reconnaissance des formes est l'une des branches de l'intelligence artificielle qui pose encore le plus de problèmes
aux spécialistes. Ceci est du en particulier au fait que la forme à reconnaître peut souvent se présenter de façons
fort différentes. Lorsque l'on cherche à analyser une photographie pour savoir s'il y a un arbre dessus par exemple,
il nous faut jouer avec des variantes telles que l'angle de vue, la luminosité de la scène ou tout simplement le type d'arbre.
Lorsque en plus une partie de l'arbre est cachée, cela tient du treizième travail d'Hercule.
Il en est de même en reconnaissance vocale : le mot à reconnaître peut être prononcé plus ou moins rapidement,
avec un timbre différent, etc.
Pourtant l'Homme s'acquitte de cette tâche avec une facilité déconcertante des millions de fois par jour, sans
même s'en rendre compte. En effet, chez l'Homme, c'est l'oreille interne qui va transformer les signaux acoustiques
en messages nerveux, messages qui seront à leur tour modifiés avant d'arriver au cerveau qui prendra une décision.
On peut donc dégager trois étapes essentielles dans la reconnaissance de la parole : la phase d'acquisition par le
capteur (oreille externe et tympan), le prétraitement (réalisé par l'oreille moyenne et l'oreille interne), la
décision, ou reconnaissance, effectuée par le système nerveux central.
Le cheminement de l'ordinateur
Ces trois étapes vont se retrouver dans toute tentative de reconnaissance automatique de la parole par ordinateur.
L'acquisition est faite par un micro qui transforme le signal acoustique en signal électrique, qui sera lui-même
converti en nombres par un convertisseur analogique/numérique. Le prétraiternent pourra par exemple être effectué
à l'aide d'une série de filtres qui fourniront à intervalles de temps réguliers le spectre du signal. L'ordinateur
aura alors en mémoire, pour chaque mot à identifier, un ensemble d'informations, caractéristique des propriétés
acoustiques de ce mot. C'est en procédant par comparaisons entre les différentes analyses spectrales mémorisées
et l'analyse du mot à reconnaître que l'ordinateur devra ensuite prendre sa décision.
Ce qui paraît évident sur le papier devient nettement plus hasardeux dès que l'on passe à la pratique. En effet,
l'ordinateur doit prendre en compte les particularités de chaque locuteur : timbre, intensité, rythme, débit de
la parole, autant de paramètres qui peuvent complètement fausser une analyse. Prenez un testeur bègue à
l'accent polonais qui de plus "zozote" et est enrhumé, et vous allez droit au plantage du système !
Et ce n'est que le début...
Apprentissage
En effet, pour prendre sa décision, nous avons vu que l'ordinateur doit comparer le
spectre avec une analyse spectrale de référence présente en mémoire. Mais comment choisir cette dernière, pour,
qu'à coup sûr, le mot soit reconnu ? Ces spectres de référence auront été enregistrés pendant une phase
d'apprentissage qui consiste généralement à faire prononcer l'un après l'autre les différents mots du
vocabulaire. Ici intervient une première limitation.
Comme d'un locuteur à l'autre la manière de prononcer un mot peut considérablement varier, on s'est tout d'abord
borné à construire des systèmes monolocuteurs, où chaque usager désirant se servir de la machine doit passer obligatoirement
par la phase d'apprentissage. Comme cet usager lui-même est bien incapable de prononcer le même mot exactement de la
même façon deux fois de suite, il devra le répéter plusieurs fois et on conservera pour chaque mot deux ou trois
analyses spectrales (ou une seule si elles sont suffisamment proches l'une de l'autre, ou suffisamment typées).
Il existe des systèmes qui mettent régulièrement et automatiquement leur banque de références à jour lorsqu'il y a
de très petits changements (par exemple le Tetravox, système de reconnaissance de la parole conçu au
laboratoire d'informatique médicale de la faculté de médecine de Marseille), ceci permet par exemple de
reconnaître encore la voix de quelqu'un qui a une rhino-pharyngite sans le forcer à recommencer toute sa période
d'apprentissage. Néanmoins, l'obligation de passer par une phase d'apprentissage pour chaque locuteur est une lourde
contrainte, surtout si le vocabulaire est abondant.
On cherche donc à réaliser des systèmes multilocuteurs fiables, par exemple en ne faisant enregistrer par chaque
utilisateur qu'une ou deux phrases contenant assez d'informations pour permettre une adaptation du système au
locuteur. Une autre approche est dite multiréférence : elle consiste à procéder à un apprentissage avec un nombre
suffisant de locuteurs, par exemple 50, avec des voix et des prononciations bien typées. Votre voix est alors
forcément proche de l'une d'entre elles.
Phrase complète et phonèmes
Seconde limitation, nous nous sommes bornés pour l'instant à reconnaître un mot isolé. Si l'on veut analyser le contenu
d'une phrase, la tâche se complique de façon notable : en effet, il va falloir déjà opérer une segmentation de la
phrase et donc trouver la valeur d'un silence entre deux mots successifs. De plus, la prononciation d'un mot dépend
de sa place dans la phrase et des effets de coarticulation induits par les mots voisins. Les pièges sont donc
nombreux dans lesquels l'ordinateur peut tomber lors d'une tentative de reconnaissance de la parole. Un échec de
sa part peut aboutir à deux conclusions : le rejet (dans ce cas la machine ne trouve aucune analyse de spectre
assez proche de celle du mot à reconnaître et refuse de prendre une décision), ou, plus grave, la confusion
(la machine prend un mot pour un autre à cause de leurs analyses de spectre voisines).
Nous avons vu que l'on pouvait baser notre analyse soit sur un mot, soit sur un groupe de mots, mais on peut aussi,
à l'inverse, faire une reconnaissance à partir des phonèmes des mots. On appelle reconnaissance globale une reconnaissance
par mot et analytique, une reconnaissance par phonèmes. Les deux méthodes ont bien sûr leurs avantages et leurs inconvénients.
La reconnaissance globale est indépendante de la langue utilisée puisque l'on compare avant tout des
paramètres physiques (analyse spectrale du mot entier) et est donc facilement "exportable" mais elle ne peut
s'appliquer qu'à un vocabulaire assez restreint (chaque mot doit être enregistré plusieurs fois par tous les
locuteurs et à partir d'une centaine de mots la fatigue se fait sentir...). De plus, elle nécessite une place importante
pour stocker les spectres des mots.
La reconnaissance analytique, quant à elle, autorise une phase d'apprentissage beaucoup moins fastidieuse puisqu'il
suffit à l'utilisateur de prononcer quelques phrases bien choisies contenant tous les phonèmes de la langue avec
leurs principales variations. Le stockage de la transcription phonétique d'un mot nécessite moins de place que
celui des paramètres issus de l'analyse acoustique de ce dernier et le vocabulaire peut donc être plus facilement
étendu. Par contre, la segmentation d'un mot en phonèmes est une tâche particulièrement ardue et les phonèmes sont
dépendants de la langue utilisée.
Notons pour terminer que lors de l'analyse d'une phrase parlée, il faudrait normalement ajouter un filtrage sémantique :
si l'ordinateur hésite entre des mots d'analyses spectrales proches mais aux sens radicalement différents, il faut qu'il
soit capable de choisir le mot qui correspond le mieux au sens de la phrase.
|