Tải bản đầy đủ (.pdf) (72 trang)

LES RESEAUX DE NEURONE AVEC L’ENTREE DISCRETE POUR LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.26 MB, 72 trang )

Institut de la Francophonie pour l’Informatique
VIETNAM

Institut Dalle Molle d’Intelligence Artificielle Perceptive
SUISSE

Rapport du stage de fin d’études
Promotion 8

Sujet

Les RESEAUX DE NEURONE
avec L’ENTREE DISCRETE pour la
RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Stagiaire

Responsable

To Huy Cuong

Hervé Bourlard

(IFI, IDIAP)

(IDIAP, EPFL)

Martigny, Suisse : Mars 2004 – Janvier 2005


In memory of my father, M. San TO




Table des matières
Table des Matières

iv

Liste des Figures

iv

Qu'est-ce que c'est ce mémoire

v

Résumé

vi

Abstract

vii

Remerciements

viii

Reconnaissance de la parole

ix


Lieu de travail

x

Liste des Notations

xi

Liste des Jargons
1 Introduction
1.1
1.2
1.3
1.4
1.5

Problématique . . . . . . . . . . . . . .
La limite des systèmes de RAP courants
1.2.1 Le taux d'erreur . . . . . . . . .
1.2.2 La vitesse . . . . . . . . . . . . .
Objectifs . . . . . . . . . . . . . . . . . .
Remarque . . . . . . . . . . . . . . . . .
Organisation du mémoire . . . . . . . .

xiii
.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Extraction de caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . .
Évaluation de vraisemblance/postérieurs de phonème . . . . . . . . . . . . . .
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le problème avec l'apprentissage d'un PMC . . . . . . . . . . . . . . . . . . .
Background: La Quantication Vectorielle par la Maximisation d'Estimation .


.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

2 Vue d'ensemble d'un système de RAP d'IDIAP
2.1
2.2
2.3
2.4

2.5

3 Le PMC discret pour RAP
3.1

La conception théorique . . . . . . . . . . . . . . . . .
3.1.1 La quantication vectorielle des caractéristiques
3.1.2 L'entraînement du PMC discret . . . . . . . . .
3.1.3 Le facteur d'accélération en théorie . . . . . . .
ii

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.


.
.
.
.

.
.
.
.

.
.
.
.

1

1
2
2
3
4
4
4

6

6
8

9
9
10

13
14
15
16
18


TABLE DES MATIÈRES
3.2

3.3

Expérience sur Numbers'95 . . . . . . . . . . . .
3.2.1 La préparation de l'expérience . . . . . . .
3.2.2 Résultats de l'exactitude de la trame . . .
3.2.3 L'analyse du comportement de l'ET . . .
3.2.4 Résultats du Facteur d'Accélération (FA)
3.2.5 L'analyse du comportement du FA . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . .

iii
.
.
.
.
.

.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.

.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

4 Le Perceptron Deux Couches Discret (PDCD) pour RAP

4.1
4.2
4.3
4.4
4.5

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 La conception du PDCD . . . . . . . . . . . . . . . . . .
4.1.2 La conception du PMCC-2 . . . . . . . . . . . . . . . .
La fusion des experts . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 La combination des classicateurs . . . . . . . . . . . . .
4.2.2 La RAP multi-canaux . . . . . . . . . . . . . . . . . . .
La combination des réseaux utilisant l'entropie inverse . . . . .
4.3.1 Le multi-canaux de full-combination . . . . . . . . . . .
4.3.2 Combination basé sur l'entropie inverse . . . . . . . . .
La comparaison et combination des PDCD, PMCC-2 et PMCC
4.4.1 Entropie Moyenne et Erreur Moyenne selon les Moindres
4.4.2 Analyse de la combination . . . . . . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.

.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.


.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.

.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.

.
.
.

. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Carrés
. . . .
. . . .

.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

5 Conclusion et Tâches futures
5.1
5.2

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tâches futures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


6 ANNEXE
6.1
6.2
6.3
6.4

Le temps utilisé des fonctions de l'implémentation des PMCs
Les matrices de confusion à la sortie des réseaux . . . . . . .
L'article comme résultat du projet . . . . . . . . . . . . . . .
Pour mieux comprendre ce mémoire de n d'études . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.

.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

20
20
20
20
23
26
29


30
30
31
31
32
32
33
33
34
34
35
37
37
42

43
43
44

45
45
48
52
52


Liste des Figures
2.1
2.2


Schéma fonctionnel d'un système connexionniste-HMM typique . . . . . . . . . . . . .
Schéma fonctionnel de l'apprentissage et la structure du groupement de QV de base
[courtoisie de L.Rabiner et al.]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1
3.2
3.3

Le diagramme d'un système Connexionniste-HMM avec l'entrée discrète. . . . . . . . .
Comparaison d'un PMC continu et un PMC discret, où B = 3. . . . . . . . . . . . . .
Comparaison de l'exactitude de la trame (ET) des deux PMCs (a), elle est zoomée (b)
pour visualiser la diérence. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les trois caractéristiques de QV qui inuencent l'erreur de classication du PMC discret
Les tailles de couche cachée des deux PMCs . . . . . . . . . . . . . . . . . . . . . . . .
La diérence entre le FA théorique et expérimental, sur la totalité de 450,005 échantillons
FA expérimental avec diérents nombres d'échantillons . . . . . . . . . . . . . . . . . .
Le temps utilisé (en seconde) par chaque connexion Cachée-Sortie (a) et le temps pour
chaque 10,000 échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le temps utilisé (en seconde) par chaque connexion creuse d'Entrée-Cachée (a) et le
temps pour chaque 10,000 échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4
3.5
3.6
3.7
3.8
3.9
4.1
4.2
4.3

4.4
4.5
4.6
6.1
6.2
6.3
6.4
6.5

Un système multi-canaux de deux canaux, soit (PMCC + PMCC-2), soit (PMCC +
PDCD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les mesures au niveau du mot et de la trame . . . . . . . . . . . . . . . . . . . . . . .
"Pourcentage" de Correction de tous les phonèmes . . . . . . . . . . . . . . . . . . . .
PDCD: Mesures de l'exactitudes de la trame et du mot pour tous les tailles du dictionnaire
Les PDCDs de diérent W: ET, EM avant et après la combination avec PMCC . . . .
"Pourcentage" de Correction de tous les phonèmes, quand la taille du dictionnaire est
100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le temps utilisé par les fonctions principales du program, avec T anh comme la fonction
d'activation à la couche cachée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Gprof Hard-Tanh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
PDCD: matrice de confusion à la sortie . . . . . . . . . . . . . . . . . . . . . . . . . . .
PMCC-2: matrice de confusion à la sortie . . . . . . . . . . . . . . . . . . . . . . . . .
PMCC: matrice de confusion à la sortie . . . . . . . . . . . . . . . . . . . . . . . . . .

iv

6
7
15
17

21
22
23
24
25
27
28
36
38
39
40
41
42
46
47
49
50
51


Qu'est-ce que c'est ce mémoire ?
C'est le mémoire de n de mes études à l'IFI, un Institut Francophone de la formation en Informatique
du 3 ème cycle. Ce mémoire
1. Décrit mon travail du stage à l'Insititut de Recherche IDIAP en Suisse, un stage de recherche sur
la Reconnaissance Automatique de la Parole (RAP).
2. Utilise les connaissances acquises pendant les 3 semestres d'études à l'IFI. Les cours suivants ont
de grandes importances à mon travail du stage
• Programmation sur UNIX (N.H.Quang): comment lancer de gros programmes et manipuler








du grand nombre de scripts de recherche en Shell/Perl sur l'UNIX. A l'IDIAP on a 70
chercheurs, chacun exécute quotidiennement ses programmes. La question est comment
exécuter toutes ces tâches judicieusement.
Génie Logiciel (H.T.Vinh): comment collaborer avec d'autres informaticiens dans l'équipe
Méthodologie de Recherche (D.N.Vu): la recherche est de découvrir de nouveaux menus à
notre Restaurant dont les clients sont DARPA, NSF, et les Industries ...
Travaux d'intérêt personnel encadré (TIPE) (P.Bellot): c.-à-d. une recherche individuelle
qui demande une direction minimale du Responsable.
Méthodologie de Programmation (A. Boucher): la programmation en C++, utilisant la
bibliothèque de Torch.
Gestion du Projet (H.T.Vinh): comment gérer les époques du projet. C'est un projet de
recherche sponsorisé par DARPA dont la gestion du temps et de la qualité est indispensable.

Ma recherche en RAP à l'IDIAP est de diminuer le taux d'erreur de la reconnaissance, et d'élargir la base
de donnée d'apprentissage de la parole. Je l'ai faite en utilisant un des Réseaux de Neurone Articiel
de l'Entrée Discrète. Pendant mon stage à l'IDIAP, on m'a appelait  homme du Réseau Discret ".

v


Résumé
Des systèmes contemporains de la Reconnaissance Automatique de la Parole (RAP) utilisant le système hybride (composé par un Perceptron Multi Couches à l'entrée continue(PMCC) et un Modèle
de Markov Caché (MMC)) sont limités par (i) sa performance en termes de taux d'erreur de la reconnaissance au niveau du mot, et (ii) son impossibilité d'entraîner sur les bases de données réelles
très grandes. On présente içi comment on attaque ces limites par l'utilisation dans le système hybride les réseaux l'entrée Discrète, avec ou sans la couche cachée. Nos première expériences, et notre
première implémentation révèlent que ces réseaux discrets peut avoir les propriétés suivantes: (1) Ils

accélèrent l'apprentissage utilisant la Rétro-Propagation, (2) Ils ont l'Exactitude du Mot et quelques
fois l'Exactitude de la Trame plus basse q'un réseau standard (3) Ils produisent diérents types d'erreur
au niveau de trame que le PMCC.
Ce mémoire de n d'études décrit nos eorts de balancer ces trois caractéristiques dans la construction de diérents sytèmes, dans les quels nous compense la perte de performance avec la capacité
d'entraîner sue de très grandes bases de données, ou nous essayons à combiner plusieurs réseaux dans
un système hybride, an d'augmenter la performance.
Bien que les expériences et l'implémentation initiales de notre nouveaux systèmes discrets sont
loin d'être réellement conclusive, le potentiel théorique du projet est prouvé. Nous arrivons à une
estimation impressive de borne inférieure du CPU. Nous arrivons aussi à construire deux réseaux de
diérent propriétés mais ayant l'exactitude comparable d'un PMCC standard. Nous avons achevé à
augmenté l'Exactitude du Mot de 0.25% relative, sur Numbers'95 1 , avec une combination de deux
réseaux dans un système utilisant le MMC. Nous avons aussi déni les directions de futur très proche
du projet, en vue d'achever les résultats conclusives.
Dans ce mémoire de n d'études de 3-ème cycle, nous fournissons un détail riche des résultats
acquises, avec l'espoir que les suggestions et contributions des lecteurs vont nous aider de réduire le
temps à arriver à un système vraiment complet.

Mots clés: Reconnaissance Automatique de la Parole (RAP), système hybride, Perceptron Multi

Couches (PMC), Modèle de Markov Caché (MMC), entrée discrète, vecteur creux, Quantication
Vectorielle (QV), Facteur d'Accélération (FA), Exactitude du Mot (EM), Exactitude de la Trame
(ET), combination des classicateurs, multi-canaux.

1

une base de données de parole, pour la reconnaissance des chires: 0, 1, 2, ..., 9

vi



Abstract
Contemporary automatic speech recognition (ASR) systems using hybride system (composed of a
continuous input Multi Layer Perceptron (MLP) and a Hidden Markov Model (HMM)) are limited
by (i) its performance in terms of Word-Error-Rate, and (ii) its unlikeliness to train on very large
real-world databases. We present here how we attack these limits by using a Discrete input Neural
Network, with or without the hidden layer. Our rst experiments revealed that these Discrete Networks may have three properties (1) Speed up the training using Back Propagation, (2) Have lower
Word Accuracy and sometimes Frame Accuracy (3) Produce dierent types of Errors at the frame
level from the normal continuous input MLP.
This thesis describes our eorts to balance these properties in dierent systems, in which we try to
compensate the performance lost by the ability to train on very large database, or we try to combine
multiple neural network in a hybrid framework, in order to increase the performance.
Although initial implementation and experiments of our discrete system, mainly due to time limitation, are far to be really conclusive , the theoretical potential of the project is proven. We have come
up with a quite impressive estimation of the CPU lower bound, have some discrete network's frame
accuracy comparable to a continuous standard one, and even got 0.25% of Word Accuracy relative
increase on Numbers'952 with a combination of multiple networks in a HMM frame work. We have
also dene the very near future direction of the project, in order to have really conclusive results.
In this Master Thesis, we will provide you with rich details of the results we have got, with a hope
that your suggestions and contribution may help us reduce the time of reaching a real complete system.

Key words: Automatic Speech Recognition (ASR), hybrid system, Multi Layer Perceptron

(MLP), Hidden Markov Model (HMM), Discrete Input, sparse vector, Vector Quantization (VQ),
speed-up, Word Accuracy (WA), Frame Accuracy (FA), classier combination, multi-stream.

2

a speech database, for the recognition of digits like: 0, 1, 2, ...., 9

vii



Remerciements
Je remercie M. Hervé Bourlard, directeur de l'IDIAP pour sa direction sur un sujet de vraie
recherche pendant mon stage. J'ai appris beaucoup sur lui, et sur d'autres chercher de l'Institut.
Je remercie M. Hynek Hermansky à l'IDIAP pour ses lectures et conseils. C'était grâce à lui que
j'ai pu sentir la philosophie" de recherche.
Je remercie les personnels de l'IFI pour les trois semestres du Diplôme d'Etudes Professionnelles
Approfondies où je pourrais découvrir le monde.
Je témoigne de ma reconnaissance à toutes les personnes qui ont aidé à fournir de divers composants pour notre système: John Dines pour des parties de son code source et pour ses grandes
discussions. Samy Bengio pour son aide comment utiliser la bibliothèque de Torche. Hemant Misra
pour ses suggestions de comment faire une recherche en RAP. Tous les autres membres de notre groupe
de la parole à IDIAP ont également contribué intellectuellement à ce travail.
La vie dans une petite ville étrangère comme Martigny n'est pas toujours très agréable, mais mon
ami, Quan Le m'aidait à lui s'adapter. Quan était plus que mon ami, mon frère et mon tuteur.
Un grand merci à Dr. Ho Tuong Vinh de l'IFI pour son aide dans la rédaction de la version
Francaise du mémoire.
Un grand merci à Dr. Vu Duong de l'Eurocontrol pour son aide dans la rédaction de la version Anglaise du mémoire. Il est toujours, avec Prof. Patrick Bellot à l'ENST, une grande source
d'aspiration et motivation pour ma recherche.
Et je veux remercier la Suisse avec le Chocolat, la Neige et l'Esprit de travail auprès des Suisses.
J'aurai eu visité toute la Suisse si mon travail n'aurai pas été si dûr.
Finalement, si vous trouvez le français de ce mémoire susamment facile à lire, alors vous voulez
peut-être remercier M. Nguyen Khac Hieu de ses corrections orthographiques et grammaticales.

viii


Reconnaissance de la parole
Getting to work well may sometime seem more of an art than a science.
- Yann-LeCun, 1998 La Reconnaissance Automatique de la Parole (RAP) est le processus de trouver le texte d'un
contenu que le locuteur veut exprimer via sa parole.

La RAP demande l'expertise des Linguistes, Informaticiens, Ingénieurs Eléctroniques, Psychologistes et Mathématiciens. Même dans les aspects techniques de ce domaine, il y a une mélange diverse
de Traitement des Signaux, Reconnaissance des Formes, Théorie de Probabilité, Science de la Parole,
et la Conception du Système.
Les systèmes d'État-de-l'Art de la RAP sont soit le modèle Perceptron Multi Couches/Modèle
de Markov Caché (MLP/HMM en Anglais) (abrévié comme le modèle connexioniste, ou système hybride), soit le Modèle des Gaussiens Mélangés/Modèle de Markov Caché (GMM/HMM en Anglais).
De grands instituts dans le monde de la RAP sont: CMU, MIT, AT&T, IBM, SRI, Cambridge University, ICSI-Berkeley, IDIAP, ... Parmi eux, IDIAP et ICSI contribuent le plus dans le développement du modèle MLP/HMM.

ix


Le lieu de travail
If I have seen further, it was only because I stood on the shoulders of giants.
- Newton, 1675 L'IDIAP (Institut Dalle Molle d'Intelligence Articielle Perceptive) est un Institut de Recherche
semi-privé à Martigny, Valais, Suisse. L'IDIAP est alié avec L'École Polytechnique Fédérale à Lausanne (EPFL) et l'Université de Genève. L'IDIAP fait la recherche dans les domaines de Traitement
de la Parole, Vision par Ordinateur, Requise de l'Information, Authentication Biométrique, Interaction Multi Modale et Apprentissage Automatique.
L'IDIAP () est très connu dans le monde par sa recherche en Traitement de
la Parole, dirigée par Hervé Bourlard - qui était pionnier et est maintenant très active dans le Modèle
Connexionniste de la RAP, et Hynek Hermansky - l'auteur du PLP, RASTA, TANDEM et TRAPS les techniques avancées de la RAP.
Mon stage qui a duré 11 mois, s'est déroulé au sein de l'équipe Traitement de la Parole de l'IDIAP:
Le groupe est extrêmement chaud, car chaque semaine il y a toujours
une certaine nouveauté dans la recherche des membres du group.
Je travaillais aussi avec trois membres du groupe de l'Apprentissage Automatique à l'IDIAP et
trois membres du groupe de Traitement de la Parole à l'ICSI-Berkeley (International Computer Science Institute at University of California at Berkeley).
70 chercheurs de l'IDIAP travail très dûr et collaborent très ecacement. Chaque semaine on a
un rendez-vous de l'équipe, un autre de tout IDIAP; et chaque deux semaines on a un Session de
Lecture.

x



Liste des Notations
overtting
undertting
énoncé
trame
cas de formation
exactitude de la trame
exactitude du mot
Taux d'Erreur de Mot
(TEM)
Substitution
Insertion

Deletion
Word Correct (WC)

Word Accuracy (WA)
Word Error Rate (WER)

vecteur creux
FA
QV
MMG
MMC
PMC
PMCC
PMCD
PDCD
I
H

K
EMC
CW

dictionnaire
mot du dictionnaire
θ
Ωθ
X = x1 x2 ...xN
xn

delta
delta delta
p(x | qk )
p(qk | x)

le phénomène quand un modèle statistique apprend trôp un ensemble des échantillons,
ou la fonction simulée par le modèle colle trop aux données
la fonction simulée du modèle ne colle pas assez aux données
ce que le locuteur dit (utterance en Anglais)
une unité de longueur de 10 mili-secondes de la parole original: égale au "frame" en
Anglais
= exemple de formation/entraînement = (Anglais) training case = pattern = example
(ET) pourcentage de trame correctement étiquetée utilisé sa probabilité postérieure
estimée par un Réseau de Neurone. (frame accuracy en Anglais)
(EM) pourcentage de mot correctement reconnue (Word Accuracy en Anglais)
le taux de la reconnaissance au niveau du mot. (WER en Anglais)
Un Mot/Phonème est reconnu comme au autre Mot/Phonème
Un Mot/Phonème est reconnu à une unité du temps (ou une position dans une phrase)
mais en réalité il n'existe pas

Un Mot/Phonème n'est pas reconnu bien qu'il existe dans le signal de la parole
W C = N −D−S
× 100%, où N: le nombre de mots, D: nombre de deletion, S: nombre
N
de substitution
W A = N −D−S−I
×100%, où N: le nombre de mots, D: nombre de deletion, S: nombre
N
de substitution et I: nombre de Insertion
W ER = 100% - W A
vecteur dont la plus part des éléments sont zéro (sparse vector en Anglais)
Facteur d'Accélération d'apprentissage du PMC discret au PMC continu (speed-up
facteur en Anglais)
Quantication Vectorielle
Modèle Mélangé Gaussien (Gaussian Mixture Model en Anglais)
Model de Markov Caché (Hidden Markov Model en Anglais)
Perceptron à Multi Couches
Perceptron à Multi Couches avec l'entrée Continue
Perceptron à Multi Couches avec l'entrée Discrète
Perceptron à Deux Couches avec l'entrée Discrète
Nombre des noeuds à la couche d'entrée (input) du PMC
Nombre des noeuds à la couche cachée du (hidden) PMC
Nombre des noeuds à la couche de sortie (class) du PMC
Erreur à Moindres Carrés (Mean Square Error en Anglais)
 Context window : le nombre des vecteurs de caractéristiques consécutives utilisés à
l'entrée du PMC
le structure de la Quantication Vectorielle (codebook en Anglais)
chaque centroïde du dictionnaire (codeword en Anglais)
L'ensemble des paramètres du PMC
Nombre des paramètres du PMC

Séquence des vecteurs acoustiques au temps de 1 à N
Vecteur des caractéristiques décorrélées, qui sont le vecteur des coécients obtenus
par l'analyse du PLP
La partie représentant le dynamique de première ordre du vecteur xn
La partie représentante le dynamique de seconde ordre du vecteur xn
vraisemblance d'un vecteur acoustique x étant donnée l'état qk
la probabilité postérieur ou probabilité a postériori de l'état qk conditionné par le
vecteur d'entrée des caractéristiques acoustiques x

xi


LISTE DES FIGURES
classicateur

xii
un réseau de neurone articiel. Dans ce mémoire, les réseaux de neurone ne sont pas
utilisés pour la tâche de classication, mais pour estimer les probabilités a posteriori
p(qk | x)


Liste des Jargons
Bien que plusieurs modèles de RNA sont similaires ou identiques aux modèles statistiques connus, les terminologies
utilisées dans la littérature de RNA sont assez diérents de celles dans le statistiques. Dans ce tableau, on liste les
terminologies les plus utilisées, et leurs équivalences dans le statistiques.

Jargon

Equivalence.


caractéristiques
entrées
sorties
valeurs d'apprentissage
erreurs
apprentissage, étude, adaptation
fonction d'erreur, fonction de coût
échantillons
poids (synaptiques)
apprentissage supervisé
apprentissage nonsupervisé, encodage
quantication vectorielle
généralisation

variables.
variables indépendantes
valeurs prédite
variables dépendantes
résiduels
estimation
critère d'estimation
observations
paramètres
régression ou analyse discriminante
réduction de données
analyse de groupement
interpolation ou extrapolation

xiii



Chapitre 1

Introduction
De nouvelles opinions sont toujours suspectées, et souvent opposées, sans aucune raison, mais car
elles ne sont pas encore populaires.
- John Locke Bien que de grands succès dans le domaine de la RAP soient obtenus récemment, la taille de
son vocabulaire 1 est encore très limitée et la performance de reconnaissance des systèmes est encore
incomparable à ce qui achevé par l'homme.

1.1

Problématique

Considérons d'énormes eorts dans l'étude de la RAP dans le dernier demi-siècle, on peut toujours
demander pourquoi ce domaine est encore un thème de recherche 2 . Le problème c'est que: les
techniques existantes sont insusantes à résoudre le problème général de la RAP. Les dicultés de ce
problème peuvent être décrites dans les caractéristiques de la tâche, comme suit:
1. Est-ce que le système est Dépendant du Locuteur (optimisé pour un locuteur) ou Indépendant
du Locuteur (qui peut reconnaître la voix de n'importe qui)? Pour les systèmes massivement
utilisés (e.g.: les réseaux de téléphone public), seul le deuxième système est utile. Dans ce cas,
l'indépendance du locuteur est obtenue par l'utilisation d'un modèle entraîné sur des bases de
données contenants une large population des locuteurs représentatives.
2. Est-il capable de reconnaître la Parole Isolée (prononcée avec des pauses courtes) ou Parole Continue (pas de pause)? Le deuxième cas est plus dicile, car les mots prononcé sont coarticulés.
La coarticulation nous demande d'avoir une base de données assez large an de couvrir toutes
les variabilités des mots à leur frontières.
Une extension provocante du deuxième système peut reconnaître la Parole Naturelle ou Conversationnelle, qui n'est plus la parole dictée, mais contient les déformation de la parole (e.g.: Je
ne suis pas français est prononcé comme Chuis pas français), ou bien les hésitations (e.g.: le
Euh prolongé), les phrases non-grammaticales (e.g: Je suis pas français). Dans ce cas, une
base de données assez large pour bien décrire la coarticulation est indispensable.

3. Est-t-il capable de fonctionner sur un grand vocabulaire? Plus le vocabulaire est grand, plus la
coarticulation rend le système facile à se trompe.
1
Bien que quelques systèmes courants fonctionnent sur les très grands vocabulaires, il reste encore quelques contraintes, comme la limitation à une tâche très spécique, sur des systèmes qui fonctionnent assez bien an d'être utile
2
La RAP, comme dit les Industries de technologie de la parole à leurs clients, est un Problème déjà résolu
maintenant. En fait elle ne l'est pas

1


CHAPITRE 1. INTRODUCTION

2

4. Y-a-t-il des contraintes de la langue ou de la tâche.? Une telle contrainte aide le système de
découvrir si une phrase est légale ou non. Souvent un système de la RAP a plus de contrainte
d'un être humain, car plus la contrainte du système est simple, plus la reconnaissance est dicile.
Étant donnée ces dicultés du problème général de la RAP, on peut voir que, d'une part on doit
enrichir les modèles mathématiques dans le progrès de trouver la solution, et d'autre part, un élargissement de la base de données des prononciations est indispensable.

1.2

La limite des systèmes de RAP courants

1.2.1

Le taux d'erreur

C'est la base de données, ou la tâche qui décide le Taux d'Erreur d'un système de RAP. Avant de voir

les meilleurs taux d'erreur des système, il vaut comprendre des propriétés d'une base de donnée. Une
base de donnée est:

Caractérisée par
Prononciation
Intonation
Environnement
Tache

Isolée; Continue; Connectée
Dictée; Naturelle; Conversation
Chambre; Voiture; Usine; Téléphone
Nouvelles; Agent de tourist; N'importe quell

dans laquelle:

• Isolée: il y a des pauses entre les mots
• Continue: pas de pause
• Connecté: par exemple un numéro de téléphone: 84 4 624 00 75 est prononcé comme 8-4 4 6-2-4
0-0 7-5 où − dénote la connexion. Le type connecté est utilisé seulement avec des chires
• Dictée: l'intonation est comme dans une dictée, c.à.d: non naturelle
• Chambre/Voiture/Usine: La parole est enregistrée dans l'environnement correspondant. C'est
le bruit qui dégrade la qualité de la parole
• Téléphone: La parole est enregistré d'autre part au téléphone. C'est la qualité du canal, et aussi
le codage de compression qui inuencent la qualité de la parole
• Nouvelles: La session N ouvelles à la Radio ou Télévision
• Agent de tourist: les mots utilisés dans la conversation sont limités dans un contexte. E.g: Je
veux réserver un avion de Paris à Londre, au 28 Avril 2005
Notons que la Tâche inuence la complexité du problème de la RAP comme il décide la taille de
vocabulaire, la perplexité, et aussi le niveau de confusabilité entre les mots prononcés (e.g.: entre Il

est et Il ait ).
Si l'on prend conscience de toutes les complexités d'une tâche, on peut comprendre pourquoi la
RAP est encore une vrai recherche, quand on a déjà achevé des résultats impressionnants il y a des
décennies, avec la tâche des chires. Dans la table suivant, le taux d'erreur du mot (TEM) de 0.2%
est obtenue dans une tâche des 11 chires, mais on doit accepter des erreurs de plus de 30% avec


CHAPITRE 1. INTRODUCTION
d'autre tâches:

3

3

Corpus
TI
Mall
HMIHY
Numbers'95
RM
Switchboard
ATIS
Call Home
Switchboard
NAB
Broadcast

T ype
Naturelle; Connectée
Naturelle; Chambre; Connecté

Conversation; Connectée
Connecté; Téléphone
Dictée
Conversation; Téléphone
Tourist; Naturelle
Conversation; Téléphone
Conversation; Téléphone
Naturelle
Nouvelle

T ailledeV oc.
11
11
11
30
1,000
1,000
2,500
28,000
45,000
64,000
210,000

TEM (%)
0.3
2.0
5.0
4.1-4.3
2.0
33

2.5
40
25-29
6.6
13-17

Alors, la limite de performance de reconnaissance nous donne une grande diérence entre la capacité d'un système de RAP et l'être humain. Nos eorts, et aussi les eorts des autres chercheurs, sont
de construire de nouveau modèle d'apprentissage avec l'espoir que l'on peut dépasser cette limite.

1.2.2

La vitesse

Un système de RAP nous demande d'une énorme ressource de calcul, premièrement pour l'entraînement
des modèles statistiques (Réseau de Neurone Articielou les Mélanges Gaussiennes ) pour apprendre
une base de donnée qui est de plus en plus large et, deuxièmement pour le décodage (i.e.: une recherche
de Viterbi pour trouver la plus probable séquence des mots correspondante à une phrase prononcée
donnée au système). Pour avoir une performance de reconnaissance acceptable, la vitesse d'un système
de RAP nous donne un problème.
Il est cru [20] que si l'on garde la structure du réseau de neurone, an de décroître le Taux d'Erreur
de reconnaissance, un système hybride (PMC/MMC) doit accroître simultanément:

• La taille de l'ensemble d'apprentissage (le nombre d'échantillons d'apprentissage d'une base de
données)
• La taille du réseau PMC (Qui est le nombre de connexions faisant partie dans l'apprentissage
du réseau)
Ces deux augmentation implique que le temps de calcul d'un tel système accroît beaucoup plus
rapide que la taille de données (dont la relation est approchée rapprochée comme Θ(N ) où N est le
nombre d'échantillons d'apprentissage).
Récemment, en 1999 l'ICSI-Berkeley, Cambridge University et École Polytechnique de Mons commencent à travailler sur une base de données de 74 heures de parole enregistrées qui correspond à

16.7 × 106 échantillons d'apprentissage. Leur réseau de neurone a 700,000 connexions a été intégré
dans une machine multi-CPU assez rapide de leur temps, et l'apprentissage sur cette base de données
a été ni après 1.5 mois.
En 2004 l'ICSI-Berkeley et l'IDIAP planient de travailler sur une base de données de 2,000 heures,
qui correspond à 45 × 107 échantillons. L'apprentissage sur une partie de 44 heures (107 échantillons)
3

Les données ici sont collectées d'une lecture de Lawrence R. Rabiner et de mes collègues à l'IDIAP - Suisse


CHAPITRE 1. INTRODUCTION

4

a été ni après 3 jours, sur une machine Pentium 4, 3.0 Ghz et 1GBytes de RAM. Il est estimé que la
base de données de 45 × 107 échantillons est appris dans au moins UNE ANNÉE.
Cette impossibilité de travailler sur de grandes bases de données nous a forcé de penser à modier
le structure du Réseau de Neurone, qui a pour but de réduire le nombre de calculs.

1.3

Objectifs

Le mémoire de n d'études suivant décrit un projet construire les systèmes hybrides (c.-à-d. des
systèmes utilisant le Modèle Connexionniste). Les premiers objectifs de cette recherche, visant une
diérence exible de vitesse et de performance de reconnaissance, incluent :
1. Aller de nouveau au Perceptron Multi Couches à l'Entrée Discrète (PMCD) avec l'espoir que
leurs pertes dans la performance peuvent être équilibrées par les capacités de manipuler de plus
grandes quantités de données d'apprentissage
2. Obtenir plus grande Exactitude du Mot en combinant les sorties du PMCD et d'un PMC continu

standard (PMCC) et
3. Combiner plusieurs PMCCs avec diérentes propriétés
Ce mémoire de n d'études rapporte comment nous atteignons ces objectifs par
1. Établissant un réseau qui accélère le temps d'entraînement sur de grandes ou très grandes bases
de données par un ordre de grandeur, en même temps, minimiser la perte de performance,
2. Observer si le type d'erreurs faites par notre nouveau PMCD est diérent de celui du PMCC.
Cette diérence est venues de diérentes tailles du contexte temporel et de diérente résolutions
des caractéristique entrées aux système,
3. Observer les propriétés de la résolution des caractéristiques et du contexte temporel données à
diérents PMCCs

1.4

Remarque

Dans le cadre d'un Mémoire Master, bien que ce mémoire est sur un PMC discret, on ne fournit
pas une théorie du PMC et son application à la RAP, mais on invite le lecteur curieux à lire [3] et
[2]. Notons que, comme la RAP utilise les connaissances de plusieurs domaines, il est donc presque
impossible de présenter en détail toutes les techniques utilisées dans un projet.
Bien que le projet est pour travailler sur de très grande bases de données, ce mémoire rapporte
seulement des résultats d'expériences sur Numbers'95 , une base de données assez petite. La raison est
que cette base de données est considéré classique, dont plusieurs résultats de recherches pour toutes
les approches sont disponibles. Une fois que le sanity check sur Number'95 est fait, les résultats sont
généralisés à d'autres base de données, e.g. Switchboard.

1.5

Organisation du mémoire

Ce mémoire de n d'études décrit les détails du projet. Le reste de ce chapitre nous une vue d'ensemble

des systèmes hybrides pour la RAP. Le détail du problème donné par ces système est formulé, et une
bref introduction à la Quantication Vectorielle utilisé par les systèmes du projet est fournie à la n


CHAPITRE 1. INTRODUCTION

5

du Chapitre.
Le chapitre 3 est la partie principale du mémoire. La conception d'un PMCD est dénie, puis un
estimation théorique du Facteur d'Accélération d'un PMCD à un PMCC est construite. La discussion
des techniques avancées utilisées dans la littérature du PMCC est fournit, et elles sont appliquées pour
le nouveau PMCD. Les résultats d'expériences sur Numbers'95 sont données, avec une explications
des diérence théorie-réalité.
Le chapitre 4 décrit un nouveau type de réseau d'entrée discrète: un Perceptron de Deux Couches
Discrète. D'ailleur un PMCC de diérentes caractéristiques d'entrée est construit. Une bref introduction de la combination des classicateurs est donné, qui aide d'améliorer la performance du système
hybride de la RAP, utilisant les réseaux neuronaux de diérentes propriétés proposés par ce projet.
En conclusion, il y a une brève discussion de futures tâches pour obtenir des conclusions plus
solide.


Chapitre 2

Vue d'ensemble d'un système de RAP
d'IDIAP
Dans la plupart des systèmes contemporains d'ASR, le processus de reconnaître la parole peut être
décomposé en trois étapes suivantes [Figure 2.1]:
1. extraction de caractéristique
2. estimation des vraisemblances/probabilités postérieures du phonème


L'Ent ré e
Audit if
Traitement du
signal

Signa l
N um é rique

Dispositifs
spectraux

3. décodage

Vraisemblance
du phone
c 0.80
b 0.12
Est im a t e ur de la
v 0.04
vra ise m bla nc e du phone
f 0.03
Réseau de Neuron Artificiel
comme Classificateur

Mots
reconnus
« le »
« chat »
« est»
Pa rse ur


De c ode ur

Le x ique
(Modèle de Markov Caché)

c

h

a

t

c

h

i

e

n

Sémantique

Gra m m a ire (n-gram)

le
un


chat
0.1
0.3

chien
0.1
0.1

e

Figure 2.1: Schéma fonctionnel d'un système connexionniste-HMM typique

2.1

Extraction de caractéristiques

Quelles caractéristiques acoustiques sont là dans l'entrée ?.
Le but de la première étape est d'établir les représentations (un ensemble de caractéristiques )
du signal de parole qui fournissent la plupart d'informations sur le contenu phonétique du signal,
6


CHAPITRE 2. VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP

7

c'est-à-dire, ces représentations seront robustes aux variations acoustiques mais sensibles au contenu
linguistique. Dans le cas idéal, ces caractéristiques acoustiques ne changent pas beaucoup quand les
mêmes mots sont parlés beaucoup de fois (ou par diérents locuteurs, dans le cas de l'indépendance

du locuteur), mais changent de manière signicative quand les diérentes choses sont dites. An
d'atteindre ainsi, les vecteurs de caractéristiques de la parole doivent fournir une représentation compacte et cohérente de toutes les informations appropriées de la parole gurée au le signal, tout en
ltrant dehors l'information de non-discours. Typiquement, ces caractéristiques sont calculées sous
forme des vecteurs de dimension de n, où chaque vecteur correspond à une trame donnée (c.-à-d. à
court terme, de longueur constante du signal de la parole).
Ces vecteurs de caractéristique peuvent être sous forme de discret ou densité-continue. Dans cette
recherche nous emploierons tous ces deux genres de caractéristiques pour comparer leurs eets.
L'entrée continue dans cette recherche est obtenue au moyen d'une technique d'analyse appelée
la prédiction linéaire perceptuelle (c.-à-d. PLP). Comme la plupart des paradigmes d'extraction
de caractéristique dans la reconnaissance de la parole, PLP implique une application de l'analyse
cepstrale à court terme au signal parole entrant. Cette technique emploie trois concepts de la psychophysique de l'audition (psychophysics of hearing ) pour dériver une évaluation de spectre auditif :
(1) la résolution spectrale de bande-critique, (2) la courbe de volume-égal, et (3) la loi de puissance du
volume d'intensité. Le spectre auditif est alors rapproché par un modèle auto-régressif de tout-poteau
(autoregressive all-pole model). Un modèle du tout-poteau de 5eme-ordre est ecace en supprimant
les détails dépendant du locuteur du spectre auditif. En comparaison de l'analyse prédictive linéaire
(LP) conventionnelle, l'analyse de PLP est plus conformée à l'audition humaine, en outre, PLP est
exécutablement ecace et rapporte une représentation bas-dimensionnelle de la parole. D'autres détails sur PLP peuvent être trouvés dans [15].
L'entrée discrète est obtenue par une quantication vectorielle , une méthode qui divise automatiquement un espace de caractéristique (PLP) dans diérents clusters basés sur des données
d'entraînement. Ceci peut être employé pour la réduction de dimension de données, qui applique un
grand nombre de points de caractéristique à un nombre mineur de faisceaux. Étant donné un point de
test de l'espace de caractéristique, nous pouvons déterminer le faisceau auquel ce point devrait être
associé [Figure 2.2].

d(. , .)
L’ensemble des vecteurs
d’entraînement
{v1, v2, Ɣ Ɣ Ɣ , vL}

L’algorithme de groupement
(Maximisation d’Espoir)


Codebook de
M vecteurs
d(. , .)

Vecteurs de la
parole entrée

Quantificateur

Indexes des codebooks

Figure 2.2: Schéma fonctionnel de l'apprentissage et la structure du groupement de QV de base
[courtoisie de L.Rabiner et al.].
Notons qu'en réalité, le vecteur des caractéristiques entrées est plus compliqué et qui a pour but de
mieux représenter la dynamique et les aspects contextuels de la parole. La dynamique est capturée par
l'utilisation des dérivatifs primaires (appelé delta) et secondaires (appelé delta−delta) des coecients.


CHAPITRE 2. VUE D'ENSEMBLE D'UN SYSTẩME DE RAP D'IDIAP

8

En mờme but, l'information contextuelle de la parole est capturộ par l'utilisation d'une combination
de 9 trames consộcutives.

2.2

ẫvaluation de vraisemblance/postộrieurs de phonốme


Quels sont les sons phonộtiques dans ces caractộristiques ?.
Aprốs avoir extrait un ensemble de caractộristiques de taille n de chaque trame des donnộes
de la parole, le processus de reconnaissance passe l'ộtape d'ộvaluation de probabilitộ postộrieure
(aussi nommộe probabilitộ a-postộriori) de phonốme , oự les caractộristiques acoustiques d'entrộe
sont appliquộes la vraisemblance acoustique de l'ộtat (c.--d. ộvaluations de p(x | qi ) ou probabilitộs postộrieurs de l'ộtat de la forme, p(qi | x). Dans le premier cas, un systốme Modốle Mộlangộ
Gaussien (MMG) est typiquement employộ pour produire des ộvaluations des vraisemblances d'ộtat.
Ces vraisemblances sont alors appliquộs un systốme de dộcodage basộ sur le Modốle de Markov
Cachộ qui dộtermine les hypothốses de mot les plus probables pour une ộnoncộe donnộe. Alternativement, certains systốme de RAP utilisent les modốles distinctifs tels que les rộseaux de neuron
articiels (RNAs) pour calculer des ộvaluations de p(qi | x). Ces ộvaluations sont ensuite converties
en vraisemblance ộchellộe (scaledlikelihoods en Anglais) de forme p(qi | x)/p(q) 1 avant d'ờtre
traitộ d'une faỗon semblable par un dộcodeur basộ sur MMC.
Comme indiquộ plus tụt, le systốme d'IDIAP emploie un RNA pour ộtablir une application entre
les vecteurs de caractộristique d'entrộe et les ộvaluations des probabilitộs postộrieures pour chaque
ộtat. Puisque ces ộvaluations de probabilitộ  sont conditionnộes  sur les caractộristiques d'entrộe,
nous rộfộrons typiquement aux sorties du RNA comme les probabilitộs postộrieures d'ộtat ou simplement les postộrieurs . Pour ce mộmoire, nous emploierons la notation, p(qkn | xn ), pour reprộsenter la
probabilitộ postộrieure de l'ộtat qk se produisant au temps n, conditionnộ sur les acoustiques d'entrộe
(c.--d. le vecteur x des caractộristiques d'entrộe trame n).
Notez que les divers ộtats, q1 , q2 , . . . , qM , dộnis par le modốle acoustique de l'IDIAP, reprộsentent
les unitộs linguistiques appelộes phonốme .2 Ces phonốmes correspondent aux sons particuliers au
niveau de sous-mot de la parole (par exemple/k/,/ae/, et/t/comme dans le mot, le cat). Un total
de 56 classes de phonốme sont dộnis par le systốme d'IDIAP, mais il faut noter que certains phonốmes
ne sont pas utilisộs dans une certaine tõche vocale. La plupart des tõches concernant la reconnaissance
des chaợnes-de-chires, par exemple, exigent seulement 26 phonốmes, et quelques tõches de la parole
de conversation exigent seulement 47 phonốmes.
L'architecture utilisộe pour tous les RNAs comme estimateurs dộcrits dans ce mộmoire se compose de trois couches de noeuds: une couche d'entrộe , une couche cachộe , et une couche de sortie
. La couche d'entrộe accepte un total de CW M de valeurs entrộe , oự M est la longueur de
chaque vecteur de caractộristique, et CW est la  fenờtre de contexte  donnộe (c.--d. le nombre de
vecteurs consộcutifs de caractộristique appliquộs au RNA). Ces valeurs d'entrộe sont appliquộes par
un systốme entiốrement reliộ (f ullyconnected) avec des fonctions non-linộaires la couche cachộe,
qui sont pareillement appliquộes 56 noeuds de sortie reprộsentant les postộrieurs de sortie pour

chaque ộtat. Dans les couches cachộ et de sortie, la valeur d'un noeud indiquộ, j , est calculộe comme
f (w0j + i wij xij ), oự x1j , x2j , . . . , xN j reprộsente l'ensemble de tous les noeuds qui sont reliộs
l'entrộe de j et le w0j , w1j , w2j , . . . , wN j reprộsente un ensemble correspondant des poidsdeconnexion.
Une non-linộaritộ douce telle que le sigmoùde est typiquement choisie pour la fonction de f (ã) la
1
ce
2

vraisemblance ộchellộe est ộgal p(qi | x) en utilisant la rốgle de Bayes
beaucoup de systốmes de reconnaissance de la parole dộnissent les ộtats multiples pour chaque phonốme.


CHAPITRE 2. VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP

9

couche cachée, et du type de softmax est typiquement choisie pour f (·) à la couche de sortie. Pour
entraîner le réseau, une critère d'erreur (par exemple entropie-croisée des postérieurs de sortie en ce
qui concerne les étiquettes (objectif) de l'entraînement) est diérencié en ce qui concerne les poids
internes, et les poids sont mis à jour en conséquence par un taux d'apprentissage 3 prédénis. Après
chaque mise à jour, l'exactitude de la trame du RNA est examinée sur un corpus tenu-dehors des données de validation-croisée pour empêcher trôp de l'apprentissage (overtraining en Anglais). Cette
exactitude de la trame implique simplement le pourcentage des trames dont l'étiquette du phonème
(phonemelabel en Anglais) est aussi le phonème la plus probable (i.e.: la probabilité postérieure la
plus haute des sorties de l'ANN). Une fois l'exactitude de la trame sur la validation-croisée commencent à diminuer, le montant de chaque mise à jour des poids est réduit jusqu'à ce que le processus de
l'apprentissage soit nalement arrêté. Dans nos expériences, cette stratégie d'apprentissage s'appelle
l'apprentissage de  new-bob  (qui est semblable d'une technique nommée simulatedannealing ).
D'autres détails sur l'apprentissage et la conception du RNAs peuvent être trouvés dans [2].

2.3


Décodage

Quelle est la chaîne des mots que le locuteur a l'intention de "prononcer/énoncer" via ces sons.
Une fois que les caractéristiques d'entrée ont été appliquées dans des probabilités postérieures par
le RNA, le processus de reconnaissance passe à l'étape de décodage, où la parole entrée est assorti
avec de diverses hypothèses possibles de mot. Dans la plupart des systèmes de RAP, le processus de
décodage est eectué en employant un ensemble des Modèles de Markov Cachés (MMCs) pour déterminer les vraisemblances de diverses hypothèses au niveau de mot et de phrase étant données les sorties
du modèle acoustique. Le but des ces MMCs est de modéliser les probabilités a priori des transitions
d'état dans une phrase (an utterance) basée sur des observations faites à partir de la parole réelle. Par
exemple, un MMC pourrait être fait apprendre pour coder la probabilité que l'état de phonème /ae/
passe /t/, conditionnée sur la durée de /ae/ et sur le fait que l'état de phonème précédent était /k/.
Étant donné un ensemble susamment riche de probabilités de transition, un MMC peut être employé pour estimer des probabilités a priori de la forme p(Q | Mh ), où Q = qjn , qkn+1 , . . . , qlN représente
une séquence entière d'état ou un chemin dans une énoncé 4 , et Mh représente le MMC donné.
Ces vraisemblances a priori de chemin sont alors employées en même temps que d'autres statistiques,
y compris des modèles de langue et les sorties du modèle acoustique pour arriver à la probabilité
p(W | X, M ) d'une séquence de mot W étant donné l'acoustique d'entrée, X , et le système global de
RAP, M .
Pour d'autres détails sur le décodeur, le lecteur est invité à lire [14] et [2].

2.4

Le problème avec l'apprentissage d'un PMC

Bien que le modèle hybride PMC/MMC soit employé couramment dans des tâches de RAP, il implique
l'utilisation d'une énorme nombre de calculs à l'Unité Centrale de Traitement pour fair apprentissage
le PMC sur une base de données assez large. On va formuler le problème par les paragraphes ci-dessous.
Étant donnée une base de données à apprendre et un modèle d'apprentissage, on veut construire
une machine utilisant ce modèle pour apprendre cette base de donnée, de manière que la machine,
après avoir appris cette base de données, a une capacité de bien fonctionner sur d'autres base de
3

ce
4

qui contrôle la vitesse de mis à jour des poids.
le mot énoncé et notre traduction du mot utterance en Anglais, trouvez-le dans ListedesN otations


CHAPITRE 2. VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP

10

données de même type. Cette capacité est nommé généralisation . Normalement, la condition nécessaire d'une bonne généralisation est Ωmin < Ωθ < Ωmax , où Ωθ est le nombre de paramètres de
cette machine, et Ωmin et Ωmax dépend de la base de données et du modèle d'apprentissage utilisé par
la machine. Les cas où Ωmin > Ωθ ou Ωθ > Ωmax sont dit underf itting et overf itting respectivement.
Pour notre PMC, souvent il est entièrement relié [1-2], c.-à-d. : chaque neurone dans une couche
est relié à tous les neurones de la couche qui suit. Prenons I, H, K le nombre de noeuds dans la couche
de l'entrée, caché et de sortie d'un PMC (à 3 couches) typique, son nombre de paramètres (nombre
de poids de raccordement) est
Ωθ = (I + 1) H + (H + 1) K
(2.1)
En 1998, Yann LeCun [7] a prouvé qu'un PMC entièrement relié peut être ecacement formée
en utilisant un algorithme de rétro-propagation (back-propagation) avec une stratégie d'apprentissage
stochastique (où des poids sont mis à jour avec chaque échantillon d'apprentissage). Cette méthode
d'apprentissage, employée couramment dans le système de l'état-de-l'art, a un inconvénient: le temps
de l'apprentissage accroît au moins linéairement avec (a) le nombre de paramètres et (b) le nombre
de l'échantillons d'apprentissage, si l'on xe chacun des deux nombres et change l'autre. Il est clair
qu'an d'éviter le problème de undertting et overtting en entraînant un PMC sur une base de données, le nombre de paramètres du PMC devrait être assez grand comparé au nombre de l'échantillons
d'apprentissage [8]. Ceci, accompagné de (a) et de (b), montre que le procédure d'apprentissage du
PMC standard a une complexité de O(N 2 ), où N est le nombre d'échantillons.
Dans les systèmes de RAP auparavant, comme ceux de [14] et [2], les dictionnaires de Quantication Vectorielle (QV) ont été employés comme entrée discrète an de diminuer les nombre

d'échantillons d'apprentissage, de sorte que la plupart de matériel à ce moment-là puisse supporter la
quantité de calcul requise dans la reconnaissance. Ensuite, des vecteurs de caractéristique de densité
continue ont été employés avec l'augmentation de la puissance informatique du PC moderne (voyez [3]
pour un vue d'ensemble de ces systèmes). Ce changement en entrée continue a amélioré l'exactitude
de la reconnaissance, mais a impliqué une diculté quand les tâches de la parole sont devenues de plus
en plus compliquées. Pour un système de RAP avec grand vocabulaire et parole continue, nous avons
vu une demande d'avoir une base de données de 2000 heures de discours enregistré, qui peuvent mener
à un nombre d'échantillons d'apprentissage de 7.108 si le discours est traité toute les 10 milliseconds.
Le fait que les ordinateurs courants et futurs pourrait pas supporter ce genre de base de données nous
a menés à aller de nouveau à l'entrée discrète. Nous numérisons l'entrée continue en employant des
dictionnaires de QV, mais à la diérence du système d'entrée discrète précédent, nous représentons
l'espace d'entrée par des vecteurs creux ou vecteurs 1-de-k .

2.5

Background: La Quantication Vectorielle par la Maximisation
d'Estimation

La quantication est le processus de rapprocher les signaux continus en amplitude par des symboles
discrets. La quantication vectorielle est une quantication jointe des valeurs ou des paramètres de
signal. Un quanticateur vectoriel est décrit par un dictionnaire, qui est un ensemble de vecteur xe
de prototype (également visé comme mot du dictionnaire ). Pour eectuer le processus de quantication, le vecteur d'entrée est comparé avec chaque mot du dictionnaire dans le dictionnaire en utilisant
un mesure d'appartenance . Le vecteur d'entrée est alors remplacé par l'index du mot du dictionnaire
avec la plus petite déformation.
Nous employons l'algorithme ME (Maximisation d'Évaluation) pour le Groupement Gaussien,
la version prolongée et plus  douce  de l'algorithme de groupement K-Means pour former le


CHAPITRE 2. VUE D'ENSEMBLE D'UN SYSTÈME DE RAP D'IDIAP


11

dictionnaire et pour établir des indices de mot du dictionnaire. En cet algorithme, la mesure
d'adhésion de vecteur d'entrée xn à mot du dictionnaire qk est déni en tant que dk (xn ) qui est
une probabilité postérieure P (qk | xn , θ), où θ signie le paramètre de notre quanticateur. Si nous
assumons une distribution gaussienne de densité de vecteur, alors cette mesure est estimée près
dk (xn ) ∝





d

√1

T Σ−1 (x −µ )
n
k
k

1

det(Σk )

e− 2 (xn −µk )

· P (qk |Θ)

où µk et Σk sont le moyen et écart-type de la distribution du k -ème mot du dictionnaire.

C'est la synopsis de l'algorithme de ME pour la quantication

• Commence de K modèles Gaussiens initiaux N (µk , Σk ), k = 1 · · · K , avec les probabilité prieures
égales à P (qk ) = 1/K .
• Faire :
(old)

1. Étape d'Estimation(Évaluation) : évaluer (estimer) les probabilités P (qk
(old)
que chaque point de données (data point) xn appartient à la classe qk :
(old)

P (qk

(old)

|xn , Θ(old) ) =

P (qk

(old)

|Θ(old) ) · p(xn |qk
p(xn |Θ(old) )

(old)

=

P (qk


, Θ(old) )

(old)

|Θ(old) ) · p(xn |µk

(old)
|Θ(old) )
j P (qj

·

|xn , Θ(old) )

(old)

, Σk

)

(old)
(old)
p(xn |µj , Σj )

Cette étape est équivalente à avoir un ensemble Q de variables cachées continues, prenant les
valeurs dans l'intervalle [0.1], qui donnent l'étiquetage des données en disant dans quelle
mesure un point xn appartient à la classe qk . Ceci représente une classication douce,
puisqu'un point peut appartenir, par exemple, 60% à la classe 1 et 40% à la classe 2.
2. Étape de maximisation :


 mettre à jour les moyens :
(new)
µk

=

(old)
N
|xn , Θ(old) )
n=1 xn P (qk
(old)
N
|xn , Θ(old) )
n=1 P (qk

 mettre à jour les écart-types :
(new)

Σk

=

(old)
(new)
N
|xn , Θ(old) )(xn − µk
)(xn
n=1 P (qk
(old)

N
|xn , Θ(old) )
n=1 P (qk

(new) T
)

− µk

 mettre à jour les prieures :
(new)
P (qk
|Θ(new) )

1
=
N

N

(old)

P (qk

|xn , Θ(old) )

n=1

Dans le cas présent, toutes les données participent à la mise à jour de tous les modèles,
(old)

mais leur participation est pesée par la valeur de P (qk |xn , Θ(old) ).
3. Aller à l'étape 1.

• Jusqu'à : la croissance totale de vraisemblance des données d'entraînement tombe dans quelque
seuil désiré.


×