La coarticulation en français et en chinois : étude expérimentale et modélisation - Liang Ma - E-Book

La coarticulation en français et en chinois : étude expérimentale et modélisation E-Book

Liang Ma

0,0

Beschreibung

Une étude du lien entre gestes de la parole et particularités linguistiques.

Comme d’autres mouvements humains, les gestes de la parole sont vraisemblablement planifiés selon des stratégies optimales. Cependant, il est probable que la planification de ces gestes soit aussi contrainte par des critères de nature linguistique. De telles contraintes pourraient porter notamment sur la structure phonologique et la longueur des séquences prises en compte dans la planification. Le but de ce travail a été d’approfondir cette hypothèse à partir de l’analyse de données expérimentales et de simulations avec un modèle.

Un outil à l'usage de tous les professionnels et étudiants en phonologie.

À PROPOS DE L'AUTEUR

Liang Ma est maître de conférence dans le département de Chinese Littératures and Linguistics à l’université de Fudan en Chine. Elle a obtenu un diplôme de doctorat en science du langage à l’université d’Aix-Marseille I, et un diplôme de DEA en traitement du signal à l’Institut National Polytechnique de Grenoble. Ses domaines de recherches principaux sont la production de la parole, la phonétique expérimentale, ainsi que la modélisation du contrôle moteur de la parole.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 243

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Liang MA

LA COARTICULATION EN FRANÇAIS ET EN CHINOIS

ÉTUDE EXPÉRIMENTALE & MODÉLISATION

Introduction

La coarticulation est un phénomène qui traduit le fait que les caractéristiques de la production de la parole associées à un phonème donné varient de manière importante en fonction des phonèmes adjacents. Elle est la conséquence de deux facteurs principaux : (1) la stratégie de planification régissant les gestes articulatoires de la parole, et (2) les caractéristiques du système physique de production mis en jeu lors de l’exécution des gestes de la parole. Comme d’autres mouvements humains, les mouvements de la parole sont planifiés selon des stratégies optimales de commandes motrices, en minimisant les « efforts » du locuteur dans le système moteur, tout en atteignant les objets de la tâche. Cependant, sur le niveau supérieur de ces mécanismes généraux de contrôle, la planification de la parole pourrait être contrainte par les facteurs phonologiques de la langue, qui pourraient influencer la longueur des séquences sur lesquelles les principes d’optimisation s’appliquent.

Nous avons pour objectif d’étudier l’influence linguistique potentielle sur la planification de la coarticulation dans des séquences de type VCV. Pour cela, nous proposons un corpus en français et en chinois pour une analyse expérimentale. Le français et le chinois ont été considérés comme ayant un statut de la syllabe différent dans leur langue. Pour le chinois, la syllabe est l’unité la plus fondamentale de la structure phonologique, tandis que la force de la syllabe semble être moins forte pour le français. Notre but est de parvenir à différencier les propriétés spécifiques de stratégie liées à la langue dans la coarticulation d’anticipation. Nous cherchons également à tester quantitativement différentes hypothèses de planification et d’exécution du mouvement pour les séquences VCV en exploitant une modélisation du contrôle moteur, dont le comportement sera comparé aux données expérimentales.

Dans un premier temps, des données articulatoires ont été recueillies pour trois sujets français et trois sujets chinois au moyen d’un système électromagnétique (EMMA). Le corpus est composé de 15 phrases VCV où les voyelles utilisées étaient /a i u/ et les consonnes étaient la vélaire /k/ et l’alvéolaire /t/. Nous avons effectué des étiquetages acoustiques et des étiquetages articulatoires sur les données. La coarticulation d’anticipation de voyelle V2 sur la voyelle V1 et de voyelle V2 sur la consonne C, dans les séquences de V1CV2, a été analysée sur les positionnements des articulateurs de la langue (pour quatre capteurs placés sur la langue, à partir de l’apex, notés T1, T2, T3 et T4.). Des analyses ANOVA (Mesures Répétées) et des tests de post-hoc ont été effectués pour chaque sujet. Nous avons ensuite comparé les comportements d’anticipation des locuteurs dans les deux groupes de langues.

Dans un deuxième temps, nous avons élaboré un modèle de contrôle optimal de la planification que nous avons appliqué à un modèle biomécanique de la langue (Payan et Perrier, 1997, Perrier, 2003). La modélisation du contrôle moteur passe par une première phase consistant à élaborer un modèle direct qui décrit des relations entre les commandes motrices et les caractéristiques spectrales du signal de la parole, que nous qualifierons de « modèle interne ». Ce modèle sera ensuite exploité, dans une seconde phase, afin d’exploiter les synergies et les antagonismes musculaires lors de la planification gestuelle d’une séquence de la parole. Cette phase consiste à inverser les commandes motrices associées à la génération des caractéristiques spectrales cibles souhaitées. Mais la relation entre les commandes motrices et les caractéristiques spectrales n’est pas biunivoque, car pour une cible donnée il existe plusieurs commandes motrices qui lui sont associées. Pour faire une telle inversion, nous avons choisi d’optimiser certains critères sur l’ensemble de la séquence qui intègrent des contraintes orientées vers le locuteur et des contraintes orientées vers l’auditeur. Nous avons proposé trois hypothèses de planification : (1) l’hypothèse de voisinage : une planification globale pour les séquences V1CV2. (2) l’hypothèse syllabique qui donne un statut spécifique à la syllabe CV2. (3) l’hypothèse inspirée du modèle d’Öhman qui donne un statut spécifique à la transition vocalique V1V2. Une fois les cibles planifiées, il est intéressant de savoir comment générer les mouvements entre les cibles planifiées. Nous proposons de tester également deux modèles d’exécution du mouvement, l’exécution séquentielle et l’exécution selon Öhman.

Première partie : Fondements théoriques

Chapitre 1 : La coarticulation, quelques généralités

Introduction

La coarticulation montre la complexité de la relation entre le concept de segments phonologiques et sa manifestation dans la production de la parole. La parole met en jeu un processus qui prend en entrée des segments discrets et dont la sortie est un continuum articulatoire et acoustique. La question que nous posons ici est de savoir comment les segments phonologiques s’influencent les uns les autres dans leur réalisation.

La production de la parole passe par le contrôle de tâches motrices permettant l’émission de l’onde sonore, vecteur physique du message linguistique à destination des articulateurs. Selon FOWLER et al. (1980), il existerait deux niveaux de contrôle en production de la parole : le premier niveau sélectionne des entités abstraites correspondant aux unités phonologiques. Il constitue le niveau supérieur, responsable de tout ce qui est structuration des objectifs liés à la chaîne phonologique. Un deuxième niveau exécute la tâche motrice pour réaliser ces entités. C’est le niveau inférieur, responsable de tout ce qui est articulation. Ces propositions peuvent être mises en regard de celles de Whalen (1990) qui considère que la parole est planifiée. La planification de la parole correspondrait alors au niveau supérieur de contrôle. Dans cette étape de planification, une représentation sous forme d’unités discrètes constitue l’entrée du mécanisme du système de production de la parole. Le deuxième niveau serait celui de l’exécution des tâches planifiées par le système moteur.

Dans cette perspective, la coarticulation serait la conséquence de deux facteurs principaux : (1) une stratégie de planification au niveau supérieur, (Whalen, 1990 ; Vatikiotis-Bateson et al. 1994 ; Dang et al. 2006) et (2) les caractéristiques du système physique de production mis en jeu lors de l’exécution des gestes de la parole, tels que le couplage mécanique intrinsèque entre articulateurs ou propriétés dynamiques des articulateurs (raideur et inertie) (Browman et Goldstein, 1989 ; Lindblom, 1963 ; Perrier et al. 1996). Les caractéristiques articulatoires et acoustiques associées à la production d’un phonème donné peuvent alors varier de manière importante en fonction des phonèmes environnants.

Traditionnellement on considère en phonétique deux types de coarticulation (1) la coarticulation dite « de gauche à droite » ou « carryover » en anglais qui rend compte de l’influence des phonèmes précédents, (2) la coarticulation « de droite à gauche » ou anticipation ou coarticulation progressive qui traduit l’influence des phonèmes suivants. L’anticipation et le carryover sont considérés comme les résultats de processus différents. Le carryover serait plutôt vu comme une conséquence de la physique du système de production, le point de départ pour chaque phonème étant les positions atteintes par les articulateurs dans les phonèmes précédents. Dans ce cas, la configuration articulatoire atteinte pour le deuxième phonème est différente selon la configuration articulatoire atteinte lors du premier phonème. Par contre, l’anticipation a lieu seulement si le locuteur peut prévoir et anticiper les phonèmes à venir. Elle est donc vue comme le résultat de la stratégie de planification au niveau supérieur.

Ainsi, une bonne connaissance de l’anticipation dans une langue donnée aide à comprendre le contrôle moteur de la parole dans cette langue. Le but de notre étude est de parvenir à différencier les propriétés spécifiques des stratégies de planification liées à une langue donnée dans la coarticulation. Pour cela, dans cette thèse, nous nous concentrerons sur la mesure des effets de l’anticipation. Dans ce chapitre, quelques points théoriques relatifs à la coarticulation sont abordés dans la première partie à travers la présentation des données caractéristiques de la littérature ; ensuite des exploitations de ces points théoriques de la coarticulation, et enfin quelques modèles de contrôle dans la production de la parole seront décrits.

1.1 Les idées princeps des modèles de la coarticulation

1.1.1 La prédominance syllabique

Kozhevnikov et Chistovich (1965) observent que l’articulation de la voyelle dans une syllabe CV commence dès le début de celle-ci si elle ne requiert pas pour sa réalisation de mouvements contradictoires avec ceux nécessaires pour la production de la consonne. L’exécution de la consonne initiale et celle de la voyelle d’une syllabe CV seraient ainsi initiées simultanément par le locuteur. La syllabe est ainsi considérée par ces deux auteurs comme l’unité de base de l’articulation.

« All the movements of a vowel which are not contradictory to the articulation of the consonant begin with the beginning of the syllable. » (P122)

Leurs expériences sur le geste d’arrondissement labial en russe pour la voyelle arrondie leur ont permis de caractériser le domaine d’extension de la coarticulation. Ce résultat est cohérent avec l’hypothèse de la syllabe articulatoire. Les auteurs observent en effet que la coarticulation ne s’étend pas au-delà des frontières de la syllabe CV.

Wood (1991) a confirmé l’hypothèse syllabique de Kozhevnikov et Chistovich dans son interprétation de la variabilité des mouvements de la langue. Il a étudié les données cinéradiographiques d’un locuteur suédois prononçant les séquences /ˈɛbe/ /ˈʃi :se/ /ˈç :sar/ et /iˈsu :da, ʃu/. Les mesures montrent que pour chaque syllabe ce locuteur initie le geste vers la consonne dans la dernière moitié du segment précédent. Quand il n’y a pas d’antagonisme entre les gestes de la consonne et de la voyelle dans une syllabe, la voyelle de la nouvelle syllabe commence aussi dans cette portion de la séquence. Ainsi, la voyelle /e/ est lancée avec la consonne /b/ simultanément. Si la langue est contrainte différemment pour la voyelle et la consonne, le locuteur retarde le début du geste vers la voyelle. Ainsi, dans la syllabe /ʃi :/ de /ˈʃi :se/, l’initiation du geste de la langue pour la voyelle /i :/ commence un peu plus tard que celui de la consonne initiale, parce que la langue est encore occupée avec le geste palatovélaire de la consonne /ʃ/. Ces observations confirment l’hypothèse selon laquelle la syllabe serait un élément fondamental d’organisation des stratégies de la coarticulation anticipatoire : les gestes vers la consonne ne commencent que juste avant la réalisation de cette consonne et, dans certains cas, la voyelle suivante est initiée au même moment dans la parole.

1.1.2 La différenciation entre base vocalique et consonne (Öhman, 1966,1967)

Öhman (1966,1967) a étudié la coarticulation dans les séquences V1CV2 pour le suédois et l’anglais, dans un corpus où trois consonnes occlusives voisées /b d g/ ont été utilisées. Il a montré que les transitions des formants de V1C dépendent de la voyelle suivante V2. De façon similaire, les transitions des formants de CV2 sont influencées par la voyelle précédente V1. Il a ainsi trouvé que les effets de coarticulation peuvent se faire sentir au-delà des limites de la syllabe CV. Un modèle de coarticulation pour la séquence VCV a été proposé à partir de ces observations. Dans ce modèle, l’effet de la coarticulation dans la séquence VCV est interprété comme la conséquence d’un statut particulier des transitions de voyelle à voyelle, les consonnes étant considérées alors comme des perturbations, localisées dans le temps, de cette base vocalique.

« The data suggest a physiological model in terms of which the VCV articulations are represented by a basic diphthongal gesture with an independent stop-consonant gesture superimposed on its transitional portion. » (P151)

Selon l’hypothèse d’Öhman, les systèmes articulatoires mis en jeu dans les productions des voyelles devraient se distinguer de ceux des consonnes. Öhman a alors noté que la forme du conduit vocal n’est pas pertinente dans sa totalité pendant la tenue d’une occlusive. Le geste articulatoire de la voyelle peut ainsi être exécuté par la langue pendant la production de la consonne. Cette observation l’a amené à suggérer de dissocier dans la langue l’activité de trois ensembles de muscles, qui auraient des représentations séparées dans le Système Nerveux Central du locuteur. Les commandes articulatoires pourraient être alors transmises par trois canaux indépendamment les uns des autres. Ainsi trois régions séparées de la langue pourraient être indépendamment contrôlées : le corps de la langue (utilisé pour la production des voyelles), une région de l’apex de la langue (utilisée pour la production des consonnes alvéolaires), et la région dorsale (utilisée pour la production des consonnes vélaires).

«  …the production of vowel-stop-vowel utterance of certain languages seemed to involve two simulations gestures, a diphthongal gesture of tongue body articulator and a superimposed constrictory gesture of the apical or dorsal articulators. » (1966, p310)

Perkell (1969) confirme l’hypothèse d’Öhman d’un point de vue biomécanique et physiologique sur la base des analyses des images cinéradiographiques. Sur cette base expérimentale, il a proposé un modèle physiologique dans lequel il sépare les actions générées pour la production de la voyelle et celles qui sont liées à la production des consonnes. La plus grande partie du conduit vocal est affectée à la fois par la production des voyelles et celle des consonnes, mais en général les mêmes organes semblent se comporter différemment sous l’influence des deux différentes classes. Les articulations des consonnes par la langue et les lèvres sont généralement plus rapides et plus complexes que les articulations des voyelles. Perkell a constaté aussi que, dans une certaine mesure, il y a une division anatomique. Par exemple, l’apex de la langue est plus impliqué dans l’articulation des consonnes, tandis que le corps de la langue est en activité dans les articulateurs des consonnes et des voyelles. Les différences générales dans la vitesse, la complexité, la précision du mouvement suggèrent que différents types de muscles pourraient être responsables pour la production des consonnes et des voyelles. Il semblerait que l’articulation des voyelles soit accomplie principalement par la grande, et plus lente, musculature extrinsèque de la langue. Les consonnes utiliseraient une musculature intrinsèque, plus courte et plus rapide. La coarticulation semble être le résultat de l’interaction de deux systèmes neuromusculaires spécifiques.

« It is probable that articulation of vowels is accomplished principally by the large, slower extrinsic tongue musculature which controls tongue position. On the other hand, consonant articulation requires the addition of the precise, more complex, and faster function of the smaller, intrinsic tongue musculature. » (P61)

1.1.3 La propagation de traits : Modèle « look-ahead » (Henke, 1966)

Cette hypothèse repose d’abord sur une conception purement phonologique de la production de la parole inspirée par les travaux de Chomsky et Halle (1968) selon laquelle la production de la parole consisterait à réaliser pour chaque son élémentaire un certain nombre de traits caractéristiques. On peut donc concevoir au niveau phonologique que la planification d’une séquence de parole consiste à définir une succession de vecteurs de traits pour chaque phonème. Mais la spécification d’un phonème ne fait pas systématiquement appel à tous les traits. Il y a en général un certain nombre de traits qui est aussi « neutre » ou « sous spécifié ». Ceci introduit un certain nombre de degré de liberté dans la planification phonologique de la séquence, et c’est cela que l’hypothèse de propogation de traits (« feature-spreading ») et le modèle « look-ahead » (Henke, 1966) exploitent.

L’hypothèse de de propogation de traits, lorsqu’elle traite d’un segment dont un des traits spécifiques est neutre dans un ou plusieurs des segments précédents, considère que la spécification de ce trait se rétropropage aux segments précédents jusqu’à ce que cela devienne contraire à la spécification phonologique intrinsèque d’un de ces segments. Par exemple, dans la séquence /istu/, où le trait considéré est l’arrondissement des lèvres, la première marque d’arrondissement est observée dès la fin de la voyelle /i/. Les consonnes /s/ et /t/ sont en effet neutres pour le trait de l’arrondissement, tandis que la voyelle /i/ exige des lèvres écartées (non arrondies).

Ceci est formalisé dans le modèle « look-ahead » dont les variables d’entrée sont les phonèmes spécifiés par un ensemble de traits. Chaque trait porte une valeur «  + », «  - » ou « non spécifié ». Quand l’entrée est « non spécifié », le modèle rétropropage la prochaine valeur spécifiée (+ ou -) de ce trait et ceci se termine lorsque la prochaine valeur qui suit est en contradiction avec une entrée «  + »ou «  - ». Il est clair que selon le modèle « look-ahead », la coarticulation dépasse les limites de la syllabe CV.

1.1.4 La coproduction

La coproduction est une théorie proposée par un groupe de chercheurs des Laboratoires Haskins : Fowler (1977, 1980), Kelso et al. (1986) et Saltzman (1989). L’idée sous-jacente à la notion de coproduction est celle selon laquelle les mouvements articulatoires de la parole seraient le résultat de la superposition des gestes, chacun des gestes étant étroitement associé à la production d’un phonème donné. Le geste est défini comme un membre d’une famille de mouvements articulatoires fonctionnellement équivalents qui sont activement contrôlés pour un certain but de parole.

« The term gesture is used… to denote a member of a family of functionally equivalent articulatory movement patterns that are actively controlled with reference to a given speech relevant goal. » (Saltzman et Munhall, 1989)

La théorie de coproduction propose alors que les gestes se chevauchent l’un l’autre dans la parole (Bell-Berti et Harris, 1981 ; Fowler, 1977, 1980 ; Harris, 1984 ; Hardcastle, 1981 ; Saltzman et Munhall, 1989). Ce chevauchement des gestes est considéré comme la source du phénomène de coarticulation. La coarticulation traduit le fait que l’influence des gestes liés à plusieurs segments adjacents peut généralement être discernée dans des mesures acoustiques ou articulatoires. L’effet de ce chevauchement gestuel est bien illustré par la figure 1.1 (Löqvist, 1990). La figure 1.1 montre une représentation de deux gestes avec différents degrés de chevauchement liés à la variation de débit. Lorsque le débit est lent, deux gestes séparés sont observés. Lorsque le débit est rapide, un seul geste est observé et, à un débit intermédiaire, la trajectoire articulatoire montre les traces de deux gestes individuels. On voit que selon cette théorie, les gestes qui forment un segment conservent une stabilité interne quel que soit le débit. Ils ont une dimension temporelle intrinsèque.

Figure 1.1 : représentation de deux gestes avec différents degrés de chevauchement (Löfqvist, 1990)

1.1.5 Optimalité (Keating, 1988)

Keating (1988b) a proposé une optimisation gestuelle en minimisant la distance parcourue dans l’espace articulatoire dans son modèle de fenêtre. La variabilité joue un rôle important dans ce modèle. Keating a proposé que, pour une dimension articulatoire, chaque valeur de trait d’un segment soit associée avec une série de valeurs spatiales possibles, i.e. les valeurs observées doivent se trouver entre la valeur minimale et maximale. Cette série de valeurs est appelée une fenêtre, donc un modèle de fenêtre (« window model ») est un modèle spatial. Une fenêtre représente la variabilité contextuelle de valeur d’un trait. La fenêtre étroite reflète peu de variation contextuelle et la fenêtre large reflète une grande variation contextuelle. D’après Keating, la largeur d’une fenêtre est relative à la spécification du trait. La figure 1.2 montre le principe du modèle de fenêtre. Dans cette figure, la fenêtre étroite représente des segments spécifiés associés avec certains traits, et la fenêtre large représente le segment non spécifié (ou peu spécifié) pour ce trait. Le panneau à gauche montre une trajectoire articulatoire entre 3 segments spécifiés. Le panneau à droite montre un cas où il y a un segment non spécifié représenté par une fenêtre large au milieu de deux segments spécifiés. Il est clair qu’en cherchant une distance minimale, le modèle de fenêtre permet une trajectoire articulatoire plus courte pour le deuxième cas que pour le premier.

Figure 1.2 : modèle de fenêtre : optimisation des trajectoires dans l’espace articulatoire (Keating 1988b)

Le modèle de fenêtre donne la possibilité d’assigner un segment approprié (ou spécifié) à une cible, donc une fenêtre étroite, dans l’espace articulatoire. En ce qui concerne le segment non spécifié, Keating a proposé dans la théorie de sous-spécification que les segments phonétiquement non spécifiés ne seraient pas caractérisés par des cibles spécifiques dans le plan contrôle moteur.

« When phonetic rules build trajectories between segments, an unspecified segment will contribute nothing of its own to the trajectory ». (Keating 1988a, 281)

1.2 Exploitation de ces idées princeps pour l’analyse de la variabilité des mouvements et des sons de la parole

1.2.1 Les modèles inspirés par les propositions d’Öhman

Recasens a exploité l’hypothèse d’Öhman (1966) selon laquelle la consonne et la voyelle impliqueraient des gestes différents pour interpréter et modéliser des données sur la coarticulation VCV. Les productions des voyelles nécessiteraient le contrôle articulatoire sur la position du corps de la langue dans son ensemble, tandis que les consonnes impliqueraient un contrôle articulatoire dépendant du lieu de constriction ou l’occlusion du conduit vocal. Recasens (1984, 1987, 2002) a étudié l’effet de la coarticulation de la voyelle sur la consonne (V-C) et de la voyelle sur la voyelle (V-V) dans des données articulatoires et acoustiques, en catalan et en espagnol pour les séquences VCV. Les résultats montrent différentes influences de V2 sur C et de V2 sur V1 selon la nature de la consonne C. Il a alors interprété ces données dans le cadre proposé par Öhman en suggérant que les gestes fortement contraints pourraient limiter l’étendue spatiale et temporelle de l’effet de la coarticulation. Il a ainsi proposé le concept de degré de contrainte articulatoire (DAC) pour quantifier ce phénomène de résistance à la coarticulation. L’influence de la voyelle V2 sur la consonne C dans une séquence V1CV2 est d’autant plus faible que le DAC de la consonne est grand. Plus encore, la coarticulation V1-V2 décroît elle aussi quand le DAC de la consonne intermédiaire croît. L’anticipation de la voyelle V2 sur la voyelle V1 est ainsi observée, mais elle dépend de la contrainte articulatoire apportée par la production de la consonne intervocalique.

Carré (1991,1995) a modélisé les séquences VCV à l’aide d’un modèle DRM (Distinctive Region Model). Il a pour cela repris l’idée introduite par Öhman, d’une superposition de la consonne sur la base du geste vocalique. Un corpus de séquences V1-V2 en français a été enregistré dans un premier temps pour établir les trajectoires V1-V2 dans l’espace formantique. Carré (1995) a ensuite synthétisé ces trajectoires V1-V2 à partir des commandes gestuelles proposées par le modèle DRM (Voir Boë et Perrier, 1990 pour une critique de ces commandes). Une fois ces transitions V1-V2 modélisées, la modélisation d’une séquence V1CV2 peut se réaliser par la superposition de consonnes intervocaliques à cette base vocalique. Selon Carré, les résultats de cette modélisation sont cohérents avec les données expérimentales d’Öhman (1966).

1.2.2 Interprétation basée sur l’hypothèse de coproduction

1.2.2.1 Chevauchement gestuel

Le chevauchement des gestes a été observé pour le geste de la langue utilisant l’électropalatographie (EPG), (Hardcastle, 1985 ; Marchal, 1988). Marchal (1988) a examiné les séquences de V1C1C2V2 en français dans lesquelles les consonnes étaient deux consonnes linguales successives, comme /kt/ ou /kl/, et les voyelles étaient /a/, /i/ et /u/. L’organisation temporelle des gestes articulatoires des consonnes a été analysée. Le résultat montre que la stratégie employée par le locuteur pour produire les consonnes successives C1C2 est en faveur d’une hypothèse de coproduction. Donc, selon Marchal, l’organisation des gestes articulatoires ne peut pas être interprétée comme la simple concaténation de segments assimilés. La coarticulation est plutôt une conséquence de chevauchement entre les gestes articulatoires.

Boyce (Boyce et al. 1990) a aussi expliqué ses données sur la trajectoire labiale dans des séquences /i C1…..Cn u/ par l’hypothèse du chevauchement entre gestes. La figure 1.3 présente deux gestes théoriques associés avec deux segments en chevauchement, et une trajectoire lissée. Boyce a suggéré que le deuxième geste est un geste de la protrusion pour une voyelle arrondie /u/ et le premier geste est celui de la consonne précédente. Le point auquel le geste de protrusion commence varie selon la taille et la forme du geste de la consonne, et le timing relatif de ces 2 gestes. La figure 1.4 présente les mouvements de protrusion de la lèvre supérieure, pour six paires de séquences /kiktluk/ et /kiktlik/ enregistrées par un locuteur. Pour les séquences /kiktluk/, la protrusion de la voyelle /u/ montre une forme de « deux phases ». Il y a typiquement deux maxima d’accélération entre le début de protrusion et un maximum de protrusion. Le premier apparaît juste après le début du mouvement. Le maximum principal de protrusion apparait environ 100 ms après le début acoustique de la voyelle /u/. Une inflexion secondaire entre le début de protrusion et le maximum principal correspond au début de la deuxième phase. Le deuxième maximum d’accélération du mouvement de protrusion apparaît en ce moment. Après avoir comparé les séquences /kiktlik/ avec les séquences /kiktluk/, Boyce a indiqué que la première phase observée pour les séquences /kiktluk/ est due aux consonnes devant la voyelle /u/ plutôt qu’au résultat entier du geste de la voyelle. Cette inflexion secondaire pourrait refléter la frontière d’interaction entre les gestes pour les segments adjacents.

Figure 1.3 : Le chevauchement théorique des deux gestes (à gauche) et une trajectoire lissée du chevauchement (à droite). (Boyce et al. 1990).

Figure 1.4 : Mouvement de protrusion de la lèvre supérieure, pour six paires de séquences /kiktluk/ vs /kiktlik/. Le trait vertical représente le début acoustique de la deuxième voyelle. Le trait solide représente la séquence /kiktluk/ et le trait pointillé pour la séquence /kiktlik/ ; le symbole de « □ » représente le début et la fin de protrusion ; le symbole de « ■ » représente le maximum d’accélération. (Boyce et al. 1990).

1.2.2.2 Cohésion gestuelle

Certains phénomènes de coarticulation ont été expliqués par des caractéristiques de cohésion particulières entre certains gestes (Saltzman et Munhall, 1989 ; Browman et Goldstein, 1986, 1989). Browman et Goldstein (1986, 1989) ont ainsi proposé, dans leur théorie de la Phonologie Articulatoire, que les primitives phonologiques sont des constellations gestuelles (« cohesive bundles »). La cohésion des gestes est conçue en termes de stabilité de la phase ou de relations spatiotemporelles entre les gestes élémentaires dans une constellation donnée. Selon ces auteurs, ce sont ces primitives phonologiques qui pourraient être observées directement à partir du mouvement articulatoire. Dans la théorie de la Phonologie Articulatoire de Browman et Goldstein, les unités phonologiques sont définies comme des unités spécifiques de l’action articulatoire. Les gestes sont organisés par une propriété à la fois temporelle et spatiale. L’importance de cette théorie est l’identification des unités phonologiques avec des gestes et la proposition de constellations gestuelles.

L’intérêt de cette hypothèse a été bien illustré par des expériences de perturbation labiale et de leur impact sur les mouvements glottiques. Ainsi lors de la production des obstruentes sourdes (Munhall, Löfqvist et Kelso, 1986), des compensations laryngées ont été observées quand la lèvre inférieure a été perturbée pendant la production de l’obstruente. Particulièrement, si la lèvre inférieure est tirée en bas de façon inattendue juste avant la fermeture bilabiale, le geste laryngé est retardé. Ceci explique l’hypothèse de cohésion entre les gestes labiaux et glottiques proposée par Löfqvist et Yoshioka (1981).

1.2.2.3 Timing intrinsèque

Au-delà de la variabilité du positionnement des articulateurs qui peuvent expliquer les concepts de superposition et de cohésion gestuelle introduits par la théorie de la production, la notion de gestes a aussi offert un cadre pour interpréter les patrons temporels d’une séquence de parole. En effet, dans la conception des laboratoires Haskins, le geste est indissociable de la notion de système dynamique. La formalisation sous forme de modèle de la théorie de coproduction a en effet été réalisée dans le cadre du modèle de la dynamique de la tâche (« Task dynamics ») (Saltzman et Munhall, 1989 ; Kelso et al. 1986) où le geste est décrit comme le mouvement vers un attracteur dynamique dans l’espace des variables du conduit vocal qui caractérisent la géométrie du conduit vocal visée pour l’unité phonologique en cours de réalisation. Ainsi les caractéristiques temporelles du geste sont celles de l’attracteur dynamique. Elles sont intrinsèques au système dynamique. Fowler (1980) considère ainsi que la coproduction de geste pourrait être vue comme le couplage dynamique des systèmes dynamiques caractérisant chaque geste. Les évolutions temporelles des articulateurs concernés par ces gestes seraient alors inhérentes aux caractéristiques dynamiques des systèmes en interaction. Fowler (1980) parle de timing intrinsèque, c’est-à-dire découlant de la spécification des gestes, par opposition à un timing extrinsèque où l’évolution temporelle des articulateurs serait spécifiée par le Système Nerveux Central.

Cette proposition a été affirmée par Saltzman et Munhall (1989) qui ont proposé que le timing effectif soit la combinaison des effets des caractéristiques dynamiques des gestes et d’un séquencement externe déterminant les instanciations de chaque geste ou chaque groupe de gestes. Mais ils conservent cette idée clé selon laquelle le décours temporel des articulateurs est en partie déterminé par les caractéristiques des gestes coproduits.

Bell-Berti et al. (1979, 1981, 1991) ont exploité ce concept pour expliquer des données expérimentales sur l’anticipation de l’arrondissement labial et de l’abaissement du velum. Ces auteurs ont en effet observé que dans une séquence V1CV2, où V2 est arrondie (ou nasale) alors que V1 et C ne le sont pas, l’arrondissement (ou l’abaissement du velum) commence dans la consonne à moment fixe par rapport au début acoustique de V2. Cela donne l’idée principale du modèle « time locked » (Bell-Berti et Harris 1981). Contrairement au modèle « look-ahead », la durée d’anticipation dans le modèle « time locked » est indépendante de la longueur de la chaîne phonétique précédente. Dans le cadre de la théorie de geste dynamique, la régularité temporelle observée serait le résultat non pas d’un contrôle extérieur, mais bien celui du timing intrinsèque du geste d’arrondissement (ou d’abaissement du velum).

1.2.3 Planification de coarticulation