The uncanny valley
La synthèse des images
Alors que les premières images du Tintin de Peter Jackson et Steven Spielberg déclenchent leur lot de réactions circonspectes et de confusions sur le procédé employé, tentons de défricher la vallée où coule la source d'un nouveau cinéma.
ORIGINES PSYCHANALYTIQUES
Le concept de vallée dérangeante tient ses origines dans un essai de Sigmund Freud, intitulé Das Unheimliche, daté de 1919 et traduit en français sous le nom d"'Inquiétante Étrangeté". Une partie de l'essai tient sur cette difficulté de traduire ce terme allemand - unheimliche - aux sens très variés, que nous définirons comme quelque chose qui nous apparaît à la fois comme familier et étranger, telle une poupée qui nous paraît vivante.
Dans cet essai, on constate que Freud traite plus particulièrement d'esthétique et de fiction lorsqu'il relate ses exemples d'inquiétante étrangeté. Il utilise la nouvelle de E.T.A. Hoffman, L'Homme Au Sable dans laquelle le personnage principal tombe amoureux d'une dénommée Olympia, qui s'avère être un automate. Cet exemple est repris d'Ernst Jentsch, le premier à avoir élaboré le concept d'inquiétante étrangeté, qu'il met en avant comme la situation où l'on “doute qu'un être apparemment vivant ait une âme, ou bien l'inverse, si un objet non vivant n'aurait pas par hasard une âme”. (1) On y voit là l'origine du premier concept d'uncanny valley, appliqué aux robots et cyborgs, comme nous le verrons plus loin. Freud ne se satisfait pas de cette simple définition et liste de nombreux cas où se produit l'effet d'inquiétante étrangeté, comme le motif du double, la répétition non intentionnelle, les croyances primitives, etc.
Ces exemples relèvent à la fois d'expériences vécues et de littérature, mais Freud conclut que le sentiment d'inquiétante étrangeté est plus à même d'être suscité dans la fiction car “pour l'écrivain, nous représentons une malléabilité particulière”. Celui-ci fait plus facilement appel à nos complexes refoulés et provoque ainsi une angoisse susceptible de se transformer en sentiment d'inquiétante étrangeté, tandis que ces sensations sont plus fortuites dans les expériences vécues. De même, il faut que le genre et le style littéraire s'y prête : un conte ou une histoire d'heroic fantasy contiendra rarement ce genre d'évocation. Pour que l'effet d'inquiétante étrangeté puisse se produire, il est nécessaire que l'écrivain se place “sur le terrain de la réalité commune” afin de provoquer un contraste plus saisissant entre l'habituel et l'inhabituel :
“Un effet d'inquiétante étrangeté se produit souvent et aisément, quand la frontière entre fantaisie et réalité se trouve effacée, quand se présente à nous comme réel quelque chose que nous avions considéré jusque-là comme fantastique, quand un symbole revêt toute l'efficience et toute la signification du symbolisé.”
Le symbole, tel qu'il est évoqué dans cette citation, pourrait faire office de simulacre. Par exemple, l'automate symbolise un être humain, il est donc un simulacre d'être humain. Or lorsqu'un automate devient vivant dans une histoire, ou qu'il est confondu comme étant vivant, il revêt le propriétés de ce qu'il simule, ce qui produit un effet d'inquiétante étrangeté.
Et lorsque la simulation de quelque chose finit par en revêtir toutes ses propriétés, il n'est a priori plus possible d'établir une différence entre les deux. Ceci évoque la théorie de l'hyperréalité dans laquelle la simulation (ici, le symbole) se substitue à la réalité (le symbolisé). Nous allons maintenant tenter de démontrer en quoi la notion d'inquiétante étrangeté entretient des liens forts avec celle de la vallée dérangeante.
DE L'INQUIÉTANTE ÉTRANGETÉ À L'UNCANNY VALLEY
Comme nous l'avons mentionné, le phénomène de l'uncanny valley n'a pas été théorisé pour les images de synthèse à l'origine. Le terme est apparu en 1970 sous la plume du roboticien Masahiro Mori et s'appliquait au départ à la conception de robots faits pour ressembler aux humains. Dans son article de la revue Energy où apparaît le terme pour la première fois, Mori explique ce qu'est l'uncanny valley en prenant comme exemple une prothèse de main :
“Donc il est possible qu'une prothèse de main ait atteint un degré de ressemblance équivalent à celui d'une fausse dent. Mais ce genre de prothèse est bien trop réaliste, et lorsqu'on remarque qu'il s'agit d'une prothèse, cela provoque un sentiment d'étrangeté. Donc si nous serrons la main, nous sommes surpris par l'absence de tissus mous et de chaleur. Dans ce cas-ci, nous ne ressentons plus de familiarité. Cela est dérangeant. En termes mathématiques, l'étrangeté peut être représentée par une familiarité négative, donc la prothèse de main est au fond de la vallée. Donc dans ce cas, l'apparence est très humaine, mais la familiarité est négative. C'est ça la vallée dérangeante.”
En d'autres termes, lorsque l'objet simulé devient trop réaliste pour être immédiatement reconnu comme faux, notre esprit le reconnaît au préalable comme étant vrai, et l'effet d'uncanny valley intervient lorsqu'il prend conscience de la fausseté de cet objet après coup.
Cette relation est illustrée par la figure ci-dessous, qui nous montre une décorrélation entre le réalisme d'un simulacre d'être humain ou d'une partie d'être humain et la familiarité que nous entretenons avec lui. Nous retrouvons la prothèse de main (prosthetic hand) au creux de la vallée, et le zombie tout au fond, car ce qui nous paraît le plus familier et le plus dérangeant à la fois est un cadavre de nouveau animé. La bunraku puppet, une marionnette en bois utilisée pour un certain type de théâtre japonais, se situe à la sortie de la vallée. Le graphique montre également que des objets en mouvement accentuent les effets de familiarité ou d'étrangeté, car comme Mori l'indique dans son article : “Le mouvement est généralement signe de vie”.
Le même concept a depuis été utilisé pour désigner des images de synthèse, apparemment réalistes, mais qui provoquent néanmoins un sentiment de malaise ou de faux patent chez les spectateurs. Le fait que le terme soit passé d'un domaine à un autre nous paraît évident puisqu'il s'agit dans les deux cas de simulation, et il semblerait donc que les simulations mécaniques et numériques partagent les mêmes enjeux au niveau des relations existantes entre le réalisme et le familier, qui ne vont pas nécessairement de pair (2).
Cet effet a été popularisé au milieu des années 2000 avec l'apparition de la performance capture, procédé permettant de capturer et retranscrire le jeu des acteurs sur des personnages de synthèse qui a été utilisé dans des films comme The Polar Express (Robert Zemeckis, 2004) et La Légende De Beowulf (Robert Zemeckis, 2007) avec des résultats mitigés du point de vue des critiques. Ces procédés seront ensuite repris et améliorés par le développement d'Avatar de 2004 à 2009.
Il nous semble que l'effet de l'uncanny valley existait avant cela et entretient des liens avec la notion d'hyperréalité. Des films comme la prélogie Star Wars comportaient déjà des effets d'uncanny valley. Par exemple, la marionnette du personnage de Yoda remplacée par sa contrepartie numérique entre l'épisode I et II. Alors que la marionnette paraissait suffisamment convaincante pour établir une “suspension temporaire de l'incrédulité”, pour reprendre les termes de Samuel T. Coleridge, sa version numérique fut décriée par les fans, dont un ira jusqu'à la comparer à un “Pikachu vert inefficace”. (3)
Pourtant, l'intention de George Lucas était de respecter ses fans en créant un Yoda en images de synthèse se basant sur la marionnette datant de L'Empire Contre-Attaque (1980). Il est possible que l'uncanny valley intervienne à ce moment-là : la marionnette de Yoda est un simulacre de créature vivante rendue crédible grâce à des procédés cinématographiques (cadrages, décors, etc.), tandis que le Yoda en images de synthèse est une simulation de ce simulacre. De ce fait, il rajoute un degré supplémentaire de simulation, c'est à dire qu'il passe de “signes qui dissimulent quelque chose” (le marionnettiste qui anime Yoda) à “des signes qui dissimulent qu'il n'y a rien” (4) (il n'y a plus de marionnettiste, mais on voudrait nous faire croire qu'il s'agit encore de la marionnette à laquelle nous sommes familiers). En se basant sur une marionnette pour créer un personnage de synthèse, Lucas a produit “la génération par les modèles d'un réel sans origine ni réalité” (Beaudrillard).
Or, c'est précisément une des occurrences d'hyperréalité que Jean Baudrillard nous donne dans Simulacres Et Simulation, et c'est par celle-là que nous voulons étendre le concept de vallée dérangeante au cinéma. En effet, depuis 1999, nous avons franchi une étape : nous ne réagissons plus aux défauts d'une image de synthèse mais à son hyperréalité, comme les mouvements des oreilles de Yoda, ses haussements de sourcils et la fluctuation de ses cheveux animés indépendamment, tous d'un “réalisme” saisissant, mais de quelle réalité ?
Les films d'animation, pionniers en matière d'imagerie de synthèse, ne souffrent pas du problème de l'uncanny valley (5) car ils n'optent pas pour une approche de simulation, mais d'imitation grossière ou de caricature - dans une interview, Pete Docter (Monsters, Inc., Up!) utilise le mot stylized. Dans le générique de fin de Ratatouille (Brad Bird, Jan Pinkava, 2005) des studios Pixar, apparaît la mention “100% Pure Animation - No Motion Capture!”, soulignant ainsi la différence de finalité existante entre les films d'animation et les tentatives de simulations réalistes dans les films dit live. (6)
DISSONANCE COGNITIVE
Alors que les aspects stylisés des personnages d'animation parviennent à suspendre notre incrédulité, les tentatives de simulations d'être humains sont devenues trop réalistes et nous font réagir inversement. Une partie de nous voudrait croire que nous voyons un vrai acteur, mais notre inconscient, pour nous protéger du faux ou de la duperie, se met en alerte et insiste sur les défauts visibles de la simulation. Dans un article sur le site Animation World Network, Peter Plantec, animateur, infographiste, auteur de livres sur le design de personnage virtuel et également psychologue, nous explique que cette réaction est due à une dissonance cognitive.
Notre inconscient fonctionnerait de façon beaucoup plus primitive que notre conscience. Ainsi, lorsque nous avons affaire à un personnage de synthèse suffisamment réaliste en apparence, notre inconscient fonctionnerait comme s'il ne réagissait non pas à une fiction, mais à la réalité. Ce faisant, il s'attendrait à ce que ce personnage, en plus de son apparence, ait toutes les caractéristiques propres d'un être humain, soit le langage du corps, les expressions subtiles du visages et les micro-mouvements aux extrémités des membres.
Or, le mouvement est précisément ce qui est le plus difficile à reproduire numériquement. Tandis que la création d'une image de synthèse photo-réaliste d'un être humain est quelque chose de plus en plus plausible. Des techniques comme la motion capture (abrégée MoCap), apparue au cinéma depuis la fin des années 90, cherchent à reproduire les mouvements des acteurs, mais lorsque la capture n'est pas suffisamment fidèle, celle-ci plonge immédiatement les personnages dans les affres de l'uncanny valley. “Une motion capture dégueulasse mettra toujours fin à l'illusion” dit-il.
D'après Plantec, la solution pour franchir la vallée dérangeante serait plus d'ordre artistique et psychologique que technologique. Il puise des éléments de réponse dans un article du journal Variety à propos de Rob Legato (superviseur des effets spéciaux de Titanic, Harry Potter et dernièrement Avatar), qu'il surnomme “gourou” des effets spéciaux. Pour dépasser l'uncanny valley, celui-ci conseille d'éviter le réalisme à tout prix et de libérer le réalisateur des contraintes imposées par l'ordinateur.
Ces paroles ne sont pas anodines, car ce sont les procédés qu'il a lui-même mis en place pour la réalisation d'Avatar, probablement le premier film à nous montrer des images provenant de l'autre côté de cette fameuse vallée.
(1) Ernst Jentsch, cité dans Sigmund Freud, L’Inquiétante Étrangeté Et Autres Essais, Folio. Gallimard (1988 [1919]).
Nous retiendrons la deuxième partie de la citation qui pourrait s'appliquer à tout simulacre d'êtres vivants, qu'ils soient mécaniques ou en images de synthèse.
(2) À ce sujet, on peut noter que les histoires cyberpunks, notamment Ghost In The Shell (Mamoru Oshii, 1995), mélangent souvent simulacres d'êtres humains (cyborgs, membres bioniques...) avec des simulations numériques, qui font tous les deux partie des interrogations de ce genre. L'oeuvre de Philip K. Dick, considéré comme un précurseur du cyberpunk, reposait essentiellement sur deux questions : qu'est-ce que l'humain et qu'est-ce que le réel ?
(3) E.A. Hernandez, “Yoda ? Give us back the real Yoda” - http://www.hackwriters.com/Yoda.htm (2003).
(4) Jean Baudrillard, Simulacres Et Simulations, Éditions Galilée (1981)
(5) Hormis peut-être Final Fantasy: The Spirits Within (Hironobu Sakaguchi, 2001) dont l'intention était de créer les premiers acteurs virtuels. Ceux-ci n'ayant pas de base concrète dans la réalité, la définition de Baudrillard s'applique également.
(6) Le terme live est utilisé pour distinguer un film avec de vrais acteurs d'un film d'animation. Avec la performance capture, la distinction ne se fait plus aussi simplement, sachant que les corps apparaissant à l'écran sont entièrement faits d'images de synthèse. Néanmoins, nous qualifierons de live les films cherchant à retranscrire le jeu de vrais acteurs dans leur personnage.
Retrouvez d'autres articles de Laurent sur Sérialogies.