Literatura en el laboratorio -  - E-Book

Literatura en el laboratorio E-Book

0,0

Beschreibung

¿Es posible que un programa informático identifique géneros literarios igual que el raciocinio humano?, ¿que pueda secuenciar por completo un conjunto de novelas para rastrear la peculiaridad del fenómeno estilístico? Las investigaciones de Franco Moretti y su equipo, el Stanford Literary Lab fundado en el 2010, lo han confirmado: podemos servirnos de los sistemas computacionales para analizar al detalle los géneros de la novela, buscar patrones en la disposición de las palabras más frecuentes y escudriñar las capas de sentido interconectadas. Pero, sin duda, una de las novedades más importantes surgidas a raíz de la digitalización de los estudios literarios es la capacidad de cartografiar el vasto e inexplorado continente de la literatura (The Great Unread): "Antes solíamos trabajar con unas doscientas novelas del siglo XIX, pero ahora podemos analizar miles o decenas de miles y pronto centenares de miles; es como si, de repente, dispusiéramos de un telescopio con el que podemos observar galaxias desconocidas".  En este viaje exploratorio hacia el "genoma narrativo", Literatura en el laboratorio logra contagiar la pasión de un riguroso proceso de investigación que, no exento de dificultades, abre puertas revolucionarias para los estudios literarios.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 365

Veröffentlichungsjahr: 2018

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Franco Moretti (coord.)

Literatura en el laboratorio

Herramientas universitarias

literatura

Franco Moretti (coord.)

Literatura en el laboratorio

Título original en inglés: Literary Lab

© Franco Moretti y de los autores, 2018

© De la traducción: Antonio Rojas Castro

Corrección: Marta Beltrán Bahón

Cubierta: Juan Pablo Venditti

Primera edición: marzo de 2018, Barcelona

Derechos reservados para todas las ediciones en castellano

© Editorial Gedisa, S.A.

Avda. Tibidabo 12, 3.°

08022 Barcelona, España

Tel. 93 253 09 04

[email protected]

www.gedisa.com

Preimpresión:

Moelmo, S.C.P.

eISBN: 978-84-16919-84-0

Queda prohibida la reproducción total o parcial por cualquier medio de impresión, en forma idéntica, extractada o modificada, en castellano o cualquier otro idioma.

Índice

La medida de la literatura. . . . . . . . . . . . . . . . . . . . . . . . . .9

Franco Moretti

Formalismo cuantitativo: un experimento. . . . . . . . . . . . . .19

Sarah Allison, Ryan Heuser, Matthew Jockers, Franco Moretti y Michael Witmore

El estilo a la escala de la frase. . . . . . . . . . . . . . . . . . . . . . .55

Sarah Allison, Marissa Gemma, Ryan Heuser, Franco Moretti, Amir Tevel y Irena Yamboliev

Sobre los párrafos. Escala, temas y forma narrativa. . . . .97

Mark Algee-Hewitt, Ryan Heuser y Franco Moretti

Canon/archivo. Dinámicas de largo alcance y campo literario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .131

Mark Algee-Hewitt, Sarah Allison, Marissa Gemma, Ryan Heuser, Franco Moretti y Hannah Walser

Las emociones de Londres. . . . . . . . . . . . . . . . . . . . . . . . . .183

Ryan Heuser, Franco Moretti y Erik Steiner

Patrones e interpretación. . . . . . . . . . . . . . . . . . . . . . . . . . .219

Franco Moretti

9

La medida de la literatura

Literatura en el laboratorio

La medida de la literatura

Franco Moretti

Nuestro primer panfleto. En 2010, ninguno de los cinco autores del «Formalismo cuantitativo» tenía la menor idea de que estaba escribiendo un «panfleto». Una conocida revista aca-démica nos había pedido un artículo sobre nuevos enfoques crí-ticos, así que enviamos el texto a los editores; pero nos lo devol-vieron con tantas peticiones de cambio que nos lo tomamos como un rechazo total. Fue decepcionante; entonces la crítica compu-tacional estaba mal vista en el mundo académico, no podíamos dejar de pensar que su negativa no sólo se dirigía a nuestro ar-tículo, sino que iba dirigida a toda una perspectiva crítica. Pues-to que seguíamos defendiendo la calidad del ensayo, en vez de probar suerte con otra revista o —Dios no lo quiera— en vez de introducir las modificaciones requeridas, decidimos publicar el texto por nuestra cuenta como un documento del Literary Lab. No puedo recordar cómo surgió el término «panfleto» y, franca-mente, ni siquiera resulta apropiado: los panfletos tienen una vocación pública; en cambio, nuestro trabajo carecía de tal di-mensión y, además, incorporaba muchos aspectos técnicos. Pero la palabra capturó la euforia que nuestra independencia nos procuraba, así como la libertad de publicar lo que queríamos, cuándo y como queríamos. De extensión corta, larga e incluso muylarga, nuestros panfletos se han publicado siempre en el momento exacto en que considerábamos que estaban listos —ni un minuto antes ni un minuto después—; y sin tener que pasar por el molinillo de un «estilo» editorial concreto. Y todo esto por-que el trabajo titulado «Formalismo cuantitativo» fue rechaza-

10

La medida de la literatura

Literatura en el laboratorio

do por... No importa el título de la revista; de hecho, nos hicieron un favor.

Meandros y tanteos. «Nada es tan raro como un plan» son palabras atribuidas a Napoleón; ciertamente, hemos llegado a la conclusión de que tenía razón. Nunca sabemos por dónde saldrá el siguiente panfleto: algunos han sido realizados por un solo autor como parte de un trabajo de final de grado («Loudness in the Novel») o de una tesis doctoral («Becoming Yourself: the Af-terlife of Reception»); otros son el resultado de la afinidad elec-tiva de una pareja de investigadores que suelen trabajar bien juntos («A Quantitative Literary History of 2.958 Nineteenth No-vels: the Semantic Cohort Method»; «Between Canon and Cor-pus: Six Perspectives on 20th-Century Novels»; «Bankspeaks: the Language of World Bank Reports, 1946-2012»), y otros tantos han surgido de la compleja polifonía derivada de un grupo de inves-tigadores más numeroso («Formalismo cuantitativo», cap. 2; «El estilo a la escala de la frase», cap. 3; «Sobre los párrafos. Escala, temas y forma narrativa», cap. 5; «Canon/archivo. Dinámicas de largo alcance y campo literario», cap. 6).1Con el tiempo, sin em-bargo, un equipo de cinco o seis investigadores se ha convertido en la formación más frecuente y la que mejor encarna la nove-dad del trabajo de laboratorio. Por ejemplo, en «El estilo a la es-cala de la frase», empezamos dividiendo las tareas iniciales en-tre cada uno de los integrantes del equipo; no tardamos mucho en ponernos en desacuerdo sobre el camino que debíamos seguir; más tarde se abrieron algunas posibilidades que investigar y lue-go se abandonaron; durante el primer año hubo dos o tres pre-sentaciones colectivas en el laboratorio; mientras tanto, algunos paréntesis de trabajo solitario, discusiones en grupos pequeños y ríos de correos electrónicos; más tarde, una larga coda de bo-rradores, discusiones y reformulaciones, etc. Los últimos meses fueron cruciales para la sección final del panfleto en donde con-vertimos dos años de hallazgos empíricos en conjeturas teóricas. «Sin los conceptos de la segunda parte —escribimos entonces— los resultados de la primera permanecerían ciegos; y sin el con-tenido empírico de la primera parte, las categorías empleadas

1. Todos los panfletos pueden descargarse en inglés desde la web del Lite-rary Lab: https://litlab.stanford.edu/pamphlets/.

11

La medida de la literatura

Literatura en el laboratorio

hacia el final de este capítulo estarían vacías». En ese momento no lo sabíamos, pero acabábamos de poner en palabras el conti-nuo vaivén entre lo empírico y lo conceptual que caracterizaría toda nuestra investigación futura.

Trabajo. Laboratorium, laborare, labor. Tal es la definición de un laboratorio: un lugar en donde trabajar, en grupo casi siem-pre. Ahora que tengo la experiencia en una variedad de formas (grupos pequeños y grandes, estudiantes y profesores, de la mis-ma disciplina y universidad o de diferentes), diría que casi todos los proyectos pasan por dos etapas muy diferentes. En la fase ini-cial, el grupo funciona como un solo organismo, donde cada indi-viduo lleva a cabo una tarea específica. La primera tarea consis-te en programar; Matt Jockers sentó las bases incluso antes de que se inaugurara oficialmente el laboratorio y Ryan Heuser sos-tuvo el trabajo de programación a lo largo de los años con un ta-lento imaginativo excepcional y con unas implicaciones matemá-ticas que sólo nos han sido aclaradas hace poco gracias a Mark Algee-Hewitt. Sobre la base de la programación, se puede lograr mucho más: desde el perfeccionamiento del corpus hasta el aná-lisis de los resultados iniciales; desde la revisión de la literatu-ra crítica hasta el diseño de experimentos de seguimiento. Esta división funcional del trabajo, cuyos resultados ningún erudito podría lograr de forma aislada, es claramente indispensable para la investigación moderna. Pero la segunda etapa del trabajo en grupo es, si cabe, mejor incluso. Ahora, el equipo se sienta alre-dedor de una mesa —la mesa de laboratorio es una herramien-ta tan esencial como el equipamiento más costoso— y discute cómo dar sentido a los resultados. Aquí, la integración eficiente de la primera etapa da paso a un torbellino de asociaciones dis-pares: C reflexiona sobre el lenguaje de un extracto específico y A sobre las categorías históricas que podrían explicarlo; F re-cuerda algo que D había dicho unos meses antes (y que había ol-vidado); E reconoce un patrón gramatical, para el cual B sugie-re una explicación evolutiva... Todos los investigadores traen en esta fase sus intereses e incluso sus fijaciones. A veces, hay mu-cho ruido. Pero en algunos momentos mágicos, el grupo se con-vierte en algo más que la suma de sus partes y «ve» cosas que un par de ojos en solitario no podría ver. Si en los panfletos que si-guen hay descubrimientos genuinos, son fruto de estos momen-tos mágicos.

12

La medida de la literatura

Literatura en el laboratorio

Adagietto. Un ensayo científico compuesto como una sinfo-nía de Mahler: registros discordantes que apenas logran coexistir; un movimiento hacia delante interminablemente desviado; las melodías más sencillas, seguidas de saltos hacia lo desconoci-do. A menudo he intentado escribir así, y siempre he fracasado. Ahora bien, con los panfletos, la forma ha surgido sin buscarla. Se despliega a lo largo de cuatro niveles distintos, casi equivalen-tes: imágenes, pies de foto, texto y notas a pie de página. Imáge-nes, en primer lugar: gráficos temporales, histogramas, árboles, redes, diagramas, gráficos de dispersión... En nuestros panfletos, las imágenes son lo primero porque, al visualizar los hallazgos empíricos, constituyen el objeto de estudio de la crítica compu-tacional; son nuestro «texto», la contraparte del análisis textual. Junto a las figuras, e igualmente de naturaleza nueva, hallamos los pies que ilustran las figuras: casi ausentes en los primeros panfletos, se han convertido desde entonces en algo tan esencial para nuestro trabajo como las descripciones en la historia del arte o las observaciones en los informes científicos; escribirlos nos ha enseñado a observar más atentamente y a declarar lo que «vemos» en todas las figuras, anunciando así cuáles serán los primeros pasos del análisis. Después de las imágenes y los pies de las figuras, hay que destacar el cuerpo principal del tex-to: en parte amenazado y comprimido por los dos recién llega-dos, el texto se ve obligado a ser más ajustado y preciso: debe te-jer los cuatro registros en un solo argumento sin privarlos de su nueva autonomía; debe ser narrativo yteórico; debe tomar una secuencia de eventos aislados y transformarlos en una cuadrícu-la conceptual; y todo esto ¡en menos páginas que la mayoría de artículos académicos! Es difícil, pero resulta necesario para la claridad de la argumentación. Y luego, si realmente se necesita más espacio, siempre están las notas a pie de página: el espa-cio donde ponemos sobre la mesa nuestras fichas bibliográficas, examinamos alternativas teóricas y fantaseamos con estudios futuros; una mezcla de tareas, polémicas y especulaciones que añade un giro subterráneo a la complejidad del conjunto. Para hacer justicia a esta arquitectura heterogénea —para hacerla visible— nuestro diseñador Jake Coolidge ha inventado un mo-delo de «página» compuesta por tres grandes columnas, donde los cuatro registros se turnan en combinaciones impredecibles. Tiene algo de extraño, maravilloso y un poco de perturbador, ver tu pensamiento reflejado de manera tan nítida en la forma de la

13

La medida de la literatura

Literatura en el laboratorio

página. A veces, más que Mahler, nos sentimos como Tristram Shandy.

Pasado y presente. A principios de los noventa, cuando in-tentaba crear de manera colectiva un Atlas de la Literatura Mun-dial, Fred Jameson sugirió que registrar en un libro toda la em-presa sería un documento valioso en sí mismo. Puesto que las agencias de financiamiento rechazaron el Atlas, ese cuaderno de bitácora original nunca se materializó; pero la idea de Jameson resurgió, veinte años después, en el informe detallado que carac-teriza nuestros panfletos. El reportaje es la forma adecuada para exponer la dimensión «exploratoria» de las humanidades digita-les porque nos ayuda a rastrear las incursiones en la inmensi-dad del nuevo archivo digital, anclándolas a hechos sólidos: se han encontrado tales datos, aquí están, negro sobre blanco. De esta manera, más tarde, al registrar las dudas y las decisiones del proceso de investigación, se comprende perfectamente lo que se ha hecho. No es por casualidad que muchas de nuestras pági-nas se redactaron inicialmente en tiempo pasado y luego, duran-te la fase de revisión, pasamos a utilizar el presente; de hecho, no está del todo claro si el cometido principal consiste en rela-cionar un momento específico en el desarrollo de la investigación pasada o bien en presentar una tesis relevante para la discusión que está sucediendo en el presente. Y no está claro, porque la ma-yor parte del tiempo ambas cosas son importantes. Así, una sec-ción de «El estilo a la escala de la frase» comienza explicando cómo se correlacionaron formas verbales y géneros novelísticos; ahora bien, en el espacio de cuatro o cinco párrafos el texto se convierte en una discusión sobre cómo la novela de formación dio forma a la idea de la juventud moderna (véase capítulo 3, sec-ción 6). Una vez más estamos ante la combinación de unos resul-tados empíricos y de un trabajo conceptual. Pero, como veremos a continuación, el proceso no siempre es tan modélico.

«Hasta que un hombre está seguro de que es infali-ble...» Los fracasos desempeñan un papel muy especial en el paso del informe a la reflexión. Como escribieron Shapin y Shaffer, Robert Boyle consideraba que «en los orígenes de la ciencia ex-perimental era necesario [...] ofrecer a los lectores las circuns-tancias de los experimentos fallidos», porque demostraban que él «no estaba ocultando deliberadamente las pruebas que no le

14

La medida de la literatura

Literatura en el laboratorio

convenían»; de esta manera, aseguraba a sus lectores «que era un hombre de palabra en el que se podía creer».2Sin duda, la exposición de los fracasos tiene que ver con la persuasión por-que los errores contribuyen a hacer la narración entretenida; asimismo, la autocrítica es siempre una buena manera de anti-ciparse a los ataques de los demás. Con todo, la principal razón para exponer los fracasos no es intentar captar la benevolencia de los lectores sino el hecho de que los experimentos fallidos arro-jan luz sobre el proceso de investigación en su totalidad. Los fra-casos nos llevan de vuelta a nuestro punto de partida, a los pre-supuestos no expresados, implícitos, que escapan a menudo del juicio crítico. Por ejemplo, la búsqueda del núcleo semántico de la forma trágica en los momentos de máximo conflicto se apoya-ba en la suposición de que, en el drama, las palabras y los he-chos están en sincronía unos con otros; al descubrir que esto no era cierto en los casos analizados, demostramos que la teoría de la tragedia necesitaba ser replanteada desde la raíz. Asimis-mo, la búsqueda del estilo a la escala del párrafo —y, de nuevo, la imposibilidad de encontrarlo— nos convenció de que una teoría jerárquica del texto literario (como la de la estilística) no podía ser correcta y abrió el camino a nuevas hipótesis acerca de la esca-la textual. Como escribió Karl Popper en La lógica de la investi-gación científica, «lo que puede producir un avance decisivo [es a menudo] la modificación de lo que nos inclinamos a considerar como evidentemente inocuo [debido a que concuerda con nuestra forma habitual de pensar]».3Exactamente. Al frustrar nuestras expectativas, los experimentos fallidos «enajenan» nuestros pen-samientos habituales, ofreciéndonos la oportunidad de transfor-marlos. O como Boyle dijo hace cuatro siglos de manera memo-rable: «Hasta que un hombre esté seguro de que es infalible, no conviene que su naturaleza sea inalterable».4

2. Steven Shapin y Simon Shaffer, Leviathan and the Air-Pump. Hobbes, Boyle, and the Experimental Life, Princeton UP, 1985, págs. 64-65. Traducción es-pañola: El Leviathan y la bomba de vacío: Hobbes, Boyle y la vida experimental, Buenos Aires: Universidad Nacional de Quilmes Editorial, 2005.

3. Karl Popper, The Logic of Scientific Discovery, 1934, Haper and Row, Nue-va York, 1965, pág. 76. Traducción española: La lógica de la investigación cientí-fica, Madrid, Tecnos, 2008.

4. Robert Boyle, «A Proemial Essay, wherein, with some Considerations touching Experimental Essays in general, Is interwoven such an Introduction to all those written by the Author, as is necessary to be perused for the better un-

15

La medida de la literatura

Literatura en el laboratorio

¿Entonces?En todas las conferencias sobre las humani-dades digitales siempre hay un momento en que alguien levan-ta la mano y dice: «Ok, interesante. Pero ¿es realmente nuevo?». Buena pregunta... conviene dejar de lado algunas líneas de defen-sa demasiado obvias, como «¡pero la disciplina sigue estando en pañales!», o bien «¿acaso la crítica literaria tradicional siempre ofrece conocimiento nuevo?». Todo esto es verdad y al mismo tiem-po resulta irrelevante; dado que las humanidades digitales se han presentado como una ruptura radical con el pasado es lógico que se esperen pruebas fehacientes de tal ruptura. Pero las pruebas, seamos francos, no son concluyentes y pueden presentarse bajo múltiples formas. Para empezar, hay que tener en cuenta un he-cho en parte paradójico: en un nuevo enfoque no todo debe ser innovador. Así, cuando demostramos, en el panfleto «Network Theory, Plot Analysis», que la red de Hamlet tenía como centro a Hamlet (panfleto 4), el New York Timesseñaló el pasaje como un signo inequívoco de estupidez. Quizás lo sea; pero lo impor-tante no era presentar la centralidad de Hamlet como si fuera un resultado inesperado, sino precisamente lo contrario: si el nuevo enfoque nohubiera encontrado a Hamlet en el centro de la obra, su credibilidad se habría desintegrado. Antes de usarla teoría de redes para el análisis dramático, tuve que probarlay probar que confirmaba los resultados principales obtenidos en investigaciones previas. Por desgracia, la corroboración de este tipo de fenómenos es a menudo aburrida para los humanistas (y para los periodistas inteligentes); pero durante mucho tiem-po ha desempeñadoun papel muy relevante en la investigación científica y su introducción en nuestro campo es un logro, no una debilidad de las humanidades digitales. Además, rara vez la corroboración es sólo una mera corroboración. A grandes ras-gos, «Sobre los párrafos» valida un enfoque temático de la lite-ratura; pero al hacerlo, también descubrimos que los temas tie-nen una afinidad electiva en la escala del párrafo (capítulo 5); que el párrafo típico tiene, no uno, sino entre dos y cuatro temas distintos; que la conexión entre la tematología y la narratología descansa precisamente en este número plural, aunque limitado. Y así sucesivamente... La tematología no ha experimentado una

derstanding of them», The Works of the Honourable Robert Boyle, ed. Thomas Birch, 2. ed., Londres: J.&F. Rivington, 1772. Vol. I, pág. 311.

16

La medida de la literatura

Literatura en el laboratorio

revolución, pero ciertamente ha cambiado y, por qué no, tam-bién se ha visto mejorada. En «El estilo a la escala de la frase» (capítulo 3) fue el «encuentro entre conceptos y medidas» y, unos meses más tarde, constatamos que dicho encuentro había «radi-calizado nuestra relación con los conceptos»; radicalización, por-que cuando hay que convertir un concepto en una serie de opera-ciones, éste se percibe de forma analítica, lo que abre el camino a su crítica. Por ejemplo, pienso en cómo cambió el concepto de «escala» a lo largo de tres de investigaciones: en «Formalismo cuantitativo» era todavía una metáfora del «mortero, los ladri-llos y la arquitectura»; en «El estilo a la escala de la frase» en-contró un sólido anclaje textual en la oración; y luego, en «Sobre los párrafos», se generalizó mediante la fórmula «diferentes es-calas, diferentes rasgos». Es fascinante observar cómo una serie de mediciones cuantitativas entran en diálogo con los conceptos y los transforman lentamente. En este sentido, la computación no vuelve nuestro trabajo más rápido. Es cierto que los datos son recopilados y analizados a una velocidad asombrosa, pero la explicación de esos resultados —a menos que te contentes con el primer lugar común que te pase por la cabeza— es una historia diferente; sólo la paciencia sirve. Para la rapidez, nada es mejor que la interpretación tradicional: el «Nautilus» de Verne simbo-liza la infancia; el conde Drácula es un símbolo de la acumula-ción de capital. En un segundo todo cambia. Por el contrario, en el laboratorio la investigación conlleva meses de trabajo.

Triangulaciones.A medida que los conceptos cobraban más importancia, también lo hizo nuestro compromiso con las teorías existentes. Tres áreas intelectuales distintas han sido particularmente significativas en este sentido. La primera es la gran tradición formalista —desde los formalistas rusos hasta la estilística de Spitzer y Auerbach—, algunos aspectos del es-tructuralismo y el trabajo reciente de la lingüística de corpus. Este linaje es el más cercano al que nos sentimos al hablar de objetos y categorías como «morfología», «género», «registro», «sis-tema» o «estilo». Puesto que la forma es el elemento repetible de la literatura, es también el lugar hacia el cual nos dirigimos para poner en marcha el proceso de cuantificación. Así, por ejemplo, en «Canon/archivo» quisimos operacionalizar la diferencia entre el canon y el archivo no a través del contenido semántico, sino en términos formales como la redundancia y la variedad léxica (ca-

17

La medida de la literatura

Literatura en el laboratorio

pítulo 5). Después de este primer linaje, claramente literario, viene uno que no lo es en absoluto: la epistemología de las cien-cias naturales, tomada en un sentido amplio. En esta fuente he-mos encontrado inspiración al azar: por ejemplo, hemos tomado prestado el análisis de los componentes principales de la gené-tica, la teoría de redes de las matemáticas y la física, y el con-cepto de entropía de la teoría de la información —sin mencio-nar nociones específicas como «medición» (Kuhn), «instrumento» (Koyré) o «normal/patológico» (Canguilhem), que han jugado un rol destacable en más de un proyecto—. La necesidad de tradu-cir por partida doble —de los objetos naturales a los objetos li-terarios y de los conceptos a los algoritmos— pasó a formar par-te de nuestro trabajo y definió nuestra visión de las humanidades digitales entendidas como la forma que adquiere una ciencia ex-plicativa en la era digital. Triangular a Canguilhem con gráficos con información sobre la ratio type-tokeny novelas olvidadas de la época victoriana o bien triangular a Koyré con estadísticas obtenidas mediante un análisis de redes junto con el papel juga-do por los personajes secundarios en las obras teatrales; he aquí nuestra manera de entender la novedad de las humanidades di-gitales. Finalmente, la tercera presencia importante es Bourdieu. Por una razón u otra, la obra de Bourdieu se evoca en «Formalis-mo cuantitativo» y en «El estilo a la escala de la frase» y forma parte de las premisas desarrolladas en «Canon/archivo». Como es sabido, Bourdieu representa un estudio literario que es empíri-co y sociológico. Ahora bien, también representa algo menos evi-dente y desconcertante: la casi ausencia en las humanidades di-gitales y en el trabajo realizado en el Literary Lab de ese otro enfoque sociológico que es la crítica marxista. Esta disyunción —mutua porque la indiferencia de la crítica marxista hacia las humanidades digitales sólo ha dado lugar a textos acusatorios de complicidad con la mercantilización de la universidad— es des-concertante si tenemos en cuenta el vasto horizonte social que los archivos digitales podrían abrir al materialismo histórico, así como la profundidad crítica que éste último puede aportar a la «imaginación computacional». Es una situación extraña y no sa-bemos cómo contribuir a cambiarla. Por ahora, reconozcamos que así es como están las cosas y que —al menos para quien escribe estas líneas— hay que hacer algo para que cambien; sería estu-pendo que, algún día, el Big datapropiciara la formulación de Big questions.

19

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

Formalismo cuantitativo: un experimento

Sarah Allison1, Ryan Heuser2, Matthew Jockers3, Franco Moretti y Michael Witmore4

Este capítulo presenta los resultados de un estudio realiza-do por cinco investigadores —cuatro de la Universidad de Stan-ford y uno de Universidad de Wisconsin— que tiene por propó-sito averiguar si un algoritmo generado por ordenador puede «reconocer» un género literario. Por ejemplo, si tomamos en con-sideración la novela David Copperfieldy procesamos el texto con un programa sin intervención humana (o, como se suele decir, de manera «no supervisada»), ¿el algoritmo será capaz de com-prender que se trata de una novela de formación y no de una no-

1. Sarah Allison obtuvo un doctorado en la Universidad de Stanford y es especialista en literatura romántica inglesa. Actualmente, es profesora en la Uni-versidad de Loyola (New Orleans).

2. Ryan Heuser cursa estudios de doctorado en la Universidad de Stanford; su especialidad es la literatura inglesa del siglo xix; entre 2011 y 2015 fue Direc-tor Asociado de Investigación del Stanford Literary Lab.

3. Matthew Jockers es co-fundador del Stanford Literary Lab. Actualmen-te, es decano y profesor en la Universidad de Nebraska. Ha publicado libros como Macroanalysis. Digital Methods and Literary History (2013), Text Analysis with R for Students of Literature (2014) y The Bestseller Code: Anatomy of the Blockbuster Novel (2016).

4. Michael Witmore es director de la Folger Shakespeare Library. Anterior-mente, fue profesor de literatura inglesa en la Universidad de Wisconsin-Madison. Ha publicado numerosos libros sobre Shakespeare y sobre el Renacimiento inglés como Shakespearean Metaphysics(2009).

20

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

vela gótica? La respuesta a la pregunta es afirmativa: sí, a gran-des rasgos, sí. Ahora bien, son tantas las complicaciones que es necesario tener en cuenta el proceso por completo. Nuestra me-todología es novedosa y, por este motivo, el proceso es casi tan importante como los resultados.

1. Prólogo: Docuscope lee a Shakespeare

Durante el otoño de 2008, Franco Moretti estaba de visita en la Universidad de Madison, en donde tuvo ocasión de conocer el trabajo sobre el teatro de William Shakespeare de Michael Witmore y Jonathan Hope. La investigación consistía en utili-zar un programa llamado Docuscope para etiquetar un corpus de textos seleccionados cuidadosamente e integrado por millo-nes de palabras inglesas (así como secuencias) con el objetivo de clasificar los componentes en categorías gramaticales, semánti-cas y retóricas.5

En esencia, Docuscope es un diccionario inteligente. Se compone de una lista de más de 200 millones de secuencias de palabras en inglés clasificadas en una de las 101 categorías lin-güísticas funcionales conocidas como «Tipos de Acciones Lingüís-ticas» (TAL).6Cuando Docuscope «lee» un texto, busca palabras

5. Véase Jonathan Hope y Michael Witmore, «The Very Large Textual Object: A Prosthetic Reading of Shakespeare», Early Modern Literary Studies9.3 (enero de 2001): 6.1-36; Witmore y Hope, «Shakespeare by the Numbers: On the Linguistic Texture of the Late Plays» en Early Modern Tragicomedy, eds. Subha Mukherji y Raphael Lyne (Londres: Boydell and Brewer, 2007), 133-153; Hope y Witmore, «The Hundredth Psalm to the Tune of “Green Sleeves”: Digital Approaches Sha-kespeare’s Language of Genre», Shakespeare Quarterly61.3, «Número especial: New Media Approaches to Shakespeare», ed. Katherine Row (otoño de 2010): 357-390; y el blog de Michael Witmore (www.winedarksea.org).

6. Para saber más sobre Docuscope, véase David Kaufer, Ishizaki, Brian But-ler, Jeff Collins, The Power of Words: Unveiling the Speaker and Writer’s Hidden Craft(Lawrence Erlbaum Associates: New Jersey y Londres, 2004). Vista en re-trospectiva, la lista es poco acertada, al menos, en dos sentidos: por un lado, los 36 textos se escogieron para maximizar la variación de cada género. Aunque es contrario al modo en que se suele seleccionar una muestra de una población, se llevó a cabo de esta manera para incrementar la dificultad de la prueba: Docus-cope tenía que demostrar que podía «reconocer» un género incluso analizando es-pecímenes muy diversos. Por otra parte, se tomó una decisión que iba en direc-ción contraria: en lugar de dar a Witmore 36 textos para que el programa los

21

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

y secuencias de palabras que puede «reconocer», es decir, que puede emparejar con una de los 101 TAL. Cada vez que se pro-duce un emparejamiento, se le asigna una ocurrencia a la cate-goría TAL en cuestión. Por ejemplo, Docuscope empareja los pronombres personales ingleses I(‘yo’) y me(‘a mí’) con el TAL FirstPerson(‘PrimeraPersona’). Por tanto, cada vez que el pro-grama encuentra alguna de estas palabras contabiliza una ocu-rrencia en la categoría TAL FirstPerson.7

A partir de los recuentos, Hope y Witmore utilizaron un aná-lisis factorial no supervisado —aquí «factor» significa un patrón que incluye ciertas categorías, en proporciones variables, y ex-cluye otras— con la finalidad de caracterizar los géneros tra-dicionales utilizados por los editores de la edición First Folio(Heminges y Condell) de la obra de Shakespeare o bien el géne-ro conocido como «romances tardíos» identificado por primera vez por la crítica literaria decimonónica. Tras realizar análisis multi-variados y llevar a cabo técnicas de agrupamientos (o clustering), el programa no sólo pudo agrupar los textos de acuerdo con los géneros tradicionales, sino distinguir las piezas que los críti-cos literarios suelen considerar atípicas.8Al analizar las obras de

clasificara en géneros, Moretti se los facilitó ya ordenados y agrupados. En con-secuencia, la dificultad de la prueba se vio atenuada, ya que la variación los tex-tos entre sí fue compensada por el todo.

7. Debido al modo en que se utilizan en el programa, los nombres de las ca-tegorías TAL no pueden contener espacios. Como es evidente, la caracterización de las palabras incluidas en cada una de estas categorías es un acto interpreta-tivo; lo mismo ocurre con la elección de las palabras mismas, que tuvo lugar du-rante el curso de casi una década de codificación manual. En términos generales, Witmore y Hope utilizaron categorías TAL para identificar patrones estadísticos y luego pasaron de las categorías a las instancias textuales con el propósito de comprobar cómo las palabras funcionaban en su contexto.

8. Por ejemplo, descubrieron que los «romances tardíos» de Shakespeare se distinguen, lingüísticamente, de las piezas anteriores por la presencia de secuen-cias de palabras con las que los personajes narran acciones pasadas al tiempo que enfatizan sus emociones actuales respecto a dichas acciones (un proceso que Witmore y Hope llaman «retrospección focalizada»). Algunas características lin-güísticas de estas obras que producían tal efecto son: (1) algunas oraciones su-bordinadas introducidas por coma y seguidas de la palabra which(‘quien’) y (2) tiempos verbales pasados precedidos por una forma auxiliar del verbo to be(‘ser’) también en pasado. Las comedias y las obras históricas también se distin-guen de manera clara; por ejemplo, los investigadores descubrieron que las co-medias contenían un alto grado de pronombres en primera y segunda persona

22

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

Shakespeare contenidas en la edición Folio, Docuscope fue capaz de separar Henry VIIIdel grupo de obras históricas y situarla jun-to con las «obras tardías»; se confirma, así, un reajuste defendido por los críticos contrarios a la clasificación de la edición Folio. Dicho agrupamiento, efectuado en una fase temprana con aso-ciaciones íntegras, puede observarse en la Figura 1.1.

Al ver estos resultados, Moretti preguntó a Witmore si po-día realizar agrupamientos con textos novelísticos. Witmore aceptó la propuesta y acordaron reunirse en febrero de 2009 en Stanford.

2. Febrero de 2009: Docuscope reconoce géneros novelísticos

El punto de partida de nuestra investigación es un corpus de 250 novelas británicas del siglo xixextraídas de la base de datos Chadwick-Healey.9Gracias al cotejo de bibliografías ya existentes sobre este género, Moretti pudo recopilar una mues-tra de 36 textos, más o menos similares a los de Shakespeare, que Docuscope analizó en el primer experimento. Nuestro corpus se compuso de 12 tipos de textos divididos en dos grupos de 6. El primer grupo (conjunto 1-6) incluía 4 novelas góticas, 4 no-velas históricas, 4 cuentos nacionales, 4 novelas industriales, 4 novelas galantes (o silver-fork novels) y 4 novelas de forma-

(clasificados con la etiqueta TAL FirstPerson‘PrimeraPersona’ y DirectAddress‘ObjetoDirigido’) y un alto grado de expresiones sobre incertidumbre (cuya cate-goría TAL es Uncertainty‘Incertidumbre’). Por el contrario, las comedias se carac-terizaron como textos con un grado bajo de nombres y verbos de movimiento, de palabras sobre las propiedades sensuales de los objetos o acerca de los cambios físicos de las cosas (categorías TAL correspondientes a Motions‘Movimientos’, SenseProperty‘PropiedadesPercibidas’ y SenseObject‘ObjetosPercibidos’). Asimis-mo, la ausencia de pronombres en primera persona del singular (categoría TAL Inclusive‘Inclusivo’) y de palabras que indican entidades sociales, creencias o co-nocimiento compartido (categoría TAL CommonAuthority‘AutoridadComún’) también era singular de las obras cómicas.

9. Nos limitamos a esta base de datos porque la mayoría de textos disponi-bles en internet entre 2006 y 2008 no nos parecieron fiables para nuestros obje-tivos. Hoy, sin embargo, nuestra decisión sería diferente y lo más probable es que la cantidad de textos disponibles actualmente modificaría aspectos importantes de la investigación.

23

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

ción. De los 6 conjuntos del segundo grupo, 3 estaban presentes también en el primero (conjuntos 8, 9 y 12: 2 novelas industria-les, una novela gótica y una novela de formación), pero no los tres restantes (conjuntos 7, 10 y 11: 2 novelas antijacobinas, una no-vela evangélica y una novela criminal de la serie Newgate). La

Figura 1.1 Dendrograma de 2003 con las agrupaciones del teatro de Shakes-peare generado a partir de los Tipos de Acción Lingüística de Docuscope. El método de agrupamiento es asociación completa y distancias euclidianas. Tén-gase en cuenta la presencia de comedias en la primera y tercera columna, las obras tardías y las tragedias en la segunda y el teatro histórico en la cuarta y quinta. Las clasificaciones «incorrectas», como la de Othelloy Love’s Labours’ Lost,se explican en el blog de Witmore (http://winedarksea.org/).

24

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

tarea de Docuscope, pues, era encontrar y asociar los tres con-juntos del segundo grupo que también estaban en el primero.10

Para asegurarnos de que su trabajo previo no influyera de manera inconsciente en los resultados de Docuscope, Witmore nos pidió que no le explicáramos nada sobre los textos que ha-bía recibido. Así pues, eliminamos los títulos de las obras: «a me-nudo —nos dijo— proporcionan señales reveladoras, pero son menos interesantes que los movimientos microlingüísticos que dan vida al texto». Witmore se reunió con nosotros sin saber si Docuscope había acertado o no. «Creo que Docuscope no pasará la prueba» —nos confesó unos días antes por correo electróni-co—; «siempre he defendido que los condicionantes materiales ligados a la puesta en escena de los textos dramáticos es lo que permite a Docuscope clasificar de manera acertada las obras de Shakespeare. Si Docuscope acierta a agrupar textos novelísticos por géneros, tendré que expandir mi noción de “condicionante material” en relación con las prácticas lingüísticas». (Por su-puesto, más tarde, Witmore se mostró satisfecho con el éxito de Docuscope.)

Witmore utilizó distintas medidas para emparejar los géne-ros de los dos grupos; para empezar, evaluó el grado en que el aná-lisis estadístico multivariado podía producir «factores» —esto es, patrones con un número determinado de TAL—11con el obje-

10. La lista completa de textos es la siguiente: conjunto 1 (novela gótica): A Sicilian Romance, The Old Manor House, The Monk, and Melmoth the Wanderer; conjunto 2 (novela histórica): Waverley, Ivanhoe, The Entail, y Valperga; con-junto 3 (cuentos nacionales): Castle Rackrent, The Wild Irish Girl, The Absentee, y Marriage; conjunto 4 (novelas industriales): Shirley, Alton Locke, Hard Times, y North and South; conjunto 5 (novelas galantes o silver-fork): Glenarvon, Vivian Grey, Pelham, y Mrs. Armytage, or Female Domination; conjunto 6 (novela de for-mación): Jane Eyre, The History of Pendennis, David Copperfieldy Daniel Deronda; conjunto 7 (novela antijacobina): Mordaunt, and Adeline Mowbray; conjunto 8 (novela industrial): The Life and Adventures of Michael Armstrong, the Factory Boyy Mary Barton; conjunto 9 (novela gótica): The Mysteries of Udolpho, y Zo-floya, or, The Moor; conjunto 10 (novela evangélica): Coelebs in Search of a Wifey Self-Control; conjunto 11 (novela criminal): Eugene Aramy Jack Sheppard; con-junto 12 (novela de formación): Great Expectationsy Middlemarch.

11. Se pueden entender los factores como recetas que describen motivos re-currentes de variación en el seno de una colección más grande de elementos. Si imaginamos cada novela como una baraja de cartas, Docuscope examina cada ba-raja y cuenta su contenido. El análisis factorial inspecciona el contenido de cada pila y razona de la siguiente manera: «si hay muchos 6 de color rojo, entonces

25

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

tivo de emparejar los textos. Asimismo, comparó cada empareja-miento con una colección de textos llamada Frown Corpus (con muestras de inglés americano de principios de los noventa del siglo xx) para comprobar si los dos textos presentaban un mis-mo número de TAL en comparación con la media obtenida del corpus de referencia.12Mediante una combinación de estas téc-nicas, Witmore concluyó el experimento con los siguientes empa-rejamientos: 2:9 (con 1:9 como segunda mejor opción), 4:8 y 6:12. Docuscope sólo realizó un error: emparejar el grupo 9 (novela gótica) con el grupo 2 (novela histórica) en lugar del grupo 1 (gó-tica). Sin embargo, para muchos historiadores de la literatura, este error sería poco importante, o casi inevitable, ya que los lí-mites entre estos géneros son muy porosos. Además, tal y como afirmó en su presentación, el emparejamiento correcto (1:9) le seguía de cerca.

Cuando la reunión terminaba, Johan Bender planteó una pregunta difícil que sobrevolaba en el ambiente: los resultados eran sorprendentes, ¿pero habíamos descubierto algo nuevo? La respuesta era negativa. No, Docuscope sólo había corroborado lo que los críticos literarios ya sabían —o al menos creían sa-ber—: que cada texto pertenece a una determinada clase. Nada de conocimiento nuevo. No obstante, ahora sabíamos que el jui-cio humano y el análisis estadístico no supervisado coincidían al identificar géneros literarios. He aquí el verdadero descubri-miento. Docuscope había verificado los juicios de la crítica lite-raria y la crítica literaria había validado la eficacia de Docuscope. Queríamos saber si el programa podía replicar los resultados obtenidos con Shakespeare en un territorio nuevo y desconocido; y así fue. El primer experimento realizado por Witmore, pues, no había sido casualidad: es posible clasificar textos literarios con un ordenador. Cuando Witmore nos enseñó, de pasada y casi sin pensar, un gráfico inédito con los resultados de su estudio

hay pocos 4 y 5 de cualquier color». Estas recetas, que tienen en cuenta la «pre-sencia y ausencia» de ciertas características, se utilizan para analizar barajas de cartas (los géneros) y ver si el análisis factorial distingue de manera fiable un gé-nero de otro.

12. Utilizar un corpus de referencia parecía buena idea; además, para eva-luar la eficacia de Docuscope durante su fase de desarrollo se utilizó la colección Frown por lo que las comparaciones ya estaban integradas en el programa y lis-tas para ser usadas.

26

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

sobre Shakespeare, una gama mucho más amplia de posibilida-des se abrió ante nuestros ojos.

3. Marzo de 2009: las palabras más frecuentes reconocen géneros novelísticos

Docuscope había pasado la prueba. Pero ¿era el único pro-grama capaz de salir airoso? Matthew Jockers, que había traba-jado durante años en atribución de autoría, quería averiguar si su metodología también podía aplicarse al reconocimiento de géne-ros literarios. Aunque la clasificación por género es semejante en muchos aspectos a la atribución de autoría, existe una diferen-cia importante: cuando se intenta identificar el autor de un texto, se suele extraer un conjunto de características que no son depen-dientes del contexto; por lo general, se admite que las palabras más frecuentes o bien una clase determinada de palabra produ-cen los mejores resultados. Sin embargo, al clasificar textos por género, creemos de manera intuitiva que las palabras contextua-les —por ejemplo, «castillo» en una novela gótica— juegan un rol esencial. Los resultados preliminares obtenidos por Jockers des-mintieron esta creencia y sugirieron que, al igual que ocurre con la atribución de autoría, las características más recurrentes de un texto también contienen una «marca» genérica.

Así pues, seleccionando 44 palabras y puntuaciones —carac-terísticas que pasaron a llamarse Most Frequent Words(‘Palabras Más Frecuentes’ o ‘MFW’)—, Jockers fue capaz de clasificar nues-tras novelas con la misma eficacia que Docuscope (y, además, con un conjunto de características más complejo).13 Para ello, se va-

13. Para definir el conjunto de características, Jockers convirtió el texto a minúsculas, contó cada una de ellas, convirtió las ocurrencias en frecuencias re-lativas y, finalmente, seleccionó las que tenían una frecuencia relativa media o ma-yor a 0,03%. Este procedimiento dio lugar a una matriz con las siguientes 44 ca-racterísticas (el prefijo «p» indica que se trata de un signo de puntuación en lugar de una palabra): a, all, and, as, at, be, but, by, for, from, had, have, he, her, him, his, i, in, is, it, me, my, not, of, on, p_apos, p_comma, p_exclam, p_hyphen, p_period, p_ques, p_quote, p_semi, said, she, so, that, the, to, was, which, with, you(‘un’, ‘todo’, ‘y’, ‘como’, ‘en’, ‘ser’, ‘pero’, ‘por’, ‘para’, ‘desde’, ‘tenía’, ‘tener’, ‘él’, ‘a ella’, ‘a él’, ‘su’, ‘yo’, ‘dentro’, ‘es’, ‘lo’, ‘a mí’, ‘mi’, ‘no’, ‘de’, ‘sobre’, ‘p_apos’, ‘p_coma’, ‘p_exclama’, ‘p_guión’, ‘p_punto’, ‘p_interrog’, ‘p_comilla’, ‘p_puntoycoma’, ‘dijo’, ‘ella’, ‘entonces’, ‘eso’, ‘el’, ‘hacia’, ‘era’, ‘el cual’, ‘con’, ‘tú’).

27

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

lió de las funciones «dist» y «hclust» del paquete estadístico gra-tuito y abierto «R».14 Las agrupaciones efectuadas se muestran en el dendrograma de la figura 3.1.

Cuando Jockers compartió los resultados con Witmore, el investigador de Wisconsin le preguntó si podía probar su meto-dología con el corpus de Shakespeare. Tal y como se percibe en la figura 3.2, la lista de palabras más frecuentes agrupó, nueva-

14. http://www.r-project.org/.

Figura 3.1 Dendrograma con las agrupaciones de las novelas utilizando las palabras más frecuentes (MFW).

28

Formalismo cuantitativo: un experimento

Literatura en el laboratorio

mente, la mayoría de obras en «tragedias», «comedias», «históri-cas» y «obras tardías».

Figura 3.2 Dendrograma con el teatro de Shakespeare contenido en la edición First Folioa partir de las palabras más frecuentes; se señalan las agrupaciones más importantes. Para obtener este gráfico, Jockers utilizó 37 características de las obras de Shakespeare que tenían una frecuencia relativa media igual o su-perior a 0,03%. Nótese la similitud entre este árbol y diagrama producido con Docuscope de la figura 1.1; en ambos se emparejan Winter’s