Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
¿De qué modo la computación y la informática ampliaron y modificaron los conocimientos sobre las ciencias de la vida? ¿La bioinformática representa realmente una ruptura de paradigmas o es más de lo mismo con otro formato? ¿La matemática puede ayudarnos a entender cómo se propaga una epidemia y qué medidas se pueden tomar para detenerla? ¿El Proyecto Genoma Humano fue el fin de algo o apenas el principio? ¿El ser humano puede crear vida artificial? ¿Es posible diseñarla a través de una computadora? ¿Seremos eternos e inmortales con cuerpos artificiales y mentes digitales? En Vida.exe, un grupo de jóvenes científicas y científicos cuentan cómo la revolución tecnológica impactó en la biología, explican el pasado de ese extraño centauro que es la bioinformática y lo usan de excusa para dar cuenta de cómo se trabaja actualmente desde la ciencia para intentar descifrar los enigmas de la vida. "Cuando contamos con suficiente información, no solo somos capaces de entender bastante sobre el funcionamiento de las moléculas, las células, los organismos y sus comunidades, sino también de predecirlo y replicarlo. Esto abre la puerta a prácticas que hace veinte años parecían de ciencia ficción, pero hoy son muy reales, como la biología sintética, la edición de genomas y la medicina personalizada. En un futuro muy próximo, la forma en que entenderemos la biología molecular, la agricultura y gran parte de la medicina estará inexorablemente atravesada por la bioinformática." Entender cómo funcionan los seres vivos no solo es un fin en sí mismo, sino también una herramienta para mejorar nuestra vida y la de todas las especies que habitan el planeta.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 208
Veröffentlichungsjahr: 2022
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
GERMÁN A. GONZÁLEZ, LIONEL URAN LANDABURU Y NICOLÁS PALOPOLI (EDITORES)
VIDA.EXE
Desafíos y aventuras de la bioinformática
MARTÍN BANCHERO, JUAN PABLO BUSTAMANTE, ESTEBAN LANZAROTTI, R. GONZALO PARRA, MARÍA VICTORIA REVUELTA, NICOLÁS STOCCHI, ELIN TEPPA Y DIEGO JAVIER ZEA
¿De que modo la computación y la informática ampliaron y modificaron los conocimientos sobre las ciencias de la vida? ¿La bioinformática representa realmente una ruptura de paradigmas o es más de lo mismo con otro formato? ¿La matemática puede ayudarnos a entender cómo se propaga una epidemia y qué medidas se pueden tomar para detenerla? ¿El Proyecto Genoma Humano fue el fin de algo o apenas el principio? ¿El ser humano puede crear vida artificial? ¿Es posible diseñarla a través de una computadora? ¿Seremos eternos e inmortales con cuerpos artificiales y mentes digitales?
En Vida.exe, un grupo de jóvenes científicas y científicos cuentan cómo la revolución tecnológica impactó en la biología, explican el pasado de ese extraño centauro que es la bioinformática y lo usan de excusa para dar cuenta de cómo se trabaja actualmente desde la ciencia para intentar descifrar los enigmas de la vida.
“Cuando contamos con suficiente información, no solo somos capaces de entender bastante sobre el funcionamiento de las moléculas, las células, los organismos y sus comunidades, sino también de predecirlo y replicarlo. Esto abre la puerta a prácticas que hace veinte años parecían de ciencia ficción, pero hoy son muy reales, como la biología sintética, la edición de genomas y la medicina personalizada. En un futuro muy próximo, la forma en que entenderemos la biología molecular, la agricultura y gran parte de la medicina estará inexorablemente atravesada por la bioinformática.”
Entender cómo funcionan los seres vivos no solo es un fin en sí mismo, sino también una herramienta para mejorar nuestra vida y la de todas las especies que habitan el planeta.
GERMÁN A. GONZÁLEZ es licenciado en Bioinformática por la Universidad Nacional de Entre Ríos (UNER) y maestrando en Estadística Aplicada en la Universidad Nacional de Córdoba. Se desempeña como profesional adjunto del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Se dedica al análisis de datos biológicos en diferentes escalas, desde lo molecular a lo ecológico.
LIONEL URAN LANDABURU es licenciado en Biotecnología y actualmente realiza su doctorado en el Laboratorio de Genómica y Bioinformática de Trypanosomátidos de la Universidad Nacional de San Martín, en el desarrollo de software para asistir al descubrimiento y la optimización de drogas para el tratamiento de distintas enfermedades infecciosas.
NICOLÁS PALOPOLI es licenciado en Biotecnología y doctor en Ciencias Básicas y Aplicadas por la Universidad Nacional de Quilmes (UNQ). Es docente universitario e investigador adjunto del CONICET. Se dedica al estudio de estructuras, interacciones y evolución de proteínas.
MARTÍN BANCHERO es licenciado en Ciencias Biológicas por la Universidad de Buenos Aires (UBA) y máster en Bioinformática y Biología de Sistemas por la Uva-VU Amsterdam. Actualmente realiza su doctorado en el campo de la inmunología sistémica.
JUAN PABLO BUSTAMANTE es licenciado en Bioinformática por la UNER y doctor de la UBA en el área de Química Biológica. Trabajó dos años en la empresa uBiome. Es profesor de la UNER y de la Universidad Austral e investigador asistente del CONICET. Lidera un equipo de investigación y desarrollo en el análisis de microbiomas humanos.
ESTEBAN LANZAROTTI es licenciado en Ciencias de la Computación y doctor en Química Biológica por la UBA. Se dedica al estudio de las interacciones entre proteínas. Es jefe de Trabajos Prácticos en la UBA.
R. GONZALO PARRA es licenciado en Bioinformática por la UNER y doctor en Química Biológica por la UBA. Actualmente, es investigador posdoctoral en el Laboratorio Europeo de Biología Molecular (Heidelberg, Alemania). Su experiencia incluye varias ramas de la bioinformática, como la regulación transcripcional, el plegado de proteínas y la transcriptómica de célula única.
MARÍA VICTORIA REVUELTA es licenciada y doctora en Ciencias Biológicas por la Universidad Nacional de Mar del Plata (UNMDP). Es investigadora posdoctoral en Weill Cornell Medicine (Nueva York) y actualmente trabaja en el análisis de datos de metabolómica, transcriptómica y epigenómica en tumores hematológicos.
NICOLÁS STOCCHI es licenciado en Ciencias Biológicas y doctorando en Biología por la UNMDP. Actualmente, es becario doctoral del CONICET. Se dedica al desarrollo de software para la anotación de superfamilias de proteínas y proteomas completos.
ELIN TEPPA es licenciada en Biotecnología y doctora en Ciencias Básicas y Aplicadas por la UNQ, y se convirtió en bioinformática durante el doctorado en el Instituto Leloir. Es investigadora del CONICET. Se dedica a estudiar evolución molecular y cómo los virus se hacen resistentes a las drogas.
DIEGO JAVIER ZEA es licenciado en Biotecnología y doctor en Ciencias Básicas y Aplicadas por la UNQ. Actualmente, es investigador posdoctoral en la Universidad de la Sorbona, Francia. Se dedica al estudio de la evolución y la estructura de proteínas.
QUEREMOS agradecer especialmente a RSG-Argentina, capítulo local de la asociación internacional de estudiantes en bioinformática (International Society for Computational Biology Student Council, ISCB-SC), de la cual formamos parte y desde donde surgió el proyecto de este libro.
Y a quienes participaron del primer boceto de este trabajo: Estefanía Mancini, Santiago Carmona, Alexander Monzón e Inti Pagnuco. Sin ellos, no existiría esta versión.
Aviso al lector: ante cualquier problema, mantenga la calma y presione Ctrl+Alt+Supr. Si eso no funciona, pruebe cerrar el libro y volver a abrirlo.
QUIENES escribimos este libro (todos modelo ochenta y pico, joya, nunca taxi) pertenecemos a la generación millennial, esa que, en general, no nació con una computadora bajo el brazo, sino que aprendió a usarla en la niñez o en la adolescencia. Conocemos cómo era la vida cuando la música se escuchaba en un walkman y para hacer planes con un amigo tenías que llamarlo al fijo, pero también nos adaptamos con facilidad al mundo digital e hiperconectado de las últimas décadas. Es muy probable que encontremos diferencias en la forma en que vivimos la revolución tecnológica si consultamos a una persona de la generación de nuestros padres (que llegaron más tarde al mundo digital) o de la que nos sigue (los nativos digitales). Sin embargo, todos estaremos de acuerdo en que la tecnología ha transformado de manera radical la forma en que vivimos y pensamos. Las ciencias en general, y las ciencias de la vida en particular, no han sido la excepción.
Para comprender la relación entre la biología y la tecnología, debemos remontarnos a un tiempo atrás. Si nos aventuramos a pensar en los orígenes de la biología (cuando todavía no se llamaba biología), nos vamos a encontrar con que los primeros acercamientos respondieron a la necesidad de conservar los grandes volúmenes de frutas y granos generados en el inicio de la agricultura, hace más de diez mil años. Más adelante, se desarrollaron procesos que utilizamos hasta hoy, como la fermentación para fabricar cerveza o pan. Bastante más tarde (alrededor del 2000 a. C.) comienza a tomar forma en diferentes puntos geográficos (Mesopotamia, China y Egipto) otra de las disciplinas de la ciencia de la vida: la medicina. En ese momento, estaba lejos aún de su forma actual y era una especie de mezcla entre la magia y una cierta ciencia racional. El cambio de paradigma llegaría a fines del Renacimiento europeo y comienzos de la Era Moderna (entre los siglos XVII y XVIII), cuando la biología se transformó en algo parecido a lo que estudiamos actualmente en escuelas y universidades. En este punto los biólogos (entonces denominados médicos, botánicos o naturalistas), sin buscar una aplicación inmediata del conocimiento, dedicaron sus obras a describir “la vida” con rigor científico.
Las ciencias de la vida se cristalizaron en manuales de anatomía, herbarios y bestiarios. Dichas obras fueron posibles gracias al desarrollo de mecanismos y aparatos que permitieron expandir los límites de lo conocido. Y, a su vez, este nuevo conocimiento llevó a producir mejores dispositivos. La indispensable sinergia entre ciencia y tecnología.
Recién con la llegada del siglo XIX, la biología se transformaría definitivamente en una ciencia moderna. En la misma época, dos grandes científicos trabajaban en paralelo para tratar de entender cómo se había diversificado la vida en nuestro planeta desde los primeros organismos formados por una sola célula hasta las aves, los mamíferos y los demás seres vivos que existen hoy.
Por un lado, Charles Darwin embarcaba a bordo del Beagle para su travesía por la costa atlántica de América del Sur. Por el otro, Alfred Wallace se encontraba en un periplo por el archipiélago malayo. Ninguno sabía en qué trabajaba el otro (¡faltaban casi doscientos años para que existieran las redes sociales!), lo que hace más maravilloso aún que hayan llegado a la misma conclusión. Esas ideas dieron lugar al paradigma de la evolución de las especies, que atravesó las ciencias de la vida desde entonces.
A esta altura, cabe preguntarse: ¿a qué viene tanto preámbulo?
El motivo de este breve repaso por la historia de las ciencias de la vida no es otro que el de mostrar las múltiples transformaciones que ha sufrido su razón y forma de estudio a lo largo del tiempo. La visión naturalista de hace dos siglos ha dado paso a otra manera de estudiar la biología más orientada hacia los datos. Este cambio de paradigma vuelve preponderante el rol de las tecnologías de la información, de las que la biología se nutre para formar esta nueva disciplina que es la bioinformática.
La bioinformática es el eje del libro, pero también, en cierto modo, es una excusa para contar cómo los científicos trabajan para intentar comprender los enigmas de la vida.
En las próximas páginas, analizaremos el recorrido que han realizado las ciencias de la vida hasta convertirse en ciencias de la información, asistidas por algunas disciplinas jóvenes (como la informática) y otras bastante veteranas (como la matemática). Veremos cómo este grupo heterogéneo de ciencias nos permite acercarnos un poquito más hacia la comprensión de algún aspecto puntual del funcionamiento de los seres vivos. Podemos explorar lo que pasa dentro de una célula con la simulación del movimiento de moléculas y sus interacciones desde la pantalla de la computadora. O estudiar cómo células de diferentes tipos se agrupan para formar un tejido y un órgano. Incluso podemos ir a una escala mucho más grande para analizar cómo la introducción de una especie exótica en un área natural puede disminuir las poblaciones de especies autóctonas.
A medida que crece nuestro conocimiento de los sistemas biológicos, se vuelve más factible uno de los argumentos clásicos de la ciencia ficción: ¿el ser humano puede crear vida? O, en este caso, ¿podemos diseñar la vida desde una computadora? Aunque parezca lejano, cada día estamos un poco más cerca de que esto sea factible (¡no lo intenten en sus casas!).
Trabajar con computadoras tiene una ventaja adicional: es relativamente barato cuando se lo compara con los costos de tener un laboratorio en funcionamiento. Durante el desarrollo de un nuevo medicamento, usualmente miles de compuestos candidatos quedan en el camino, porque no sirven para lo que deberían o tienen demasiados efectos adversos. Si cada uno de esos candidatos tuviera que probarse en el laboratorio, estaríamos hablando de una inversión de tiempo y dinero considerable, pero afortunadamente gran parte de las pruebas pueden realizarse en computadoras, para que solo los más prometedores lleguen a los ensayos preclínicos y clínicos.
En resumen, la bioinformática se ocupa de la creación de modelos simplificados de la realidad que nos permiten entender mejor un fenómeno y realizar predicciones sobre el comportamiento del sistema en caso de que algo cambie.
Este es un libro sobre la vida… ¡pero en bits!
Posdata: Vida.exe estaba a punto de imprimirse cuando la historia (y, con ella, las imprentas) pareció detenerse por la pandemia del nuevo coronavirus. Como no se podía gambetear el tema, que fue una bisagra (también) para la ciencia, hemos agregado un último capítulo que reúne al menos una pequeña parte de las relaciones entre las disciplinas que abundan en el resto de los capítulos y ese fragmento de no vida bautizado SARS-CoV-2: qué se sabe de su origen, del análisis matemático de las pandemias y de las respuestas humanas a un problema que es, al menos en parte, humano, demasiado humano.
Germán A. González
Somos el resultado final de más de mil millones de años de ajustes evolutivos, y nuestros genes contienen las costuras y remiendos que revelan la historia.
SPENCER WELLS
DICEN que el tiempo tiene sus propias maneras de develar la verdad. Por suerte, cuando ese tiempo es aprovechado con una mirada científica, algo de talento y mucho trabajo, podemos acercarnos un poquito a descubrir cómo funciona la naturaleza.
Además de buenas ideas, los científicos necesitan herramientas concretas que les permitan resolver las preguntas que se plantean, ya sea el compás de Darwin o las máquinas secuenciadoras de ADN del Proyecto Genoma Humano. La transformación tecnológica que ocurrió durante el último siglo tuvo un impacto inconmensurable en nuestra forma de estudiar a los seres vivos, convirtiendo las computadoras en la herramienta esencial que une todas las disciplinas científicas modernas.
Este pequeño viaje a través de la historia de la biología en sus cruces con la informática será un recuento que, si bien no planea ser exhaustivo, se detendrá en algunos momentos clave para el desarrollo de la ciencia. Pónganse los cinturones: ¡ahí vamos!
La primera parada en este viaje por el tiempo nos deja en Berlín, a fines del siglo XIX. Los contextos favorables suelen fomentar el progreso, y esta no sería la excepción: en la capital del Imperio alemán, uno de los principales centros de la ciencia contemporánea, el bioquímico Albrecht Kossel trabajaba sobre el ADN descubierto años antes mientras se estudiaban los glóbulos blancos. Kossel lo bautizó con el nombre por el que lo conocemos actualmente y detalló por primera vez su composición. Esas largas cadenas que se había logrado aislar en el laboratorio estaban formadas por cuatro compuestos químicos con nombre y abreviatura propios: adenina (A), timina (T), citosina (C) y guanina (G). La combinación de apenas cuatro moléculas era suficiente para conformar la cadena de ADN, cuya función se desconocía. Este trabajo sobre los ácidos nucleicos le valió en 1910 el Premio Nobel de Medicina.
Fueron necesarias varias décadas y el trabajo de muchos científicos para llegar a comprender que el ADN es el “dispositivo de almacenamiento” donde se aloja la información que se hereda de padres a hijos. Sin embargo, había mucho que no se sabía. ¿Qué forma tiene el ADN? ¿Cómo usa el organismo esa información? Pasaron casi cincuenta años antes de que los científicos pudieran contestar estas preguntas.
Al terminar la Segunda Guerra Mundial, se produjeron algunas transformaciones en la manera de hacer ciencia. Por un lado, aparecieron los transistores y circuitos integrados, que permitieron progresivamente desarrollar computadoras más pequeñas y accesibles para los centros de investigación (hasta entonces, eran del tamaño de una habitación, como se ve en la película El código enigma, que retrata las hazañas del matemático Alan Turing).
Por el lado de la biología, comenzó lo que se llamaría “molecularización” de la disciplina, que significó prestar más atención a lo que el ADN, las proteínas y otros pequeños componentes de la célula podían decirnos sobre los organismos vivos.
La posguerra encontró a varios grupos de investigación en competencia para ser los primeros en descubrir la estructura del ADN; entre ellos, James Watson y Francis Crick en Cambridge, Maurice Wilkins y Rosalind Franklin en Londres y Linus Pauling en California. Se habían hecho varias propuestas sobre cómo podía ser la estructura, pero ninguno de los grupos había conseguido pruebas concretas. Tras muchos ensayos y esfuerzo, Franklin obtuvo una imagen por rayos X donde se podía observar claramente la doble hélice que hoy conocemos. Wilkins, un colega del instituto, le mostró la impactante foto (conocida como foto 51) a Watson, sin que Franklin lo supiera. La interpretación de esta imagen resultó clave para que Watson y Crick pudieran describir, finalmente, la elusiva estructura del ADN.1 En febrero de 1953, presentaron su hallazgo en un bar de Cambridge, The Eagle, donde solían juntarse a tomar unas pintas luego del trabajo. Por este logro, Watson, Crick y Wilkins recibieron el Nobel de Medicina en 1962. Franklin había muerto cuatro años antes y no pudo recibir el premio compartido, que según las reglas solo puede ser entregado a personas vivas y en grupos de no más de tres.
Resulta extraño hablar de dogmas en ciencia, ya que todas las ideas son refutables. Sin embargo, en 1957 así llamó Crick a su teoría, que desde entonces ha sido confirmada y ampliada: el dogma central de la biología molecular. La forma usual y simplificada de explicar esta teoría dice que “el ADN hace ARN y el ARN hace proteínas”. Ahora bien, ¿qué significa esto con exactitud?
Los genes constituyen el manual con instrucciones precisas para construir un organismo y que este funcione. Toda la información necesaria está escrita como una combinación en orden riguroso de las cuatro moléculas que encontró Kossel (A, C, T y G). Por ejemplo, estas son las instrucciones para construir la insulina, la hormona que regula el azúcar en la sangre:
A G C C C T C C A G G A C A G G C T G C A T C A G A A G A G G C C A T C A A G C A G G T C T G T T C C A A G G G C C T T G C G T C A G G T G G G C T C A G G A T T C C A G G G T G G C T G G A C C C C A G G C C C C A G C T C T G C A G C A G G G G G A C G T G G C T G G G C T C G T G A A G C A T G T G G G G G T G A G C C C A G G G G C C C C A A G G C A G G G C A C C T G G C C T T C A G C C T G C C T C A G C C C T G C C T G T C T C C C A G A T C A C T G T C C T T C T G C C A T G G C C C T G T G G A T G C G C C T C C T G C C C C T G C T G G C G C T G C T G G C C C T C T G G G G A C C T G A C C C A G C C G C A G C C T T T G T G A A C C A A C A C C T G T G C G G C T C A C A C C T G G T G G A A G C T C T C T A C C T A G T G T G C G G G G A A C G A G G C T T C T T C T A C A C A C C C A A G A C C C G C C G G G A G G C A G A G G A C C T G C A G G G T G A G C C A A C T G C C C A T T G C T G C C C C T G G C C G C C C C C A G C C A C C C C C T G C T C C T G G C G C T C C C A C C C A G A T G G G C A G A A G G G G G C A G G A G G C T G C C A C C C A G C A G G G G G T C A G G T G C A C T T T T T T A A A A A G A G T T C T T G G T C A C G T C C T A A A A G T G A C C A G C T C C C T G T G G C C C A G T C A G A A T C T C A G C C T G A G A C G G T G T T G G C T T C G G C A G C C C C G A G A T A C A T C A G A G G G T G G G A C G C T C C T C C C T C C A C T C G C C C C T C A A A C A A A T G C C C C G C A G C C C A T T T C T C A C C C T C A T T T G A T G A C C G C A G A T T C A A G G T T T T G T T A A G T A A A G T C C T G G G T G A C C T G G G G T C A C A G G G T G C C C C A C G C T G C C T G C C T C T G G G C G A A C A C C C A T C A C G C C C G G A G G A G G G C G T G G C T G C C T G C C T G A G T G G G C C A G A C C C C T G T C G C C A G G C C T C A C G G C A G C T C C A T A G T C A G G A G A T G G G G A A G A T G C T G G G G A C A G G C C C T G G G G A G A A G T A C T G G G A T C A C C T G T T C A G G C T C C C A C T G T A C G C T G C C C C G G G G C G G G G G A A G G A G G T G G G A C A T G T G G G C G T T G G G G C C G T A G G T C C A C A C C C A G T G T G G G T G A C C C T C C C T C T A A C C T G G G T C C A G C C C G G C T G G A G A T G G G T G G G A G T G C G A C C T A G G G C T G G C G G G C A G G C G G G C A C T G T G T C T C C C T G A C T G T G T C C T C C T G T G T C C C T C T G C C T C G C C G C T G T T C C G G A A C T G C T C T G C G C G G C A C G T C C T G G C A G T G G G G C A G G T G G A G C T G G G C G G G G G C C C T G G T G C A G G C A G C C T G C A G C C C T T G G C C C T G G A G G G G T C C C T G C A G A A G C G T G G C A T T G T G G A A C A A T G C T G T A C C A G C A T C T G C T C C C T C T A C C A G C T G G A G A A C T A C T G C A A C T A G A C G C A G C C C G C A G G C A G C C C C A C A C C C G C C G C C T C T G C A C C G A G A G A G A T G G A A T A A A G C C C T T G A A C C A G C
¿Qué hace la célula con esas instrucciones? Al igual que en una biblioteca de ejemplares antiguos, los manuales de instrucciones se guardan con cuidado: en vez de llevarlos de un lado a otro, se transportan copias de su contenido. Estas copias no se realizan en el propio ADN, sino en otra molécula muy parecida llamada ARN a través de un proceso que se conoce como transcripción. Así, este mensaje escrito en el ARN puede ser llevado hasta los ribosomas que leen las instrucciones y las interpretan para construir la proteína.
Las proteínas son moléculas compuestas de otro tipo de alfabeto, el de aminoácidos, con veinte letras en vez de cuatro; por eso el proceso de interpretar el ARN y fabricar la secuencia de aminoácidos se denomina traducción. Siguiendo el ejemplo de la insulina, así quedaría la secuencia una vez que es traducida a proteína:
M A L W M R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N
Las proteínas llevan a cabo la mayor cantidad de funciones en un sistema biológico, desde dar soporte estructural a la célula a permitir que muchas reacciones químicas se lleven a cabo con rapidez.
Al mismo tiempo que se descubría la estructura del ADN, otros investigadores estudiaban las proteínas. En 1953, Frederick Sanger fue el primero en determinar la secuencia completa de los aminoácidos de una proteína, la insulina de la vaca, lo que también le valió un Nobel. A Sanger y sus colaboradores les pareció que podían comprender más sobre la insulina si en lugar de analizar solo la secuencia bovina la comparaban con la secuencia de insulina de otros animales. Con este objetivo, realizaron un primitivo alineamiento de las secuencias, que consistió en escribirlas unas debajo de las otras para encontrar dónde coincidían y en qué partes se diferenciaban. Lo que vieron les llamó bastante la atención: todas las secuencias tenían 51 aminoácidos y ¡apenas había tres lugares donde existían diferencias! Este es un fragmento del alineamiento donde se ven los tres lugares con discordancias.
Vaca
R G I V E Q C C A S V C S L Y Q L E N Y
Cerdo
R G I V E Q C C T S I C S L Y Q L E N Y
Oveja
R G I V E Q C C A G V C S L Y Q L E N Y
Caballo
R G I V E Q C C T G I C S L Y Q L E N Y
Ballena
R G I V E Q C C T S I C S L Y Q L E N Y
La insulina es una proteína formada por dos cadenas de aminoácidos unidas por un puente químico. El grupo de Sanger encontró que la región que sufría cambios era la que correspondía al puente, mientras que el resto de la proteína se mantenía inmutable entre las especies. Uno de sus científicos, Hans Tuppy, propuso entonces que esas regiones conservadas tenían que estar entre las más importantes para la función de la proteína. Y así suele ser: hoy sabemos que las regiones de las proteínas que determinan su estructura o función suelen tolerar menos las posibles mutaciones que las volverían inestables o anularían su actividad.
Desde entonces, este procedimiento de alineamiento, comparación e interpretación de similitudes y diferencias constituye una herramienta esencial de los bioinformáticos (trabajadores de una nueva disciplina nacida de estos avances) para comprender la naturaleza de las secuencias biológicas.
Hablábamos de los grandes cambios que se produjeron en las décadas de 1950 y 1960 en el campo de la biología y la informática. Hasta entonces, cada una de estas disciplinas parecía ir por su propio camino. La principal responsable de su unión sería una mujer: Margaret Oakley Dayhoff.2 Margaret se graduó con honores en Matemática y luego hizo un doctorado en Química en la Universidad de Columbia, antes de comenzar a trabajar en la Asociación Nacional para la Investigación Biomédica de Estados Unidos. El director de la asociación, Robert Ledley, era un ferviente defensor de las posibilidades que la computación le abriría a la biología e invitó a Margaret a trabajar allí en el desarrollo de nuevos programas. Era una época en la que las computadoras no tenían teclado ni monitor y programar implicaba hacer perforaciones en una tarjeta. Un programa no era otra cosa que un conjunto de tarjetas perforadas, donde se almacenaban información e instrucciones en código binario. Las facilidades que tenemos actualmente para estas tareas hacen que sea difícil dimensionar el esfuerzo que implicaba programar aun las aplicaciones más sencillas.
En 1965, Margaret y Richard Eck publicaron el Atlas of Protein Sequence and Structure, una recopilación de la información sobre proteínas que existía hasta ese momento. ¿Qué era lo que hacía diferente al Atlas de los intentos anteriores de reunir esta información? Se trataba de la primera colección computarizada de datos biológicos en la historia de la ciencia. Gracias a su aparición, los investigadores pudieron acceder a los datos sobre proteínas publicados previamente y analizarlos de otras maneras para responder nuevos interrogantes.
Mantener el Atlas no era una tarea menor. Cada actualización, realizada cada uno o dos años, implicaba que el equipo de Margaret revisara las publicaciones científicas que habían salido en ese lapso en busca de nuevas secuencias y estructuras de proteínas. En épocas previas a Internet, la recopilación de estos datos era un desafío mayor. Además, cada nueva entrada en el Atlas requería escribir una reseña con toda la información que había disponible sobre la proteína en cuestión, su estructura y función. Una vez que la proteína y su información asociada estaban listas, se registraban en tarjetas perforadas para su almacenamiento. De este modo surgió el abuelo de las bases de datos de secuencias de ADN y proteínas que hoy son una herramienta de análisis esencial en la bioinformática.
Maggie y su atlas
Páginas atrás vimos uno de los primeros alineamientos de secuencias que se realizaron, el de la insulina. Como la proteína es relativamente pequeña y muy conservada (hay pocos cambios entre especies), el alineamiento fue sencillo, y solo se tuvo que colocar una secuencia debajo de la otra. Pero ¿qué sucede cuando las diferencias son más grandes? En estos casos, es habitual que no exista un único alineamiento posible. Entonces, ¿cuál de estos es el mejor? Veamos un ejemplo de un alineamiento entre las secuencias de una misma proteína que está presente en dos organismos distintos:
Bastante malo, ¿no? Siguiendo los pasos de Sanger y su equipo, solo logramos seis coincidencias en el alineamiento, que resaltamos con una línea vertical en las columnas idénticas. Sin embargo, a simple vista podemos notar que las secuencias tienen más similitudes, pero parecen estar desfasadas. Si suponemos que los organismos heredaron la proteína a partir de un ancestro común que ya la poseía, podríamos explicar ese desfasaje contemplando la posibilidad de que una de las secuencias haya perdido una letra (o la otra secuencia la haya ganado) en algún momento de su evolución. Podemos mejorar este alineamiento entonces introduciendo un espacio en la primera secuencia, algo que se conoce como “gap” y se simboliza con un guion (-). Este gap representa una inserción de un aminoácido en la secuencia 2, o su eliminación en la secuencia 1.
