Filogenética molecular

La filogenética molecular es la rama de la filogenia que analiza las diferencias moleculares hereditarias en las secuencias de ADN, ARN y proteínas, para obtener información sobre las relaciones evolutivas de un organismo. El resultado de un análisis filogenético molecular se expresa en un árbol filogenético.

Los marcos teóricos para la sistemática molecular se establecieron en la década de 1960 en las obras de Emile Zuckerkandl, Emanuel Margoliash, Linus Pauling, y Walter M. Fitch. ^[1] Las aplicaciones de la sistemática molecular fueron iniciados por Charles G. Sibley (aves), Herbert C . Dessauer (herpetología), y Morris Goodman (primates), seguido por Allan C. Wilson, Robert K. Selander, y John C. Avise (que estudió varios grupos).

Todos los organismos contienen ADN, ARN, y proteínas. En general, los organismos estrechamente relacionados tienen un alto grado de concordancia en las estructuras moleculares, mientras que las secuencias de organismos distantemente relacionados suelen mostrar un patrón de disimilitud. Secuencias conservadas, tales como las del ADN mitocondrial en eucariotas, se espera que acumulen mutaciones a lo largo del tiempo, y asumiendo que estas mutaciones se producen a una tasa constante, proveen un reloj molecular para datar divergencia. La filogenia molecular usa datos como esos para construir un árbol de relaciones que muestra la probable evolución de varios organismos. Con la invención del método de Sanger^[2]^[3] en 1977 fue posible aislar e identificar estas estructuras moleculares.
Una filogenia se puede representar en forma de árbol, el cual contiene nodos que conectan ramas entre sí. Estos nodos y ramas pueden representar diferentes eventos, procesos, o relaciones. Dependiendo del árbol filogenético, por ejemplo: los nodos podrían representar eventos de especiación, y las ramas, las relaciones entre los diferentes grupos.
Los primeros intentos en sistemática molecular se denominaron quimiotaxonomía la cual hacía uso de proteínas, enzimas, carbohidratos y otras moléculas, que eran separadas mediante técnicas como la cromatografía. Las mismas fueron reemplazadas ampliamente por técnicas de secuenciación las cuales son capaces de revelar la secuencia exacta de ADN o ARN. En general son técnicas consideradas superiores para los estudios de evolución debido a que los cambios evolutivos están bien reflejados en el código genético. Se puede obtener con relativa facilidad la secuencia de una determinada área del genoma. La sistemática molecular típica requiere de la secuenciación de fragmentos de alrededor de 1000 pares de bases. En cualquier región de la secuencia, las bases de un organismo pueden variar respecto a las de otro. La secuencia particular de un organismo es denominada haplotipo. Como existen 4 tipos diferentes de bases, en una región de 1000 pares de bases podemos tener 4^1000 tipos diferentes de haplotipos. Sin embargo se ha encontrado que en los organismos de una especie o de un grupo de especies relacionadas las variaciones son relativamente pequeñas, haciendo que el número de haplotipos diferentes sea relativamente pequeño respecto a la cantidad de haplotipos posibles.
Generalmente se usa una muestra sustancial de individuos de la especie objetivo de estudio y también los individuos de otro taxón, sin embargo, muchos estudios en el presente solo usan la secuencia de un individuo. Los haplotipos entre los individuos de una especie son diferentes, pero estrechamente relacionados, sin embargo, el haplotipo del taxón externo es notablemente diferente. Las bases de las secuencias de los diferentes organismos pueden ser comparadas mediante el alineamiento de secuencias. En los casos más simples, las diferencias entre dos haplotipos se pueden considerar como las regiones de las secuencias donde hay diferentes bases. Esto se suele llamar como cantidad de sustituciones, inserciones o deleciones. La diferencia entre organismos se suele expresar como porcentaje de divergencia, dividiendo el número de sustituciones por el total de bases comparadas: se asume que esta medida será independiente de la localización y longitud de la sección de ADN analizada, sin embargo se sabe que en realidad existen excepciones a esta generalización.
En una aproximación más antigua se determinaba la divergencia entre los genotipos de individuos mediante técnicas de hibridación ADN-ADN.^[4] La ventaja de este método por sobre la secuenciación de genes se basa en la comparación del genotipo entero, más que solo en una sección del ADN. La comparación de múltiples secuencias de genes en el presente ha hecho que la ventaja antes mencionada pierda valor.
Una vez determinada la divergencia entre todos los pares de bases, la matriz triangular de diferencias resultante es analizada por técnicas estadísticas de determinación de grupos, y el dendrograma resultante es examinado para ver cómo se agrupan las muestras. Todos los grupos de haplotipos que son más similares entre sí que con los haplotipos de otro grupo serán quienes compongan un determinado clado. Las técnicas estadísticas como bootstrap y jacknife ayudan proveyendo la confiabilidad estimada para cada haplotipo dentro de los árboles filogenéticos.

Un árbol filogenético se infiere a partir de secuencias de ADN o proteínas y puede ser considerado un modelo evolutivo de las mismas. Los métodos de reconstrucción utilizados se basan en las distancias entre los grupos o en los caracteres que determinan las divisiones entre organismos. Para medir esas distancias o diferencias y, de esa forma, generar los nodos y las ramas del árbol fiogenético, se utilizan diferentes métodos. Para medir distancias y realizar mediciones basadas en caracteres, se utilizan matrices de distancia, método de uniéndose de vecinos el método de máxima parsimonia, máxima verosimilitud e inferencia bayesiana.

Antes de generar una matriz de distancias es necesario calcular las distancias entre los pares de secuencias. Para ello, se utiliza un modelo, el cual puede suponer una misma tasa de sustitución entre residuos o diferentes tasas de transición y transversión. Con las distancias calculadas, partiendo desde el alineamiento de secuencias, se puede proceder a la construcción de la matriz y del árbol. Los métodos de medición de distancias comúnmente utilizados son: mínimos cuadrados, evolución mínima y método de uniéndose de vecinos, siendo el más utilizado este último, el cual es un algoritmo de agrupamiento basado en la distancia de taxones. Una de las mayores ventajas de estos métodos son la relativamente alta eficacia computacional respecto al de máxima parsimonia o máxima verosimilitud. Es por este motivo que el método de unión de vecinos es útil para comparar grandes juegos de datos de secuencias con bajos niveles de divergencia.

El método de máxima parsimonia fue desarrollado para utilizarse con caracteres morfológicos discretos durante la década de 1970. Luego fue utilizado en datos moleculares. Este modo supone una cantidad de mutaciones mínimas entre secuencias emparentadas a la hora de reconstruir un árbol.
Es necesario hacer dos cuantificaciones: en primer lugar, la longitud del sitio, la cual es el mínimo número de cambios necesarios para que ese sitio tenga ese estado, partiendo de un estado ancestral. En segundo lugar, el puntaje del árbol, el cual se calcula sumando todas las longitudes de todos los sitios del árbol. El árbol de máxima parsimonia es aquel que minimiza el puntaje del árbol. Esto quiere decir que el árbol de máxima parsimonia será aquel que suponga la menor cantidad de mutaciones para llegar de un estado ancestral a otro estado derivado de este.
En la reconstrucción de árboles de máxima parsimonia hay sitios que son informativos y otros que no. Aquellos sitios que se encuentran totalmente conservados o solo una de las secuencias posee una posición variable, no son informativos. Los sitios informativos son aquellos en los cuales se observan al menos dos residuos que aparecen al menos dos veces cada uno de ellos. El método de máxima parsimonia es comúnmente utilizado porque aporta resultados razonables a un costo computacional aceptable.
Las ventajas de este método son su sencillez y la simplicidad con la cual se pueden utilizar en el desarrollo de algoritmos computacionales eficientes. Una de las mayores desventajas es el problema denominado atracción de ramas grandes, el cual implica que cuando en el árbol real hay dos o más clados de gran cantidad de secuencias, el algoritmo tiende a unirlos en uno solo, generando así un árbol incorrecto.

El método de máxima verosimilitud fue desarrollado en 1920 por R. A. Fishcher como una metodología estadística para estimar parámetros desconocidos en un modelo dado. El primer algoritmo de máxima verosimilitud para datos de ADN fue desarrollado por Felsetein. El método es actualmente utilizado gracias al poder de computo disponible y el incremento en modelos evolutivos moleculares que se han desarrollado. Desde un punto de vista estadístico, el árbol construido es un modelo, siendo que la longitud de las ramas son los parámetros estimados del mismo. Es posible calcular la verosimilitud de un árbol ya construido utilizando diferentes modelos de sustitución.
La utilización de máxima verosimilitud es implementada en software como PHYLIP, MOLPHY, PhyML,^[5] RAxML y GARLI. La mayor ventaja que se puede mencionar respecto a los métodos de máxima verosimilitud es el hecho que apunta a entender el proceso de evolución de las secuencias. Una de las desventajas es que la construcción de árboles es computacionalmente costosa.

La técnica más usada en genes y proteínas es la comparación de secuencias homólogas mediante de alineamientos de secuencias múltiples. Desde estos alineamientos construidos, es posible construir filogenias.
Las aplicaciones de la filogenia son muy variadas e incluyen la representación de las relaciones entre especies en el árbol de la vida, relación entre parálogos, reconstrucción de historia de poblaciones. Actualmente es muy utilizado para la comparación de genomas y la clasificación de metagenomas.

La sistemática molecular es una aproximación esencialmente cladística: asume que la clasificación debe corresponder a la descendencia filogenética, y que todos los taxones válidos deben ser monofiléticos. El descubrimiento reciente de la transferencia lateral de genes entre organismos supone una complicación significativa a la sistemática molecular, indicando que diferentes genes dentro del mismo organismo pueden tener diferentes filogenias o historias evolutivas.
La filogenética molecular puede tener sesgos sobre la base de los modelos y supuestos utilizados para construirla. Enfrenta artefactos técnicos y problemas como la atracción de ramas largas, saturación, heterogeneidad composicional y homoplasia en las secuencias, problemas de muestreo de taxones. Esto quiere decir que se pueden obtener resultados muy diferentes cuando se utilizan diferentes modelos sobre el mismo juego de datos.^[6]