Métodos
Las técnicas de alineamiento estructural se han usado en la comparación de estructuras individuales o conjuntos de estructuras, y en la producción de bases de datos de comparaciones "todos contra todos" que miden la divergencia entre cada par de estructuras presente en el Protein Data Bank (PDB). Tales bases de datos se usan para clasificar proteínas de acuerdo a su plegamiento.
DALI
Un método de alineamiento estructural común y popular es DALI (de Distance ALIgnment matrix, o matriz de alineamiento de distancias), que rompe las estructuras problema en fragmentos de hexapéptidos y calcula una matriz de distancia evaluando los patrones de contacto entre fragmentos sucesivos.[14] Las peculiaridades de la estructura secundaria que implican residuos contiguos en la secuencia aparecen en la diagonal principal de la matriz; otras diagonales en la matriz reflejan contactos espaciales entre residuos que no están cercanos uno al otro en la secuencia. Cuando estas diagonales son paralelas a la diagonal principal, las características que representan son paralelas; cuando son perpendiculares, sus características son antiparalelas. Esta representación es intensiva en memoria, ya que las características en la matriz cuadrada son simétricas sobre la diagonal principal (y por lo tanto redundantes).
Cuando las matrices de distancia de dos proteínas comparten las mismas o similares características en aproximadamente las mismas posiciones, puede decirse que tienen similares plegamientos con bucles de longitud similar conectando sus elementos de estructura secundaria. El proceso de alineamiento real de DALI requiere una búsqueda de similitud después de que las matrices de distancia de las dos proteínas se hayan construido; esto se dirige normalmente vía una serie de submatrices superpuestas de tamaño 6x6. Las coincidencias en las submatrices se reúnen en un alineamiento final realizado con un algoritmo estándar de maximización de puntuación. La versión original de DALI usaba una simulación por el método de Montecarlo para maximizar una puntuación de similitud estructural que es función de las distancias entre átomos supuestamente correspondientes. En particular, los átomos más distantes dentro de los elementos característicos vinculados son infraponderados para reducir los efectos del ruido introducido por la movilidad de los bucles, las torsiones de las hélices, y otras variaciones estructurales menores.[13] Dado que DALI se basa en una matriz de distancias "todos contra todos", puede considerar la posibilidad de que las características alineadas estructuralmente podrían aparecer en órdenes diferentes dentro de las dos secuencias en comparación.
El método DALI ha sido también usado para construir una base de datos conocida como FSSP (Fold classification based on Structure-Structure alignment of Proteins, o clasificación de plegamientos basada en alineamientos estructurales de proteínas, y también de Families of Structurally Similar Proteins, o familias de proteínas estructuralmente similares), en la que todas las estructuras de proteínas conocidas son alineadas unas con otras para determinar sus vecinas estructurales y la clasificación de los plegamientos. Hay una base de datos utilizable basada en DALI y mantenida por el EBI, así como un buscador web y un basados en una versión autónoma conocida como DaliLite.
SSAP
El método SSAP (de Sequential Structure Alignment Program, o programa de alineamiento secuencial de estructuras) usa doble programación dinámica para generar un alineamiento estructural basado en vectores átomo-a-átomo en un espacio de estructura. En lugar de los carbonos alfa utilizados normalmente en alineamiento estructural, SSAP construye sus vectores desde carbonos beta para todos los residuos excepto glicina, método que así toma en consideración el estado rotamérico de cada residuo así como su localización a lo largo del esqueleto. SSAP trabaja construyendo primero una serie de vectores de distancia inter-residuos entre cada residuo y sus vecinos cercanos no contiguos en cada proteína. Se construyen entonces una serie de matrices conteniendo las diferencias de vectores entre vecinos para cada par de residuos para el que se construyeron los vectores. La programación dinámica aplicada a cada matriz resultante determina una serie de alineamientos locales óptimos que son añadidos a una matriz "resumen" a la que se le aplica de nuevo programación dinámica para determinar el alineamiento estructural global.
SSAP producía originalmente solo alineamientos de parejas, pero desde entonces ha sido extendido también para alineamientos múltiples.[15] Ha sido aplicado de una manera "todos contra todos" para producir un esquema jerárquico de clasificación de plegamientos conocido como CATH (Class, Architecture, Topology, Homology, o clase, arquitectura, topología, homología),[16] que se ha usado para construir la base de datos CATH Protein Structure Classification.
Extensión combinatoria
El método de extensión combinatoria es similar a DALI en que también rompe cada estructura del conjunto problema en una serie de fragmentos que se intentan entonces volver a ensamblar en un alineamiento completo. Una serie de combinaciones de pares de fragmentos, llamados "pares de fragmentos alineados" (o AFP, por sus siglas en inglés Aligned Fragment Pairs), se usan para definir una matriz de similitud a partir de la cual se genera una trayectoria óptima para identificar el alineamiento final. Como un medio para reducir el espacio de búsqueda necesario y, por lo tanto, incrementar la eficiencia, solo los AFP que cumplen un determinado criterio de similitud local se incluyen en la matriz.[17] Son posibles varias métricas de similitud; la definición original del método de extensión combinatoria incluía solo superposiciones estructurales y distancias inter-residuos, pero se ha expandido desde entonces para incluir propiedades locales del entorno tales como la estructura secundaria, exposición al disolvente, patrones de puentes de hidrógeno, y ángulos diedros.[17].
Una trayectoria de alineamiento se calcula como la trayectoria óptima a través de la matriz de similitud progresando linealmente a través de las secuencias y extendiendo el alineamiento con el posible siguiente par AFP de más alta puntuación. El par AFP inicial que nuclea el alineamiento puede ocurrir en cualquier punto en la matriz de secuencias. Las extensiones prosiguen entonces con el siguiente AFP que cumple el criterio de distancia dado, restringiendo el alineamiento a tamaños pequeños de gap (o hueco). El tamaño de cada AFP y el tamaño máximo de hueco se requieren como parámetros de entrada, pero normalmente se utilizan los valores empíricamente determinados de 8 y 30, respectivamente.[17] Como DALI y SSAP, la extensión combinatoria se ha usado para construir una base de datos de clasificación de plegamientos a partir de las estructuras conocidas de proteínas en el Protein Data Bank.
MAMMOTH
De sus siglas en inglés MAtching Molecular Models Obtained from Theory, modelos moleculares coincidentes obtenidos de la teoría. Los métodos de alineamiento de estructuras basados en MAMMOTH descomponen la estructura de la proteína en péptidos cortos (heptapéptidos), que son comparados con los heptapéptidos de otra proteína. Se calcula una puntuación de similitud entre dos heptapéptidos usando un método de vector unidad RMS (URMS).[18] Estas puntuaciones se almacenan en una matriz de similitud, y con programación dinámica híbrida (local-global), se calcula el alineamiento de residuos óptimo. Las puntuaciones de similitud entre proteínas calculadas con MAMMOTH se derivan de la probabilidad de obtener un alineamiento estructural dado por casualidad.[19] Este método ha sido optimizado para velocidad y precisión, y es adecuado para estudios estructurales genómicos a gran escala. MAMMOTH se usa en Rosetta@home.
MAMMOTH-mult es una extensión del algoritmo MAMMOTH para ser usado al alinear familias relacionadas de estructuras de proteínas. Este algoritmo es muy rápido y produce alineamientos estructurales consistentes y de alta calidad.[20] Los alineamientos estructurales múltiples calculados con MAMMOTH-mult producen alineamientos de secuencias estructuralmente implícitos, que pueden ser usados posteriormente como plantillas para modelado por homología"), predicción de estructura de proteínas por modelos ocultos de Márkov, y búsquedas por tipo de perfil con PSI-BLAST.
RAPIDO
Del inglés Rapid Alignment of Proteins In terms of DOmains (o alineamiento rápido de proteínas en términos de dominios). RAPIDO[21] es un servidor web para el alineamiento 3D de estructuras cristalinas de diferentes moléculas de proteínas, en presencia de cambios conformacionales. Similar a lo que se hace como primer paso en la extensión combinatoria, RAPIDO identifica fragmentos que son estructuralmente similares en las dos proteínas usando una aproximación basada en matrices de distancia por diferencias. Los pares de fragmentos coincidentes, o MFP (de Matching Fragment Pairs), se representan entonces como nodos en un grafo, los cuales se encadenan juntos para formar un alineamiento por medio de un algoritmo para la identificación de la trayectoria más larga en un grafo acíclico dirigido. El paso final de refinamiento se realiza para mejorar la calidad del alineamiento. Tras alinear las dos estructuras, el servidor aplica un algoritmo genético para la identificación de regiones conformacionalmente invariantes.[22] Estas regiones corresponden a grupos de átomos cuyas distancias interatómicas son constantes (dentro de una tolerancia definida). Haciéndolo así, RAPIDO toma en consideración la variación en la fiabilidad de las coordenadas atómicas empleando funciones de ponderación basadas en los B-valores refinados. Las regiones identificadas por RAPIDO como conformacionalmente invariantes representan conjuntos confiables de átomos para la superposición de las dos estructuras, y que pueden usarse para un detallado análisis de cambios en la conformación. En adición a las funcionalidades proporcionadas por las actuales herramientas, RAPIDO puede identificar regiones estructuralmente equivalentes aun cuando éstas consistan en fragmentos que estén distantes en términos de secuencia y separados por otros dominios móviles.
Desarrollos recientes
Mejorar los métodos de alineamiento estructural constituye un área activa de investigación, y a menudo se proponen métodos nuevos o modificados que pregonan ofrecer ventajas sobre las anteriores y más ampliamente distribuidas técnicas. Un ejemplo reciente, TM-align, utiliza un novedoso método para ponderar su matriz de distancias, en el cual se aplica programación dinámica.[23][24] La ponderación se propone para acelerar la convergencia (resultado) de la programación dinámica, así como para corregir los efectos vinculados a las longitudes del alineamiento. En un estudio comparativo, TM-align ha resultado mejor, tanto en velocidad como en precisión, que DALI o la extensión combinatoria.[23].