Métodos
Las técnicas de alineamiento estructural se han usado en la comparación de estructuras individuales o conjuntos de estructuras, y en la producción de bases de datos de comparaciones "todos contra todos" que miden la divergencia entre cada par de estructuras presente en el Protein Data Bank (PDB). Tales bases de datos se usan para clasificar proteínas de acuerdo a su plegamiento.
DALI
Um método de alinhamento estrutural comum e popular é o DALI (de Distance ALIgnment Matrix), que divide as estruturas problemáticas em fragmentos hexapeptídicos e calcula uma matriz de distância avaliando os padrões de contato entre fragmentos sucessivos.[14] Peculiaridades da estrutura secundária envolvendo resíduos contíguos na sequência aparecem na diagonal principal da matriz; Outras diagonais na matriz refletem contatos espaciais entre resíduos que não estão próximos uns dos outros na sequência. Quando essas diagonais são paralelas à diagonal principal, as características que representam são paralelas; quando são perpendiculares, suas características são antiparalelas. Esta representação consome muita memória, uma vez que os recursos na matriz quadrada são simétricos em relação à diagonal principal (e, portanto, redundantes).
Quando as matrizes de distância de duas proteínas compartilham características iguais ou semelhantes aproximadamente nas mesmas posições, pode-se dizer que elas têm dobras semelhantes com alças de comprimento semelhante conectando seus elementos de estrutura secundária. O processo real de alinhamento DALI requer uma busca por similaridade após a construção das matrizes de distância das duas proteínas; isso normalmente é resolvido por meio de uma série de submatrizes sobrepostas de tamanho 6x6. As correspondências nas submatrizes são reunidas em um alinhamento final realizado com um algoritmo padrão de maximização de pontuação. A versão original do DALI usou uma simulação de Monte Carlo para maximizar uma pontuação de similaridade estrutural que é uma função das distâncias entre átomos supostamente correspondentes. Em particular, átomos mais distantes dentro de elementos de características ligados são subponderados para reduzir os efeitos do ruído introduzido pela mobilidade do loop, torções da hélice e outras variações estruturais menores. Como o DALI é baseado em uma matriz de distância "todos contra todos", ele pode considerar a possibilidade de que características estruturalmente alinhadas possam aparecer em ordens diferentes nas duas sequências que estão sendo comparadas.
O método DALI também foi usado para construir um banco de dados conhecido como FSSP (Classificação de dobramento baseada no alinhamento Estrutura-Estrutura de Proteínas, e também Famílias de Proteínas Estruturalmente Semelhantes), no qual todas as estruturas proteicas conhecidas são alinhadas entre si para determinar seus vizinhos estruturais e classificação de dobramento. Existe um banco de dados utilizável baseado em DALI mantido pelo EBI, bem como um navegador da web e uma versão autônoma baseada nele, conhecida como DaliLite.
SSAP
O método SSAP (de Ssequential Structure Alignment Program, ou programa de alinhamento de estrutura sequencial) usa programação dinâmica dupla para gerar um alinhamento estrutural baseado em vetores átomo a átomo em um espaço de estrutura. Em vez dos carbonos alfa normalmente usados no alinhamento estrutural, o SSAP constrói seus vetores a partir de carbonos beta para todos os resíduos, exceto glicina, um método que leva em consideração o estado rotamérico de cada resíduo, bem como sua localização ao longo da estrutura. O SSAP funciona primeiro construindo uma série de vetores de distância entre resíduos entre cada resíduo e seus vizinhos próximos não contíguos em cada proteína. Uma série de matrizes contendo as diferenças de vetores entre vizinhos é então construída para cada par de resíduos para os quais os vetores foram construídos. A programação dinâmica aplicada a cada matriz resultante determina uma série de alinhamentos locais ótimos que são adicionados a uma matriz "resumida" à qual a programação dinâmica é novamente aplicada para determinar o alinhamento estrutural global.
O SSAP produziu originalmente apenas alinhamentos de pares, mas desde então também foi estendido para alinhamentos múltiplos.[15] Ele foi aplicado de maneira gratuita para produzir um esquema de classificação hierárquica dobrável conhecido como CATH (*Class, Architecture, Topology, Homology),[16] que foi usado para construir o banco de dados de Classificação de Estrutura de Proteínas CATH.
Extensão combinatória
O método de extensão combinatória é semelhante ao DALI no sentido de que também quebra cada estrutura do conjunto de problemas em uma série de fragmentos que são então tentados a serem remontados em um alinhamento completo. Uma série de combinações de pares de fragmentos, chamados "pares de fragmentos alinhados" (ou AFPs), são usados para definir uma matriz de similaridade a partir da qual uma trajetória ideal é gerada para identificar o alinhamento final. Como forma de reduzir o espaço de busca necessário e, portanto, aumentar a eficiência, apenas os AFPs que atendem a um determinado critério de similaridade local são incluídos na matriz.[17] Várias métricas de similaridade são possíveis; A definição original do método de extensão combinatória incluía apenas sobreposições estruturais e distâncias entre resíduos, mas desde então foi expandida para incluir propriedades locais do ambiente, como estrutura secundária, exposição a solventes, padrões de ligações de hidrogênio e ângulos diédricos.
Uma trajetória de alinhamento é calculada como a trajetória ideal através da matriz de similaridade, progredindo linearmente através das sequências e estendendo o alinhamento para o possível próximo par AFP de pontuação mais alta. O par inicial de AFP que nuclea o alinhamento pode ocorrer em qualquer ponto da matriz de sequência. As extensões então continuam com o próximo AFP que atenda ao critério de distância determinado, restringindo o alinhamento a pequenos tamanhos de lacunas. O tamanho de cada AFP e o tamanho máximo do intervalo são necessários como parâmetros de entrada, mas normalmente são usados os valores determinados empiricamente de 8 e 30, respectivamente.[17] Assim como o DALI e o SSAP, a extensão combinatória tem sido usada para construir um banco de dados de classificação dobrável a partir das estruturas proteicas conhecidas no Banco de Dados de Proteínas.
MAMUTE
De sua sigla em inglês MAtching Molecular Models Oobtidos de Theory, modelos moleculares coincidentes obtidos da teoria. Os métodos de alinhamento de estrutura baseados em MAMMOTH dividem a estrutura da proteína em peptídeos curtos (heptapeptídeos), que são comparados aos heptapeptídeos de outra proteína. Uma pontuação de similaridade é calculada entre dois heptapeptídeos usando um método de vetor unitário RMS (URMS).[18] Essas pontuações são armazenadas em uma matriz de similaridade e, com programação dinâmica híbrida (local-global), o alinhamento ideal dos resíduos é calculado. As pontuações de similaridade de proteínas calculadas com MAMMOTH são derivadas da probabilidade de obter um alinhamento estrutural dado ao acaso.[19] Este método foi otimizado para velocidade e precisão e é adequado para estudos estruturais genômicos em larga escala. MAMMOTH é usado no Rosetta@home.
MAMMOTH-mult é uma extensão do algoritmo MAMMOTH para ser usado no alinhamento de famílias relacionadas de estruturas de proteínas. Este algoritmo é muito rápido e produz alinhamentos estruturais consistentes e de alta qualidade.[20] Múltiplos alinhamentos estruturais calculados com MAMMOTH-mult produzem alinhamentos de sequências estruturalmente implícitos, que podem posteriormente ser usados como modelos para modelagem de homologia), previsão de estrutura de proteínas por modelos ocultos de Markov e pesquisas por tipo de perfil com PSI-BLAST.
RÁPIDO
Do inglês Rapid Alignment of Proteins In termos de DOmains (ou alinhamento rápido de proteínas em termos de domínios). RAPIDO[21] é um servidor web para alinhamento 3D de estruturas cristalinas de diferentes moléculas de proteínas, na presença de alterações conformacionais. Semelhante ao que é feito na primeira etapa da extensão combinatória, o RAPIDO identifica fragmentos que são estruturalmente semelhantes nas duas proteínas usando uma abordagem baseada em matrizes de distâncias diferentes. Pares de fragmentos correspondentes, ou MFPs, são então representados como nós em um gráfico, que são encadeados para formar um alinhamento por meio de um algoritmo para identificar o caminho mais longo em um gráfico acíclico direcionado. A etapa final de refinamento é realizada para melhorar a qualidade do alinhamento. Depois de alinhar as duas estruturas, o servidor aplica um algoritmo genético para identificar regiões invariantes conformacionalmente.[22] Estas regiões correspondem a grupos de átomos cujas distâncias interatômicas são constantes (dentro de uma tolerância definida). Ao fazer isso, o RAPIDO leva em consideração a variação na confiabilidade das coordenadas atômicas, empregando funções de ponderação baseadas nos valores B refinados. As regiões identificadas pelo RAPIDO como invariantes conformacionalmente representam conjuntos confiáveis de átomos para a superposição das duas estruturas, e que podem ser utilizadas para análise detalhada de mudanças conformacionais. Além das funcionalidades proporcionadas pelas ferramentas atuais, o RAPIDO pode identificar regiões estruturalmente equivalentes mesmo quando constituídas por fragmentos distantes em termos de sequência e separados por outros domínios móveis.
Desenvolvimentos recentes
Melhorar os métodos de alinhamento estrutural é uma área ativa de pesquisa, e frequentemente são propostos métodos novos ou modificados que afirmam oferecer vantagens em relação às técnicas anteriores e mais amplamente distribuídas. Um exemplo recente, TM-align, utiliza um novo método para ponderar sua matriz de distância, no qual a programação dinâmica é aplicada.[23][24] A ponderação é proposta para acelerar a convergência (resultado) da programação dinâmica, bem como para corrigir os efeitos ligados aos comprimentos de alinhamento. Num estudo comparativo, o TM-align foi melhor, tanto em velocidade como em precisão, do que o DALI ou a extensão combinatória.[23].