Modelos de evolução do DNA

Da Wikipédia, a enciclopédia livre
Ir para navegação Pular para pesquisar

Vários modelos de Markov diferentes de evolução da sequência de DNA foram propostos. Esses modelos de substituição diferem em termos dos parâmetros usados ​​para descrever as taxas nas quais um nucleotídeo substitui outro durante a evolução. Esses modelos são freqüentemente usados ​​em análises filogenéticas moleculares . Em particular, eles são usados ​​durante o cálculo da probabilidade de uma árvore (em abordagens bayesianas e de máxima verossimilhança para estimativa de árvore) e são usados ​​para estimar a distância evolutiva entre as sequências a partir das diferenças observadas entre as sequências.

Introdução

Esses modelos são descrições fenomenológicas da evolução do DNA como uma cadeia de quatro estados discretos. Esses modelos de Markov não representam explicitamente o mecanismo de mutação nem a ação da seleção natural. Em vez disso, eles descrevem as taxas relativas de diferentes mudanças. Por exemplo, vieses mutacionais e seleção purificadora que favorecem mudanças conservadoras são provavelmente ambos responsáveis ​​pela taxa relativamente alta de transições em comparação com transversões em sequências em evolução. No entanto, o modelo Kimura (K80) descrito abaixo apenas tenta capturar o efeito de ambas as forças em um parâmetro que reflete a taxa relativa de transições para transversões.

As análises evolutivas de sequências são conduzidas em uma ampla variedade de escalas de tempo. Assim, é conveniente expressar esses modelos em termos das taxas instantâneas de mudança entre os diferentes estados (as matrizes Q abaixo). Se tivermos um estado inicial (ancestral) em uma posição, a matriz Q do modelo e um comprimento de ramificação expressando o número esperado de mudanças que ocorreram desde o ancestral, então podemos derivar a probabilidade de a sequência descendente ter cada um dos quatro estados. Os detalhes matemáticos desta transformação de matriz de taxas para matriz de probabilidade são descritos na seção de matemática de modelos de substituição do modelo de substituiçãopágina. Ao expressar modelos em termos de taxas instantâneas de mudança, podemos evitar a estimativa de um grande número de parâmetros para cada ramo em uma árvore filogenética (ou cada comparação, se a análise envolver muitas comparações de sequência de pares).

Os modelos descritos nesta página descrevem a evolução de um único site dentro de um conjunto de sequências. Eles são freqüentemente usados ​​para analisar a evolução de um locus inteiro , fazendo a suposição simplificadora de que diferentes locais evoluem independentemente e são distribuídos de forma idêntica . Essa suposição pode ser justificável se for possível presumir que os locais estão evoluindo de maneira neutra . Se o efeito primário da seleção natural na evolução das sequências é restringir alguns locais, então os modelos de heterogeneidade de taxa entre locais podem ser usados. Essa abordagem permite estimar apenas uma matriz de taxas relativas de substituição e outro conjunto de parâmetros que descreve a variação na taxa total de substituição entre os sites.

Evolução de ADN como uma cadeia de Markov de tempo contínuo

De tempo contínuo Cadeias de Markov

As cadeias de Markov de tempo contínuo têm as matrizes de transição usuais que são, além disso, parametrizadas pelo tempo,. Especificamente, se são os estados, então a matriz de transição

onde cada entrada individual, refere-se à probabilidade de que o estado vai mudar para o estado em tempo .

Exemplo: Gostaríamos de modelar o processo de substituição em sequências de DNA ( ou seja, Jukes – Cantor , Kimura, etc. ) em tempo contínuo. As matrizes de transição correspondentes serão semelhantes a:

onde os blocos superior esquerdo e inferior direito 2 × 2 correspondem às probabilidades de transição e os blocos superior direito e inferior esquerdo 2 × 2 correspondem às probabilidades de transversão .

Premissa: Se em algum momento, a cadeia de Markov está no estado , então a probabilidade de que no momento , estará no estado depende apenas de , e . Isso nos permite escrever essa probabilidade como.

Teorema: Matrizes de transição em tempo contínuo satisfazem:

Nota: existe aqui uma possível confusão entre dois significados da palavra transição . (i) No contexto das cadeias de Markov , transição é o termo geral para a mudança entre dois estados. (ii) No contexto de alterações de nucleotídeos em sequências de DNA , a transição é um termo específico para a troca entre as duas purinas (A ↔ G) ou as duas pirimidinas (C ↔ T) (para obter detalhes adicionais, consulte o artigo sobre transições em genética ). Em contraste, uma troca entre uma purina e uma pirimidina é chamada de transversão .

Derivando a dinâmica de substituição

Considere uma sequência de DNA de comprimento fixo m evoluindo no tempo por substituição de base. Suponha que os processos seguidos pelos m sites sejam independentes de Markovian, distribuídos de forma idêntica e que o processo seja constante ao longo do tempo. Para um determinado site, vamos

ser o conjunto de possíveis estados para o site, e

suas respectivas probabilidades no momento . Para dois distintos, deixei seja a taxa de transição do estado declarar . Da mesma forma, para qualquer, deixe a taxa total de mudança de ser

As mudanças na distribuição de probabilidade para pequenos incrementos de tempo são dados por

Em outras palavras, (em linguagem frequentista), a frequência de está na hora é igual à frequência no tempo menos a frequência dos perdidos mais a frequência do recém-criado 's.

Da mesma forma para as probabilidades , e . Essas equações podem ser escritas compactamente como

Onde

é conhecido como a matriz de taxas . Observe que, por definição, a soma das entradas em cada linha deé igual a zero. Segue que

Para um processo estacionário , ondenão depende do tempo t , esta equação diferencial pode ser resolvida. Primeiro,

Onde denota o exponencial da matriz. Como resultado,

Ergodicidade

Se a cadeia de Markov é irredutível , ou seja , se sempre é possível ir de um estado para um estado (possivelmente em várias etapas), então também é ergódico . Como resultado, tem uma distribuição estacionária única , Onde corresponde à proporção de tempo gasto no estado depois que a cadeia de Markov funcionar por um período infinito de tempo. Na evolução do DNA, partindo do pressuposto de um processo comum para cada local, as frequências estacionáriascorrespondem a composições de base de equilíbrio. Na verdade, observe que, uma vez que a distribuição estacionária satisfaz , vemos que quando a distribuição atual é a distribuição estacionária temos

Em outras palavras, as frequências de não mude.

Reversibilidade tempo

Definição : Um processo de Markov estacionário é reversível no tempo se (no estado estacionário) a quantidade de mudança do estado para é igual à quantidade de mudança de para , (embora os dois estados possam ocorrer com frequências diferentes). Isso significa que:

Nem todos os processos estacionários são reversíveis, no entanto, os modelos de evolução de DNA mais comumente usados ​​assumem reversibilidade no tempo, o que é considerado uma suposição razoável.

Sob o pressuposto de reversibilidade de tempo, deixe , então é fácil ver que:

Definição O termo simétricoé chamada de permutabilidade entre estados e . Em outras palavras, é a fração da frequência do estado isso é o resultado de transições de estado declarar .

Corolário As 12 entradas fora da diagonal da matriz de taxas, (observe que as entradas fora da diagonal determinam as entradas diagonais, uma vez que as linhas de soma a zero) pode ser completamente determinado por 9 números; estes são: 6 termos de permutabilidade e 3 frequências estacionárias, (uma vez que as frequências estacionárias somam 1).

Dimensionamento de comprimentos dos ramos

Ao comparar as sequências existentes, pode-se determinar a quantidade de divergência de sequência. Esta medida bruta de divergência fornece informações sobre o número de mudanças que ocorreram ao longo do caminho que separa as sequências. A contagem simples de diferenças (a distância de Hamming ) entre as sequências irá frequentemente subestimar o número de substituições devido a acertos múltiplos (ver homoplasia) Tentar estimar o número exato de mudanças que ocorreram é difícil e geralmente não é necessário. Em vez disso, os comprimentos de ramo (e comprimentos de caminho) em análises filogenéticas são geralmente expressos no número esperado de mudanças por local. O comprimento do caminho é o produto da duração do caminho no tempo e a taxa média de substituições. Embora seu produto possa ser estimado, a taxa e o tempo não são identificáveis ​​pela divergência de sequência.

As descrições das matrizes de taxas nesta página refletem com precisão a magnitude relativa de diferentes substituições, mas essas matrizes de taxas não são escaladas de forma que um comprimento de ramificação de 1 produza uma mudança esperada. Esse dimensionamento pode ser realizado multiplicando-se cada elemento da matriz pelo mesmo fator ou simplesmente dimensionando os comprimentos dos ramos. Se usarmos β para denotar o fator de escala e ν para denotar o comprimento do ramo medido no número esperado de substituições por local, então βν é usado nas fórmulas de probabilidade de transição abaixo no lugar de μ t . Observe que ν é um parâmetro a ser estimado a partir de dados e é referido como o comprimento do ramo, enquanto β é simplesmente um número que pode ser calculado a partir da matriz de taxas (não é um parâmetro livre separado).

O valor de β pode ser encontrado forçando a taxa esperada de fluxo de estados para 1. As entradas diagonais da matriz de taxas (a matriz Q ) representam -1 vezes a taxa de saída de cada estado. Para modelos reversíveis no tempo , sabemos as frequências do estado de equilíbrio (são simplesmente o valor do parâmetro π i para o estado i ). Assim, podemos encontrar a taxa de mudança esperada calculando a soma do fluxo de cada estado ponderado pela proporção de sites que se espera que estejam nessa classe. Definir β como o recíproco desta soma garantirá que o processo escalado tenha um fluxo esperado de 1:

Por exemplo, no Jukes-Cantor, o fator de escala seria 4 / (3μ) porque a taxa de saída de cada estado é 3μ / 4 .

A maioria dos modelos comuns de evolução DNA

Modelo JC69 (Jukes e Cantor 1969)

JC69, o modelo Jukes e Cantor 1969, [1] é o modelo de substituição mais simples . Existem várias suposições. Ele assume frequências de base iguaise taxas de mutação iguais . O único parâmetro deste modelo é, portanto,, a taxa de substituição geral. Conforme mencionado anteriormente, essa variável se torna uma constante quando normalizamos a taxa média para 1.

Probabilidade de mudar do estado inicial para o estado final em função do comprimento do ramo () para JC69. Curva vermelha: estados de nucleotídeos e são diferentes. Curva azul: os estados inicial e final são iguais. Depois de muito tempo, as probabilidades tendem para as frequências de equilíbrio dos nucleotídeos (0,25: linha tracejada).

Quando o comprimento do ramo, , é medido no número esperado de mudanças por site, então:

É importante notar que o que significa soma de qualquer coluna (ou linha) da matriz multiplicado pelo tempo e, portanto, significa o número esperado de substituições no tempo (duração do ramal) para cada site específico (por site) quando a taxa de substituição for igual .

Dada a proporção de locais que diferem entre as duas sequências, a estimativa de Jukes-Cantor da distância evolutiva (em termos do número esperado de mudanças) entre duas sequências é dada por

O nesta fórmula é freqüentemente referido como o -distância. É uma estatística suficiente para calcular a correção de distância Jukes-Cantor, mas não é suficiente para o cálculo da distância evolutiva nos modelos mais complexos que se seguem (observe também que usado nas fórmulas subsequentes não é idêntico ao "-distância").

Modelo K80 (Kimura 1980)

K80, o modelo Kimura 1980, [2] muitas vezes referido como o modelo de dois parâmetros de Kimura (ou o modelo K2P ), distingue entre as transições (, ou seja, de purina para purina, ou , isto é, de pirimidina para pirimidina) e transversões (de purina para pirimidina ou vice-versa). Na descrição original de Kimura do modelo, o α e β foram usados ​​para denotar as taxas desses tipos de substituições, mas agora é mais comum definir a taxa de transversões para 1 e usar κ para denotar a razão de taxa de transição / transversão (como é feito abaixo). O modelo K80 assume que todas as bases são igualmente frequentes ()

Matriz de taxas com colunas correspondentes a , , , e , respectivamente.

A distância de dois parâmetros Kimura é dada por:

onde p é a proporção de sites que mostram diferenças transicionais eq é a proporção de sites que mostram diferenças transversais.

Modelo K81 (Kimura 1981)

K81, o modelo Kimura 1981, [3] freqüentemente chamado de modelo de três parâmetros de Kimura ( modelo K3P) ou modelo de três tipos de substituição (K3ST), tem taxas distintas para transições e dois tipos distintos de transversões . Os dois tipos de transversão são aqueles que conservam as propriedades fracas / fortes dos nucleotídeos (ou seja, e , denotado pelo símbolo [3] ) e aqueles que conservam as propriedades amino / ceto dos nucleotídeos (ou seja, e , denotado pelo símbolo [3] ). O modelo K81 assume que todas as frequências básicas de equilíbrio são iguais (ou seja,)

Matriz de taxas com colunas correspondentes a , , , e , respectivamente.

O modelo K81 é usado com muito menos frequência do que o modelo K80 (K2P) para estimativa de distância e raramente é o modelo de melhor ajuste na filogenética de máxima verossimilhança. Apesar desses fatos, o modelo K81 continuou a ser estudado no contexto da filogenética matemática. [4] [5] [6] Uma propriedade importante é a capacidade de realizar uma transformação de Hadamard assumindo que os padrões do site foram gerados em uma árvore com nucleotídeos evoluindo no modelo K81. [7] [8] [9]

Quando usada no contexto da filogenética, a transformada de Hadamard fornece um meio elegante e totalmente invertível para calcular as frequências de padrão de local esperadas, dado um conjunto de comprimentos de ramificação (ou vice-versa). Ao contrário de muitos cálculos de máxima verossimilhança, os valores relativos para, , e pode variar entre ramos e a transformação de Hadamard pode até fornecer evidências de que os dados não cabem em uma árvore. A transformada de Hadamard também pode ser combinada com uma ampla variedade de métodos para acomodar a heterogeneidade de taxa entre os locais, [10] usando distribuições contínuas em vez de aproximações discretas tipicamente usadas em filogenética de máxima verossimilhança [11] (embora seja necessário sacrificar a invertibilidade do Transformada de Hadamard para usar certas distribuições de heterogeneidade de taxa entre locais [10] ).

Modelo F81 (Felsenstein, 1981)

F81, o modelo de Felsenstein de 1981, [12] é uma extensão do modelo JC69 no qual as frequências básicas podem variar de 0,25 ()

Matriz de taxas:

Quando o comprimento do ramo, ν, é medido no número esperado de mudanças por site, então:

Modelo HKY85 (Hasegawa, Kishino e Yano 1985)

HKY85, o modelo Hasegawa, Kishino e Yano 1985, [13] pode ser pensado como uma combinação das extensões feitas nos modelos Kimura80 e Felsenstein81. Ou seja, ele distingue entre a taxa de transições e transversões (usando o parâmetro κ), e permite frequências de base desiguais () [Felsenstein descreveu um modelo semelhante (mas não equivalente) em 1984 usando uma parametrização diferente; [14] esse último modelo é conhecido como o modelo F84. [15] ]

Matriz de taxas

Se expressarmos o comprimento do ramo, ν em termos do número esperado de mudanças por site, então:

e a fórmula para as outras combinações de estados pode ser obtida substituindo nas frequências de base apropriadas.

Modelo T92 (Tamura 1992)

T92, o modelo de Tamura 1992, [16] é um método matemático desenvolvido para estimar o número de substituições de nucleotídeos por sítio entre duas sequências de DNA, estendendo o método de dois parâmetros de Kimura (1980) para o caso em que existe um viés de conteúdo G + C . Este método será útil quando houver fortes vieses de transição-transversão e conteúdo G + C, como no caso do DNA mitocondrial de Drosophila . [16]

T92 envolve um único parâmetro de frequência base composto (também notado )

Como T92 ecoa a segunda regra de paridade de Chargaff - os nucleotídeos de emparelhamento têm a mesma frequência em uma única fita de DNA, G e C por um lado, e A e T por outro lado - segue-se que as quatro frequências básicas podem ser expressas como uma função de

e

Matriz de taxas

A distância evolutiva entre duas sequências de DNA de acordo com este modelo é dada por

Onde e é o conteúdo G + C ()

Modelo TN93 (Tamura e Nei 1993)

TN93, o modelo de Tamura e Nei 1993, [17] distingue entre os dois tipos diferentes de transição ; ie () pode ter uma taxa diferente de () Todas as transversões ocorrem na mesma taxa, mas essa taxa pode ser diferente de ambas as taxas de transição.

TN93 também permite frequências básicas desiguais ()

Matriz de taxas

Modelo GTR (tavare 1986)

GTR, o modelo generalizado reversível no tempo de Tavaré 1986, [18] é o modelo mais geral neutro, independente, de sítios finitos e reversível no tempo possível. Foi descrito pela primeira vez de uma forma geral por Simon Tavaré em 1986. [18]

Os parâmetros GTR consistem em um vetor de frequência base de equilíbrio, , fornecendo a frequência em que cada base ocorre em cada local, e a matriz de taxas

Onde

são os parâmetros da taxa de transição.

Portanto, GTR (para quatro caracteres, como é frequentemente o caso em filogenética) requer 6 parâmetros de taxa de substituição, bem como 4 parâmetros de frequência de base de equilíbrio. No entanto, isso geralmente é eliminado em 9 parâmetros mais, o número total de substituições por unidade de tempo. Ao medir o tempo em substituições (= 1) apenas 8 parâmetros livres permanecem.

Em geral, para calcular o número de parâmetros, deve-se contar o número de entradas acima da diagonal na matriz, ou seja, para n valores de característica por site e, em seguida, adicione n para as frequências de base de equilíbrio e subtraia 1 porqueestá consertado. Um consegue

Por exemplo, para uma sequência de aminoácidos (existem 20 aminoácidos "padrão" que constituem as proteínas ), seria possível descobrir que existem 209 parâmetros. No entanto, ao estudar regiões codificantes do genoma, é mais comum trabalhar com um modelo de substituição de códon (um códon tem três bases e codifica um aminoácido em uma proteína). códons, mas as taxas de transições entre códons que diferem em mais de uma base são assumidas como zero. Portanto, existem parâmetros.

Veja também

Referências

  1. ^ Jukes TH, Cantor CR (1969). Evolução das moléculas de proteína . Nova York: Academic Press. pp. 21–132.
  2. ^ Kimura M (dezembro de 1980). "Um método simples para estimar taxas evolutivas de substituições de bases por meio de estudos comparativos de sequências de nucleotídeos". Journal of Molecular Evolution . 16 (2): 111–20. Bibcode : 1980JMolE..16..111K . doi : 10.1007 / BF01731581 . PMID 7463489 . S2CID 19528200 .  
  3. ^ a b c Kimura M (janeiro de 1981). "Estimativa de distâncias evolutivas entre sequências de nucleotídeos homólogas" . Anais da Academia Nacional de Ciências dos Estados Unidos da América . 78 (1): 454–8. Bibcode : 1981PNAS ... 78..454K . doi : 10.1073 / pnas.78.1.454 . PMC 319072 . PMID 6165991 .  
  4. ^ Bashford JD, Jarvis PD, Sumner JG, Steel MA (2004-02-25). "Simetria U (1) × U (1) × U (1) do modelo Kimura 3ST e processos de ramificação filogenética". Journal of Physics A: Mathematical and General . 37 (8): L81 – L89. arXiv : q-bio / 0310037 . doi : 10.1088 / 0305-4470 / 37/8 / L01 . S2CID 7845860 . 
  5. ^ Sumner JG, Charleston MA, Jermiin LS, Jarvis PD (agosto de 2008). "Invariantes, pletismas e filogenéticos de Markov". Journal of Theoretical Biology . 253 (3): 601–15. doi : 10.1016 / j.jtbi.2008.04.001 . PMID 18513747 . 
  6. ^ Sumner JG, Jarvis PD, Holland BR (dezembro de 2014). "Uma abordagem tensorial para a inversão de modelos filogenéticos baseados em grupos" . BMC Evolutionary Biology . 14 (1): 236. doi : 10.1186 / s12862-014-0236-6 . PMC 4268818 . PMID 25472897 .  
  7. ^ Hendy MD, Penny D, Steel MA (abril de 1994). "Uma análise discreta de Fourier para árvores evolutivas" . Anais da Academia Nacional de Ciências dos Estados Unidos da América . 91 (8): 3339–43. Bibcode : 1994PNAS ... 91.3339H . doi : 10.1073 / pnas.91.8.3339 . PMC 43572 . PMID 8159749 .  
  8. ^ Hendy MD (2005). "Conjugação de Hadamard: uma ferramenta analítica para a filogenética" . Em Gascuel O (ed.). Matemática da Evolução e Filogenia . Imprensa da Universidade de Oxford. pp. 143–177. ISBN 978-0198566106.
  9. ^ Hendy MD, Snir S (julho de 2008). "Conjugação de Hadamard para o modelo Kimura 3ST: prova combinatória usando conjuntos de caminhos". Transações IEEE / ACM em Biologia Computacional e Bioinformática . 5 (3): 461–71. doi : 10.1109 / TCBB.2007.70227 . PMID 18670048 . S2CID 20633916 .  
  10. ^ a b Waddell PJ, moeda de um centavo D, Moore T (agosto de 1997). "Conjugações de Hadamard e evolução de sequência de modelagem com taxas desiguais entre sites". Molecular Phylogenetics and Evolution . 8 (1): 33–50. doi : 10.1006 / mpev.1997.0405 . PMID 9242594 . 
  11. ^ Yang Z (setembro de 1994). "Estimativa filogenética de máxima verossimilhança a partir de sequências de DNA com taxas variáveis ​​sobre locais: métodos aproximados". Journal of Molecular Evolution . 39 (3): 306–14. Bibcode : 1994JMolE..39..306Y . CiteSeerX 10.1.1.305.951 . doi : 10.1007 / BF00160154 . PMID 7932792 . S2CID 17911050 .   
  12. ^ Felsenstein J (1981). "Árvores evolutivas a partir de sequências de DNA: uma abordagem de máxima verossimilhança". Journal of Molecular Evolution . 17 (6): 368–76. Bibcode : 1981JMolE..17..368F . doi : 10.1007 / BF01734359 . PMID 7288891 . S2CID 8024924 .  
  13. ^ Hasegawa M, Kishino H, Yano T (1985). "Datação da divisão do macaco-humano por um relógio molecular do DNA mitocondrial". Journal of Molecular Evolution . 22 (2): 160–74. Bibcode : 1985JMolE..22..160H . doi : 10.1007 / BF02101694 . PMID 3934395 . S2CID 25554168 .  
  14. ^ Kishino H, Hasegawa M (agosto de 1989). "Avaliação da estimativa de máxima verossimilhança das topologias da árvore evolutiva a partir de dados de sequência de DNA e a ordem de ramificação em hominoidea". Journal of Molecular Evolution . 29 (2): 170–9. Bibcode : 1989JMolE..29..170K . doi : 10.1007 / BF02100115 . PMID 2509717 . S2CID 8045061 .  
  15. ^ Felsenstein J, Churchill GA (janeiro de 1996). "Uma abordagem de modelo oculto de Markov para variação entre sites na taxa de evolução" . Biologia Molecular e Evolução . 13 (1): 93–104. doi : 10.1093 / oxfordjournals.molbev.a025575 . PMID 8583911 . 
  16. ^ a b Tamura K (julho de 1992). "Estimativa do número de substituições de nucleotídeos quando há fortes enviesamentos de transição-transversão e conteúdo G + C" . Biologia Molecular e Evolução . 9 (4): 678–87. doi : 10.1093 / oxfordjournals.molbev.a040752 . PMID 1630306 . 
  17. ^ Tamura K, Nei M (maio de 1993). "Estimativa do número de substituições de nucleotídeos na região de controle do DNA mitocondrial em humanos e chimpanzés" . Biologia Molecular e Evolução . 10 (3): 512–26. doi : 10.1093 / oxfordjournals.molbev.a040023 . PMID 8336541 . 
  18. ^ a b Tavaré S (1986). "Alguns problemas probabilísticos e estatísticos na análise de sequências de DNA" (PDF) . Aulas de Matemática nas Ciências da Vida . 17 : 57–86.

Leitura adicional

  • Gu X, Li WH (setembro de 1992). "Taxas mais altas de substituição de aminoácidos em roedores do que em humanos". Molecular Phylogenetics and Evolution . 1 (3): 211–4. doi : 10.1016 / 1055-7903 (92) 90017-B . PMID  1342937 .
  • Li WH, Ellsworth DL, Krushkal J, Chang BH, Hewett-Emmett D (fevereiro de 1996). "Taxas de substituição de nucleotídeos em primatas e roedores e a hipótese do efeito do tempo de geração". Molecular Phylogenetics and Evolution . 5 (1): 182–7. doi : 10.1006 / mpev.1996.0012 . PMID  8673286 .

Ligações externas