Arcabouço probabilístico para análise de sequências de RNA

Ferreira, Rafael Mathias

doi:10.11606/D.45.2015.tde-20230727-113510

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.45.2015.tde-20230727-113510

Documento

Disertación de Maestría

Autor

Ferreira, Rafael Mathias (Catálogo USP)

Nombre completo

Rafael Mathias Ferreira

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Matemática e Estatística

Área de Conocimiento

Informática

Fecha de Defensa

2015-11-17

Publicación

São Paulo, 2015

Director

Durham, Alan Mitchell (Catálogo USP)

Título en portugués

Arcabouço probabilístico para análise de sequências de RNA

Palabras clave en portugués

Biologia Molecular
Cadeias De Markov
Rna

Resumen en portugués

RNA é um polímero formado por quatro tipos de ácidos nucleicos denotados por A, C, G e U que representam Adenina, Citosina, Guanina e Uracila respectivamente. Os nucleotídeos G-C e A-U se ligam formando pontes de hidrogênio e são ditos complementares, contudo, outros tipos de ligações podem ocorrer. RNAs são moléculas de fita única que dobram-se formando pareamentos entre bases complementares. A estrutura formada por esses pareamentos de bases complementares é chamada de estrutura secundária. Estudos recentes mostram que uma grande quantidade de RNAs não codificantes desempenham papéis importantes em uma variedade de processos biológicos, como silenciamento gênico, regulação da expressão gênica, processamento de RNA, modificação de RNA, controle da tradução e transcrição entre outros. Essas moléculas estão associadas também a diver- sos tipos de doenças como o câncer, doenças neurológicas como Alzheimer e Parkinson, doenças cardiovasculares e muitas outras. Dessa forma, torna-se importante descobrir novos RNAnc e suas respectivas estruturas secundárias, visto a estrita relação existente entre a estrutura secundária e a função biológica dessas moléculas. Neste trabalho desenvolvemos um arcabouço probabilístico utilizando modelo de Markov de estados ocultos sensível ao contexto para caracterização de sequên- cias e perfil de sequências com distância arbitrária entre símbolos, como as que encontramos em sequências de RNA e em alinhamentos de RNA. Nossa implementação foi desenvolvida como uma extensão do arcabouço probabilístico ToPS e conta com algoritmos de inferência otimizados a fim de obtermos tempos de execução eficientes. Comparamos nossa implementação com outras ferramentas que possuem o mesmo propósito e pudemos constatar que nosso arcabouço se mostra bastante competitivo além de de oferecer ao usuário maior liberdade na definição de modelos.

Título en inglés

Probabilístic Framework for RNA sequence analysis

Resumen en inglés

RNA is a four nucleotides polymer denoted by A, C, G, U which represent, respectively, Anenine, Cytosine, Guanine and Uracil. The bases A and U form hydrogen bonds, as well as the bases C and G, and these kinds of base paring are called canonical. Nevertheless, other kinds of base paring can be formed. RNAs are molecules of a single string that can fold into themselves by base pairing interactions. The structure resulted from those interactions is called RNA2019s secondary structure. Recent studies have shown that non-coding RNAs act upon a variety of biological processes such as gene silencing, gene expression, transcription and translation control. They are also associated with various types of diseases such as cancer, neurological diseases - as alzheimer and parkinson -, cardiovascular diseases, among others. It is therefore of fundamental importance to find new non-coding RNAs and its respective secondary structure due to the close relationship between the secondary structure and the biological function of these molecules. In this work we developed a probabilistic framework using context sensitive hidden Makov models to characterize sequences and profile of sequences with arbitrary distance between symbols, such as those found in RNA sequences and RNA alignments. Our development was made as an extension of the probabilistic framework ToPS and includes optimized versions of the inference algorithms in order to achieve efficient runtimes. We compared our approach with other framworks with similar purposes and noticed that our framework proves itself quite competitive, in addition to offering increased freedom in model definition.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

FerreiraRafaelMathias.pdf (1.35 Mbytes)

Fecha de Publicación

2023-07-27

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.