Bioinformática

Mer av detta

NIVELES DE ORGANIZACIÓN DE LAS PROTEÍNAS

av Cami Varela

Disciplinas de la Biotecnología

av Jose Alonso Meza Rivera

SISTEMA INMUNE DEL ORGANISMO

av camila alcarima

ÁCIDO DESOXIRRIBONUCLEICO (ADN)

av Maria Sarango

¿Qué es?

La bioinformática es una ciencia considerada sumamente importante sobre todo en la época actual pues gracias a los avances tecnológicos es posible documentar y salvaguardar una serie de datos experimentales relacionados con otras áreas del genoma.

La bioinformática, en relación con la genética y la genómica, es una subdisciplina científica que implica el uso de ciencias informáticas para recopilar, almacenar y analizar y diseminar datos e información biológicos, como secuencias de ADN y aminoácidos o anotaciones sobre esas secuencias.

Código genético

El código genético es el término que usamos para nombrar la forma en que las cuatro bases del ADN - A, C, G y T - se encadenan de forma que la maquinaria celular, el ribosoma, pueda leerlos y convertirlos en una proteína.

En el código genético, cada tres nucleótidos consecutivos actúa como un triplete que codifica un aminoácido. De este modo cada tres nucleótidos codifican para un aminoácido.

Las proteínas se componen a veces de cientos de aminoácidos. Así que el código de una proteína podría contener cientos, a veces incluso miles, de tripletes.

El código genético son las instrucciones que le dicen a la célula cómo hacer una proteína específica. A, T, C y G, son las "letras" del código del ADN; representan los compuestos químicos adenina (A), timina (T), citosina (C) y guanina (G), respectivamente, que constituyen las bases de nucleótidos del ADN.

ARN

Estructura

El ARN o ácido ribonucleico es una molécula que, al igual que el ADN, se compone de sucesiones de nucleótidos unidos por enlaces fosfodiéster. ... En el ARN el azúcar es una ribosa y las bases nitrogenadas son: adenina (A), citosina (C), guanina (G) y uracilo (U). Este último sustituye a la timina (T) del ADN.

Análisis de secuencias

El análisis de ARN suele estar destinado a leer el código genético contenido en una cadena de ARN determinada, pero también puede estar destinado a descubrir otros rasgos estructurales o funcionales. Uno de los tipos más comunes y básicos de análisis de ARN es el análisis de secuencia.

ADN

De ADN a proteínas

ADN - ARN - PROTEÍNAS

Transcripción

Traducción

Regiones codificantes

Exones

El exón es la región de un gen que no es separada durante el proceso de corte y empalme y, por tanto, se mantienen en el ARN mensajero maduro. En los genes que codifican una proteína, son los exones los que contienen la información para producir la proteína codificada en el gen. En estos casos, cada exón codifica una porción específica de la proteína completa, de manera que el conjunto de exones forma la región codificante del gen. En eucariotas los exones de un gen están separados por regiones largas de ADN (llamadas intrones) que no codifican.

La región de codificación de un gen, también conocida como CDS por sus siglas en inglés (Coding Sequence), es esa porción del ADN de un gen o bien ARN que codifica la proteína. La región generalmente comienza en el extremo 5' por un codón de inicio y termina en el extremo 3' con un codón de terminación.

Palíndromos en secuencias

Una secuencia de nucleótidos palindrómica puede formar una horquilla. Los motivos palindrómicos de ADN se encuentran en la mayoría de los genomas o conjuntos de instrucciones genéticas.

Una secuencia palindrómica, o palíndromo, es una secuencia de ácido nucleico (ADN o ARN) que es lo mismo si se lee de 5' (5-prima) a 3' (3-prima) en un filamento o de 5' a 3' en el filamento complementario, con el cual forma una doble hélice.

Complementariedad

Las bases en las hélices opuestas se emparejan específicamente; una A siempre se empareja con una T, y una C siempre con una G. El genoma humano contiene aproximadamente 3.000 millones de estos pares de bases, los cuales se encuentran en los 23 pares de cromosomas dentro del núcleo de todas nuestras células.

En biología molecular, la complementariedad describe una relación entre dos estructuras cada una siguiendo el principio de bloqueo y clave. Además, varias funciones de reparación del ADN, así como funciones reguladoras, se basan en la complementariedad de pares de bases.

El ADN contiene adenina-guanina-citosina y timina que se emparejan en la doble hélice una de cada famila A-T y G-C. La Timina enlaza con la Adenina con dos enlaces y la Guanina y la citosina se unen entre sí por tres enlaces de hidrógeno.

Secuenciación escopeta

La secuenciación de escopeta de genoma completo implica aislar muchas copias del ADN cromosómico de interés. Los cromosomas están todos fragmentados en tamaños lo suficientemente pequeños como para ser secuenciados (unos pocos cientos de pares de bases) en ubicaciones aleatorias. Como resultado, cada copia del mismo cromosoma se fragmenta en diferentes ubicaciones y los fragmentos de la misma parte del cromosoma se superpondrán entre sí. Cada fragmento está secuenciado y sofisticados algoritmos informáticos comparan todos los diferentes fragmentos para encontrar cuáles se superponen con cuáles. Al alinear las regiones superpuestas, un proceso llamado ordenamiento en teselas, la computadora puede encontrar las secuencias continuas más grandes posibles que se pueden generar a partir de los fragmentos. En última instancia, se ensambla la secuencia de cromosomas completos.

Secuenciación de segunda generación y próxima generación

El método de secuenciación más utilizado actualmente es uno llamado secuenciación Illumina (por el nombre de la compañía que comercializó la técnica).

En la secuenciación Illumina, hasta 500,000,000 reacciones de secuenciación separadas se ejecutan simultáneamente en un solo portaobjetos (del tamaño de un portaobjetos de microscopio) colocado en una sola máquina. Cada reacción se analiza por separado y las secuencias generadas a partir de los 500 millones de ADN se almacenan en una computadora conectada. Cada reacción de secuenciación es una reacción de replicación modificada que involucra nucleótidos marcados con fluorescencia, pero no se necesitan didesoxinucleótidos que terminen la cadena.

El método de secuenciación de segunda generación más popular y ampliamente utilizado fue uno llamado Pirosecuenciación.

Secuenciación de Sanger

A partir del color de la fluorescencia resultante, una computadora puede realizar un seguimiento de qué nucleótido estuvo presente como nucleótido terminador. La computadora también realiza un seguimiento del orden en que aparecieron los nucleótidos terminadores, que es la secuencia del ADN utilizado en la reacción original.

Los ddNTPs que terminan las cadenas tienen etiquetas fluorescentes unidas covalentemente a ellas. Cada uno de los cuatro ddNTPs lleva una etiqueta diferente, por lo que cada ddNTP diferente fluorescerá un color diferente.

l método de Sanger también se conoce como el método de terminación de cadena didesoxi. Este método de secuenciación se basa en el uso de terminadores de cadena, los didesoxinucleótidos (ddNTPs). Los didesoxinucleótidos, o ddNTPSs, difieren de los desoxinucleótidos por la falta de un grupo 3′ OH libre en el azúcar de cinco carbonos. Si se agrega un ddNTP a una cadena de ADN en crecimiento, la cadena no se extiende más porque el grupo OH 3' libre necesario para agregar otro nucleótido no está disponible. Mediante el uso de una proporción predeterminada de desoxirribonucleótidos a didesoxinucleótidos, es posible generar fragmentos de ADN de diferentes tamaños al replicar ADN in vitro.

Análisis de las secuencias

Una secuencia de ADN es la secuencia de nucleótidos en una molécula de ADN. Se escribe como una sucesión de letras que representan la estructura primaria de una molécula o hebra de ADN. Si es funcional, tal secuencia lleva la información para la secuencia de aminoácidos en una molécula de proteína. Las posibles letras son A, C, G y T, que representan las cuatro bases nucleótidas de una cadena de ADN: adenina, citosina, guanina y timina. Las secuencias se imprimen una al lado de otra, sin espacios en blanco, como en la secuencia AAAGTCTGAC.

El análisis de secuencias en biología molecular implica la identificación de la secuencia de nucleótidos en un ácido nucleico, o de aminoácidos en un péptido o proteína. Una vez que se ha obtenido una muestra, las secuencias de ADN pueden producirse automáticamente por máquina y el resultado puede visualizarse en el ordenador.

Proteínas

Lectura de las secuencias

BLAST (Basic Local Alignment Search Tool) es un algoritmo y programa informático de alineamiento de secuencias de tipo local, ya sea de ADN, ARN o de proteínas.

Es importante mencionar que BLAST usa un algoritmo heurístico por lo que no nos puede garantizar que ha encontrado la solución correcta.

Las desventajas son: no se permiten hacer búsquedas masivas dado que es un recurso compartido, no se puede personalizar las bases de datos contra la que busca el programa, y las secuencias son enviadas al servidor del NCBI sin ningún tipo de cifrado, lo que puede ser un problema para quienes quieran mantener sus secuencias privadas.

Algunas ventajas de usar el servidor del NCBI son que el usuario no tiene que mantener ni actualizar las bases de datos y que la búsqueda se hace en un cluster de computadoras, lo que otorga rapidez.

Análisis de secuencias

La secuenciación de proteínas es el proceso práctico de determinar la secuencia de aminoácidos de toda o parte de una proteína o péptido. Esto sirve para identificar a la proteína o caracterizar sus modificaciones postraduccionales.

Los dos métodos directos más importantes para secuenciar proteínas son la espectrometría de masas y la degradación de Edman 1 usando un secuenciador. Los métodos de espectrometría son actualmente los más utilizados para la secuenciación e identificación, sin embargo, la degradación de Edman aún se mantiene como una herramienta valiosa.

Referencias bibliográficas

Mori, L., Arias, M. C., Miyaki, C. Y., & Dessen, E. M. B. (2009). Código genético: O código dos vinte. Genética na Escola, 4(1), 25–32. https://doi.org/10.55838/1980-3540.ge.2009.70

¿Qué es el análisis de ARN? (2021, julio 13). Spiegato. https://spiegato.com/es/que-es-el-analisis-de-arn

Wikipedia contributors. (s/f). Secuencia palindrómica. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/w/index.php?title=Secuencia_palindr%C3%B3mica&oldid=129886663

Que es la complementariedad de bases en el ADN? (s/f). Com.mx. Recuperado el 27 de febrero de 2023, de https://respuestasrapidas.com.mx/que-es-la-complementariedad-de-bases-en-el-adn/

14.2B: Técnicas de Secuenciación de ADN. (2022, octubre 29). LibreTexts Español; Libretexts. https://espanol.libretexts.org/Biologia/Biolog%C3%ADa_introductoria_y_general/Libro%3A_Biolog%C3%ADa_general_(Boundless)/14%3A_Estructura_y_funci%C3%B3n_del_ADN/14.02%3A_Estructura_y_Secuenciaci%C3%B3n_del_ADN/14.2B%3A_T%C3%A9cnicas_de_Secuenciaci%C3%B3n_de_ADN

Gabriela, B. V. (2021, septiembre 19). Bioinformática. Euston96. https://www.euston96.com/bioinformatica/

Biotech, P. [@omicslogic]. (2021, junio 15). A Brief History of Bioinformatics - Where was it born and how it developed. Youtube. https://www.youtube.com/watch?v=zRScrxcqwNU

Herramientas

Los científicos en la actualidad cuentan con una gran herramienta para poder realizar lo que se conoce con el nombre de experimentos in silico, los cuales les ayudan a diseñar nuevos experimentos para mejorar y avanzar en diferentes tipos de investigaciones.

Limitaciones

Alcances

Ciencias aeroespaciales

Biología

Química

Farmacología

Medicina

Investigación

Aplicaciones

Son programas informáticos que tienen una gran cantidad de diferentes aplicaciones que pueden ayudar a determinar diferentes funciones relacionadas con las proteínas y los genes además de poder establecer relaciones de la evolución ir a predecir la manera en la que las proteínas podrían llegar a conformarse de forma tridimensional.

La bioinformática es una ciencia que sirve para poder localizar, almacenar, estudiar, analizar y posteriormente diseminar toda la información de tipo biológica que haya sido encontrado y que corresponde principalmente a las secuencias que existen entre el ADN y los aminoácidos.

Historia

En la actualidad, el término ha logrado tomar una especial relevancia gracias a las tecnologías que van surgiendo las cuales le permiten tener un elevado nivel de rendimiento y por el descubrimiento de la secuenciación del genoma humano, el cual hizo posible que se encontrara la secuencia de los genes de muchos organismos que hasta el momento eran desconocidos.

En el siglo XXI se han realizado diversas investigaciones sobre la secuenciación de los genomas en distintos organismos.

2003: Fundación del Instituto Nacional de Bioinformática en España.

2004: La FDA aceptó el uso de un chip de ADN por primera vez en la historia.

2005: se completa el proyecto HapMap.

En 1970 el algoritmo de Needleman- Wunsch para el alineamiento de las secuencias y el desarrollo de una técnica de blot de localización de las secuencias de ADN específicas.

En 1990 dio inicio a la secuenciación de marcaje de secuencias expresadas y se publicó el mapa de ligamento genético perteneciente al genoma humano de forma completa.

En 1995 se logra obtener la secuencia completa sobre los primeros genomas relacionados con las bacterias.

En 1996 se obtiene el primer genoma eucariota.

El ARPA (Advanced Research Projects Agency) formó parte importante en la historia de la bioinformática, así como los protocolos de computación sobre paquetes de datos.

Inició con la investigación de las proteínas, específicamente con la insulina.

Inicia en las años 60's al combinar las ciencias computacionales con la biología molecular y con el descubrimiento del ADN.

Robert S. Ledley

En 1960 creó la Fundación Nacional de Investigación Biomédica (NBRF), organización sin fines de lucro que impulsa el uso de las computadoras y equipos electrónicos para la investigación biomédica.

en 1959 publico Reasoning Foundations of Medical Diagnosis que deriva a un Dx computarizado.

Inventó el escáner CT (tomografía axial por computadora), llamado tomógrafo, para cuerpo completo.

De la Georgetown University, profesor de biofísica y fisiología y profesor de radiología.

Magaret Dayhoff

en 1996 desarrolla la primera aplicación para inferir las relaciones evolutivas a partir de alineamientos múltiples.

Ella creó las primeras matrices PAM de sustitución de aminoácidos.

Desarrolló el código de una letra que se utiliza para representar a los aminoácidos.

Creación del ATLAS OF PROTEIN SEQUENCES AND STRUCTURE en 1965.

Fisicoquímica estadounidense, padre, madre y pionera de la bioinformática, profesora investigadora de la Universidad de Georgetown y destacada bioquímica investigadora en la Fundación Nacional de Investigación Biomédica (NBRF).