Expressed sequence tag

Un marcador de secuencia expresada o EST (acrónimo en inglés: Expressed Sequence Tag) es una pequeña subsecuencia de una secuencia nucleotídica transcrita (codificante de una proteína o no). Se pueden usar para identificar genes que se transcriben y en el descubrimiento de genes, y para determinación de secuencias.^[1] La identificación de los EST ha progresado rápidamente, con aproximadamente 52 millones de ESTs disponibles en las bases públicas (por ej. GenBank mayo de 2008, todas las especies).^[2]

Los EST son producidos por una ejecución de secuenciación sobre un ARNm clonado (por ejemplo secuenciando varios cientos de pares de bases de un extremo de un clon de ADNc tomado de una biblioteca de ADNc).^[1] La secuencia resultante es un fragmento de baja calidad, generalmente de 500 a 800 nucleótidos, que es la longitud de secuenciación de los secuenciadores automáticos más habituales. Como esos clones consisten en ADN, que es complementario al ARNm, los EST representan porciones de genes expresados.^[3] Se puede presentar en las bases de datos tanto como secuencia de ADNc/ARNm o complemento reverso de ARNm, la cadena molde. Es necesario crear un clon de ADN, porque es más estable, de tal forma que representa solo una secuencia expresada del ADN.^[3]

Las ESTs (Expressed sequence tags o bien en español, marcadores de secuencias expresadas) son potentes herramientas al reducir el tiempo para identificar la ubicación de un gen determinado dentro del genoma, los científicos han demostrado mediante la utilización de las ESTs se podido aislar de manera rápida los genes que causan la enfermedad de Alzheimer y el cáncer de colon.^[4]

Las EST pueden asignarse a ubicaciones específicas del cromosoma utilizando técnicas de mapeo físico, tales como el mapeo híbrido por radiación o la hibridación fluorescente in situ (FISH).^[3] Por otra parte, si el genoma del organismo del cual se obtuvo la EST se ha secuenciado se pueden alinear las secuencias EST con este genoma. El entendimiento actual de los genes del genoma humano (2006) incluye la existencia de miles de genes basados solamente en evidencia de EST.^[1]

En este sentido, las EST se convierten en un instrumento para afinar la transcripciones predichas de esos genes, lo que lleva a la predicción de sus productos proteicos, y finalmente, de su función.^[4] Además, la situación en la que se obtienen los EST (tejido, órgano, estado de enfermedad —por ejemplo, cáncer—) proporciona información sobre las condiciones en las que el gen correspondiente está actuando. Los EST contienen suficiente información para permitir el diseño de sondas precisas para chips de ADN que luego se pueden utilizar para determinar la expresión de genes.^[5]

Algunos autores usan el término «EST» para describir genes de los que no se tiene mucha información.^[6]

dbEST es una división de GenBank creada en 1992, que contiene la secuencia de datos y la información de secuencias de cDNA llamado también «Un solo paso» o «etiquetadas de secuencia expresada» a partir de una serie de organismos. Como GenBank, los datos en la dbEST son enviados por los laboratorios del mundo y no está curada (corregida).^[7]

Uno de los objetivos de las bases de datos de EST es organizar y consolidar los datos de EST en gran medida redundantes, para mejorar la calidad de la información de secuencias y que los datos puedan ser utilizados para extraer el ADNc de longitud completa.^[3]

Es uno de los enfoques de alto rendimiento es la secuenciación de etiquetas de secuencias expresadas. Son secuencias cortas obtenidas a partir de clones de ADN complementario y sirven como identificadores cortos de genes, típicamente están en el rango de 200 a 400 nucleótidos de longitud obtenidos a partir de ya sea el extremo 5’ ó 3’ de los insertos de ADNc.^[6]

En la mayoría de los proyectos de EST han desarrollan un elevado número de secuencias, estos se presentan GenBank y dbEST.^[8]

dbEST además incluye secuencias que son más largas que las tecnologías ecológicas tradicionales, o se producen como secuencias individuales o en pequeños lotes. Entre estas secuencias son productos de los experimentos de presentación diferencial y experimentos RACE.^[8] Si una secuencia se caracteriza más tarde y anotado con características biológicas tales como una región codificante, 5'UTR, 3'UTR o, debe ser presentada a través del procedimiento de GenBank presentaciones regulares (a través de Bankit o de lentejuelas), incluso si una parte de la secuencia es ya en dbEST.^[7]

Los datos de EST son capaces de proporcionar una estimación aproximada de los genes que se expresan de forma activa en un genoma bajo una condición fisiológica en particular.^[3] Las secuencias EST suelen ser de baja calidad, ya que se generan de forma automática y sin verificación; y por lo tanto contienen altos porcentajes de errores. Muchas bases son determinadas como ambiguas y representadas por N.

Otro problema de las EST es la presencia de clones quiméricos debido a artefactos de clonación en la construcción de la biblioteca, en la que más de una transcripción se liga a un clon resultante del extremo 5’ de un gen y el extremo 3’ de otro gen. Se ha estimado que hasta el 11 % de los clones de ADNc pueden ser quiméricos.^[5]

Las secuencias que no deberían incluirse en las comunicaciones EST son las siguientes: secuencias mitocondriales, rRNA, secuencias virales, secuencias del vector, vector y del enlazador regiones deben ser retirados de las secuencias EST antes de su presentación.^[9]

La base de datos dbEST^[10] contiene colecciones de EST para un gran número de organismos (>250). La base de datos se actualiza regularmente para reflejar el progreso de varios proyectos de investigación de secuenciación de EST, cada secuencia EST recién presentada es sujeta a una búsqueda de similitud en la base de datos.^[6]

Escribe un comentario o lo que quieras sobre Expressed sequence tag (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!