Práctica de ordenador nº 1


BIOINFORMÁTICA (CURSO 2018-2019)
GenBank

Los objetivos de esta práctica consisten en:

  • 1.- Aprender a realizar búsquedas en GenBank.
  • 2.- Aprender a interpretar la información que aparece en un registro de GenBank.
  • 3.- Completar la información del un registro de GenBank con información de otras bases de datos.
  • 4.- Aprender a extraer secuencias de GenBank para analizarlas con otras herramientas bioinformáticas.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Final del registro Numeración de la secuencia La secuencia de nucleótidos en código de una letra Origen de la secuencia Calificador Secuencia de la proteína codificada por este DNA Característica Ubicación Calificadores Calificador Calificador Calificadores Ubicación Ubicación Ubicación Ubicación Tipo de características Encabezamiento de la tabla de características Comentarios sobre la secuencia La última referencia (en este caso, la 2) contiene información sobre quién ha enviado la secuencia a la base de datos Enlace al registro del artículo en la base de datos PUBMED Número de la referencia Cita bibliográfica del artículo Título del artículo Autores del artículo Referencia Clasificación taxonómica del organismo de donde procede la secuencia Organismo de donde procede la secuencia Origen de la secuencia Origen de la secuencia Fecha de la última modificación del registro División Topología de la molécula Tipo de molécula Longitud de la secuencia Nombre del registro Palabras clave Identificador GI (GenInfo) Número de acceso.Versión Versión de la secuencia Número de acceso secundario Número de acceso primario Definición de la secuencia Definición de la secuencia Palabras clave Número de acceso Nombre del registro
GenBank

GenBank es la base de datos de secuencias genéticas del NIH. Desde su fundación por Walter Goad en 1982 reúne todas las secuencias de ADN de acceso público que, además, incluyen anotaciones.

GenBank forma parte del consorcio denominado International Nucleotide Sequence Database Collaboration (INSDC), integrado por tres bases de datos: el DNA DataBank of Japan (DDBJ), el European Nucleotide Archive (ENA) y el GenBank del NCBI. Estas tres organizaciones intercambian todos los días sus archivos para tener siempre la misma información.

GenBank consta de 20 divisiones, y se puede acceder a la mayor parte de ellas mediante la base de datos denominada Nucleotide. Las excepciones son las divisiones EST (Expressed Sequence Tags) y GSS (Genome Survey Sequence), que se pueden consultar mediante las bases de datos Nucleotide EST y Nucleotide GSS, respectivamente. Nucleotide contiene, además de gran parte de las secuencias almacenadas en GenBank, secuencias de otras bases de datos como RefSeq, Third Party Annotation Database (TPA) y Protein Data Bank (PDB).

Las divisiones de GenBank son las siguientes:

PRI - primates
BCT - bacterias
EST - expressed sequence tags
ROD - roedores
VRL - virus
STS - short sequence sites
MAM - otros mamíferos
PHG - bacteriófagos
GSS - Genome survey sequences
VRT - otros vertebrados
SYN - sintéticas
HTG - high-throughput genomic sequences
INV - invertebrados
UNA - sin anotar
HTC - unfinished-high throughput cDNA sequences
PLN - plantas
PAT - patentes
ENV - environmental sampling sequences
TSA - Transcriptome shotgun assembly seq. WGS - Whole genome shotgun

Cada secuencia, junto con toda la información asociada, se almacena en un registro de la base de datos. Cada dos meses sale una versión nueva de GenBank y su crecimiento es exponencial: la cantidad de información se duplica aproximadamente cada 18 meses. La versión 230.0 (del 15 de Febrero de 2019) contiene más de 212 millones de secuencias y ocupa 963 GB. El fichero único que contiene la base de datos completa es de dominio público y se puede descargar desde el lugar ftp del NCBI.

ESTRUCTURA DE UN REGISTRO DE GenBank

Cada registro de GenBank incluye:

  • una descripción concisa de la secuencia (líneas LOCUS y DEFINITION)
  • unos códigos de acceso del propio registro (líneas ACCESION y VERSION)
  • palabras clave y nombre científico y la taxonamía del organismo de donde procede (líneas KEYWORDS, SOURCE Y ORGANISM)
  • referencias bibliográficas con sus enlaces a MEDLINE (líneas REFERENCE, AUTHORS, TITLE, JOURNAL, PUBMED, COMMENT)
  • una tabla de características con anotaciones que describen las regiones de interés biológico (regiones codificantes y su traducción a proteína, regiones no traducidas en 5' y en 3', unidades de transcripción, repeticiones, mutaciones, etc.)
  • la secuencia completa de nucleótido

La figura inferior corresponde a un registro de GenBank. Utiliza el ratón y las barras deslizantes para explorar el contenido del registro y averiguar qué es cada cosa.

Ejemplo de un registro de GenBank (Pincha en las distintas líneas del registro para obtener más detalles sobre el tipo de información que contiene)


 

 

 

 

 

 

 

 

 

 

 

 

POWER POINT

GenBank ()

EJERCICIO

Contesta a las preguntas que aparecen en este documento ()

BIBLIOGRAFÍA

1.- The International Nucleotide Sequence Database Collaboration ()

2.- GenBank ()

3.- The DDBJ/EMBL/GenBank Feature Table: Definition ()

ENLACES

GenBank (Wikipedia) - Growth of GenBank

Estructura de un registro GenBank (NCBI Web site)

Lista con acceso directo a todos los recursos que ofrece el NCBI

GenBank (NCBI Web site) - Sequence Viewer Documentation -

En castellano: La tabla de características (Features Table) Tipo de características (Feature key)

En castellano: Ubicación (Location) Calificadores (Qualifiers)

Bases de Datos: Nucleotide -- DDBJ -- ENA -- dbEST -- NCBI (all) -- NCBI (39) -

Bases de Datos: Gene -- Genome -- UCSC Genome Browser on Human --

Herramientas: ORFfinder - BLAST - The Sequence Manipulation Suite (SMS) - Translate (ExPASY)