Encabezado

Antropogenética

Práctica O5. Minería de datos (bases de datos 1000 genomas y HGDP)

En esta práctica trabajaremos la minería de datos, obteniendo información de las bases de datos 1000genomes y Human Genome Diversity Project (HGDP) y posteriormente llevando a cabo una serie de análisis.

Parte 1. Obtención de genotipos de un grupo SNPs y análisis de su desequilibrio de ligamiento 

Para la primera parte de esta práctica seleccionaremos el gen de la Saitohina (STH; http://www.omim.org/entry/607067). La localización citogenética de este gen es 17q21.31, siendo 17:45999250-4599969 sus coordenadas genéticas en la versión actual del genoma humano. Este gen no presenta intrones y está localizado en el intrón 9 del gen MAPT (Microtubule-associated protein tau). Desde la página OMIM del gen STH podemos acceder al navegador genómico del NCBI y analizar la localización y características del gen.

Para obtener los genotipos de las bases de datos 1000 genomes y HGDP se puede usar SPSmart (http://spsmart.cesga.es/). En esta herramienta informática tenemos 5 bases de datos disponibles. Seleccionaremos la base de datos 1000 Genomes. Tras hacer una <metasearch>, seleccionaremos las 5 poblaciones europeas y en la opción Search by región seleccionaremos el rango. Dado que la versión de 1000genomes disponible en SPSmart (Phase I) es anterior a la actual, presenta una diferencia de 1.922.500 bases con respecto al alineamiento actual del genoma humano. Por ello, para buscar SNPs del gen STH en SPSmart analizaríamos la región 17:44076615-44077059. Además, como el gen es relativamente pequeño, para obtener más datos aumentaremos un poco el intervalo, seleccionado: “44075000-44080000". Seleccionamos <next>. Ahora podemos hacer una selección de SNPs en base a sus características. Pondremos una Minor Allele Frequency (MAF) mínima de 0,05 en Population Set 1 (escribir 0.05). Seleccionamos <search>.

Podemos ver la información sobre los SNPs en la base de datos dbSNP del NCBI. Por ejemplo, rs2004673 (MAPT: Intron Variant; STH: 2KB Upstream Variant), rs62063857 (STH: Missense Variant) y rs62064662 (MAPT: Intron Variant).

SPSmart

Figura 1. Página web SPSmart

Descargaremos los genotipos (<download: genotypes>). Después, lo abriremos con el programa Excel. Para ello, primero arrancamos Excel, seleccionamos <abrir>, en el tipo de documento seleccionamos "todos los archivos (*.*)". Seleccionamos genotypes.txt. A continuación, seleccionamos <delimitados> <siguiente> <separadores> <tabulación> y <espacio> <siguiente> y <finalizar>.

Para analizar el desequilibrio de ligamiento usaremos el programa Haploview

Descargar Haploview: https://sourceforge.net/projects/haploview/

En este programa hay que introducir  los datos en un formato concreto (formato PED). Para ello, se necesitan dos documentos: el documento PED (los individuos en las líneas, 6 columnas con información sobre los individuos y en las siguientes columnas los genotipos) y el documento INFO con la localización los SNPs (dos columnas, la primera con los nombres de los SNPs y la segunda con la localización)

Para evitar el trámite de la traducción entre formatos, los descargaremos ya configurados:

07_1_genotypes.ped 

07_1_genotypes.info

Pueden verse con excel, como hemos hecho con genotypes.txt.

Ejecutamos Haploview. Abrimos los dos ficheros de datos con el formato de entrada <Linkage>: Data file (ped) y Locus Information File (info).
Interpretamos la información que ofrece la ventana “Check Markers”. El SNPs que pertenece al gen STH es el rs62063857. Interpretamos la información ofrecida en las ventanas LD Plot y haplotypes.

Haploview

Figura 2.  Ventana de entrada de datos de Haploview

Hemos obtenido información sobre 18 SNPs. Todos se encuentran en equilibrio HW.
En la primera pestaña (LD Plot) muestra el gráfico del desequilibrio de ligamiento entre los SNPs. La mayor parte muestra un desequilibrio completo (D':1). Son los cuadros que aparecen coloreados en rojo. Si señalamos y apretamos el botón derecho del ratón, veremos los valores correspondientes al desequilibrio de ligamiento. 
En la segunda pestaña se muestran los principales haplotipos estimados.

Parte 2. Comparación de genotipos entre individuos y poblaciones

Si queremos analizar regiones más grandes del genoma, podemos descargar los genotipos de bases de datos genómicas de dos formas:
1) Por un lado, podemos descargar los genotipos de un cromosoma completo, de la misma forma que en la sección anterior. Sin embargo, incluso para un cromosoma pequeño, como el 22, que consta de 49 millones de pares de bases, nuestros ordenadores tendrían dificultades gestionar esa cantidad de información.
2) Podremos seleccionarse una muestra de SNP de diferentes cromosomas, todos ellos distantes entre sí, para que no estén en desequilibrio de ligamiento y se comporten de forma independiente. Para hacer esto, podríamos usar SPSmart para seleccionar un SNP por cada megabase, descargar los genotipos de cada SNP y unirlos posteriormente. Los genotipos así obtenidos serán más fáciles de manejar, pero es necesario mucho tiempo para bajar todos los SNP de forma individual.

Para agilizar la práctica, hemos reunido los genotipos de 124 SNP independientes del cromosoma 11, de la base de datos CEPH U. Stanford HGDP. Estos SNP están suficientemente separados (d > 1 cM). En todos ellos la frecuencia del alelo menor (MAF) es superior a 0,45.
Los genotipos de todos los individuos de la base de datos (944 individuos de 52 poblaciones) para estos 124 SNPs se encuentran en el fichero:
07_124SNP11CHR.txt

Podemos abrirlo con Excel. Observaremos que tiene un formato diferente a los anteriores. En este caso es un formato  STRUCTURE. En la primera columna está la identificación del individuo. En la segunda encontramos el código numérico de la población. A partir de la tercera columna se encuentran los genotipos, codificados como A=1, C=2, G=3 y T=4. Para los genotipos de cada individuo se utilizan dos líneas, por lo que cada SNP requiere una sola columna.

Poblaciones
 
Figura 3. Poblaciones analizadas en CEPH U. Stanford HGDP.

Descargamos Structure: https://web.stanford.edu/group/pritchardlab/structure.html
Lo instalamos y lo abrimos.
Debemos crear un nuevo proyecto <File><New Project> y dar algunos datos al programa: nombre del proyecto, carpeta en la que lo ubicaremos y documento de datos (07_124SNP11CHR.txt) <Next>.
A continuación, debemos escribir el número de individuos [944], si los datos son diploides [2], el número de SNPs [124] y el valor en el caso de que no tengamos genotipos [-9]  <Next>.
En la siguiente ventana no debemos seleccionar nada, ya que no tenemos líneas extras.
Por último, en la ventana de columnas hay que marcar "Individual ID for each individual" y "Putative population origin for each individual" para indicarle al programa que tenemos dos columnas extra. Pulsar <Finish> y <Proceed>.
Si se ha hecho todo correctamente, los datos se habrán cargado.

 Structure
Figura 4. Pantalla de inicio de Structure

Después tenemos que crear un nuevo Parameter Set. Hay cuatro ventanas:
1) La ventana Run Length debe incluir dos números, Lenght of Burnin Period (para que algunas repeticiones aleatorias sean totalmente aleatorias) y Number of MCMC Reps after Burnin (para las repeticiones de cálculo). Estos dos números deberían ser unos 100.000, pero para adaptar la duración de la ejecución a la duración de la práctica pondremos 1000 en cada uno.
2) En la ventana Ancestry Model seleccionaremos Use Admixture Model porque nuestras poblaciones se han mezclado en algún grado y Use sampling locations as priors para determinar que todos los individuos de cada población son de un lugar concreto.
3) En la ventana Allele Frequency Model seleccionaremos Allele Frequencies Correlated,ya que las poblaciones geográficamente cercanas tienen frecuencias alélicas similares.
4) En la ventana Advanced marcaremos Compute probability of the data (for estimating k), ya que queremos asignar k (número de poblaciones). Tras pulsar <OK>, le daremos un nombre al Parameter set. Finalmente en el menú de Parameter Set seleccionaremos <Run> y pediremos al programa que analice una k concreta.
En este programa clasificaremos a los individuos en diferentes grupos. Cada individuo puede aparecer asignado a un grupo o a varios, mediante un código de colores.
Especificaremos en "set number of populations asumed:" los valores 3, 4 y 5.
Una vez que han aparecido los resultados, seleccionamo los resultados que han aparecido en la ventana izquierda y pulsamos en la ventana derecha en la opción <Bar plot> <Show>. Seleccionamos Group by pop Id para ver la imagen. El orden y origen de las poblaciones se muestra en la Tabla 1.
Interpretaremos los resultados.

Poblaciones Lista
Tabla 2. Códigos y orden de las poblaciones: AF (Africa), AM (Americas), EU (Europe), ME (Middle East), SA (South Asia), OC (Oceania) y EA (East Asia).
 

A continuación, construiremos un dendrograma con las poblaciones utilizando los programas POPULATIONS y FIGTREE.
POPULATIONS no admite el formato STRUCTURE, por lo que deberemos traducir el fichero a formato GENEPOP. Para ello utilizaremos el programa PGDSpider.

Descargamos PGDSpider: http://cmpg.unibe.ch/software/PGDSpider/index.htm
Lo descomprimimos y lo ejecutamos. El documento 07_124SNP11CHR.txt será el "data input file" en formato STRUCTURE. "Data output file" será un nuevo documento de datos con formato GENEPOP. Especificamos un nombre <Convert>. Aparecerá una nueva pantalla con las dos ventanas. En la primera (STRUCTURE) debemos definir las características de nuestro documento STRUCTURE: diploid (on two consecutive rows); No disponemos de información de fases; missing value -9; SNP; en las dos siguientes preguntas no hay cambios porque no corresponde; No hay nombres de marcadores; 124; Yes, puesto que hay columnas de nombres de individuos y PopData No; alelos  recesivos, None. En la segunda (GENEPOP), especificar que son SNP <Apply>.
 
Spider
Figura 4. Pantalla de inicio de software PGDSpider

Antes de usar el siguiente programa, deberíamos modificar ligeramente el documento GENEPOP que hemos creado, poniendo el nombre de cada población para que sea más fácil la interpretación. Pero esto se ha realizado ya en el fichero 07_Genepop_Izen.txt.

Descargamos y descomprimimos Populations:
populations-1.2.32.zip

Abrimos el programa POPULATIONS y hacemos las siguientes selecciones:
2) Compute populations distances + tree
Name of input file: 07_Genepop_Izen.txt
3) Phylogenetic tree of populations with bootstrap on locus
14) Reynolds J., weighted (1983)
2) Neighbor Joining
Combien de tirages voulez-vouz effectuer: 100
Populations tree filename? Nombre del fichero del dendrograma

Descargamos njplot:
njplot.exe
Abrimos el programa, seleccionamos el fichero del dendrograma y lo analizamos.
Interpretaremos los resultados.

Envíe los resultados en un correo

@ Mikel Iriondo, Jose A. Peña, 2024 Universidad del País Vasco (UPV/EHU)