Antropogenética

Práctica O4. Minería de datos (bases de datos GW)

1. El patrimonio genético actual de Europa
En un trabajo realizado sobre más de 3.000 individuos europeos a los que se analizaron 500.000 SNPs, Novembre et al (2008) encontraron que la estructura del patrimonio genético de los europeos se ajustaba muy bien a la geografía, de modo que en un análisis multivariante, la mayor parte de los individuos aparecían ubicados correctamente en un mapa en función de su origen (Figura 1).


Figura 1. Representación del lugar de origen predicho para un grupo de individuos europeos (Nobembre et al, 2008)

Vamos a comprobar, con una base de datos de 155.449 SNPs analizados en 128 individuos europeos, si el origen geográfico es determinante en la composición de su patrimonio genético.
Los ficheros de esta base de datos son Actual.ind y Actual.geno. Vamos a analizarlos con los programas GWedit y Past.
Primero crearemos una matriz de distancias con la que haremos un análisis de Coordenadas Principales.
Arrancamos GWedit.jar
Seleccionamos <Multivariate analysis> <IBS matrix distance / MDS>. De este modo, crearemos la matriz de distancias (Figura 2).

Figura 2. Análisis de distancias con GWedit

El programa pide el nombre de un fichero ind. Seleccionamos Actual.ind
A continuación, pide el nombre de un fichero geno. Seleccionamos Actual.geno. Hemos seleccionado la base de datos de individuos actuales, especificando primero el fichero de individuos y después el de genotipos.
Después de unos minutos, el programa generará el fichero IBSmatrix.dat
Para evitar confusiones con los ficheros que obtengamos más tarde, lo renombraremos como ActualIBSmatrix.dat
Arrancamos Past
Desde Past, abrimos ActualIBSmatrix.dat
Vamos a configurar una serie de grupos, de modo que todos los individuos que tengan la misma denominación, pertenezcan al mismo grupo. Esto nos permitirá etiquetar el centroide de cada grupo en el gráfico, en lugar de etiquetar todos los individuos, lo que haría la representación mucho más confusa.
Seleccionamos <Edit> <Insert more columns>. Especificamos 1 columna.
Hacemos clic en Column atributes. Seleccionamos el tipo Group
Hacemos clic en Row atributes. Y copiamos los nombres de todos los individuos (columna Name) en la nueva columna que hemos creado.
Seleccionamos todos los datos.
Para realizar un análisis de Coordenadas Principales, seleccionamos <Multivariate> <Ordination> <Principal coordinates (PCoA)> (Figura 3).


Figura 3. Análisis de Coordenadas principales con Past.

En Similarity index, especificamos que no es preciso hacer un análisis de distancias, ya que nosotros aportamos la matriz de distancias (User-supplied distance)
Le decimos que recalcule (Recompute). En Summary veremos los valores propios y la varianza explicada. En Scatter plot veremos el gráfico. Podemos añadir las etiquetas individuales o de grupo.
Comparamos el resultado obtenido con el mapa en el que se indica el origen de las muestras (Figura 4).


Figura 4. Origen de las muestras.

2. Los componentes originarios del patrimonio genético europeo
Lazaridis et al (2014) analizaron una serie de restos antiguos extraídos de diferentes yacimientos europeos y compararon sus genomas con los de los europeos actuales.
Encontraron tres componentes básicos del patrimonio genético europeo: una parte de origen Paleolítico, proveniente de los grupos que habitaban el continente antes de la llegada del Neolítico, una parte de origen Neolítico, proveniente de Oriente Prócimo y una parte, con mezcla del Paleolítico y el Neolítico, con origen en las estepas del Este de Europa (Figura 5).


Figura 5. Resultados del análisis de Lazaridis et al (2014).

A continuación, realizaremos un nuevo análisis, intentando replicar estos resultados, añadiendo a la base de datos anterior, un grupo de muestras provenientes de yacimientos del Paleolítico, otro grupo de principios del Neolítico de la actual Turquía y de los Balcanes y un grupo proveniente de las estepas de principios y de finales de la Edad de Bronce.
Realizaremos los mismos análisis que en el apartado anterior, en este caso utilizando los ficheros 3grupos.ind y 3grupos.geno.
Renombraremos el fichero IBSmatrix.dat como 3gruposIBSmatrix.dat. Como antes, podemos especificar el nombre de los grupos, para evitar la existencia de demasiadas etiquetas. Además, podemos poner un color a cada uno de los tres grupos. Puede hacerse en Excel de una forma más rápida. Para ello, basta con escribir el nombre del color deseado en una o varias celdas, copiarlo y pegarlo en las casillas deseadas de Past.

3. Análisis del mestizaje
A continuación, realizaremos un análisis Structure con nuestros datos. Para ello, hemos de transformarlos al formato adecuado. Con este fin, arrancamos GWedit y seleccionamos <Export to> <Structure>. Nos pedirá los ficheros 3grupos.ind y 3grupos.geno. Obtendremos el fichero ExportStructure.txt. Puesto que la ejecución de Structure puede ser muy larga si el número de SNPs es muy elevado, GWedit extraerá unos 10.000, lo que debería ser una muestra representativa. Tomamos nota del número de SNPs y del número de individuos.
Arrancamos el programa Structure. Seleccionamos <File> <New Project> (Figura 6).


Figura 6. Menú File de Structure.

Especificamos el nombre del proyecto, la carpeta de trabajo y el fichero de datos (ExportStructure.txt). A continuación anotamos el número de individuos, especificamos 1 en <Ploidy of data>, el número de SNPs extraídos y anotamos 9 como <Missing data value>. Solo queda, en el paso 4, marcar la casilla donde se indica que cada registro incluye el ID de cada individuo. Marcamos <Proceed> y esperamos. Aparecerá una ventana con los datos.
Entonces crearemos un fichero de parámetros: <Parameter Set> y <New> (Figura 7).


Figura 7. Menú Parameter Set de Structure.

En la ventana Run Length hay que incluir 2 números, Lenght of Burnin Period (un número de repeticiones que el programa realizará para que los análisis posteriores comiencen sin ningún sesgo) y Number of MCMC Reps after Burnin (el número de repeticiones al realizar los cálculos). Estos dos números deberían ser de alrededor de 1.100.000 pero para no demorarlo demasiado pondremos 2.000 en cada uno.
En la ventana Ancestry Model seleccionaremos Use Admixture Model debido a que nuestras poblaciones se habrán mezclado en cierto grado.
En la ventana Allele Frequency Model seleccionaremos Allele Frequencies Correlated ya que normalmente en nuestra especie las poblaciones geográficamente cercanas tienen mayor parecido genético.
En la ventana Advanced seleccionaremos Compute probability of the data (for estimating K), ya que uno de los objetivos es obtener K (número de poblaciones). Denominaremos ese Parameter Set como más nos guste y finalmente en el menú Parameter Set seleccionaremos Run y especificaremos el rango de valores de K (K=2 y K=3).
Una vez terminado el análisis, seleccionaremos en el programa el documento obtenido y en la ventana de la derecha seleccionaremos Bar plot.

4. El devenir de la Península Ibérica
En un trabajo centrado en la Península Ibérica, Olalde et al (2019) han incluído, en las bases de datos mencionadas en los apartados anteriores, un grupo de 271 restos de los últimos 8.000 años de yacimientos de España y Portugal.
Los resultados principales se muestran en la figura 8.
Realizaremos un análisis similar, incluyendo varios restos pertenecientes a los períodos (por orden de antigüedad) Mesolítico (Meso), Neolítico tardío (MLN), Calcolítico (CA), Edad de Bronce (BA), Edad de Hierro (IA) y Edad Media (6-8C). Los ficheros correspondientes son Iberia.ind e Iberia.geno.
Renombraremos el fichero IBSmatrix.dat como IberiaIBSmatrix.dat. Como antes, podemos especificar el nombre de los grupos. Además, podemos poner un color a cada grupo. 

Finalmente, cada alumno deberá interpretar el resultado obtenido desde el punto de vista de uno de los individuos de la Península Ibérica.


Figura 8. Origen de las muestras, secuencia temporal y análisis multivariante del trabajo de Olalde et al (2019)


Bibliografía
Lazaridis, I., et al (2014). Ancient human genomes suggest three ancestral populations for present-day Europeans. Nature, 513(7518), 409.
Novembre, J., et al (2008). Genes mirror geography within Europe. Nature, 456(7218), 98.
Olalde, I., et al (2019). The genomic history of the Iberian Peninsula over the past 8000 years. Science, 363(6432), 1230-1234.

Anexo. Estructura de los ficheros de datos
Los ficheros ind, snp y geno almacenan información sobre los individuos, los SNPs y los genotipos, respectivamente, con el formato Eigensoft. En el fichero de individuos cada línea especifica el código, el sexo y el grupo al que pertenece cada individuo. En el fichero de SNPs se especifica en cada línea el nombre, cromosoma, posición genética, posición física, alelo principal y alelo secundario para un SNP. En el fichero de genotipos, en cada línea se especifica el genotipo de cada individuo para un SNP, de modo que 0 quiere decir que porta en homocigosis el alelo secundario, 1 que es heterocigoto, 2 que es homocigoto para el alelo principal y 9 significa ausencia de resultado.

Fichero .ind:
I0235 F Steppe_MLBA
I0234 F Steppe_MLBA
I0431 F Steppe_MLBA
I0354 F Steppe_EMBA
I0371 M Steppe_EMBA
I0126 M Steppe_EMBA
...
Fichero .snp:
rs3094315 1 0.020130 752566 G A
rs12124819 1 0.020242 776546 A G
rs28765502 1 0.022137 832918 T C
rs7419119 1 0.022518 842013 T G
rs950122 1 0.022720 846864 G C
...
Fichero .geno:
0001002222
0090002220
9200019222
0001200022
0109002222
...

Enlaces:
GWEdit
Past
Structure
Actual.ind (Guardar enlace como ...)
Actual.geno (Guardar enlace como ...)
3grupos.ind (Guardar enlace como ...)
3grupos.geno (Guardar enlace como ...)
Iberia.ind (Guardar enlace como ...)
Iberia.geno (Guardar enlace como ...)

ActualIBSmatrix.dat
3gruposIBSmatrix.dat
ExportStructure.txt
IberiaIBSmatrix.dat



Envíe los resultados en un correo

@Mikel Iriondo, Jose A. Peña, 2023 Universidad del País Vasco (UPV/EHU)