Antropogenética
Práctica O4. Minería de
datos (bases de datos GW)
1. El patrimonio genético actual de Europa
En un trabajo realizado sobre más de 3.000 individuos europeos a los
que se analizaron 500.000 SNPs, Novembre et al (2008) encontraron que
la estructura del patrimonio genético de los europeos se ajustaba muy
bien a la geografía, de modo que en un análisis multivariante, la mayor
parte de los individuos aparecían ubicados correctamente en un mapa en
función de su origen (Figura 1).

Figura 1.
Representación del lugar de origen predicho para un grupo de individuos
europeos (Nobembre et al, 2008)
Vamos a comprobar, con una base de datos de 155.449 SNPs
analizados en 128 individuos europeos, si el origen geográfico es
determinante en la composición de su patrimonio genético.
Los ficheros de esta base de datos son Actual.ind y Actual.geno. Vamos
a analizarlos con los programas GWedit y Past.
Primero crearemos una matriz de distancias con la que haremos un
análisis de Coordenadas Principales.
Arrancamos GWedit.jar
Seleccionamos <Multivariate analysis> <IBS matrix
distance / MDS>. De este modo, crearemos la matriz de distancias
(Figura 2).
Figura
2. Análisis de
distancias con GWedit
El programa pide el nombre de un fichero ind. Seleccionamos
Actual.ind
A continuación, pide el nombre de un fichero geno. Seleccionamos
Actual.geno. Hemos seleccionado la base de datos de individuos
actuales, especificando primero el fichero de individuos y después el
de genotipos.
Después de unos minutos, el programa generará el fichero IBSmatrix.dat
Para evitar confusiones con los ficheros que obtengamos más tarde, lo
renombraremos como ActualIBSmatrix.dat
Arrancamos Past
Desde Past, abrimos ActualIBSmatrix.dat
Vamos a configurar una serie de grupos, de modo que todos los
individuos que tengan la misma denominación, pertenezcan al mismo
grupo. Esto nos permitirá etiquetar el centroide de cada grupo en el
gráfico, en lugar de etiquetar todos los individuos, lo que haría la
representación mucho más confusa.
Seleccionamos <Edit> <Insert more columns>.
Especificamos 1 columna.
Hacemos clic en Column atributes. Seleccionamos el tipo Group
Hacemos clic en Row atributes. Y copiamos los nombres de todos los
individuos (columna Name) en la nueva columna que hemos creado.
Seleccionamos todos los datos.
Para realizar un análisis de Coordenadas Principales, seleccionamos
<Multivariate> <Ordination>
<Principal coordinates (PCoA)> (Figura 3).

Figura 3. Análisis de Coordenadas principales con Past.
En Similarity index, especificamos que no es preciso hacer un
análisis de distancias, ya que nosotros aportamos la matriz de
distancias (User-supplied distance)
Le decimos que recalcule (Recompute). En Summary veremos los valores
propios y la varianza explicada. En Scatter plot veremos el gráfico.
Podemos añadir las etiquetas individuales o de grupo.
Comparamos el resultado obtenido con el mapa en el que se indica el
origen de las muestras (Figura 4).

Figura 4. Origen de las muestras.
2. Los componentes originarios del patrimonio
genético europeo
Lazaridis et al (2014) analizaron una serie de restos antiguos
extraídos de diferentes yacimientos europeos y compararon sus genomas
con los de los europeos actuales.
Encontraron tres componentes básicos del patrimonio genético europeo:
una parte de origen Paleolítico, proveniente de los grupos que
habitaban el continente antes de la llegada del Neolítico, una parte de
origen Neolítico, proveniente de Oriente Prócimo y una parte, con
mezcla del Paleolítico y el Neolítico, con origen en las estepas del
Este de Europa (Figura 5).

Figura 5. Resultados del análisis de Lazaridis et al
(2014).
A continuación, realizaremos un nuevo análisis, intentando
replicar estos resultados, añadiendo a la base de datos anterior, un
grupo de muestras provenientes de yacimientos del Paleolítico, otro
grupo de principios del Neolítico de la actual Turquía y de los
Balcanes y un grupo proveniente de las estepas de principios y de
finales de la Edad de Bronce.
Realizaremos los mismos análisis que en el apartado anterior, en este
caso utilizando los ficheros 3grupos.ind y 3grupos.geno.
Renombraremos el fichero IBSmatrix.dat como 3gruposIBSmatrix.dat. Como
antes, podemos especificar el nombre de los grupos, para evitar la
existencia de demasiadas etiquetas. Además, podemos poner un color a
cada uno de los tres grupos. Puede hacerse en Excel de una forma más
rápida. Para ello, basta con escribir el nombre del color deseado en
una o varias celdas, copiarlo y pegarlo en las casillas deseadas de
Past.
3. Análisis del mestizaje
A continuación, realizaremos un análisis Structure con nuestros datos.
Para ello, hemos de transformarlos al formato adecuado. Con este fin,
arrancamos GWedit y seleccionamos <Export to>
<Structure>. Nos pedirá los ficheros 3grupos.ind y
3grupos.geno. Obtendremos el fichero ExportStructure.txt. Puesto que la
ejecución de Structure puede ser muy larga si el número de SNPs es muy
elevado, GWedit extraerá unos 10.000, lo que debería ser una muestra
representativa. Tomamos nota del número de SNPs y del número de
individuos.
Arrancamos el programa Structure. Seleccionamos <File>
<New Project> (Figura 6).

Figura 6. Menú File de Structure.
Especificamos el nombre del proyecto, la carpeta de trabajo y
el fichero de datos (ExportStructure.txt). A continuación anotamos el
número de individuos, especificamos 1 en <Ploidy of
data>, el número de SNPs extraídos y anotamos 9 como
<Missing data value>. Solo queda, en el paso 4, marcar la
casilla donde se indica que cada registro incluye el ID de cada
individuo. Marcamos <Proceed> y esperamos. Aparecerá una
ventana con los datos.
Entonces crearemos un fichero de parámetros: <Parameter
Set> y <New> (Figura 7).

Figura 7. Menú Parameter Set de Structure.
En la ventana Run Length hay que incluir 2 números, Lenght of
Burnin Period (un número de repeticiones que el programa realizará para
que los análisis posteriores comiencen sin ningún sesgo) y Number of
MCMC Reps after Burnin (el número de repeticiones al realizar los
cálculos). Estos dos números deberían ser de alrededor de 1.100.000
pero para no demorarlo demasiado pondremos 2.000 en cada uno.
En la ventana Ancestry Model seleccionaremos Use Admixture Model debido
a que nuestras poblaciones se habrán mezclado en cierto grado.
En la ventana Allele Frequency Model seleccionaremos Allele Frequencies
Correlated ya que normalmente en nuestra especie las poblaciones
geográficamente cercanas tienen mayor parecido genético.
En la ventana Advanced seleccionaremos Compute probability of the data
(for estimating K), ya que uno de los objetivos es obtener K (número de
poblaciones). Denominaremos ese Parameter Set como más nos guste y
finalmente en el menú Parameter Set seleccionaremos Run y
especificaremos el rango de valores de K (K=2 y K=3).
Una vez terminado el análisis, seleccionaremos en el programa el
documento obtenido y en la ventana de la derecha seleccionaremos Bar
plot.
4. El devenir de la Península Ibérica
En un trabajo centrado en la Península Ibérica, Olalde et al (2019) han
incluído, en las bases de datos mencionadas en los apartados
anteriores, un grupo de 271 restos de los últimos 8.000 años de
yacimientos de España y Portugal.
Los resultados principales se muestran en la figura 8.
Realizaremos un análisis similar, incluyendo varios restos
pertenecientes a los períodos (por orden de antigüedad) Mesolítico
(Meso), Neolítico tardío (MLN), Calcolítico (CA), Edad de Bronce (BA),
Edad de Hierro (IA) y Edad Media (6-8C). Los ficheros
correspondientes son Iberia.ind e Iberia.geno.
Renombraremos el fichero IBSmatrix.dat como IberiaIBSmatrix.dat. Como
antes, podemos especificar el nombre de los grupos. Además, podemos
poner un color a cada grupo.
Finalmente, cada alumno deberá interpretar el resultado obtenido desde el punto de vista de uno de los individuos de la Península Ibérica.

Figura 8. Origen de las muestras, secuencia temporal y
análisis multivariante del trabajo de Olalde et al (2019)
Bibliografía
Lazaridis, I., et al (2014). Ancient human genomes suggest three
ancestral populations for present-day Europeans. Nature, 513(7518), 409.
Novembre, J., et al (2008). Genes mirror geography within Europe.
Nature, 456(7218), 98.
Olalde, I., et al (2019). The
genomic history of the Iberian Peninsula over the past 8000 years.
Science, 363(6432), 1230-1234.
Anexo. Estructura de los ficheros de datos
Los ficheros ind, snp y geno almacenan información sobre los
individuos, los SNPs y los genotipos, respectivamente, con el formato
Eigensoft. En el fichero de individuos cada línea especifica el código,
el sexo y el grupo al que pertenece cada individuo. En el fichero de
SNPs se especifica en cada línea el nombre, cromosoma, posición
genética, posición física, alelo principal y alelo secundario para un
SNP. En el fichero de genotipos, en cada línea se especifica el
genotipo de cada individuo para un SNP, de modo que 0 quiere decir que
porta en homocigosis el alelo secundario, 1 que es heterocigoto, 2 que
es homocigoto para el alelo principal y 9 significa ausencia de
resultado.
Fichero .ind:
I0235 F Steppe_MLBA
I0234 F Steppe_MLBA
I0431 F Steppe_MLBA
I0354 F Steppe_EMBA
I0371 M Steppe_EMBA
I0126 M Steppe_EMBA
...
Fichero .snp:
rs3094315 1 0.020130 752566 G A
rs12124819 1 0.020242 776546 A G
rs28765502 1 0.022137 832918 T C
rs7419119 1 0.022518 842013 T G
rs950122 1 0.022720 846864 G C
...
Fichero .geno:
0001002222
0090002220
9200019222
0001200022
0109002222
...
Enlaces:
GWEdit
Past
Structure
Actual.ind (Guardar enlace como
...)
Actual.geno (Guardar enlace
como ...)
3grupos.ind (Guardar enlace
como ...)
3grupos.geno (Guardar enlace
como ...)
Iberia.ind (Guardar enlace como
...)
Iberia.geno (Guardar enlace
como ...)
ActualIBSmatrix.dat
3gruposIBSmatrix.dat
ExportStructure.txt
IberiaIBSmatrix.dat
Envíe los
resultados en un correo
@Mikel Iriondo, Jose A. Peña, 2023 Universidad del País Vasco (UPV/EHU)