mpiBLAST

 1. Información general

 2. Bases de datos

 3. Cómo ejecutar

 4. Rendimiento

 5. Más información

1. Información general

mpiBlAST es una versión paralela de blast que permite su ejecución paralela en muchos nodos. Está instalada la versión 1.6.0. Compara secuencias de nucleótidos o proteínas con bases de datos y para estudiar relaciones funcionales y evolutivas así como identificar miembros de familas de genes.

Por razones de rendimiento no se ha instalado en los Itanium.

En nuestras pruebas falla si el fichero de secuencias tiene secuencias de más de aproxímadamente 3150 bp.

mpiBLAST está basado en la antigua versión de blast y usa la sintáxis antigua. Puedes verla en este link.

2. Bases de datos

El Servicio tiene instaladas varias bases de datos para uso compartido, consulta con los técnicos para más información. Si quieres actualizar o instalar más bases de datos contacta con los técnicos para evitar copias múltiples innecesarias.

3. Cómo ejecutar

Para enviar trabajos al sistema de colas recomendamos el uso del comando

send_blast

Este comando realiza una serie de preguntas y permite lanzar mpiBLAST o el BLAST normal, así como trocear el fichero de datos orginal para paralelizar sobre los datos o ajustar el tiempo de ejecución a Péndulo.

También puedes crear tú propio script de Torque incluyendo esta línea.

/software/bin/mpiblast -use-virtual-frags -use-parallel-write -output-search-stats

Por ejemplo, para usar blastx con la base de datos nr y obtener los resultados en formato XML y luego poder usarlos con Blast2GO:

/software/bin/mpiblast -use-virtual-frags -use-parallel-write -output-search-stats -p blastx -d nr -m 7 -I T -i input_file.fas -o out_file.xml

Para tener un script de ejemplo puedes ejecutar un vez send_blast. También tenemos programas para facilitar el uso de BLAST, consulta con los técnicos.

Es recomendable usar el flag -use-virtual-frags para que no realice una copia local de la base de datos, esta se cargará íntegramente en memoria. Para Péndulo, que tiene poca memoria por nodo, es importante saber cuanta memoria va a necesitar nuestro cálculo para que entre perféctamente (ver informe sobre rendimiento).

Es necesario formatear la base de datos en fragmentos y asignar un fragmento a cada core (cpu). Recomendamos usar las bases de datos instaladas por los técnicos. Para fomatear las bases de datos nr en 6 trozos por ejemplo, está el comando:

/software/bin/mpiformatdb -N 6 -i nr -o T

El número de cores a solicitar para el cálculo con mpiBLAST a de ser igual al número de fragmentos de la base de datos más dos, en este caso solicitaríamos 8 cores.

mpiBLAST escala muy bien. Hemos realizado unos test y benchmark que nos puede servir para predecir el uso de memoria y cpu de los cálculos, que hemos plasmado en el  informe sobre el rendimiento de mpiBLAST.

 

4. Rendimiento

Para preparar los cálculos puede ser muy instructivo el informe sobre rendimiento de mpiBLAST. También hemos comparado mpiBLAST con el BLAST normal de NCBI y gpuBLAST. Se pueden encontrar los resultados en el blog del Servicio.

5. Más información

Para más información página web de mpiBLAST. Aquí se pueden encontrar manuales y tutoriales.

También está instaldado Blast2GO.

Informe sobre el rendimiento de mpiBLAST.

Esta entrada fue publicada en Genética, Software de Cálculo. Guarda el enlace permanente.

1 respuesta a mpiBLAST

  1. Pingback: hpc » Rendimiento de diferentes implementaciones de BLAST

Los comentarios están cerrados.