clean_reads

Información general

Version 0.2.2. clean_reads limpia reads de NGS (Next Generation Sequencing) – Sanger, 454, Illumina y solid. Puede eliminar

  • Regiones de mala calidad.
  • Adaptadores
  • Vectores
  • Expresiones regulares

También filtra reads que no llegan a un mínimo de calidad basándose en la longitud y cualidad media. Se puede ejecutar en paralelo.

Cómo usar

Para enviar trabajos de clean_reads al sistema de colas recomendamos usar el comando

send_clean_reads

que nos hará las preguntas necesarias para preparar y enviar el cálculo.

Rendimiento

clean_reads se puede ejecutar en paralelo y escala bien hasta los 8 cores. A 12 cores el rendimiento cae en picado. En la tabla 1 se pueden ver los resultados del benchmark, Éste se ha ejecutado en un nodo con 12 cores y procesadores Xeon E5645.

Tiempo de ejecución en segundos de clean_reads en función del número de cores
cores 1 4 8 12
Tiempo (s) 1600 422 246 238
Aceleración 1 3.8 6.5 6.7
Rendimiento (%) 100 95 81 56

Se ha ejecutado el comando

clean_reads -i in.fastq -o out.fastq -p illumina -f fastq -g fastq -a a.fna -d UniVec -n 20 --qual_threshold=20 --only_3_end False -m 60 -t 12

Más información

Página web de clean_reads.