Informática Aplicada a la Investigación Rotating Header Image

Genetika

IDBA-UD

Informazio orokorra

IDBA-UD 1.1.1 is a iterative De Bruijn Graph De Novo Assembler for Short Reads Sequencing data with Highly Uneven Sequencing Depth. It is an extension of IDBA algorithm. IDBA-UD also iterates from small k to a large k. In each iteration, short and low-depth contigs are removed iteratively with cutoff threshold from low to high to reduce the errors in low-depth and high-depth regions. Paired-end reads are aligned to contigs and assembled locally to generate some missing k-mers in low-depth regions. With these technologies, IDBA-UD can iterate k value of de Bruijn graph to a very large value with less gaps and less branches to form long contigs in both low-depth and high-depth regions.

Nola erabili

Lanak koletara bidaltzeko ondorengo komandoa erabili daiteke

send_idba-ud

eta galdera batzuk erantzun eta gero bidaliko du lana.

Erendimendua

IDBA-UD ondo eskalatzen du 8 koreetaraino. Hortik gora ez dugu inongo hobenkuntzarik nabaritu. Benchmark --mimk 40 --step 20 aukerekin egin da eta step murriztu dugunean okerrago paralelizatzen du. Bigarren taulan ere step 10-ekin errendimendua ez da ona 4 koretik gora.

kore 1 oinarri bezala 2 kore oinarri bezala
Koreak Denbora (s) Azelerazioa Errendimendua (%) Azelerazioa Errendimendua
1 480 1 100
2 296 1.6 81 1.0 100
4 188 2.6 64 1.6 79
8 84 5.7 71 3.5 88
12 92 5.2 43 3.2 54

Bigarren benchmarka fitxategin handiago batekin egin dugu, 10 milio basetakoa eta --mink 20 --step 10 --min_support 2 aukerekin. Ikusten dugu konportamendu erregularragoa eta nola 4 koreetatik gora ez duen ondo eskalatzen.

Koreak Denbora (s) Azelerazioa errendimendua (%)
1 13050 1 100
2 6675 2.0 98
4 3849 3.4 85
8 3113 4.2 52
16 2337 5.6 35
20 2409 5.4 27

Informazio gehigo

IDBA-UD web orrialdea.

SPAdes

Informazio orokorra

SPAdes 3.6.0 – St. Petersburg genome assembler – is intended for both standard isolates and single-cell MDA bacteria assemblies. It works with Illumina or IonTorrent reads and is capable of providing hybrid assemblies using PacBio, Oxford Nanopore and Sanger reads. You can also provide additional contigs that will be used as long reads. Supports paired-end reads, mate-pairs and unpaired reads. SPAdes can take as input several paired-end and mate-pair libraries simultaneously. Note, that SPAdes was initially designed for small genomes. It was tested on single-cell and standard bacterial and fungal data sets.

Nola erabili

Kalkuluak bidaltzeko koletara

send_spades

komandoa erabili daiteke, honek galdera batzuk erantzutez kalkulua konfiguratuko du.

Errendimendua

Ez da neurtu inongo hobekuntzarik hainbat koreak erabiliz kalkulu normal batean, mota henetakoa:

spades.py -pe1-1 file1 -pe1-2 file2 -o outdir

Kore bakarra erabiltzea gomendatzen dugu, errendimendu hobea lortuko dela jakin ezik kore gehiago erabiliz gero.

Informazio gehiago

SPAdes web orrialdea.

MetAMOS

Informazio orokorra

MetAMOS represents a focused effort to create automated, reproducible, traceable assembly & analysis infused with current best practices and state-of-the-art methods. MetAMOS for input can start with next-generation sequencing reads or assemblies, and as output, produces: assembly reports, genomic scaffolds, open-reading frames, variant motifs, taxonomic or functional annotations, Krona charts and HTML report. 1.5rc3 version.

Nola erabili

Koletara lanak bidaltzeko

send_metamos

komandoa erabili daiteke eta egiten dituen galderak erantzuten. Kontutan hartu MetAMOS memoria asko behar duela, gutxi gorabehera RAM GB bat milioi read bakoitzeko.

Informazio gehiago

MetAMOS web orrialdea.

QIIME

Information orokorra

QIIME (Quantitative Insights Into Microbial Ecology) is an open-source bioinformatics pipeline for performing microbiome analysis from raw DNA sequencing data. QIIME is designed to take users from raw sequencing data generated on the Illumina or other platforms through publication quality graphics and statistics. This includes demultiplexing and quality filtering, OTU picking, taxonomic assignment, and phylogenetic reconstruction, and diversity analyses and visualizations. QIIME has been applied to studies based on billions of sequences from tens of thousands of samples

Nola erabili

QIIME lanak bidaltzeko exekutatu

send_qiime

eta erantzun galdereí.

USEARCH

QIIME USEARCH paketea erabili dezake.

Informazio gehiago

QIIME home page.

USEARCH.

 

 

USEARCH

Informazio orokorra

USEARCH is a unique sequence analysis tool that offers search and clustering algorithms that are often orders of magnitude faster than BLAST. Tenemos la versión de 32 bits que es gratuita, pero no distribuible a terceros. Tiene la limitación de 4 GB de RAM como máximo.

Cómo usar

USEARCH erabiltzeko erabili ondorengo komandoa

/software/bin/usearch

adibidez

usearch -cluster_otus data.fa -otus otus.fa -uparseout out.up -relabel OTU_ -sizein -sizeout

Momentuz USEARCH xeon20 etiketa duten nodoetan dago eskuragarri

QIIME

USEARCH QIIME-pean erabili daiteke

Informazio gehiago

USEARCH home page.

QIIME.

Trinity

Información general

2.1.1 release. Trinity, represents a novel method for the efficient and robust de novo reconstruction of transcriptomes from RNA-seq data. Trinity combines three independent software modules: Inchworm, Chrysalis, and Butterfly, applied sequentially to process large volumes of RNA-seq reads. Trinity partitions the sequence data into many individual de Bruijn graphs, each representing the transcriptional complexity at at a given gene or locus, and then processes each graph independently to extract full-length splicing isoforms and to tease apart transcripts derived from paralogous genes. Briefly, the process works like so:

  • Inchworm assembles the RNA-seq data into the unique sequences of transcripts, often generating full-length transcripts for a dominant isoform, but then reports just the unique portions of alternatively spliced transcripts.
  • Chrysalis clusters the Inchworm contigs into clusters and constructs complete de Bruijn graphs for each cluster. Each cluster represents the full transcriptonal complexity for a given gene (or sets of genes that share sequences in common). Chrysalis then partitions the full read set among these disjoint graphs.
  • Butterfly then processes the individual graphs in parallel, tracing the paths that reads and pairs of reads take within the graph, ultimately reporting full-length transcripts for alternatively spliced isoforms, and teasing apart transcripts that corresponds to paralogous genes.

Nola erabili

send_trinity

komandoa erabili daiteke lanak koletara bidaltzeko. Galdera batzuk erantzun eta gero koletara bidali behar den scripta sortu eta bidaliko du. Erabiltzaile  aurreratuentzak erabili daiteke ere adibide scrtip bat sortzeko.

Errendimendua

Trinity paraleloan exekutatu daiteke baina errendimendu txarrarekin 4 koretik gora, nahiz eta kore kopurua asko igo kalkulu denbora ez da asko jaisten. Trinimyk RAM asko erabiltzen du.

Trinityren errendimendua
Koreak  1 4 8 12
Denbora 5189 2116 1754 1852
Azelerazioa 1 2.45 2.96 2.80
Eraginkortasuna (%)  100 61 37 23

 

Informazio gehiago

Página web de Trinity.

ABySS

Informazio orokorra

1.3.2 ABySS bertsioa (Assembly By Short Sequences). ABySS is a de novo, parallel, paired-end sequence assembler that is designed for short reads. ABySS paraleloan exekutatu daiteke.

Begiratu ere instalatuta dagoen velvet eta biak konparatzen publikatu dugun artikulua.

Nola erabili

Exekutableak /software/abyss/bin karpetan daude. Kolako skriptetean exekutatzeko gehitu adibidez:

/software/abyss/bin/abyss-pe [abyss-pe opzioak]

Errendimendua

Begiratu ere instalatuta dagoen velvet eta biak konparatzen publikatu dugun artikulua.

Paralelizazioa

Abysseko benchmark batzuk egin dira. Benchmarkak HeSeq2000 NGS Illumina batek emandako datuegin egin dira 100 bp sekuentzia bakoitzeko. 1. taulan ikus dezakegu nola ABySSek eskalatzen duen kore kopuruaren arabera, ikus daitekeen bezala ondo paralelizatzen du 8 kore arte.

Taula 1. abyss-pe programaren exekuxio denbora segundutan kore kopuruaren arabera.
Koreak 2 4 8 12 24
Denbora (s) 47798 27852 16874 14591 18633
Azelerazioa 1 1.7 2.8 3.3 2.6
Errendimendua (%) 100 86 71 55 21

Exekuzio denbora

Exekuxio denbora era neurtu dugu datu tamainaren funtzioan. 2. taulan erakusten da nola milioi bat sekuentziatik 10 milioietara pasatzean denbora ere 10 aldiz handiagoa dela. 10 milioitin 100 milioi sekuentzietara pasatzean denbora 10 eta 20 artean handitzen da. Beraz, exekuzio denboraren konportamendua gutxi gorabehera lineala da.

Taula 2. abyss-pe programaren exekuzio denbora segundutan sekuentzia kopuruaren arabera en 2, 4 y 8 koreentzako.
Sekuentziak 10e6 10e7 10e8
Denbora 2 koretan (s) 247 2620 47798
Denbora 4 koretan (s) 134 1437 27852
Denbora 8 koretan (s) 103 923 1687

RAM memoria

Programa hauetan exekuzio denbora baino garrantzitzua RAM memoria da, oso handia izan baitaiteke. 3. taulan ikusten dugu nola RAM memoria handitzen den sekuentzia kopuruaren funtzioan. Neurtutako balioen logaritmoak ere erakusten ditugu hauek erabili baititugu erregresio lineala egiteko. Kalkuluan 12 koretan egin dira.

Taula 3. abyss-pe programak erabilitako RAM memoria sekuentzia kopuruaren funtzioan. Balioen logaritmoak ere erakusten dira.
Sekuentziak 10e6 5*10e6 10e7 5*10e7 10e8
RAM (GB) 4.0 7.6 11 29 44
log(sekuentziak) 6 6.7 7 7.7 8
log(RAM) 0.60 0.88 1.03 1.46 1.65

Neurtutako balioak ondoko ekuaziora doitu ditugu non (s) sekuentzia kopurua da eta memoria GBetan ematen da:

log(RAM)=0.53*log(s)-2.65

edo beste era batean

RAM=(s^0.53)/447

Ondorioak

RAM erabilera txikiagoa da beste ensanbladorekin alderatuta.  Velvet adibidez (ikus ere Velvet performance in the machines of the Computing Service of the UPV/EHU txostena eta biak konparatzen publikatu dugun artikulua. Gainera, ABySS MPI erabiltzen du paralelizazioa lortzeko eta honi esker hainbat nodoen RAM memoria gehitu dezakegu kalkulu handiagoak egin ahal izateko.

Informazio gehiago

ABySSeko web orrialdea.
Velvet ensambladorea.
hpc blogean sarrera: Velvet performance in the machines of the Computing Service of the UPV/EHU.
Velvet performance in the machines of the Computing Service of the UPV/EHU txostena.

Clean_reads

Informazio orokorra

0.2.2 bertsioa. clean_reads programak Sanger, 454, Illumina eta Solid NGS (next generation sequencing) datuak garbitzen ditu. Kendu ditzake

  • Kalitate txarreko aldeak
  • Adaptadoreak
  • Vektoreak
  • Espresio regularrak

Kalitate eratainan eta luzeeran oinarritutako kalitate txarreko irakurketak eliminatu ditzazke ere. Paraleloan exekutatu daiteke.

Nola erabili

Kola sistemara lanak bidaltzeko  erabili dezakezue

send_clean_reads

komandoa zinek galdera batzuen bitartez skripta prestatu eta bidaliko du.

Errendimendua

clean_reads programak paraleloan exekutatu daiteke eta ondo eskalatzen du 8 kore arte. 12 koreentzako errendimendua asko jaisten da. Taulan ikus daite benchmarken emaitzak. Xeon E5645 procesadoreak erabiliz 12 koretako nodoan.

Exekuzio denbora segundutan kore kopuruaren arabera
koreak 1 4 8 12
Denbora (s) 1600 422 246 238
Azelerazioa 1 3.8 6.5 6.7
Errendimendua (%) 100 95 81 56

Ondorengo komandoa exekutatu da

clean_reads -i in.fastq -o out.fastq -p illumina -f fastq -g fastq -a a.fna -d UniVec -n 20 --qual_threshold=20 --only_3_end False -m 60 -t 12

Informazio gehiago

clean_reads web orrialdea.

Velvet

Informazio orokorra

1.2.03 bertsioa. Velvet is a set of algorithms manipulating de Bruijn graphs for genomic and de novo transcriptomic Sequence assembly. It was designed for short read sequencing technologies, such as Solexa or 454 Sequencing and was developed by Daniel Zerbino and Ewan Birney at the European Bioinformatics Institute. The tool takes in short read sequences, removes errors then produces high quality unique contigs. It then uses paired-end read and long read information, when available, to retrieve the repeated areas between contigs.

Begiratu ere instalatuta dagoen ABySS eta biak konparatzen publikatu dugun artikulua.

Nola erabili

velveth edo velvetg exekutatzeko Torque ilara sisteman gehitu zuen scriptetan:

/software/bin/velvet/velveth [velvet opzioak]
/software/bin/velvet/velvetg [velvet opzioak]

Erendimendua

Velvet OpenMP paralelizatzeko gaitasunarekin konpilatu da. Bere errendimendua neurtu dugu eta eskuragarri daude Velvet performance in the machines of the Computing Service of the UPV/EHU dokumentuan. Velvetek RAM memoria kopuru handia behar dukalkulu handietarako eta neurtu dugu ere. Formula simple batzuk lortu ditugu RAM memoria aurreikusteko sarrera fitxeroen arabera, horrela ikertzaileak bere ikerketa planifikatu dezake.

Begiratu ere instalatuta dagoen ABySS eta biak konparatzen publikatu dugun artikulua.

Informazio gehiago

Velvet web horrialdea.
Velvet performance in the machines of the Computing Service of the UPV/EHU, errendimenduari buruzko txostena.
hpc blogean sarrera: Velvet performance in the machines of the Computing Service of the UPV/EHU.

BLAST

Informazio orokorra

BLAST-en 2.2.24 bertsioa. Proteinen eta nukleotidoen sekuentziak alderatzen ditu base datuekin erlazio funtzionalak eta ebolutiboak ikertzeko eta gen familien kideak identifikatzeko.

Errendimendu arrazoiengatik ez da Itanium nodoetan instalatu.

Base datuak

Serbitzuak hainbat base datuak instalatuta ditu, kontsultatu teknikariekin. Data baseren bat eguneratu edo instalatu nahi baduzu jar zaitez harremanetan teknikariekin behar ez diren kopiak ez edukitzeko.

Nola erabili

Lanak kola sistemara bidaltzeko gomendatzen dizuegu

send_blast

komandoa. Galdera batzuen bidez mpiBLAST edo BLAST arrunta bidali dezake, sekuentzien fitxeroa zatitu dezake paralelizatzeko datuetan eta hainbat gauza.

Errendimendua eta gpuBLAST

Konparatu dugu ere mpiBLAST, NCBIko BLAST normalarekin eta gpuBLASTarekin, emaitzak Zerbitzuko blogean aurkitzen dira. mpiBLAST Zerbitzuan instalatuta dabo. Baita gpuBLAST ere baina ez dago aktibatuta GPGU nodoak gutxi direlako eta errendimendua asko hobetzen ez delako.

Informazio gehiago

BLASTeko web orrialdea.
Blast2GO ere instalatuta dago zerbitzuko makinetan.
mpiBLAST ere instalatuta dago zerbitzuko makinetan.

Genepop

Informazio orokorra

4.1 bertsioa.

Genepop is a population genetics software package, which has options for the following analysis: Hardy Weinberg equilibrium, Linkage Disequilibrium, Population Differentiation, Effective number of migrants, Fst or other correlations.

Nola erabili

Ilara sisteman exekutatzeko gehitu kolarako skriptean

/software/bin/Genepop < input_file

Non input_file Genepop-en opzioak dituen fitxeroa da, hots, Genepop interaktiboan egiten dituen galdereen erantzuna. Gomendatzen dizuegu qsub interaktiboan erabiltzea lanak kolara bidaltzeko.

 

Informazio gehiago

Genepopen web orrialdea.

CLUMPP

Informazio orokorra

1.1.3 bertsioa. CLUMPP is a program that deals with label switching and multimodality problems in population-genetic cluster analyses. CLUMPP permutes the clusters output by independent runs of clustering programs such as structure, so that they match up as closely as possible. The user has the option of choosing one of three algorithms for aligning replicates, with a tradeoff of speed and similarity to the optimal alignment.

Nola erabili

Ilara sisteman exekutatzeko gehitu kolarako skriptean

/software/bin/CLUMPP

CLUMPPek behar dituen opzioekin. Gomendatzen dizuegu qsub interactiboan erabiltzea lanak kolara bidaltzeko.

 

Informazio gehiago

CLUMPPen web orrialdea.

Structure

Informazio orokorra

2.33 bertsioa

The program structure is a free software package for using multi-locus genotype data to investigate population structure. Its uses include inferring the presence of distinct populations, assigning individuals to populations, studying hybrid zones, identifying migrants and admixed individuals, and estimating population allele frequencies in situations where many individuals are migrants or admixed. It can be applied to most of the commonly-used genetic markers, including SNPS, microsatellites, RFLPs and AFLPs.

Nola erabili

Interfaz grafikoa exekutatzeko Pendulon, Maiz edo Guinnessen exekutatu

structure

Aplikazio grafikoak exekutatu ahal izateko irakurri nola konektatu Arinara.

Ilara sisteman exekutatzeko gehitu kolarako skriptean

/software/bin/structure

structure behar dituen opzioekin. Gomendatzen dizuegu qsub interaktiboan erabiltzea lanak kolara bidaltzeko.

 

Informazio gehiago

Structureren web orrialdea.