GitHub - StivennGutierrez/bioinformatica_clase_git

Primer punto:

En la carpeta ‘Archivos_PARCIAL’ dejé el archivo FASTA con las secuencias del popset:

En NCBI, filtre por Popset y busqué el código ‘1776322181’, ya en el poset: send to>File>FASTA>download

Para cambiar el nombre de cada secuencia a la estructura Código de la secuencia_Nombre del gen_Género_Epíteto específico:

En Atom:

Find all: (>\w+.\w+)\s(\w+)\s(\w+).*

Replace all: $1_COI_$2_$3

Y llamé al archivo: Spodoptera_sequences.fasta

Luego, al ya tener listo el archivo, lo subí a una carpeta que cree en el clúster ‘Blast’:

Para ello me ubiqué en la carpeta de la llave y corrí el siguiente código teniendo en cuenta la ruta en el clúster correspondiente a la carpeta ‘Blast’:

► scp -i bio.pt.pem -P 37022 /mnt/c/Users/stive/Downloads/Archivos_PARCIAL/Spodoptera_sequences.fasta [email protected]:/home/bio.pt/data/Parcial1/parcial1_StivennGutierrez/Blast

De esta forma, ya en el clúster en la carpeta ‘Blast’, descargue la secuencia query: ► wget “https://raw.githubusercontent.com/paula-torres/bioinformatica_ur/main/files/query_parcial.fasta”
Ya con ambos archivos en la carpeta, antes de generar el BLAST, primero construí la base de datos tipo Blastn a partir de ambos archivos mediante:

► salloc

► module load blast/2.7.1

► makeblastdb -in spidoptera_sequences.fasta -dbtype nucl -parse_seqids -out trans_spidoptera -title "Spidoptera_transcriptome"

Con la base de secuencias tipo Blastn, ahora si corrí el BLAST:

► blastn -query query_parciale.fasta -task megablast -db trans_spidoptera -outfmt 7 -word_size 7 -out blast_spidoptera -num_threads 1

*Análisis de BLAST:

¿Cuál es la identidad más probable de la secuencia?

La especie Spodoptera cilium con un % de identidad igual a 96.9.

¿Basado en qué tomó esta decisión?

Teniendo en cuenta también el valor de E-value, donde se observa que es 0, es decir el ruido de fondo por aleatoriedad es bajo y por ende la coincidencia es mayor. Así como el valor del Bit-score que indica una alineación de buena calidad con un valor de 1151 para esta especie.

¿Es un gen mitocondrial o nuclear? Mitocondrial

Por último, cabe destacar que todas las secuencias para esta especie ranquearon un puntaje de mayor coincidencia e identidad para la secuencia query en comparación al resto.

Segundo punto:

Para realizar el alineamiento con las secuencias previamente utilizadas, las copie a una nueva carpeta ‘Alignment’:

► cp Spodoptera_sequences.fasta /home/bio.pt/data/Parcial1/parcial1_StivennGutierrez/Alignment

► cp query_parcial.fasta /home/bio.pt/data/Parcial1/parcial1_StivennGutierrez/Alignment

Ya en la carpeta con ambos archivos, los concatene y los guarde en un nuevo FASTA:

► cat Spodoptera_sequences.fasta query_parcial.fasta > ALlsequences.FASTA

Luego, al ya tener todas las secuencias en un mismo FASTA, realicé un alineamiento por MUSCLE:

Para ello:

► Salloc

► module load muscle/3.8.31

► muscle -in ALlsequences.FASTA -out allsequences_spidoptera_muscle.fast

Tras obtener el alineamiento por MUSCLE, y con el propósito de generar un árbol de máxima verosimilitud por iqtree:

Primero, creé una carpeta ‘fasconcat’ donde copié el archivo “FASconCAT-G_v1.05.1.pl”:

► cp FASconCAT-G_v1.05.1.pl /home/bio.pt/data/Parcial1/parcial1_StivennGutierrez/Alignment/fasconcat

Y moví el archivo correspondiente al alineamiento por MUSCLE:

► mv allsequences_spidoptera_muscle.fast fasconcat

Con ambos archivos dentro de la carpeta de fasconcat, cargue FASCONCAT:

► ./FASconCAT-G_v1.05.1.pl

En la interfaz, cambie los parámetros Nexus para la opción blocked (n), para Phylip (2p) para la opción relaxed y luego ejecuté (s). De esta forma, ya obtuve la matriz necesaria para generar el árbol de máxima verosimilitud. Para generar el árbol por iqtree:

► module load iqtree

► iqtree -s FcC_supermatrix.phy -m TEST -bb 1000 -pre spidoptera_muscle

Ya con el archivo generado con los valores de soporte, abrí el archivo para copiar toda la información para la construcción del árbol filogenético con [cat].

En phylo.io renderice la información que copie anteriormente y aplique el parámetro ‘Branch Labels/Support’.

Adicionalmente, para enraizar el árbol obtenido me ubiqué en la rama central y le dí a la opción ‘reroot’, de esta forma finalmente obtuve el árbol correspondiente.

*Análisis de árbol de máxima verosimilitud:

Se observá que la especie Spodoptera cilium está más estrechamente relacionada con la secuencia query, aunque exhiba un valor de boostrap inconsistente en comparación a las otras especies. Por otro lado, atendiendo a las relaciones filogenéticas inferidaas, las especies Mythimna loreyi y Peridroma saucia son bastante cercanas entre sí y el grupo más reciente dentro de la historia evolutiva del árbol, asimismo presentan unvalor de soporte de rama de mayor confianza con tiempo evolutivos muy similares en cuanto a diversificación de su ancestro en común. Y la especie que se consideraría menos reciente corresponde a Spodoptera exigua.

Tercer punto:

En la carpeta ‘Archivos_PARCIAL’ descargué el siguiente archivo:

► wget “https://raw.githubusercontent.com/paula-torres/bioinformatica_ur/main/files/archivo1.csv”

Para obtener el número de filas y de caracteres:

► wc archivo1.csv

De esta forma, el # de filas son 49 y el # de caracteres 908

Para contar el número de columnas:

► awk -F "," '{print NF; exit}' archivo1.csv

De esta forma, el # de columnas son 4

Para modificar “archivo1.csv” cambiando ‘chr’ por ‘Cromosoma’ y guardarlo en un nuevo archivo:

► sed 's/chr/Cromosoma/' archivo1.csv | head -n 49 > result_file1.bed

Para modificar “archivo1.csv” reemplazando ‘,’ por ‘\t’ y guardarlo en un nuevo archivo:

► sed 's/,/\t/g' result_file1.bed > result_file2.bed

Con el propósito de extraer todas las filas que compartan el string ‘coding’ y guardarlo en un nuevo archivo:

► grep '.*' result_file2.bed | awk '$4 == "coding"' > result_file_coding1.bed

Cuarto punto:

Para comprimir todos los archivos contenidos en ‘parcial1_StivennGutierrez’ en un archivo zip:

► zip -r parcial1_StivennGutierrez.zip Parcial1

Para poder copiar este archivo zip a mi carpeta ‘Archivos_PARCIAL’, primero obtuve la ruta del archivo en el clúster con [pwd], luego me salí y dentro de la carpeta de la llave:

► scp -r -i bio.pt.pem -P 37022 [email protected]:/home/bio.pt/data/Parcial1/parcial1_StivennGutierrez.zip /mnt/c/Users/stive/Downloads/Archivos_PARCIAL

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

StivennGutierrez/bioinformatica_clase_git

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages