Introducción a Python y Biopython

Introducción a Python y Biopython#

El proyecto de Biopython es una asociación internacional de desarrolladores del lenguaje Python con aplicación a biología molecular computacional. Es de libre acceso y está muy bien documentado, para mayor profundidad consulte el Recetario de Biopython. Para la instalación y requisitos consultar biopython/biopython

Instalación de Python con Conda#

Conda es un gestor de programas que permite descargar de forma ordenada las librerías para un programa y tener múltiples versiones de este. Vamos a usar conda, un paquete que ayuda a gestionar las instalaciones con múltiples ambientes y versiones. Vamos a crear un ambiente (environment) llamado biopython, y allí vamos a instalar las librerías que necesitamos.

conda create --name biopython python=3.9

Ahora activamos el entorno que creamos para instalar los programas

conda activate biopython
conda install -c conda-forge biopython

Ahora podemos “entrar” a python

python

Y chequeamos si Biopython quedó isntalado

import Bio
print(Bio.__version__)

Si sale un error después de llamar Biopython, la instalación fue defectuosa. De lo contrario, está bien por el momento y empezamos a trabajar con secuencias.

Secuencias#

Aunque una secuencia es un conjunto de letras, biopython tiene un formato especial para definir una secuencia

from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
my_seq
my_seq.complement()
my_seq.reverse_complement()

para salir de python escribimos

quit()

Un recordatorio de la síntesis de proteínas

Formato Fasta de Secuencias#

Existen diferente tipos de formatos para almacenar datos biólogicos, según su naturaleza. Estos formatos son formas estandarizadas que permiten codificar la información de manera simplificada. Muchos de estos formatos son en texto plano, y por lo tanto se pueden visualizar en editores como Notepad++ (Windows) o Sublime Text (Mac). Para el almacenamiento de secuencias se utilizan principalmente dos tipos de formato: FASTA y FASTQ

El virus COVID-19#

El genoma del virus SARS-CoV-2 está formado por una sola cadena de ARN. Esta cadena condifica para unas pocas proteínas, que son responsables de infectar al hospedero y utilizar su maquinaria enzimática para síntetizar las proteínas del virus y asícumplir su ciclo de vida. Las porteínas virales son generalmente componentes estructurales: envoltura, espícula y membranas. La proteína de la espícula (S) juega un papel fundamnetal en el reconocimiento del receptor y fue crucial para el diseño de las vacunas.