R/Bioconductor. Curso Intensivo Oct-Nov 2008 (original) (raw)

LCG (English)

This course was taught at the Undergraduate Program on Genomic Sciences (LCG in Spanish) from the National Autonomous University of Mexico (UNAM in Spanish). It was directed at the fifth semester students from the fourth generation. It was meant as a short R/Bioconductor course and was a part of the Bioinformatics and Statistics I subject. It had an official length of 12 class hours. For more information on this undergraduate program visit LCG's main page. For example, the sections on Development of the Genomic Sciences in Mexico and LCG's International Evaluation could be of your interest.

LCG

Este curso fue impartido en la Licenciatura en Ciencias Genómicas (LCG) de la Universidad Nacional Autónoma de México (UNAM). Fue dirigido a los alumnos de quinto semestre de la cuarta generación. Fue diseñado como un curso rápido de R/Bioconductor y fue parte de la materia de Bioinformática y Estadística I. Su duración oficial fue de 12 horas de clase. Para mayor información sobre la licenciatura visita la página principal de la LCG. Por ejemplo, las secciones de Desarrollo de las Ciencias Genómicas en México y de Evaluación internacional de la LCG pueden ser de tu interés.

Inicio

El objetivo de este pequeño curso de R/Bioconductor es familiarizarlos con el lenguaje R y varios paquetes útiles de Bioconductor. La idea del curso es darles un panorama general de lo que se puede hacer con R y Bioconductor; por lo tanto no nos vamos a meter en detalle en los paquetes aunque si están interesados tendrán los conocimientos básicos para adentrarse.

Les recordamos que no hay ningún experto en R o Bioconductor en la cercanía de la LCG a pesar de ser tan útil en la genómica. En el 2007 Sandrine Dudoit vino a la LCG por el programa de "Frontiers in Genomics". Casi le da un infarto cuando se enteró que no sabíamos nada de R. A principios del 2008, James Bullard del laboratorio de Sandrine dio un curso intensivo al cual asistimos Osam y yo (Leo). Aunque nuestro conocimiento sobre R es limitado, esperamos servirles como catalizadores en su aprendizaje de R. A su vez algunos de ustedes les tocará dar un curso parecido a nuevas generaciones.

Si llegan a tener dudas o preguntas ya sea durante el curso como después, hay una comunidad disponible via Internet que te puede ayudar. Dentro del contexto de la LCG, se espera formar una comunidad vía el Nodo Nacional de Bioinformática (NNB) y su foro asociado. En fin, esperamos que su experiencia con R/Bioconductor sea agradable.

Programa tentativo

Osam y yo preparamos un programa para este curso que pueden ver aquí:programa. Este programa mas bien es una propuesta. Las clases de Osam y de Leo no van a ser iguales además de que nos iremos ajustando al interés de cada grupo. Si tienen propuestas son bienvenidas porque queremos que los cursos sean interesantes.

clases

En esta sección pueden encontrar una pequeña descripción de cada clase. Además, pueden bajar las presentaciones y el código.

Introducción a R-Leo [código] Introducción a R-Osam
En esta clase vamos a conocer el lenguaje de programación R. Veremos un poco de su historia y aprenderemos lo básico para usar R. Algo muy importante que vamos a revisar es como obtener ayuda. Además, vamos a ver las estructuras de control, como leer archivos, movernos en los vectores y definir funciones. Finalmente vamos a ver como instalar y usar paquetes, ya que estos enriquecen enormemente a R.

Datos Univariados y Gráficas-Leo [código]
En esta clase vamos a aprender a manejar datos univariados. Con estos se pueden hacer muchas gráficas siendo estas parte fundamental de R. Es crucial que en esta clase vayan copiando y pegando pesados del código para que hagan las gráficas en su terminal/laptop.

Bi/multivariados y Lattice-Leo [código]
En esta clase vamos a aprender a explorar datos bi y multivariados. Además, vamos a aprender a hacer gráficas más avanzadas con el paquete lattice.

Pruebas de estadística-Leo [código]
En esta clase vamos a ver varias pruebas de estadística que ofrece R. Veremos intervalos de confianza entre otras cosas. Las ANOVAs solo las vamos a mencionar.

Bioconductor-Leo [código]
En esta clase vamos a meternos de lleno en Bioconductor. Vamos a conocer varios paquetes y haremos ejercicios sobre un par.

Clustering-Leo [código]
En esta clase vamos a revisar rápidamente unos métodos de clustering y la función heatmap.

cuestionarios y ejercicios

Aquí encontraran cuestionarios y ejercicios para poner a prueba sus conocimientos y habilidades en R ^^.

Ejercicio 1
Las preguntas y ejercicios en este archivo sirven para reafirmar conocimiento básicos vistos en la clase. Deberán hacerlos una vez terminada la clase de introducción. Además incluí un ejercicio un poco más difícil que involucra leer un archivo ^^. Sé que son bastantes, pero creo que si los hacen podrán manejar bien todo lo básico.

Ejercicio 2
Las preguntas y ejercicios en este archivo van a ser evaluadas. Nos van a dar una idea de que tanto aprendieron a hacer gráficas simples en R con datos univariados. Deberán hacerlos una vez terminada la segunda clase. Puse especial enfasís en que su código sea portable además de que ahora son solo 3 ejercicios.

Ejercicio 3
Las respuestas a estos ejercicios van a ser evaluadas. Explorarán unos cuantos datos con funciones que vimos en clase :).

Ejercicio 4
Las respuestas a estos ejercicios van a ser evaluadas. Van a tener que hacer algunas pruebas no muy complicadas para revisar lo visto en clase.

Ejercicio 5
Van a empezar a trabajar ya con sus datos del proyecto. Las instrucciones vienen al final de la presentación de la clase sobre Bioconductor.

datos

En esta sección puedes encontrar los archivos de datos que vamos a usar en el curso.

fagos.txt

Contiene los tam. de genomas de unos 10 fagos.

10biggestPhages.txt

Es una tabla con información de los 10 fagos más grandes que están completamente secuenciados.

fagos_grandes_codon.txt

Es una tabla con información de los 10 fagos más grandes que están completamente secuenciados. Lo que hice fue contar cada ocurrencia de los codones excepto los de paro en las secuencias de estos fagos por lo que hay 61 columnas. Con este archivo haremos el ejercicio más complicado de la introducción.

swirl.zip

Son datos de unos experimentos en Zebrafish. Son microarreglos de el tipo "Swirl" que tiene una mutación puntual en el gene BMP2 versus el WT.

arabidopsis_CEL.zip

De aquí pueden bajar los diferentes archivos CEL que vamos a usar para probar un par de funciones del paquete affy. Se pueden bajar de GEO en NCBI.

targets.txt

Es para que lo usen con los archivos CEL de arabidopsis.

GSE1110clean.txt

Vamos a usar este archivo para un ejercicio de clustering. Son datos del GEO en NCBI de arabidopsis, aunque ya previamente filtré algunas líneas que no nos sirven para el ejercicio.

El formato de la página y de las presentaciones de la clase están basados en uno creado por y con permiso de James Bullard. Incluso algunas explicaciones y ejemplos están basados en el curso que impartío en Cuernavaca en Enero del 2008. Pueden checar su curso aquí.