Información

Búsqueda rápida programática de 100-1000 lecturas cortas en un servidor público y obtener una lista de genes cercanos

Búsqueda rápida programática de 100-1000 lecturas cortas en un servidor público y obtener una lista de genes cercanos


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Cuáles son las opciones para la búsqueda rápida programática de 100-1000 lecturas cortas en un servidor público y obtener una lista de genes cercanos donde se asignan las lecturas?

Entrada: ~ 100-1000 lecturas cortas

Resultado: lista GFF de genes a los que se asigna o genes cercanos

Genome UCSC restringe el número de búsquedas y AFAICS no permitirá el uso programático.

¿Algunas ideas? Hice esta pregunta en otro foro sin mucha suerte: https://www.biostars.org/p/114124/


Esto se puede hacer sin conexión y no requerirá demasiados recursos computacionales.

Que necesitarás:

  • Un alineador rápido de lectura corta como STAR o incluso pajarita (STAR ​​es más rápido)
  • Secuencia del genoma (tendrá que crear un índice para el genoma de su alineador)
  • Un archivo de anotaciones GTF (obténgalo de GENCODE o cualquier otro repositorio de genoma estándar para su organismo de interés)

Antes de alinear, elimine las lecturas redundantes. Mantenga sus cuentas si es necesario. Alinee las lecturas usando cualquiera de estos alineadores y obtenga las coordenadas de alineación. La salida predeterminada es el formato SAM para STAR y un formato tabular para bowtie (bowtie también proporciona SAM).

  • La columna 3 de SAM muestra el nombre de la secuencia de referencia donde ocurrió la alineación (cromosoma)
  • La columna 4 es el inicio de la secuencia
  • La columna 10 es la secuencia de lectura. Agregue la longitud de esto al valor de la columna 4 para obtener el sitio de parada.

Las columnas están separadas por tabulaciones

Ahora defina una ventana que defina como proximal / cercana (digamos 500nt).

Ahora todo lo que tiene que hacer es encontrar genes que se encuentran $ pm500nt $ en sus sitios de inicio / parada. En su referencia GTF, analice las líneas que tienen la función "gene".

Estoy dando un ejemplo usando awk. Puede utilizar cualquier lenguaje de programación con el que se sienta cómodo. Compruebe también el formato GTF.

Suponiendo que creó un archivo (reads.txt) a partir de su salida SAM en este formato:

Cromosoma  Orientación (+/-)  Comienzo  Parada

Estoy dando un ejemplo de script awk:

ejemplo.awk

#! / bin / gawk BEGIN {FS = OFS = " t"} NR == FNR {a [$ 1 FS $ 2] [$ 3 FS $ 4] # almacena la información de coordenadas de su archivo de lecturas siguiente} $ 3 == " gen "&& ($ 4 FS $ 7) en un {# análisis rápido para el cromosoma de referencia y la orientación i = $ 4 FS $ 7 para (j en a [i]) {split (j, jj, FS) if (jj [1]> = $ 4 && jj [2] <= $ 5) imprimir $ 0 "; contenido" else if ($ 4 <= jj [2] +500 || $ 5> = jj [1] -500) imprimir $ 0 "; superposición parcial / proximal"} }

llámalo así:

awk -f ejemplo.awk reads.txt annotations.gtf

NOTA: En el script anterior no he considerado la proximidad antisentido. Si desea permitir eso, no analice la orientación. Además, la versión <4.0 de gawk no permite matrices multidimensionales. Así que instale gawk> = 4.0

La salida es por defecto un GTF porque está imprimiendo líneas seleccionadas del GTF de referencia.


Ver el vídeo: TALKWALKER: Una ALTERNATIVA GRATUITA a Google Alertas (Mayo 2022).


Comentarios:

  1. Gervasio

    Excelente frase y es debidamente

  2. Emest

    Qué respuesta encantadora

  3. Kizshura

    Estoy de acuerdo, información útil

  4. Faujas

    ¿No entiendo lo que significa?

  5. Mate

    Excelente frase

  6. Tojora

    A ti una elección inquieta

  7. Kagakasa

    Idea magnífica

  8. Ivon

    Gracias inmensa por la explicación, ahora no admitiré ese error.



Escribe un mensaje