Información

¿Por qué es un problema importante ensamblar una iluminación de extremo emparejada sin ningún parámetro de entrada?

¿Por qué es un problema importante ensamblar una iluminación de extremo emparejada sin ningún parámetro de entrada?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En uno de los comentarios en esta pregunta sobre alineación de secuencia múltiple, se dijo

@ 5heikki: por cierto, si desea un buen problema de bioinformática, cree un ensamblador que ensamble cualquier iluminación final emparejada que se ejecute de manera óptima de novo sin ningún parámetro de entrada.

¿Qué es una iluminación final emparejada? ¿Cómo se define de manera óptima en este contexto? ¿Cuáles son los parámetros de entrada habituales?


Los secuenciadores de próxima generación no pueden secuenciar un tramo muy largo de ADN con buena confiabilidad (~ 150 para el modelo reciente: HiSeq2000; incluso menos para modelos más antiguos como GA (40), GA-II (70), GA-IIx (90 )). Para aumentar la confianza en un determinado golpe, fue secuenciado desde ambos extremos. Por ejemplo, si ha seleccionado un fragmento de ADN de 500 pb, luego de ligar los adaptadores en ambos extremos, se secuencia desde ambas direcciones hasta 150 pb. Esto dejaría una región de "inserción" sin secuencia de 200 pb. (En la imagen de ejemplo a continuación, se han secuenciado hasta 40 pb [caso de GA anterior])



Durante el ensamblaje, unes los fragmentos de ADN para encontrar el ADN más grande de donde surgen los fragmentos. En el caso de RNAseq, estos surgen de una transcripción, y su ensamblaje debe proporcionarle la transcripción completa (mRNA o ncRNA, etc.). Hay dos tipos básicos de ensamblaje: ensamblaje guiado por referencia y ensamblaje de novo. En el primero se usa una secuencia como el genoma como referencia para ensamblar las transcripciones. Si dicha referencia no está disponible, debe optar por un montaje de novo.

Los algoritmos de ensamblaje usan varios parámetros y dado que estos son algoritmos de computadora y no algún tipo de magia, su salida depende en cierta medida de los diferentes parámetros.

En el caso de datos finales emparejados, hay algunos parámetros que son importantes. Lo más importante es el tamaño del inserto. En el caso de un fragmento de 500 pb, terminará con una región no secuenciada de 200 pb. Esto no es un gran problema con el ensamblaje guiado por referencia porque puede averiguar la secuencia del inserto en función de dónde se alinea la región secuenciada con la referencia. La longitud promedio de la plaquita es importante para eliminar lecturas discordantes (alineando demasiado en la referencia). En caso de ensamblaje de novo, la inserción permanecerá sin secuencia incluso si sabe que la transcripción final se parece a:

frag1-frag6-frag3-frag9-frag4

Entonces, para obtener la secuencia del ensamblaje, debe secuenciar las regiones de inserción. Esto no es un problema si al menos conoce el orden de los fragmentos en el ensamblaje. Sin embargo, debe conocer el tamaño del inserto para obtener el tamaño correcto del ensamblaje y, como dijo Skyminge, en los andamios. Obtener esta longitud de inserción no es tan difícil (no es necesario que la proporcione como parámetro. La mayoría de los algoritmos pueden calcularla automáticamente).

Otro parámetro en el ensamblaje de novo es la longitud de k-mer (las lecturas de secuencia se dividen en k-mers para un mejor ensamblaje). No puedo explicar el algoritmo de ensamblaje aquí en detalle. Puede consultar los manuales / documentos de algoritmos de ensamblaje comunes como Velvet, SOAPdenovo, Euler [de novo]; gemelos [basados ​​en referencias]

He mencionado la secuenciación del transcriptoma aquí, pero los principios también son los mismos para la secuenciación del genoma.

De vuelta a tu pregunta principal: ¿Por qué es un problema importante ensamblar una iluminación de extremo emparejada sin ningún parámetro de entrada?

Porque es menos esfuerzo; pero modificarlo puede resultar complicado. No lo consideraré un problema importante. Hay otras optimizaciones algorítmicas importantes que se requieren con el ensamblaje de novo.


En la secuenciación de Illumina, el ADN se corta (generalmente al azar) en fragmentos. Para la secuenciación de extremos emparejados, los fragmentos de un rango de tamaño específico se seleccionan y luego se secuencian de ambos lados. Esto da como resultado dos lecturas para cada fragmento. Como la longitud de lectura es fija, también la "parte media" restante del fragmento está en un rango de tamaño específico. En algunos casos no hay una parte intermedia, porque los fragmentos se han elegido tan pequeños que las lecturas se superponen.

La información sobre el tamaño del fragmento y / o la "parte media", así como la longitud de lectura, son algunos de los parámetros más importantes que necesita para el ensamblaje de novo. Puede salirse con la suya sin tomar el tamaño de lectura como parámetro, si lo necesita, aún puede ejecutar todas las lecturas y verificar. Pero el tamaño del fragmento o del inserto es importante para colocar las lecturas, especialmente en los andamios.

Esta entrada de blog también tiene buena información sobre la próxima discusión a menudo sobre qué se entiende por tamaño de inserción (tamaño de fragmento, el tamaño de la parte central) y qué puede suceder con lecturas superpuestas y lectura completa.

Hay mucho más que decir al respecto. Illumina también ofrece algunos buenos videos disponibles en youtube.


Procesamiento de datos de RNA-Seq y análisis de expresión génica

Este documento describe los pasos esenciales en el proceso de análisis de datos de expresión génica mediante secuenciación de ARN (ARNm, específicamente) y recomienda herramientas y técnicas de uso común para este propósito. En este documento se asume que el diseño experimental es simple y que se está evaluando la expresión diferencial entre 2 condiciones experimentales, es decir, una comparación simple 1: 1, con alguna información sobre el análisis de datos de diseños experimentales complejos. El SOP se centra en las lecturas específicas de una hebra de un solo extremo; sin embargo, también se discuten brevemente las medidas especiales que se deben tomar para el análisis de los datos de los extremos emparejados. La cobertura recomendada para RNA-Seq en muestras humanas es de 30 a 50 millones de lecturas (un solo extremo), con un mínimo de tres réplicas por condición, preferiblemente más si se puede presupuestar en consecuencia. Por lo general, también se da preferencia a un mayor número de réplicas con un menor rendimiento de secuencia por muestra (15-20 millones de lecturas) si existe una compensación entre el número de lecturas por muestra y el número total de réplicas.

Glosario de términos asociados y jerga

Pasos de procedimiento

Este documento de protocolo 2 fue un muy buen recurso para comprender los pasos de procedimiento involucrados en cualquier análisis de RNA-Seq. Los conjuntos de datos que utilizan en ese documento están disponibles gratuitamente, pero la fuente de ARN fue la mosca de la fruta. Drosophila melanogastery no tejido humano. Además, utilizan exclusivamente la suite “tuxedo” desarrollada en su grupo.

Ahora hay varios artículos disponibles que describen los pasos con mayor detalle para preparar y analizar datos de RNA-Seq, incluido el uso de herramientas estadísticas más recientes:

Además, también se han publicado métodos sin alineación más nuevos y se utilizan cada vez más en el análisis (incluimos un segundo protocolo que detalla el uso de estos):

Las secciones siguientes detallan esos protocolos y sugieren herramientas.

Figura 1. Pasos en el flujo de trabajo de RNA-Seq


Fondo

Como alternativa rentable y de alto rendimiento a la tecnología de secuenciación clásica de Sanger, las tecnologías de secuenciación de próxima generación emergentes han revolucionado la investigación biológica. En comparación con la tecnología de secuenciación de Sanger, las plataformas NGS (por ejemplo, 454, Illumina y ABI-SOLiD) [1] tienen sus inconvenientes, que incluyen una longitud de lectura de secuencia más corta, una tasa de error de llamada base más alta, una cobertura no uniforme y artefactos específicos de la plataforma [2 –4] que puede afectar gravemente a los esfuerzos de análisis de datos posteriores.

Una de las áreas más importantes del análisis de datos NGS es de novo ensamblaje del genoma o transcriptoma. De novo El ensamblaje es esencial para estudiar organismos no modelo en los que no se dispone de un genoma o transcriptoma de referencia. Un enfoque común para de novo ensamblaje de secuencias NGS utiliza De Bruijn Graph (DBG) [5] estructura de datos, que gestiona el gran volumen y la corta longitud de lectura de datos NGS mejor que los ensambladores clásicos de Overlap-Layout-Consensus como TIGR y Phrap [6, 7]. En el enfoque basado en DBG, las lecturas se descomponen en K-mers que a su vez se convierten en los nodos de un DBG. Los errores de secuenciación complican el DBG porque una sola base mal llamada puede resultar en una nueva secuencia de K-mer que posteriormente introducirá una nueva ruta en el DBG. Estos K-mers incorrectos aumentan la complejidad del DBG, prolongan el tiempo de ejecución del ensamblador, aumentan la huella de memoria y, en última instancia, conducen a un ensamblaje de mala calidad [8]. El preprocesamiento de lecturas NGS para eliminar bases mal llamadas sería beneficioso para el rendimiento del ensamblador DBG y el ensamblaje resultante.

Otra área importante del análisis de datos de NGS es el ensamblaje basado en referencias, es decir, el mapeo o alineación de lecturas con un genoma o transcriptoma de referencia. Este paso es crucial para muchas aplicaciones de NGS, incluyendo RNA-Seq [9], ChIP-Seq [10] y SNP y detección de variantes estructurales genómicas [11]. El mapeo correcto de lecturas a una referencia depende en gran medida de la calidad de lectura [12, 13]. Por ejemplo, algunas herramientas de mapeo utilizan los puntajes de calidad base de una lectura para determinar las ubicaciones de las discrepancias. Las lecturas quiméricas u otros artefactos de secuenciación pueden introducir espacios en la alineación. Las bases erróneas agregan complejidad adicional a la identificación correcta de las posiciones de desajuste reales durante el proceso de mapeo. Por lo tanto, limpiar las lecturas de secuenciación sin procesar puede mejorar la precisión y el rendimiento de las herramientas de alineación.

Nosotros desarrollamos ngsShoRT (Trimmer de lectura corta de secuenciación de próxima generación), un paquete de software de código abierto flexible y completo que implementa muchos algoritmos de preprocesamiento de uso común recopilados de la literatura de secuenciación y ensamblaje. Además, realizamos evaluaciones sistemáticas de los efectos del uso de secuencias de lectura corta preprocesadas generadas por diferentes algoritmos en el resultado de novo y ensamblaje basado en referencias de tres genomas: Caenorhabditis elegans, Saccharomyces cerevisiae S288c, y Escherichia coli O157 H7. También comparamos el desempeño de ngsShoRT con otras herramientas de recorte existentes: CutAdapt[14], Kit de herramientas de control de calidad de NGS[15] y Trimmomatic[16].


Resultados

Aplicamos los nueve algoritmos de recorte en cuatro conjuntos de datos diferentes (ver Materiales y métodos). La calidad de estos conjuntos de datos se evaluó con FastQC (consulte el archivo S1 y la figura S1 para las gráficas de distribución de Q) y se midió con diferentes métricas, como la puntuación de error promedio de PHRED, los sesgos de contenido de GC y las variaciones de calidad específicas de la posición. Los conjuntos de datos varían notablemente, poseen parámetros de calidad casi perfectos para el conjunto de datos Yeast DNA-Seq y de alguna manera promedio a alto para las lecturas sin procesar de Lovell (Figura S1). Los conjuntos de datos de RNA-Seq se caracterizan por la Arabidopsis thaliana lecturas representativas de lecturas de alta calidad, mientras que en Homo sapiens-Datos derivados, la probabilidad de error es alta y muy variable a lo largo de la longitud de lectura.

Efectos del recorte de lectura en el análisis de expresión genética

Probamos el rendimiento de nueve algoritmos de recorte diferentes en dos conjuntos de datos de RNA-Seq que se originan en humanos y Arabidopsis (ver materiales y métodos). Evaluamos el número de lecturas y nucleótidos que se alinean sobre los respectivos genomas de referencia, lo que permite aperturas de brechas de las lecturas sobre regiones empalmadas. Es evidente cómo el proceso de recorte en todos los casos reduce el número de lecturas, al tiempo que aumenta el porcentaje del conjunto de datos superviviente capaz de alinearse correctamente sobre el genoma de referencia. En el caso de la baja calidad Homo sapiens conjunto de datos (Figura 1), mientras que el 72,2% de las lecturas del conjunto de datos sin recortar están alineadas, las recortadas alcanzan valores superiores al 90%, con picos en ConDeTri en 97,0% (HQ = 15, LQ = 10) y SolexaQA (Q = 5) en 96,7% (Tabla 2). Sin embargo, SolexaQA logra la más alta calidad mientras mantiene el mayor número de lecturas y, por lo tanto, parece ser la herramienta óptima para maximizar la compensación entre la pérdida de lecturas y el aumento de la calidad, al menos en conjuntos de datos RNASeq de baja calidad como el que se analiza aquí ( Figura 2). Para este conjunto de datos, pudimos observar una compensación pseudo-óptima entre la pérdida de lectura y la calidad de las lecturas restantes, expresada como el número de lecturas alineadas sobre el número total de lecturas (Figura 1), que está entre Q = 20 y Q = 30 para SolexaQA-BWA, Trimmomatic, Sickle, Cutadapt y ERNE-FILTER. Otras recortadoras, como FASTX, que pueden operar solo desde el extremo 3, no logran el mismo rendimiento que las otras herramientas (Figura 2). Si bien se conserva una proporción similar de lecturas mapeadas correctamente (evaluadas aproximadamente por el porcentaje de mapeo de lecturas dentro de los modelos de genes UCSC), la pérdida de información es consistente en comparación con conjuntos de datos no recortados (Figura S2).

Para ConDeTri, son necesarios dos parámetros básicos, y se informan las combinaciones de ambos (lo que explica la apariencia no monótona de los gráficos de barras). Las barras rojas indican el porcentaje de lecturas que se alinean en el conjunto de datos recortado. Las barras azules indican el número de lecturas que sobreviven al recorte.

RNASeqGenotipadoEnsamblaje del genoma
Conjunto de datos de ArabidopsisConjunto de datos humanosConjunto de datos de levaduraConjunto de datos de melocotónConjunto de datos de levaduraConjunto de datos de melocotón
Porcentaje máximo de lecturas asignadas (umbral)Porcentaje máximo de lecturas asignadas (umbral)APOMAC en el umbral predeterminadoAPOMAC en el umbral predeterminadoN50 (pb)PrecisiónRecordarN50 (pb)PrecisiónRecordar
Sin recortar82.774%72.189%0.2367%0.2909%9,09599.196%92.734%18,09395.116%74.272%
ConDeTri98,980% (HQ = 40, LQ = 35)96,973% (HQ = 15, LQ = 10)0.0485%0.0851%4,83099.600%91.834%14,52596.389%75.090%
Cutadapt99,422% (Q = 40)91,751% (Q = 26)0.0647%0.1589%6,25699.692%92.874%17,65395.349%74.466%
ERNE-FILTRO98,687% (Q = 38)95,475% (Q = 30)0.0638%0.1564%6,21499.691%92.863%17,66595.374%74.482%
FASTX98,733% (Q = 40)87,733% (Q = 40)0.0655%0.1614%6,35799.692%92.892%17,69295.399%74.510%
PRINSEQ98,752% (Q = 40)88,616% (Q = 40)0.0652%0.1599%6,35799.692%92.890%17,69095.345%74.465%
Hoz99,422% (Q = 40)95,971% (Q = 20)0.0547%0.1308%5,38299.446%92.194%17,07495.495%74.504%
SolexaQA99,002% (Q = 40)96,743% (Q = 5)0.0644%0.1581%3,20999.642%89.770%13,57196.223%74.490%
SolexaQA-BWA98,705% (Q = 38)91,947% (Q = 26)0.0409%0.0645%6,25699.692%92.875%17,66295.328%74.449%
Trimmomatic99,422% (Q = 40)95,875% (Q = 22)0.0511%0.1119%4,78499.579%91.851%16,14195.766%74.629%

Tabla 2. Resumen de comparaciones entre las herramientas de recorte investigadas en este estudio.

Cada símbolo corresponde a un umbral de calidad. Se informan los parámetros de Q pico para cada herramienta.

Es interesante notar que, en general, cada herramienta muestra diferentes umbrales de Q óptimos (Figura 2 y Tabla 2) para maximizar la calidad de las lecturas recortadas (expresadas en este caso por porcentaje de lecturas de mapeo sobre la referencia). Además, cada herramienta muestra diferentes tendencias entre Q y la capacidad de asignación (porcentaje de lecturas posteriores al recorte asignadas en el genoma de referencia): para algunas (como SolexaQA y ConDeTri), los umbrales sueltos son suficientes para lograr la salida más sólida. Para otros (como FASTX y PRINSEQ), el umbral más alto posible parece la solución óptima en términos de calidad (con una pérdida simultánea de lecturas). Finalmente, algunas herramientas (como Cutadapt, Sickle, SolexaQA-BWA y Trimmomatic) poseen un umbral Q intermedio ideal que maximiza la cantidad relativa de lecturas supervivientes que se pueden alinear en el genoma de referencia. En el caso del conjunto de datos de mayor calidad que se origina en Arabidopsis thaliana, todas las herramientas tienen un rendimiento comparable y no tienen la mejor Q claramente identificable para el equilibrio entre la capacidad de asignación y la pérdida de lectura. A partir de una línea de base sin recortar de mapeo del 82,8%, todas las herramientas alcanzan un mapeo de más del 98,5% con umbrales estrictos (Q & gt30, consulte la Tabla 2 y la Tabla S1). Sin embargo, en ambos casos, el recorte afecta y elimina las partes más "no mapeables" del conjunto de datos, que ya se encuentran en umbrales más bajos. Llevar un subconjunto recortado pero confiable de las lecturas de RNA-Seq originales puede reducir la necesidad de espacio en disco y el tiempo necesario para el proceso de alineación general, ya que las secuencias de alto error ya se habrían eliminado.

Efectos del recorte de lectura en la identificación de SNP

Para evaluar el impacto del recorte en la identificación de SNP, utilizamos lecturas procedentes de muestras de genoma dihaploide, específicamente del Prunus persica Variedad Lovell y de la Saccharomyces cerevisiae Cepa YDJ25. En tales antecedentes genéticos, es posible evaluar cualquier llamada de nucleótidos no homocigotos como una estimación directa de la llamada de SNP falso positivo. Para hacerlo, evaluamos el porcentaje promedio de alelos menores como un índice denominado APOMAC. Al mismo tiempo, medimos el porcentaje medio de llamadas al alelo no de referencia APONAC), aunque este último es una subestimación de APOMAC, ya que supone que el individuo secuenciado tiene un genoma idéntico a la secuencia de referencia. La presencia total de nucleótidos no homocigotos, relacionada con la llamada de SNP falso positivo y evaluada por el índice APOMAC, se reduce -como se esperaba- mediante el recorte (Figura 3). Todos los trimmers reducen drásticamente el porcentaje de nucleótidos de alelos alternativos alineados sobre los genomas de referencia, tanto en Prunus persica (Figura 3) y en levadura (Tabla 2 y Tabla S1), llevando este indicador de llamada de falso positivo del 30% al 10% o menos del total de nucleótidos alineados. Esta pérdida de ruido bastante espectacular se puede lograr con cualquier recortador con un umbral Q igual o superior a 20 (Tabla S1). Las herramientas de mejor rendimiento, en términos de APOMAC y APONAC, son ConDeTri y SolexaQA, que reducen rápidamente el número de llamadas de alelos menores. Si bien aumenta la calidad de las llamadas de SNP, la pérdida de cobertura debido al recorte es menor: FASTX, SolexaQA-BWA, PRINSEQ, Cutadapt y ERNE-FILTER en los valores Q predeterminados procesan todas las lecturas sin una pérdida notable del genoma de referencia cubierto. Esto ha sido probado e informado por diferentes umbrales de cobertura mínima (Figura 4).

Se prueban varias combinaciones de umbral / método de recorte de lectura. Se informa el porcentaje medio de llamada de alelo menor (APOMAC) o de llamada de alelo sin referencia (APONAC), junto con el número total de SNP de alta confianza.

El análisis se realizó en lecturas sin recortar y después de recortar con 9 herramientas a Q = 20 (para ConDeTri, se utilizaron los parámetros predeterminados HQ = 25 y LQ = 10).

Efectos del recorte de lectura en el ensamblaje del genoma de novo

El recorte de lectura afecta solo parcialmente los resultados del ensamblaje del genoma y no hay una gran diferencia entre los resultados de los diferentes conjuntos de datos (consulte la Figura 5 y la Tabla 2). Se observan efectos negativos para valores de alta calidad (por ejemplo, Q & gt30) en la mayoría de los conjuntos de datos. Los conjuntos de datos recortados de ConDeTri, Trimmomatic, Sickle y especialmente SolexaQA producen ensamblajes un poco más fragmentados y esto probablemente se deba a un recorte más estricto que se refleja también en menores necesidades computacionales (ver Figura 6). El ensamblador utilizó, ABySS, modela y se ocupa de los errores de secuenciación, por lo tanto, el ensamblaje del conjunto de datos sin recortar resulta mejor bajo ciertas métricas (longitud promedio del andamio, el andamio más largo, N50 en pb) pero a costa de una precisión ligeramente menor y un cálculo computacional mucho más alto. demanda. Por el contrario, el recorte estricto tiende a eliminar en gran medida los datos y disminuir la calidad general del ensamblaje.

Se prueban varias combinaciones de umbral / método de recorte de lectura. Las barras amarillas informan el N50 (en relación con el conjunto de datos sin recortar N50). Las barras azules informan la precisión del ensamblaje (% de los nucleótidos ensamblados que podrían alinearse con la referencia Prunus persica genoma). Las barras rojas informan de la retirada del conjunto (% de la referencia Prunus persica genoma cubierto por el ensamblaje).

Efectos generales del recorte de lectura

Un análisis general de los tres análisis de biología computacional investigados aquí nos permite sacar tres conclusiones.En primer lugar, el recorte es beneficioso en los procedimientos de ensamblaje del genoma, identificación de SNP y RNA-Seq, y los mejores efectos son evidentes para los umbrales de calidad intermedios (Q entre 20 y 30). En segundo lugar, si bien todas las herramientas se comportan bastante bien (en comparación con escenarios no recortados), algunos conjuntos de datos con problemas específicos o baja calidad general (Figura 2) se benefician más de los algoritmos más recientes que operan en los extremos 5 'y 3' de la lectura, como como ERNE-FILTER, o las que permiten islas de baja calidad rodeadas de tramos de alta calidad, como ConDeTri. En tercer lugar, la elección de un umbral óptimo es siempre una compensación entre la cantidad de información retenida (es decir, el número de lecturas / nucleótidos supervivientes) y su fiabilidad, es decir, en RNA-Seq la fracción alineable, en la identificación de SNP la cantidad de nucleótidos alineados positivos verdaderos y en el ensamblaje del genoma el porcentaje de los andamios correctamente ensamblados y cartografiables en el genoma de referencia. En general, el recorte también ofrece una ventaja en términos de recursos computacionales utilizados y tiempo de ejecución, evaluado para el ensamblaje del genoma en el presente estudio (Figura 6) pero evidente también para los otros análisis (datos no mostrados). El rendimiento del recorte parece depender de la distribución Q del conjunto de datos de entrada. Por ejemplo, observamos una caída repentina en los llamados SNP por encima de los umbrales de recorte Q de alrededor de 35 (Figura 3) en los hechos, Q = 35 es aproximadamente el punto de inflexión en la distribución Q de la Prunus persica conjunto de datos (Figura S1). Por otro lado, por la mayor calidad Saccharomyces cerevisiae conjunto de datos, la caída en los llamados SNP está realmente presente, pero es más gradual, y se observa en valores de Q por encima de 36, mientras que la distribución de Q para estos conjuntos de datos muestra un punto de inflexión en Q = 37 (Figura S1).


Discusión

Las lecturas de secuencia precisas y su ensamblaje confiable son cruciales para todas las aplicaciones posteriores de los proyectos NGS [15]. Sin un genoma de referencia, estimar el número de genes secuenciados, su% de cobertura y si se han ensamblado correctamente es un desafío [3, 23]. Dado que el uso de NGS continúa aumentando para organismos no modelo, la necesidad de algoritmos de ensamblaje que funcionen bien en de novo el ensamblaje aumenta concomitantemente, especialmente para el ensamblaje de los datos de secuencia de lectura corta para la plataforma Solexa / Illumina [3].

El rendimiento de los tres ensambladores de lectura corta (VELVET, NGEN y OASES) investigados difirió mucho. Si bien VELVET resultó en el mayor número de contigs totales, solo el nueve por ciento de estos fueron mayores a 200 pb. En contraste, más del 50% de los contigs ensamblados de NGEN y OASES eran mayores de 200 pb. Como la precisión del mapeo aumenta con el aumento del tamaño del contig [14], razonamos que los últimos conjuntos de contig deberían parecerse a una calidad general más alta. Esta suposición se vio reforzada por los resultados de las búsquedas BLAST. El metaensamblaje de los cuatro conjuntos de contig resultó en contigs más largos, que también resultan en un mayor número de hits BLAST en la mayoría de las búsquedas.

Evaluación indirecta de la calidad de contig

Aunque el ensamblado VELVET tuvo el mayor número de contigs y el mayor número de hits contra varias bases de datos, estos se deben al mal ensamblado de contigs. Es importante destacar que nuestra capacidad para obtener esta información depende de la base de datos de referencia utilizada para las búsquedas BLAST y, por lo tanto, requiere una atención cuidadosa. En las comparaciones de BLAST con la base de datos de UniProt, el número de aciertos de UniGen para los contigs VELVET es sustancialmente menor en comparación con los otros ensamblajes con un valor de corte de & lt mi -10 y también contigs & gt 200bp (Figura 2). La discrepancia entre los aciertos totales y UniGen se deriva muy probablemente del ensamblaje incompleto de contigs por parte del ensamblador VELVET, lo que da como resultado que muchos contigs independientes golpeen genes similares, mientras que estos se unen entre sí por los otros programas y, por lo tanto, constituyen aciertos únicos para genes dados para el Montajes NGEN y OASES. Además, los ensamblajes de contig largos de los otros programas generan más hits BLAST de alta calidad que los encontrados para VELVET (Figura 2). Sin embargo, los resultados de BLAST contra RefSeq indican un número mucho mayor de aciertos de UniGen por el ensamblaje VELVET que los otros dos métodos (Figura 3). Este resultado surge debido a la naturaleza altamente redundante de la base de datos RefSeq, ya que contiene conjuntos únicos de genes para numerosas especies. Por lo tanto, la base de datos RefSeq debe usarse con precaución ya que el número de tipos únicos de genes no debe diferir significativamente de los identificados usando la base de datos UniProt.

En la comparación BLAST con una base de datos que consta de una única especie estrechamente relacionada, B. glabrata, el ensamblaje de NGEN resultó en el mayor número de UniGens, y VELVET mostró un rendimiento especialmente pobre cuando se consideran contigs & gt de 200 pb ensamblados de longitud.

La combinación de todos estos ensamblajes en el metaensamblaje resultó en contigs que superaron a los otros ensamblajes en las búsquedas BLAST X contra UniProt y B. glabrata bases de datos en todas menos una categoría.

Un medio adicional de evaluar el rendimiento del ensamblaje de contig es comparar los resultados reales identificados por los diferentes ensamblajes. Aciertos similares indican una secuencia de contig y una precisión similares. Se hicieron comparaciones entre ensamblajes para la búsqueda BLAST X versus la base de datos UniProt (valor de corte & lt mi -10, contig length & gt 200bp), que mostró que la proporción de contigs que conducen a impactos genéticos idénticos fue más alta entre los conjuntos de contig NGEN y OASES. Esto nuevamente fortaleció nuestra interpretación de que la calidad de los contigs NGEN y OASES excedía a los de VELVET.

Evaluación directa de la calidad de contig

Los diferentes conjuntos de contig se evaluaron directamente comparando su desempeño entre los 13 genes mitocondriales de R. balthica[24]. En general, los contigs VELVET tuvieron el mayor número de aciertos contra estos genes debido a que estos contigs son mucho más cortos. Los otros ensamblajes tenían contigs más largos y menos, que tenían una longitud de alineación promedio más alta, y el metaensamblaje mostró el mejor rendimiento (es decir, el menor número de contigs con la longitud de contig alineada promedio más alta (Tabla 2). Los contigs más largos tenían una coincidencia de identidad más baja para los genes de mtDNA, que probablemente surgen debido a diferencias genéticas en las muestras utilizadas para esto y el genoma de mtDNA publicado para R. balthica y errores potenciales de secuenciación (que tienen una mayor probabilidad de ocurrir en contigs largos en comparación con los cortos). Identificamos algunos contigs cuya región media no se parecía a la secuencia de referencia y los identificamos como errores de ensamblaje. Además, la mayoría de los contig del ensamblaje de NGEN y OASES tenían una extensión de 20-30 pb adjunta al comienzo del contig que no coincide con el genoma del mtDNA. Para el ensamblaje NGEN, esta extensión se identificó como el adaptador de secuenciación de Illumina que no se eliminó durante el filtrado debido a una baja coincidencia de identidad. Para los contigs de OASES, actualmente carecemos de una explicación del origen del apego. Como las extensiones parecen ser un error casi sistemático, cortar los primeros 30 pb de cada secuencia contig es un medio para resolver este problema (aunque se puede perder alguna secuencia de buena calidad).

A pesar de estas diferencias, la cobertura de los genes del mtDNA fue bastante similar entre los conjuntos de contig, con un promedio de alrededor del 50 - 55% (Tabla 2). La combinación de todos los contigs de los ensamblajes cubrió el 79% de los genes mt. Por lo tanto, aunque los contig de los tres ensambladores se superponen en gran medida, cada conjunto de contig cubre algunas partes que los demás pasan por alto, con al menos el 24% de la información de pb disponible no es utilizada por ninguno de los tres ensambladores. Identificamos 27 grupos con 2 a 25 superpuestos y, en gran medida, contigs de TERCIOPELO idénticos. Por el contrario, entre los contigs NGEN no se encontraron más de dos contigs con más de 30 pb de superposición. Como las dos razones principales del ensamblaje insuficiente, la inspección visual de las alineaciones del genoma mt reveló un solapamiento de lectura insuficiente y ensamblajes perdidos, a pesar de que estaba presente un solapamiento idéntico y suficiente. Esto podría remontarse al uso de ARN de varios individuos agrupados, lo que conduce a un mayor número de variantes de SNP y, por lo tanto, podría dificultar el ensamblaje [11]. En nuestro estudio identificamos 6,3 SNP por mil pares de bases (n = 52), similar a los 6,7 SNP identificados en Vera et al. [11] estudio. El número estimado de errores de secuenciación es casi idéntico (n = 51) y da como resultado una tasa de error de secuenciación del 0,6%. Obviamente, la variación de SNP y los errores de secuenciación afectan al ensamblaje VELVET, pero no parecen influir en los otros dos ensambladores. El meta-ensamblaje combinó el corto VELVET SNP que contiene contigs en uno, eliminando así en gran medida la redundancia (archivo adicional 4). Sin embargo, aunque el metaensamblaje disminuyó el número de contigs de 560 a 82, esto solo resultó en una mejora modesta en la cobertura neta en comparación con VELVET (58% frente a 55% respectivamente).

Otras dos observaciones importantes merecen discusión. Primero, los contigs que dan un golpe contra los genes mt se pueden dividir en dos grupos. Un grupo de contig muestra una clara relación entre la longitud de alineación del contig y la longitud total del contig. El otro grupo consiste en contigs que pasaron el valor de corte & lt mi -5, pero solo tienen una longitud de alineación muy corta con respecto a la secuencia de referencia y, por lo tanto, se deben efectivamente a coincidencias aleatorias y no homólogas (Figura 7). En segundo lugar, mientras que una relación clara entre el valor de corte y la longitud de alineación es visible para los contigs NGEN y OASES, tanto los contigs VELVET como los de metaensamblaje tienen valores atípicos claros que pueden ser errores de ensamblaje. Estos son contigs cerca del valor de corte con una longitud de alineación baja y con valores de corte de rigurosidad muy altos (por ejemplo, & lt mi -65 ).

Comparación con otros estudios

El número de coincidencias de UniGen con la base de datos UnipProt encontradas en otros estudios de transcriptomas de organismos no modelo basados ​​en la plataforma 454 / Roche es aproximadamente similar a las 5380 coincidencias de metaensamblaje detectadas en este estudio, con un valor de corte de & lt mi -5 (p. Ej., [11]Melitaea cinxia: 6122 en & lt mi -5). Sin embargo, dado nuestro mayor esfuerzo de secuenciación en comparación con estudios anteriores (datos de calidad total producidos: 976 Mbp frente a 66 Mbp, es decir, 14 veces mayor en comparación con el M. cinxia estudio [11]), esperábamos identificar más genes. Las observaciones anteriores de resultados de explosiones bajas en especies de moluscos se remontan a tres factores principales [25, 26]. En primer lugar, la baja cantidad de aciertos puede explicarse por la falta de conjuntos de datos EST de especies de moluscos en Genbank [25, 26], y la escasez general de datos genéticos de moluscos en comparación con insectos y peces. En segundo lugar, una gran proporción de genes en especies de moluscos no comparten relaciones ortólogas, sino que representan nuevas familias de genes [26]. En tercer lugar, el alto nivel de divergencia de aminoácidos con otros linajes de invertebrados mejor estudiados y la distancia evolutiva con otros organismos reduce la probabilidad y la calidad de los golpes BLAST [26, 27]. Estos puntos resaltan la necesidad de más datos genómicos de moluscos para aumentar nuestro conocimiento y facilitar los estudios genómicos en este filo.


Un enfoque optimizado para el ensamblaje local de novo de lecturas RAD de extremo emparejado superpuestas de varios individuos

La secuenciación de ADN asociado a sitios de restricción (RAD) está revolucionando los estudios en genómica ecológica, evolutiva y de conservación. Sin embargo, el ensamblaje de lecturas RAD de extremos emparejados con extremos cortados al azar sigue siendo un desafío, especialmente para especies que no son modelo con alta variación genética. Aquí, presentamos un enfoque optimizado eficiente con un software de canalización, RADassembler, que hace un uso completo de las lecturas RAD de extremos emparejados con extremos cortados aleatoriamente de varios individuos para ensamblar contigs RAD. RADassembler integra los algoritmos para elegir el número óptimo de desajustes dentro y entre individuos en la etapa de agrupamiento, y luego utiliza un enfoque de ensamblaje de dos pasos en la etapa de ensamblaje. RADassembler también utiliza estrategias de reducción y paralelización de datos para promover la eficiencia. En comparación con otras herramientas, tanto los resultados de ensamblaje basados ​​en la simulación como los conjuntos de datos RAD reales demostraron que RADassembler siempre podía ensamblar el número apropiado de contigs con altas calidades, y más pares de lectura se asignaron correctamente a los contigs ensamblados. Este enfoque proporciona una herramienta óptima para lidiar con la complejidad en el ensamblaje de lecturas RAD de extremos emparejados con extremos cortados al azar para especies no modelo en estudios ecológicos, evolutivos y de conservación. RADassembler está disponible en https://github.com/lyl8086/RADscripts.

1. Introducción

Los desarrollos recientes de las técnicas de secuenciación de alto rendimiento están revolucionando los estudios de genética ecológica, evolutiva y de conservación. La secuenciación de ADN asociada al sitio de restricción (RAD-seq) [1,2], que aprovecha el rendimiento masivo de la secuenciación de próxima generación, permite el descubrimiento y el genotipado de miles de marcadores genéticos en especies modelo y no modelo a bajo costo [3 , 4]. Las técnicas de secuenciación de extremos emparejados (PE) de Illumina hacen que el RAD original (RPE) [5,6] sea más atractivo para los estudios de novo. Las primeras lecturas comienzan en el sitio de corte de la enzima de restricción, mientras que las segundas lecturas se escalonan en una región genómica local de por lo general varios cientos de pares de bases. Además, las lecturas de RPE superpuestas de cada locus RAD podrían ensamblarse individualmente en un contig con el sitio de corte de la enzima en un extremo. Los contigs ensamblados pueden proporcionar más información de secuencias para anotaciones de voladuras y la eliminación de parálogos [4, 6, 7]. Además, las lecturas de RPE también se pueden utilizar para eliminar duplicados de la reacción en cadena de la polimerasa (PCR), lo que mejorará la precisión del genotipado en sentido descendente, y las lecturas superpuestas pueden mejorar aún más la precisión del genotipado hacia los extremos de las lecturas [4].

Para aumentar la cobertura de secuencia para el ensamblaje de contigs RAD, es una práctica estándar agrupar las lecturas de varios individuos, lo que podría introducir complejidad en el ensamblaje, especialmente para especies no modelo con poco conocimiento de los antecedentes genómicos [8,9]. El software de ensamblaje se ve desafiado por repeticiones, errores de secuenciación, polimorfismos en el objetivo y la complejidad computacional de grandes volúmenes de datos [10]. Los polimorfismos entre diferentes individuos también complican el ensamblaje, y esto podría ser más desafiante, particularmente para especies con alta variación genética. El ensamblaje de las lecturas de RPE es más difícil en comparación con otros enfoques RAD que producen loci RAD de longitud fija (flRAD), como ddRAD [11]. PE ddRAD es mucho más fácil de ensamblar, porque ambas lecturas emparejadas comienzan en los sitios de corte de la enzima de restricción con una longitud de lectura fija de cobertura uniforme de profundidad, y las lecturas podrían apilarse fácilmente. Sin embargo, el RPE es más difícil de ensamblar, ya que las segundas lecturas están escalonadas debido a la sonicación y la selección del tamaño, por lo que su cobertura no es uniforme. Además, existe una gran diferencia de profundidad entre las primeras lecturas y las segundas, lo que hace que el ensamblaje de las lecturas de RPE sea más desafiante.

Estudios anteriores han ensamblado lecturas de RPE en contigs utilizando diferentes herramientas de ensamblaje [5,8,12], como el software Velvet [13] basado en de Bruijn Graph (DBG) y el software CAP3 basado en Overlap-Layout-Consensus (OLC) [14 ] y LOCAS [15]. Davey et al. [9] demostró que VelvetOptimiser era la mejor herramienta de ensamblaje para datos RAD al comparar nueve herramientas de ensamblaje. Sin embargo, Hohenlohe et al. [8] encontró que CAP3 funcionó mucho mejor que Velvet. Los resultados de Hohenlohe et al. mostró que la mayoría de las lecturas de un locus podrían ensamblarse en un contig utilizando CAP3, mientras que Velvet no pudo conectar las lecturas de PE superpuestas en muchos loci. Las posibles causas de los resultados contradictorios entre los dos estudios podrían atribuirse al hecho de que Davey et al. no utilizaron el protocolo de preparación de bibliotecas de RPE superpuesto y solo utilizaron las segundas lecturas para el ensamblaje y, por lo tanto, se perdió la información de las primeras lecturas. Hay varios software para el ensamblaje de datos RAD que admiten lecturas PE, como Stacks [16,17], Rainbow [18], pyRAD [19] y dDocent [20]. Sin embargo, muchas de estas herramientas no pueden admitir directa y completamente conjuntos de datos de RPE con lecturas de PE escalonadas. Hay muchos estudios que no hicieron un uso completo de las lecturas de RPE ni para el ensamblaje ni para el descubrimiento del polimorfismo de un solo nucleótido (SNP) debido a la falta de software o enfoques que estén especialmente optimizados para el ensamblaje de RPE. Por lo tanto, se necesita con urgencia un software fácil de usar, así como un enfoque especialmente optimizado para el montaje de lecturas de EPR. Aquí, presentamos un enfoque de ensamblaje optimizado con un software de canalización, RADassembler, para hacer frente a la complejidad del ensamblaje de RAD, que podría aprovechar al máximo las lecturas de RPE superpuestas.

Los objetivos de este estudio son: (a) presentar un enfoque optimizado con el software de tubería RADassembler para el ensamblaje local de novo de las lecturas de RPE superpuestas de varios individuos y (b) comparar el rendimiento de RADassembler con el original Stacks, Rainbow y dDocente tanto en simulación como en conjuntos de datos de RPE reales.

2. Material y métodos

Al hacer un uso completo de las características de las lecturas de RPE, primero podemos agrupar las primeras lecturas (las lecturas directas con sitios de corte de enzimas) en loci RAD según la similitud de secuencia, luego agrupar los pares de lectura de cada locus en consecuencia y realizar la des local montaje novo. El software de canalización RADassembler, escrito en Bash y Perl, utiliza principalmente Stacks y CAP3 para realizar el ensamblaje local de novo de las lecturas de RPE. Específicamente, Stacks se usa para agrupar y CAP3 se usa para ensamblar. Elegimos Stacks (versión 1.48) para la agrupación debido a su popularidad en el análisis de datos RAD-seq en estudios anteriores.

2.1. Elegir los umbrales de similitud óptimos para la agrupación

Como los umbrales de similitud (el número de desajustes) para la agrupación son fundamentales para el análisis posterior, adoptamos un protocolo de Ilut et al. [21] para una selección óptima del umbral de similitud dentro de los individuos. Se utilizaron dos componentes principales de Stacks para la selección de umbrales óptimos de similitud, ustacks y cstacks. Los datos de cada individuo se agruparon en loci por ustacks, y los loci se agruparon entre los individuos por cstacks. RADassembler ejecutaría ustacks of Stacks usando un conjunto de desajustes (por ejemplo, de 1 a 10) usando un solo individuo. Se eligió el número óptimo de desajustes dentro del individuo para maximizar el número de grupos con dos haplotipos (alelos) y minimizar simultáneamente el número de grupos con un haplotipo (alelo). También se introdujo un método novedoso para elegir el umbral de similitud entre individuos (cstacks): RADassembler ejecutaría cstacks de Stacks utilizando un conjunto de desajustes (por ejemplo, de 1 a 10) en un subconjunto de datos (por ejemplo, seleccionar al azar varios individuos de cada población) . El número óptimo de desajustes entre los individuos se eligió en el punto de inflexión, de modo que el número de loci incrementales para cada individuo que se fusionaba usando diferentes desajustes cambiaba poco. Los usuarios pueden configurar todos los parámetros anteriores.

2.2. Montaje de novo de RAD contigs

Después de elegir el número óptimo de desajustes dentro y entre individuos, las primeras lecturas se enviaron a Stacks para su agrupación.Se estableció una profundidad mínima de 5 para crear una pila, y el número de desajustes permitidos entre las pilas se estableció en el óptimo para mantener los alelos verdaderos de los parálogos. Los algoritmos de desapalancamiento y eliminación de pilas se activaron para resolver los loci fusionados y filtrar loci altamente repetitivos y probablemente parálogos. Al construir el catálogo, el número de desajustes permitidos entre loci entre individuos se estableció en el óptimo para intentar fusionar loci. Finalmente, solo las segundas lecturas de cada locus RAD de varios individuos se recopilaron en archivos fasta separados mediante el uso de una versión modificada de "sort_read_pairs.pl" de Stacks. RADassembler utilizó técnicas de reducción de datos para seleccionar un cierto número de lecturas (máximo de 400 y mínimo de 10, establecido por los usuarios) para el ensamblaje.

Para reducir la complejidad del ensamblaje, presentamos aquí un enfoque de ensamblaje de dos pasos implementado en RADassembler (figura 1). En primer lugar, las segundas lecturas (las lecturas inversas) con extremos cortados al azar de varios individuos correspondientes a cada locus RAD se enviaron a CAP3 para ensamblar por separado, y los contigs resultantes de cada locus se fusionaron con la secuencia de consenso correspondiente de las primeras lecturas. del catálogo Stacks en un archivo. En segundo lugar, cada archivo combinado se volvió a ensamblar localmente en los contigs RAD finales utilizando CAP3. En el segundo paso, si los contigs del primer paso no se superponen con las secuencias de consenso, se concatenarían por diez "N". El enfoque de montaje se paralelizó para lograr la máxima eficiencia. RADassembler utilizó parámetros optimizados específicamente para el ensamblaje de lecturas cortas siguiendo el manual de CAP3 (consulte el material complementario electrónico para obtener detalles de los parámetros).

Figura 1. Diagrama de flujo para el enfoque de ensamblaje de dos pasos en lecturas de RPE. (i) Se agruparon las primeras lecturas (las lecturas directas con sitios de corte de enzima). (ii) Las segundas lecturas (las lecturas inversas con extremos cortados al azar) se clasificaron en archivos separados en consecuencia (cada locus representado por diferentes colores contenía lecturas de varios individuos). Las lecturas se ensamblaron mediante una estrategia de ensamblaje de dos pasos: (iii) primer paso, las segundas lecturas se ensamblaron localmente en contigs y se fusionaron con las secuencias de consenso correspondientes de las primeras lecturas (iv) el segundo paso, los archivos fusionados se ensamblaron localmente nuevamente en los contigs RAD finales. Si los contigs de las segundas lecturas no se superponen con las secuencias de consenso, se rellenarán diez "N" (lugar geométrico en azul).

2.3. RADassembler en datos de simulación

Para evaluar el rendimiento de RADassembler, simulamos 12 individuos con altos niveles de heterocigosidad (0.02) en el genoma de referencia del Genome Reference Consortium Zebrafish Build 11 (GRCz11, acceso NCBI: GCF_000002035.6) digeridos con la enzima SbfI. Solo el ensamblaje primario en 25 cromosomas de GRCz11 se retuvo durante en silico digerir. Mediante el uso de 'ezmsim', una versión modificada de 'wgsim' [22] de Rainbow, se simularon lecturas de PE de 125 pb de longitud a partir de un rango de bibliotecas de tamaño de inserto iniciadas a partir de 200 pb y un alargamiento de 10 pasos, con cada paso que se extiende a 50 pb . La profundidad media de las lecturas de PE se estableció en 10 para cada paso, y se introdujo aleatoriamente una tasa de error de secuenciación de 0,01 de acuerdo con una tasa de error común de aproximadamente 0,1-1 × 10 -2 para las máquinas secuenciadoras de Illumina [23]. Entonces, la cobertura esperada para cada locus RAD simulado es de 700 pb, y los SNP fueron aleatorios en todos los individuos. Después de verificar el número óptimo de umbrales de similitud (ver Resultados y figura 2), el número de desajustes dentro del individuo (ustacks) se estableció en 6 y el número de desajustes entre individuos (cstacks) se estableció en 4. Toda la simulación y posteriores El análisis se realizó en una estación de trabajo con 20 CPU (2,30 GHz) y 256 GB de memoria. Se utilizaron 30 subprocesos cuando la paralelización estaba disponible.

Figura 2. La selección del número óptimo de desajustes dentro de (a) y a través de (B) individuos en conjuntos de datos de simulación. Las lecturas de cada individuo se agruparon en loci por ustacks, y los loci se agruparon a través de individuos por cstacks para construir el catálogo. Se eligió el número óptimo de desajustes dentro del individuo (ustacks) para maximizar el número de loci (Yeje de la izquierda) con dos alelos y simultáneamente minimizar el número de loci con un alelo. En este caso, seis desajustes deberían ser un valor apropiado para ustacks. Para cstacks, el número óptimo de desajustes entre individuos se eligió en el punto de inflexión, de modo que el número de loci incrementales (Y-eje a la derecha) para cada individuo fusionado (X-eje a la derecha) usando diferentes umbrales de desajuste (representados por diferentes tipos de línea) cambió poco. En este caso, cuatro desajustes deberían ser un valor apropiado para cstacks.

2.4. RADassembler sobre datos reales

Lecturas de RPE superpuestas de 24 individuos para la pequeña corvina amarilla Larimichthys polyactis de Zhang et al. [24] se seleccionaron como un conjunto de datos reales, con tamaños de inserto aproximados de 200 a 600 pb. Las lecturas sin procesar fueron procesadas en primer lugar por cutadapt [25] para eliminar los adaptadores potenciales, luego se pasaron a process_radtags of Stacks para eliminar pares de lectura de baja calidad con un tamaño de ventana de 0.1 y un límite de puntuación de 13. Solo se incluyeron los pares de lectura que contenían sitios de corte de enzimas. retenido. Además, los duplicados de PCR se eliminaron mediante clone_filter of Stacks. Las lecturas finales retenidas de las 24 personas se enviaron a RADassembler para un ensamblaje de contigs RAD optimizado. Los números de desajustes se establecieron en 3 (ustacks) y 3 (cstacks) siguiendo el método de elección de umbrales de similitud óptimos (ver Resultados y figura 3). Los contigs ensamblados se retiraron del adaptador usando cutadapt y también se requirió una longitud mínima de contigs de 125 pb.

Figura 3. La selección del número óptimo de desajustes dentro de (a) y a través de (B) individuos en conjuntos de datos reales (L. polyactis). El número óptimo de desajustes dentro de un individuo debe ser 3 (a), y el número óptimo de desajustes entre individuos debe ser 3 (B), aunque los valores liberales podrían ser más apropiados.

2.5. Comparaciones del rendimiento con otras herramientas.

Comparamos el rendimiento de ensamblaje de RADassembler con otras tres herramientas populares que admitían lecturas de RPE, incluidas las pilas originales (versión 1.48), Rainbow (versión 2.04) y dDocent (versión 2.2.20). Se compararon los rendimientos del ensamblaje tanto en la simulación como en los conjuntos de datos reales. Los parámetros en las pilas originales eran idénticos a los utilizados en RADassembler, excepto que todos los pares de lectura de varios individuos para cada locus se extrajeron utilizando una versión modificada de 'sort_read_pairs.pl', y luego se enviaron al contenedor 'exec_velvet.pl 'proporcionado por Stacks para ensamblar contigs. Esta envoltura ejecutará Velvet en cada locus y recopilará las secuencias en los contigs finales. Se requirió una longitud de contig mínima de 125 pb. Rainbow es una solución ultrarrápida y eficiente en memoria para agrupar y ensamblar lecturas cortas producidas por RAD-seq. Rainbow incluye tres pasos para ensamblar contigs RAD: agrupamiento, división y fusión (ensamblaje). Los parámetros en Rainbow se establecieron de acuerdo con los utilizados en RADassembler y dDocent, que se ajustaron para varios individuos. dDocent es una canalización de análisis que utiliza técnicas de reducción de datos y otros paquetes de software independientes para realizar filtrado de calidad, ensamblaje de novo de loci RAD, mapeo de lectura, llamadas SNP y filtrado de datos. Los valores de corte para la cobertura de lecturas en el primer paso de ensamblaje de dDocent se establecieron en 5 (dentro del individuo) y 2 (entre individuos), respectivamente, el umbral de similitud para el último agrupamiento de referencia se estableció en el valor óptimo utilizado en la etapa de agrupamiento RADassembler. Todos los parámetros detallados utilizados en los programas anteriores se presentan en el material complementario electrónico.

Evaluamos los rendimientos del ensamblaje de diferentes herramientas utilizando las estadísticas de uso común, incluyendo N50, longitud media del contig y longitud total del contig (cobertura). Además, para los datos de simulación, los contigs ensamblados también se asignaron al genoma de referencia original utilizando el programa local BLAST + [26], se calcularon la identidad y la cobertura medias. Para conjuntos de datos reales, dado que no se disponía actualmente de un genoma de referencia para L. polyactis, el genoma de referencia (acceso NCBI: GCF_000972845.1) del congénere (Larimichthys crocea) fue seleccionado para mapeos de voladuras. Además, los pares de lectura también se mapearon de nuevo a los contigs ensamblados utilizando BWA 0.7.15 [27] para verificar el número de lecturas mapeadas y lecturas mapeadas correctamente. Las lecturas mapeadas correctamente fueron aquellas con la lectura directa y la lectura inversa mapeada en el mismo contig (loci) y con la orientación correcta, así como el tamaño de inserción adecuado, que fue identificado por las banderas SAM proporcionadas por el alineador. Para simplificar y mantener la coherencia, solo los pares de lectura utilizados para el ensamblado en Pilas se utilizaron para todas las asignaciones de lecturas, lo que representaría un subconjunto completo de las lecturas de entrada sin procesar. El algoritmo 'mem' [28] en BWA se utilizó para el mapeo y los parámetros se establecieron por defecto. Las estadísticas de mapeo fueron calculadas por Samtools 1.6 [22].

3. Resultados

3.1. Comparaciones del ensamblaje de RAD contigs en datos de simulación

Utilizando en silico digerir, había 29 242 sitios de corte de SbfI en el ensamblaje principal de los 25 cromosomas de GRCz11. Por lo tanto, se generó una cobertura aproximada esperada de la biblioteca RAD de 20 469 400 pb para cada individuo, que cubría aproximadamente el 1,52% del genoma. Usando un conjunto de desajustes (de 1 a 10 para ustacks, de 1 a 8 para cstacks) para agrupar las primeras lecturas de ejecuciones preliminares, los desajustes óptimos dentro de los individuos (ustacks) se establecieron en 6, y el número óptimo de desajustes entre individuos (cstacks) se estableció en 4 (figura 2). RADassembler exportó un total de 29 533 loci para el ensamblaje, todos los cuales se ensamblaron con éxito. Los contigs ensamblados fueron con un N50 de 698 pb, una longitud media de contig de 661 pb y una cobertura total de 19 633 933 pb (tabla 1). La distribución de la longitud de los contigs ensamblados se presenta en la figura 4.

Figura 4. Distribución de longitudes de contigs ensamblados por las cuatro herramientas en conjuntos de datos de simulación. Versiones del programa: Stacks 1.48, Rainbow 2.04, dDocent 2.2.20.

Tabla 1. Estadísticas de ensamblaje de las cuatro herramientas en conjuntos de datos de simulación. Estadísticas de comparación que incluyen (de izquierda a derecha): número de conglomerados (loci) ensamblados, número de conglomerados que se asignaron al genoma de referencia (conglomerados idénticos), N50 (pb), longitud media del contig (Media, pb), cobertura total (Total Cov, bp), bases idénticas al genoma de referencia (Cov idéntico, bp), bases idénticas al genoma de referencia en proporción a la cobertura total (Cov Ratio), identidad media de los mapeados al genoma de referencia (Identidad media), total tasa de mapeo de los pares de lectura (Total Mapped), tasa de mapeo adecuada de los pares de lectura (Proper Paired).

En comparación con las otras tres herramientas, RADassembler identificó el número más apropiado de clusters (loci) y los contigs ensamblados generalmente mostraron altas cualidades (tabla 1). Al mapear los contigs al genoma de referencia, el 99,96% de los grupos (contigs ensamblados) se mapearon a la referencia, con una identidad media del 98,78%. RADassembler mostró la tasa de cobertura más alta y la tasa de mapeo adecuada, con el 98.60% de las lecturas mapeadas correctamente. Stacks y dDocent ensamblaron muchos contigs de corta longitud, que no estaban de acuerdo con la expectativa (deberían estar alrededor del tamaño máximo de plaquita, 700 pb). Stacks (Velvet) no pudo ensamblar la mayoría de los loci, aunque recuperó el número apropiado de loci en la etapa de agrupamiento. Las pilas originales reunieron solo 8717 loci, y la mayoría de las lecturas no se pudieron asignar correctamente (solo el 11,12% se asignaron correctamente), lo que podría sugerir que Velvet no era apropiado para el ensamblaje de lecturas de RPE. Rainbow reunió muchos más loci (154 410) que las otras herramientas, lo que no estaba de acuerdo con las expectativas, lo que sugiere la existencia de muchos loci redundantes. dDocent reunió 20 248 loci con un N50 de solo 262 pb. Al mapear los pares de lectura, solo el 36,62% de los pares de lectura se asignaron correctamente a los contigs ensamblados de dDocent. Aunque dDocent fue la más eficiente en el tiempo entre las cuatro herramientas (consulte el material complementario electrónico para obtener detalles sobre las evaluaciones comparativas), RADassembler era aún más eficiente que las Stacks y Rainbow originales. Desde una perspectiva integral, RADassembler fue la herramienta con mejor desempeño entre las cuatro y los detalles de comparación se presentan en la tabla 1.

3.2. Comparaciones del ensamblaje de RAD contigs en datos reales

Después del filtrado de calidad, se retuvo un total de 62 960 475 pares de lectura para los 24 individuos de L. polyactis, con una media de pares de lectura de 2 623 353 por individuo. Usando corridas preliminares para verificar los umbrales óptimos de similitud, el número de desajustes dentro del individuo se estableció en 3, y el número de desajustes entre individuos se estableció en 3 (figura 3). RADassembler exportó un total de 303 929 loci para el ensamblaje y todos estos se ensamblaron con éxito. Los contig ensamblados, con un N50 de 539 pb, una longitud media del contig de 511 pb y una cobertura total de 157 941 578 pb, también demostraron altas cualidades (tabla 2). La mayoría de los pares de lectura (98,98%) se asignaron a los contigs, y el 95,99% de estos se asignaron correctamente. Al mapear los contigs ensamblados al genoma de referencia de L. crocea, El 98,33% de los contigs ensamblados se asignaron a la referencia con una identidad media del 95,85%.

Cuadro 2. Estadísticas de ensamblaje de las cuatro herramientas en conjuntos de datos reales de L. polyactis. Los parámetros de las comparaciones fueron los mismos que los utilizados en los conjuntos de datos de simulación.

RADassembler también fue más competente que las otras tres herramientas en los conjuntos de datos reales (tabla 2). Siempre mostró la tasa de mapeo adecuada más alta y la longitud de los contigs se ajustó al tamaño esperado (figura 5). De manera similar a su desempeño en conjuntos de datos de simulación, Stacks (Velvet) y dDocent tuvieron un desempeño deficiente en la recuperación del tamaño de contigs apropiado en los conjuntos de datos reales (figura 5), ​​y muchos de ellos eran cortos. Los Stacks originales (Velvet) y Rainbow reunieron más grupos (loci), y la cobertura total fue de 181 151 234 pb y 182 080 648 pb, respectivamente. Sin embargo, una gran proporción de los pares de lectura no se pudo mapear correctamente. Para las pilas originales, el 87,89% de las lecturas se asignaron, pero solo el 49,16% de estas se asignaron correctamente. Sin embargo, Rainbow se desempeñó mejor que Stacks en los conjuntos de datos reales y él mismo en los conjuntos de datos de simulación. El tamaño de los contigs ensamblados por Rainbow también estuvo de acuerdo con el tamaño esperado del inserto. Además, la tasa de mapeo total y adecuada es 92,34% y 85,47%, respectivamente, pero aún no es tan buena como RADassembler. dDocent reunió 183 763 conglomerados y el tamaño de la mayoría de los contigs ensamblados fue pequeño, lo que concuerda con su desempeño en los conjuntos de datos de simulación. La mayoría de los contigs ensamblados por dDocent tenían alrededor de 260 pb, que era la longitud de la lectura directa (125 pb) y la lectura inversa (125 pb) más diez 'N', lo que sugiere su falla en el ensamblaje de las segundas lecturas con aleatoriamente extremos cortados (figura 5). Los detalles de la comparación del rendimiento de las herramientas se presentan en la tabla 2.

Figura 5. Distribución de longitudes de contigs ensamblados por las cuatro herramientas en conjuntos de datos reales (L. polyactis). Versiones del programa: Stacks 1.48, Rainbow 2.04, dDocent 2.2.20.

4. Discusión

Se han lanzado y aplicado ampliamente varias herramientas de análisis para ayudar a los investigadores a manejar los datos RAD-seq. Sin embargo, estudios previos basados ​​en RPE solo han utilizado las primeras lecturas [29,30] para llamadas de SNP y análisis genético de poblaciones posteriores, o solo las segundas lecturas para el ensamblaje de contigs [6,31,32], y la información para el otro las lecturas se desperdiciaron entonces. Aunque la mayoría de estas herramientas son compatibles con las lecturas de PE, muchas de ellas no admiten directamente las lecturas de RPE con extremos cortados al azar. Muchos estudios no han aprovechado al máximo los pares de lectura de RPE tanto para el ensamblaje como para las llamadas SNP. Las principales limitaciones aquí pueden ser la profundidad de cobertura muy desigual de los pares de lectura y la profundidad generalmente baja de las segundas lecturas, como se muestra en Davey et al. [9]. Sin embargo, RADassembler ayudó a reducir la complejidad del ensamblaje de RPE, y los resultados presentados en este estudio demostraron su alta promesa y amplia aplicabilidad.

RADassembler ofreció dos ventajas en su ensamblaje para lecturas de RPE: (i) usó métodos para elegir los umbrales de similitud óptimos dentro y entre individuos y (ii) usó un enfoque de ensamblaje de dos pasos para reducir de manera eficiente la complejidad del ensamblaje. La selección del umbral de similitud es fundamental para el análisis posterior. Los umbrales estrictos causarán una división excesiva, lo que crea una falsa homocigosidad, y los umbrales liberales causarán una división insuficiente, lo que crea una falsa heterocigosidad [21,33]. Los umbrales de similitud incorrectos afectan las inferencias del nivel de variación en las estimaciones genéticas y filogeográficas de la población corriente abajo [33]. RADassembler podría identificar de manera eficiente el umbral óptimo dentro y entre individuos sin el conocimiento previo de heterocigosidad. Como software de canalización, dDocent también incluye una estrategia de dos pasos en el ensamblaje de lecturas de RAD, pero la razón fundamental es bastante diferente de RADassembler. dDocent fue diseñado y optimizado originalmente para conjuntos de datos flRAD [20], aunque su versión actual también es compatible con conjuntos de datos RPE. En el primer paso del ensamblaje, dDocent usa las lecturas de PE concatenadas (solo las primeras lecturas se usaron para RPE) para contar las ocurrencias de lecturas únicas, luego los usuarios pueden elegir un nivel de cobertura de corte para las lecturas que se usarán para el ensamblaje. La elección de un corte de lecturas únicas dentro de un individuo es similar a la de ustacks (el parámetro de profundidad mínima de cobertura requerida para crear una pila) de Stacks. Las lecturas concatenadas restantes se vuelven a dividir en pares de lectura, agrupadas y ensambladas localmente por Rainbow (en la versión actual de dDocent, CD-HIT [34,35] se usa para la agrupación). Por último, los contigs ensamblados se agrupan en función de la similitud de secuencia general utilizando CD-HIT. Por el contrario, RADassembler solo usa las segundas lecturas de cada locus para el ensamblaje local en su primer paso de ensamblaje. Los contigs ensamblados para las segundas lecturas se fusionan (ya sea ensamblados o rellenados con diez "N") con las secuencias de consenso correspondientes de las primeras lecturas. Los contigs de referencia de salida de dDocent representan solo un subconjunto del contenido de información genómica total de la entrada sin procesar [20], lo que podría ser la causa de su tasa de mapeo adecuada más baja en los resultados. Sin embargo, RADassembler recopilará información más completa para un ensamblaje de novo de loci RAD. La referencia completa de RAD es útil para anotaciones posteriores y aumentará la posibilidad de descubrir polimorfismos de nivel individual.

RADassembler también admite subprocesos múltiples e incluye un paso de reducción de datos antes del ensamblaje. Los usuarios pueden elegir un nivel de cobertura de corte para restringir el número mínimo y máximo de lecturas para cada locus utilizado en el ensamblaje.Por lo tanto, RADassembler logró una mejor eficiencia de funcionamiento en comparación con los Stacks y Rainbow originales. Rainbow incluye un paso de división después de la primera agrupación para distinguir los errores de secuenciación de heterocigotos o variantes entre secuencias repetitivas [18]. Si bien este paso funcionó perfectamente para los datos de un solo individuo, no funcionó tan bien en datos agrupados de múltiples individuos, especialmente en especies con altos polimorfismos, como se muestra en los conjuntos de datos de simulación. Rainbow podría ser inapropiado para el ensamblaje de conjuntos de datos de RPE de múltiples individuos con heterocigotos altos, aunque los parámetros necesitan optimizaciones adicionales. RADassembler usa Stacks para una mejor agrupación y es más apropiado para lidiar con polimorfismos entre múltiples individuos. Stacks utiliza principalmente dos pasos para el ensamblaje de novo de loci, ustacks para agrupar dentro de individuos y cstacks para construir catálogos entre individuos. El Stacks original usa el ensamblador Velvet basado en DBG para ensamblar contigs solo para las segundas lecturas de las lecturas de RPE. Sin embargo, al modificar el programa para incluir las primeras lecturas, Velvet no funcionó bien y no pudo conectar lecturas RPE superpuestas en muchos loci. También se observaron resultados similares en Hohenlohe et al. [8]. Tanto los ensambladores CAP3 basados ​​en OLC (utilizados en RADassembler) como Rainbow ensamblaron el tamaño apropiado de contigs, lo que sugiere sus ventajas sobre los ensambladores basados ​​en DBG en el ensamblaje de lecturas de RPE.

Hay dos categorías de ensambladores NGS ampliamente utilizados, que se basan en los métodos OLC o en los métodos DBG [10]. Los métodos OLC se basan en un gráfico de superposición que implica tres fases: superposición, diseño y consenso [36]. Los ensambladores basados ​​en OLC realizan alineaciones por pares (que es computacionalmente costoso) para descubrir superposiciones y no es necesario que la longitud de las superposiciones sea uniforme. Los métodos DBG se basan en el gráfico k-mer, que utiliza una subsecuencia de longitud fija (k-mer) como sus nodos y se superpone entre k-mer consecutivos como sus bordes. Los métodos de gráficos de K-mer no requieren un descubrimiento de solapamiento de todos contra todos [10], por lo que pueden perder algunos solapamientos verdaderos, pero tienen ventajas en la eficiencia del ensamblaje para lecturas cortas de alto rendimiento. El ensamblador basado en gráficos k-mer se ha aplicado a datos RAD en muchos estudios, como los que utilizan Velvet [32,37] y VelvetOptimiser [6,9]. Sin embargo, los ensambladores basados ​​en DBG no tuvieron un buen desempeño en el estudio presentado, así como en Hohenlohe. et al. [8]. El problema general puede deberse a la cobertura de secuencia de profundidad altamente desigual esperada en cada locus para los conjuntos de datos de RPE [8], lo que dificulta que Velvet ensamble correctamente los contigs. De hecho, Velvet se ve confuso por la cobertura no uniforme de las secuencias objetivo, ya que utiliza heurísticas basadas en la cobertura para distinguir las regiones únicas putativas de las regiones repetitivas putativas [38]. No obstante, en comparación con los gráficos superpuestos, los gráficos k-mer son más sensibles a las repeticiones y los errores de secuenciación [10], lo que sugiere que las herramientas basadas en gráficos k-mer (como Velvet) podrían ser menos potentes para ensamblar lecturas agrupadas de varios individuos. Los polimorfismos entre individuos también complicarán el ensamblaje, particularmente para los métodos de gráficos k-mer. Los métodos OLC funcionaron mucho mejor, aunque un poco más costosos desde el punto de vista computacional, pero aún asequibles después de la reducción de datos y la paralelización. Además, RADassembler utiliza una estrategia de dos pasos para reducir aún más la complejidad del ensamblaje de RPE. Esta estrategia ofrece dos ventajas: en primer lugar, reduce la complejidad de las lecturas de varios individuos, así como las demandas de cálculo mediante el uso de secuencias de consenso de las primeras lecturas y técnicas de reducción de datos (seleccionar aleatoriamente un subconjunto de lecturas); en segundo lugar, hace que la profundidad en cada paso de montaje uniforme. Al mismo tiempo, también es fundamental que los investigadores varíen los parámetros para optimizar el montaje. Una solución es estimar los parámetros de ensamblaje para cada locus [9] y usar una estrategia de ensamblaje híbrida (use ensambladores OLC y DBG). Sin embargo, esto causaría severas demandas computacionales. Nuestro enfoque presentado aquí proporciona una buena herramienta para lidiar con la complejidad del ensamblaje de RAD, particularmente para el ensamblaje de lecturas de RPE de múltiples individuos con alta variación genética.

Los contigs RAD son atractivos para la detección y anotación de loci de interés (por ejemplo, valores atípicos). Los contigs ensamblados tienen mayores probabilidades de llegar a la base de datos que las de las secuencias de consenso de un solo extremo. Estas anotaciones son importantes para aplicaciones de genética de conservación y genómica de poblaciones. Además, los contigs RAD brindan más posibilidades de detección de valores atípicos. Se espera que las secuencias continuas más largas contengan más SNP que podrían ser relevantes para las adaptaciones locales. Los contigs RAD ensamblados también proporcionan suficientes secuencias flanqueantes para el diseño de cebadores o matrices que podrían usarse más para realizar verificaciones funcionales o estudios de evolución adaptativa basados ​​en más muestras.

En el presente estudio, proporcionamos un enfoque optimizado con el software de canalización RADassembler para hacer frente a la complejidad del ensamblaje de las lecturas de RPE de varias personas. Los resultados tanto de la simulación como de los conjuntos de datos reales sugirieron su alta precisión y eficiencia. RADassembler incluyó los protocolos para elegir los umbrales de similitud óptimos, técnicas de reducción de datos, así como un enfoque de ensamblaje de dos pasos para reducir la complejidad del ensamblaje para las lecturas de RPE. RADassembler podría proporcionar una herramienta óptima para lidiar con la complejidad del ensamblaje RAD para especies no modelo en estudios ecológicos, evolutivos y de conservación, especialmente para especies con altos polimorfismos.


Evaluación de la calidad con FastQC

¡Más control de calidad! ¡Hurra! Tenga en cuenta que todavía no hemos hecho nada parecido a interpretar los resultados biológicos de nuestra ejecución de secuenciación.

FastQC es una gran herramienta para obtener un primer vistazo a sus datos. Puede darle una impresión si hay ciertos sesgos en sus datos o si algo salió mal en la preparación de su biblioteca o en la secuenciación. Es realmente fácil de ejecutar, simplemente escriba lo siguiente en la línea de comando (después de que esté instalado):

Recibirá un .html con diferentes gráficos. Más información, como siempre, en la documentación. No confíe en la aprobación / advertencia / falla en FastQC, realmente depende de la preparación de su biblioteca. En la secuenciación de bisulfito, por ejemplo, habrá poca o ninguna citosina en el contenido de la secuencia por base, pero esto es de esperar (ya que casi todas se convierten en timina). FastQC los etiqueta erróneamente como "fallidos". Al igual que Basespace, la experiencia es importante al interpretar gráficos FastQC. Si algo le desconcierta, pregúntele a un colega.

La mayoría de las veces analizará más de una muestra y generará bastantes archivos de registro. MultiQC es un software fantástico, con un comando:

puede agregar todos sus archivos de registro en un informe. Lo uso todo el tiempo y no puedo recomendarlo lo suficiente.

Si está interesado en escribir canalizaciones de mejores prácticas para procesar sus archivos fastq, es posible que le interese bcbio. Pero aún necesita saber qué sucede bajo el capó del oleoducto bcbio, o tal vez desee desarrollar uno usted mismo.


Conclusiones

La revolución de la secuenciación de sobremesa ha llevado a una "democratización" de la secuenciación, lo que significa que la mayoría de los laboratorios de investigación pueden permitirse secuenciar genomas bacterianos completos cuando su trabajo lo requiera. Sin embargo, analizar los datos es ahora un cuello de botella importante para la mayoría de los laboratorios. Hemos proporcionado un punto de partida para que los biólogos comiencen a trabajar rápidamente con sus propios datos del genoma bacteriano, sin invertir dinero en software costoso o cursos de capacitación. Las figuras muestran ejemplos de lo que se puede lograr con las herramientas presentadas, y el tutorial adjunto brinda instrucciones paso a paso para cada tipo de análisis.


Implementación

Konnector crea largas pseudo-lecturas a partir de lecturas de secuenciación paired-end (Figura 1) buscando rutas de conexión entre pares de lectura utilizando una representación de filtro Bloom de un gráfico de Bruijn. Además de conectar pares de lectura, Konnector v2.0 también puede extender secuencias conectadas o no conectadas siguiendo rutas desde los extremos de las secuencias hasta el siguiente punto de ramificación o callejón sin salida en el gráfico de Bruijn. Cuando la función de extensión de secuencia de Konnector v2.0 está habilitada, se emplea un filtro Bloom adicional para evitar la producción de una cantidad insuperable de secuencias duplicadas. La Figura 2 proporciona una descripción general del diagrama de flujo del algoritmo Konnector 2.0.

Una ruta de conexión entre dos lecturas de secuenciación de extremos emparejados que no se superponen dentro de un gráfico de Bruijn. Konnector se une a la secuencia proporcionada por las lecturas del extremo emparejado de entrada (verde) mediante una búsqueda gráfica de una ruta de conexión (azul). Los errores de secuenciación en los datos de secuenciación de entrada producen burbujas y ramas en el gráfico de De Bruijn de hasta k nodos de longitud (rojo). Los falsos positivos del filtro Bloom producen ramas adicionales (amarillas) con longitudes que suelen ser mucho más cortas que las ramas de error.

El algoritmo Konnector2. (1): El algoritmo crea una representación de filtro Bloom del gráfico de De Bruijn cargando todos los k-mers de los datos de secuenciación de extremo emparejado de entrada. (2): Para cada par leído, se realiza una búsqueda de gráficos para conectar rutas dentro del gráfico de De Bruijn. (3): Si se encuentran una o más rutas de conexión, se construye una secuencia de consenso para las rutas. (4): Si no se encuentran rutas de conexión, se intenta la corrección de errores en las lecturas 1 y 2. (5) y (6): el algoritmo consulta la existencia de la secuencia de conexión de consenso o las lecturas con corrección de errores en el "filtro duplicado". El filtro duplicado es un filtro Bloom adicional, separado del gráfico del filtro Bloom de Bruijn, que rastrea las partes del genoma que ya se han ensamblado. (7) y (8): Si uno o más de los k-mers en la secuencia de consulta no se encuentran en el filtro duplicado, la secuencia se extiende hacia afuera en el gráfico de Bruijn, hasta que se encuentre un callejón sin salida o un punto de ramificación. encontrado en el gráfico. Finalmente, las secuencias extendidas se escriben en el archivo de pseudo-lecturas de salida.

Gráfico Bloom filter de Bruijn

A medida que el rendimiento de las plataformas Illumina aumentó rápidamente para generar hasta 1 TB en una ejecución de seis días con los kits HiSeq SBS V4, una preocupación importante para las herramientas de generación de pseudolectura es su eficiencia computacional. En problemas relacionados, las herramientas bioinformáticas han utilizado estrategias como computación paralela [11, 12], indexación FM [13, 14] y estructuras de datos comprimidos [15] para manejar big data.

Para adaptarse a grandes problemas de ensamblaje en memoria pequeña, un enfoque reciente ha sido el uso de filtros Bloom [16, 3] para representar gráficos de Bruijn, como lo demuestra el ensamblador Minia [17]. Konnector adopta un enfoque similar. Brevemente, un filtro Bloom es una matriz de bits que actúa como una representación compacta de un conjunto, donde la presencia o ausencia de un elemento en el conjunto está indicada por el estado de uno o más bits en la matriz. La posición particular de los bits que corresponden a cada elemento está determinada por un conjunto fijo de funciones hash. Si bien los filtros Bloom son muy eficientes en cuanto a la memoria, el principal desafío de desarrollar algoritmos de filtro Bloom es lidiar con la posibilidad de falsos positivos. Un falso positivo ocurre cuando las posiciones de bit de un elemento que no está en el conjunto chocan con las posiciones de bit de un elemento que es en el set. En el contexto de los gráficos del filtro de Bloom de Bruijn, los falsos positivos se manifiestan como ramas falsas, como se muestra en los nodos amarillos de la Figura 1.

En el primer paso del algoritmo (Figura 2, paso (1)), el gráfico del filtro Bloom de Bruijn se construye triturando las lecturas de entrada en k-mers y cargando los k-mers en un filtro Bloom. Para disminuir el efecto de los errores de secuenciación en etapas posteriores del algoritmo, los k-mers se propagan inicialmente entre dos filtros Bloom, donde el primer filtro Bloom contiene k-mers que se han visto al menos una vez, y el segundo filtro Bloom contiene k- mers que han sido vistos al menos dos veces. Al final de la carga de k-mer, el primer filtro Bloom se descarta y el segundo filtro Bloom se mantiene para su uso en el resto del algoritmo. Observamos aquí que solo los k-mers de las lecturas de entrada, correspondientes a los nodos en el gráfico de Bruijn, se almacenan en el filtro Bloom mientras que no hay almacenamiento explícito de aristas. En cambio, los vecinos de un k-mer se determinan durante el recorrido del gráfico consultando la presencia de los cuatro posibles vecinos (es decir, extensiones de base única) en cada paso.

Buscando caminos de conexión

En una segunda pasada sobre los datos de secuenciación de entrada, Konnector busca rutas de conexión dentro del gráfico de Bruijn entre cada par leído (Figura 2, paso (2)). La búsqueda del gráfico se inicia eligiendo un inicio k-mer en la primera lectura y un objetivo k-mer en la segunda lectura, y se lleva a cabo mediante una búsqueda bidireccional, en profundidad, primero en amplitud entre estos dos k- mers.

Los k-mers de inicio y meta se seleccionan para reducir la probabilidad de búsquedas sin salida debido a errores de secuenciación o al filtro Bloom de falsos positivos. Primero, los k-meros putativos sin error de cada lectura se identifican consultando su existencia en el gráfico del filtro de Bloom de Bruijn. (Recuerde que después de la etapa de carga, este filtro Bloom solo contiene k-mers que ocurren dos o más). A continuación, el algoritmo intenta encontrar una ejecución consecutiva de tres k-mers sin error dentro de la lectura y elige el k- mer en el extremo distal (es decir, 5 'final) de la carrera como inicio / meta k-mer. Este método asegura que si el k-mer de inicio / meta elegido es un falso positivo del filtro Bloom, la búsqueda de la ruta seguirá por al menos dos k-mers más en lugar de detenerse en un callejón sin salida. En el caso probable de que haya múltiples corridas de k-mers "buenos" dentro de una lectura, se elige la corrida que está más cerca del extremo 3 '(orientado hacia el espacio) de la lectura, para reducir la profundidad de la búsqueda de ruta subsiguiente. . En el caso de que no haya ejecuciones de tres buenos k-meros, el algoritmo recurre a la ejecución más larga encontrada (es decir, dos k-meros o un solo k-mer).

Una vez que se han seleccionado los k-mers de inicio y meta, Konnector realiza la búsqueda de rutas de conexión. Para maximizar la precisión de la secuencia que conecta las lecturas, es importante que el algoritmo considere todos posibles caminos entre las lecturas, hasta el límite de profundidad dictado por la longitud del fragmento de ADN. Por esta razón, se emplea una búsqueda en amplitud en lugar de un algoritmo de ruta más corta como Dijkstra o A *. Konnector implementa una versión bidireccional de búsqueda en amplitud, que mejora el rendimiento al realizar dos búsquedas de profundidad media y, por lo tanto, reduce la expansión general de la frontera de búsqueda. La búsqueda bidireccional se implementa alternando entre dos búsquedas estándar en amplitud que pueden "ver" las listas de nodos visitados del otro. Si una búsqueda encuentra un nodo que ya ha sido visitado por la otra búsqueda, el borde que conduce a ese nodo se registra como un "borde común" y la búsqueda no avanza más a través de ese nodo en particular. A medida que avanzan las dos búsquedas, todos los nodos y bordes visitados se agregan a un "gráfico de búsqueda" temporal en la memoria. Esto facilita el paso final, donde se construye el conjunto completo de caminos de conexión realizando una búsqueda exhaustiva tanto hacia atrás como hacia adelante desde cada borde común hacia los k-mers de inicio y meta, respectivamente.

Si el algoritmo de búsqueda encuentra una ruta única entre los k-mers de inicio y meta, entonces la ruta se convierte en una secuencia de ADN y se usa para unir las secuencias leídas en una sola pseudoleída. En el caso de múltiples rutas, se realiza una alineación de secuencia múltiple y la secuencia de consenso resultante se usa para unir las lecturas en su lugar (Figura 2, paso (3)). Para ajustar la calidad de los resultados, el usuario puede especificar límites con respecto al número máximo de rutas que pueden colapsarse a un consenso y / o la cantidad máxima de desajustes que deben tolerarse entre rutas alternativas.

Ampliación de secuencias conectadas y desconectadas

Konnector v2.0 introduce una nueva capacidad para extender secuencias conectadas y no conectadas atravesando desde los extremos de las secuencias hasta el siguiente punto de ramificación o callejón sin salida en el gráfico de Bruijn (Figura 2, pasos (7) y (8)). Si un par de lecturas se conecta con éxito, el algoritmo extenderá la pseudolectura hacia afuera en ambas direcciones si el par de lecturas no se conecta exitosamente, cada una de las dos lecturas se extenderá de forma independiente, tanto hacia adentro como hacia afuera. Las extensiones se siembran de la misma manera descrita anteriormente para las búsquedas de rutas de conexión. Se selecciona un k-mer sin error putativo cerca del final de la secuencia, y después de dos k-mer consecutivos sin error si es posible.

La extensión de lecturas conectadas o no conectadas que están contenidas dentro de la misma ruta lineal del gráfico de Bruijn da como resultado secuencias idénticas. Por esta razón, el algoritmo utiliza un filtro Bloom adicional para rastrear los k-mers de secuencias que ya se han ensamblado. (De ahora en adelante, este filtro de Bloom se denominará "filtro duplicado" para reducir la confusión con el gráfico del filtro de Bloom de Bruijn).

La lógica para rastrear secuencias duplicadas difiere para los casos de pares de lectura conectados y desconectados. En el caso de lecturas conectadas, solo los k-mers de la secuencia de conexión se utilizan para consultar el filtro duplicado (Figura 2, paso (5)). En virtud de estar presentes en el gráfico del filtro de Bloom de Bruijn, los k-mers de conexión son k-mers putativos sin error que se han producido al menos dos veces en los datos de secuenciación de entrada y, por lo tanto, se espera una coincidencia del 100% en el caso de que la región genómica en cuestión ya ha sido cubierta. Si uno o más k-mers de la secuencia de conexión no se encuentran en el filtro duplicado, la pseudoleída se mantiene y se extiende hacia afuera en toda su longitud (Figura 2, paso (7)). Los k-mers de la secuencia extendida se agregan al filtro duplicado y la secuencia se escribe en el archivo de pseudo-lecturas de salida.

En el caso de lecturas no conectadas, las lecturas deben corregirse primero antes de consultar el filtro duplicado (Figura 2, paso (4)). Esto se hace extrayendo primero la secuencia contigua más larga de k-mers sin error dentro de la lectura, donde los k-mers que están presentes en el gráfico del filtro de Bloom de Bruijn se consideran k-mers putativos sin error. Luego, se realiza un paso adicional para corregir los errores de lectura recurrentes que pueden haber superado el filtro Bloom de dos niveles. Comenzando desde el k-mer más a la derecha de la subsecuencia seleccionada, el algoritmo avanza hacia la izquierda por k nodos, abortando el paso de corrección si encuentra un punto de ramificación o un callejón sin salida antes de caminar la distancia completa. Como la rama más larga que puede ser creada por un solo error de secuencia es k nodos, esta navega fuera de cualquier rama o burbuja posible creada por un error (nodos rojos de la Figura 1). Finalmente, el algoritmo avanza hasta (k + 1) nodos para generar una secuencia de alta confianza para consultar el filtro duplicado.El segundo paso hacia la derecha se detiene antes de encontrar un punto de ramificación o un callejón sin salida, pero cualquier secuencia generada hasta ese punto se mantiene y se sigue utilizando para consultar el filtro duplicado. Después de la corrección de errores, los pasos siguientes para manejar lecturas no conectadas son similares al caso de las lecturas conectadas. Si la secuencia de alta confianza contiene k-mers que no se encuentran en el filtro duplicado, la secuencia se extiende a su longitud completa, se agrega al filtro duplicado y se escribe en el archivo de pseudo-lecturas de salida.

Finalmente, se emplea alguna lógica de anticipación adicional en el algoritmo de extensión para manejar los casos comunes de ramas falsas positivas y burbujas simples creadas por SNP heterocigotos. Se supone que todas las ramas más cortas o iguales a tres nodos de longitud son ramas falsas positivas y se ignoran durante la extensión. Al llegar a una bifurcación con dos ramas (no falsas positivas), se realiza una búsqueda anticipada de (k + 1) nodos para ver si las ramas vuelven a converger. Si es así, la burbuja se colapsa y la extensión continúa.


© 2013 Los Autores. Publicado por la Royal Society bajo los términos de la licencia de atribución Creative Commons http://creativecommons.org/licenses/by/3.0/, que permite el uso sin restricciones, siempre que se acredite el autor y la fuente originales.

Referencias

. 1994 Mutaciones de resistencia a nevirapina del virus de inmunodeficiencia humana tipo 1 seleccionadas durante la terapia. J. Virol. 68, 1660-1666. PubMed, Google Académico

. 2011 Detección de variantes e intermedios evolutivos del VIH-1 inferidos mediante CCR5 y CXCR4 mediante pirosecuenciación ultraprofunda. PLoS Pathog. 7, e1002106.doi:

Moya A, Holmes E y González-Candelas F

. 2004 La genética de poblaciones y la epidemiología evolutiva de los virus ARN. Nat. Rev. Microbiol. 2, 279–288.doi:

Wang C, Mitsuya Y, Gharizadeh B, Ronaghi M & amp Shafer RW

. 2007 Caracterización de espectros de mutación con pirosecuenciación ultraprofunda: aplicación a la farmacorresistencia del VIH-1. Genome Res. 17, 1195–1201.doi:

Archer J, Braverman MS, Taillon BE, Desany B, James I, Harrigan PR, Lewis M y Robertson DL

. 2009 Detección del receptor 4 (CXCR4) de quimiocinas previas al tratamiento de baja frecuencia (motivo CXC) mediante el uso del VIH-1 con pirosecuenciación ultraprofunda. SIDA 23, 1209–1218.doi:

Eriksson N, Pachter L, Mitsuya Y, Rhee S-Y, Wang C, Gharizadeh B, Ronaghi M, Shafer RW y amp Beerenwinkel N

. 2008 Estimación de la población viral mediante pirosecuenciación. PLoS Comput. Biol. 4, 1–13.doi:

Archer J, Baillie G, Watson SJ, Kellam P, Rambaut A y Robertson DL

. 2012 Análisis de datos de secuencia de alta profundidad para estudiar la diversidad viral: una comparación de plataformas de secuenciación de próxima generación utilizando segminator II. Bioinformática BMC 13, 47.doi:

. 2011 Perfil de error específico de secuencia de los secuenciadores de Illumina. Ácidos nucleicos Res. 39, e90.doi:

Huse SM, Huber JA, Morrison HG, Sogin ML y amp Welch DM

. 2007 Precisión y calidad de la pirosecuenciación de ADN masivamente paralela. Genome Biol. 8, RI43. Crossref, académico de Google

Quinian AR, Stewart DA, Strömberg MP y Marth GT

. 2008 Pyrobayes: un llamador de base mejorado para el descubrimiento de SNP en pirosecuencias. Nat. Métodos 5, 179–181.doi:

Pandey RV, Nolte V, Boenigk J y amp Schlötterer C

. 2011 CANGS DB: una herramienta de base de datos independiente basada en la web para procesar, gestionar y analizar 454 datos en estudios de biodiversidad. BMC Res. Notas 4, 227–237.doi:

. 2011 Control de calidad y preprocesamiento de conjuntos de datos metagenómicos. Bioinformática 27, 863–864.doi:

. Kit de herramientas de control de calidad de NGS 2012: un kit de herramientas para el control de calidad de los datos de secuenciación de próxima generación. Más uno 7, e30619.doi:

Ning Z, Cox AJ y amp Mullikin JC

. 2001 SSAHA: un método de búsqueda rápida para grandes bases de datos de ADN. Genome Res. 11, 1725–1729.doi:

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G y Durbin R

, Subgrupo de procesamiento de datos del proyecto 1000 Genome. 2009 El formato de alineación / mapa de secuencia (SAM) y SAMtools. Bioinformática 25, 2078–2079.doi:

. 2012 Dinámica evolutiva de los linajes del virus de la influenza pandémica local H1N1 / 2009 revelada por el análisis del genoma completo. J. Virol. 86, 11-18. Doi:

. 2010 Tecnologías de secuenciación: la próxima generación. Nat. Rev. Genet. 11, 31–46.doi:

. 2010 El kit de herramientas de análisis del genoma: un marco mapreduce para analizar datos de secuenciación de ADN de próxima generación. Genome Res. 20, 1297–1303.doi:


Ver el vídeo: Como armar y desarmar Un CPU parte 1 (Agosto 2022).