Información

Secuenciación del genoma completo y cromosomas B

Secuenciación del genoma completo y cromosomas B



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

¿Las técnicas de secuenciación del genoma completo detectan los cromosomas B si tales cromosomas están presentes?

Mi entendimiento es el siguiente:

La forma en que se mapea el material de ADN en un cromosoma B depende del mapa de referencia y no de cómo se empaqueta el material en los cromosomas para la muestra que se secuencia.

¿Es esto correcto?


Puede usar las diferencias en la cobertura (número de lecturas que se asignan a ciertas regiones en la referencia) para inferir si hay un cromosoma B.


El análisis de la tasa de cobertura de lecturas de NGS puede proporcionar información sobre el contenido genómico del cromosoma B. Eche un vistazo al artículo que se menciona a continuación:


Valente GT y col. (2014). Origen y evolución de los cromosomas B en el pez cíclido Astatotilapia latifasciata basado en análisis genómicos integrados. Mol Biol Evol. 2014 Agosto; 31 (8): 2061-72


La figura adjunta muestra la cobertura de lecturas de Illumina para dos muestras 0B, dos 1B y una 2B. Tenga en cuenta que la figura muestra regiones genómicas específicas con una mayor cobertura de lecturas para las muestras 1B y 2B en comparación con las 0B.


Descargue e imprima este artículo para su uso personal académico, de investigación y educativo.

Compre una única edición de Ciencias por solo $ 15 USD.

Ciencias

Vol 371, número 6532
26 de febrero de 2021

Herramientas del artículo

Inicie sesión para agregar una alerta para este artículo.

Por Andrew C. Payne, Zachary D. Chiang, Paul L. Reginato, Sarah M. Mangiameli, Evan M. Murray, Chun-Chen Yao, Styliani Markoulaki, Andrew S. Earl, Ajay S. Labade, Rudolf Jaenisch, George M. Iglesia, Edward S. Boyden, Jason D. Buenrostro, Fei Chen

Un enfoque técnico permite la secuenciación y la obtención de imágenes simultáneas de genomas en fibroblastos humanos y embriones de ratón tempranos.


Papel prometedor para la secuenciación del genoma completo en la orientación del tratamiento del cáncer de sangre

imágenes falsas

Un nuevo estudio de la Facultad de Medicina de la Universidad de Washington en St. Louis muestra que la secuenciación del genoma completo es al menos tan precisa y, a menudo, mejor que las pruebas genéticas convencionales que ayudan a determinar el tratamiento de los cánceres de la sangre, como la leucemia mieloide aguda y el síndrome mielodisplásico.

Para ciertos cánceres de la sangre, como la leucemia mieloide aguda (AML) y el síndrome mielodisplásico (MDS), decidir si los pacientes necesitan un tratamiento agresivo generalmente depende de una serie de pruebas de laboratorio para identificar cambios genéticos. Algunas de estas pruebas se basan en tecnología que se inventó hace más de 60 años y se ha utilizado clínicamente durante las últimas tres décadas.

Ahora, un nuevo estudio de la Facultad de Medicina de la Universidad de Washington en St. Louis muestra que la secuenciación del genoma completo es al menos tan precisa y, a menudo, mejor que las pruebas genéticas convencionales que ayudan a determinar el tratamiento para el cáncer de sangre de un paciente. La tecnología de secuenciación del genoma está disminuyendo continuamente en costo y recientemente alcanzó un nivel similar al de las pruebas convencionales. Además, los resultados se pueden devolver a los pacientes en solo unos días, lo que hace que la secuenciación del genoma completo sea un enfoque potencialmente viable para determinar el mejor régimen de tratamiento para un paciente en particular.

El estudio aparece en la edición del 11 de marzo de The New England Journal of Medicine.

"La elección de la terapia adecuada para los pacientes con cáncer a menudo depende de identificar una variedad de diferentes tipos de cambios genéticos en las células tumorales de un paciente", dijo el autor principal David H. Spencer, MD, PhD, profesor asistente de medicina y director médico de la clínica instalación de secuenciación en el McDonnell Genome Institute. “Nuestro estudio sugiere que la secuenciación del genoma completo es un enfoque confiable y práctico para detectar todos los cambios que son importantes para evaluar el riesgo de recaída en pacientes con AML y MDS, usando una sola prueba. Este enfoque se puede realizar cuando los métodos de prueba convencionales no tienen éxito y también se puede aplicar a otros cánceres, incluidos los tumores sólidos. Esto significa que los pacientes con otros tipos de cáncer eventualmente podrían beneficiarse de la secuenciación clínica rápida del genoma ".

El estudio se centró en pacientes con AML, un cáncer de la sangre que surge en la médula ósea, y MDS, un grupo de trastornos en los que la médula ósea no produce suficientes células sanguíneas normales. A menudo, ambos son mortales, pero muchos pacientes pueden ser tratados de manera más eficaz si reciben la terapia adecuada.

Los pacientes con leucemia o MDS se dividen en tres categorías de riesgo según los resultados de las pruebas genéticas. Los pacientes de riesgo favorable generalmente se tratan solo con quimioterapia. Los pacientes con riesgo desfavorable a menudo necesitan un tratamiento más intensivo en el momento del diagnóstico, generalmente quimioterapia y un trasplante de células madre (antes llamado trasplante de médula ósea). Para los pacientes de riesgo intermedio, el enfoque de tratamiento óptimo no es tan claro y sus regímenes de tratamiento pueden variar, según el estado de salud de cada paciente, las preferencias personales y la orientación de los médicos.

Durante casi tres décadas, los pacientes han sido asignados a estas categorías de riesgo según la apariencia de sus cromosomas bajo el microscopio. Más recientemente, los médicos han comenzado a incorporar la secuenciación genética de un número limitado de genes en el análisis, pero dicha secuenciación no suele identificar todos los cambios que son importantes para orientar las decisiones de tratamiento. La secuenciación del genoma completo puede identificar cambios en los cromosomas y genes, pero rara vez se realiza fuera de los estudios de investigación debido a su costo y al tiempo que puede llevar secuenciar y analizar un genoma completo.

"Para estos tipos de cánceres de la sangre, el análisis de cromosomas convencional es una parte fundamental del trabajo de diagnóstico estándar", dijo Spencer. “Sabemos por estudios de investigación que la secuenciación del genoma completo puede detectar este tipo de anomalías cromosómicas, por lo que parte de nuestro estudio no es muy sorprendente. Lo que mostramos es que la secuenciación del genoma ha llegado a un punto en el que ahora es práctica, rápida, económica, clínicamente factible y accesible para las pruebas de rutina de los pacientes ”.

Según los investigadores, los costos técnicos de la secuenciación en este estudio fueron de aproximadamente $ 1,900 por paciente. Esta cantidad es similar al costo de laboratorio de las pruebas genéticas convencionales para un paciente con AML, que generalmente es de $ 1,000 a $ 2,000. Los cargos reales por el uso clínico de la secuenciación del genoma completo probablemente serán más altos debido a los costos adicionales asociados con la implementación de tales pruebas en un entorno de laboratorio clínico.

En el nuevo estudio, los investigadores, incluidos los coautores Eric J. Duncavage, MD, profesor de patología e inmunología, Molly C. Schroeder, PhD, profesor asistente de patología e inmunología y Timothy J. Ley, MD, Lewis T . y Rosalind B. Apple Professor of Medicine - evaluaron muestras de sangre de 263 pacientes con estos cánceres sanguíneos secuenciando los genomas completos de los pacientes, y compararon estos resultados con las pruebas genéticas tradicionales de los mismos pacientes. Los pacientes fueron tratados en Siteman Cancer Center en Barnes-Jewish Hospital y en la Facultad de Medicina de la Universidad de Washington.

Los investigadores encontraron que la secuenciación del genoma completo identificaba todas las mismas anomalías genómicas importantes que el método convencional, llamado cariotipo, y, lo que es más importante, identificó anomalías genéticas adicionales en el 17% de los casos. De los 263 pacientes, 117 eran pacientes recién diagnosticados, los otros pacientes & # 8217 las muestras se analizaron retrospectivamente. Para los pacientes recién diagnosticados, la secuenciación del genoma completo encontró información genética adicional en aproximadamente el 25% de los casos. Esta nueva información cambió la categoría de riesgo para 19 pacientes. Generalmente, cambiar la categoría de riesgo puede alterar las opciones de tratamiento de los pacientes. Los investigadores también demostraron que esta secuenciación se podía realizar con relativa rapidez, dando resultados en un promedio de cinco días, pero en tan solo tres.

Uno de los inconvenientes del cariotipo es que algunos pacientes tienen resultados no concluyentes. El cariotipo requiere una muestra que contenga células vivas y, a veces, la muestra no contiene suficientes células vivas para determinar la categoría de riesgo del paciente. La secuenciación del genoma completo, por el contrario, no requiere células vivas. Utiliza solo una pequeña muestra de ADN de las células cancerosas de un paciente. En este estudio, los investigadores encontraron que la secuenciación del genoma completo podría estratificar con precisión el riesgo de los pacientes que tenían resultados no concluyentes de los análisis tradicionales basados ​​en el cariotipo. Según los investigadores, pueden producirse resultados no concluyentes o fallos en los ensayos hasta en un 20% de los pacientes con leucemia mieloide aguda.

“Los resultados no concluyentes son extremadamente frustrantes, porque queremos poder ofrecer a los pacientes el tratamiento más adecuado al comienzo de la terapia. Aunque las pruebas genéticas limitadas son valiosas, pueden pasar por alto hallazgos importantes que a menudo son relevantes para las opciones de terapia. Hemos trabajado durante años para optimizar la secuenciación del genoma completo para que pueda usarse de forma rutinaria ”, dijo Ley, quien dirigió el equipo del McDonnell Genome Institute que secuenció el primer genoma del cáncer (de un paciente con AML) hace solo 12 años.

"La secuenciación de genomas completos del cáncer, que se realizó por primera vez aquí en la Universidad de Washington, revolucionó nuestra comprensión del cáncer y cómo se puede tratar", dijo Schroeder. “Fue emocionante trabajar en este proyecto porque demuestra que la secuenciación del genoma completo ha madurado hasta convertirse en una herramienta práctica y eficiente que es clínicamente útil para las pruebas de pacientes cuando reciben un diagnóstico de AML o MDS”.

Según Spencer, la mayoría de los pacientes cuya categoría de riesgo cambió según el enfoque del genoma completo pasaron a categorías de riesgo menos favorables. Esto sugiere que la secuenciación del genoma completo puede identificar de manera más consistente a los pacientes en la categoría de riesgo desfavorable, permitiéndoles recibir la terapia más apropiada por adelantado.

Los investigadores continuarán evaluando la secuenciación del genoma completo para pacientes con AML y MDS como parte de los ensayos clínicos. Además, se ofrecerá la secuenciación del genoma completo a los pacientes con AML y MDS tratados en Siteman Cancer Center. Para aquellos que califiquen, BJC HealthCare proporcionará los fondos para el ensayo de secuenciación del genoma completo, llamado ChromoSeq.

“Uno de los aspectos más convincentes de este estudio es que los resultados se pueden traducir inmediatamente a la atención del paciente”, dijo Duncavage. “Como colaboración con el McDonnell Genome Institute y el Departamento de Patología e Inmunología, nos complace lanzar una versión clínica de este ensayo que estará disponible para los pacientes. Estamos orgullosos de poder ofrecer secuenciación del genoma completo para pacientes con AML y MDS, y esperamos extender esto a otros cánceres muy pronto ”.

Peter Campbell, MD, PhD, dirige los estudios de secuenciación del genoma del cáncer en el Instituto Wellcome Sanger en Cambridge, Reino Unido. "Estamos en el umbral de una era en la que podemos identificar todos los cambios genéticos relevantes en el cáncer de un paciente determinado en tiempo real", dijo Campbell, que no participó en este trabajo. “Este fascinante estudio demuestra, primero, que esta tecnología se puede implementar en la práctica clínica del mundo real, y segundo, que podemos tomar decisiones más precisas de tratamientos para pacientes con cánceres de la sangre. Nuestra tarea ahora es tomar este modelo para los cánceres de la sangre y aplicarlo a todos los cánceres ".

Este trabajo fue apoyado por el National Center for Advancing Translational Sciences (NCATS), subvención número 3UL1TR002345-02S1 el Alvin J. Siteman Cancer Research Fund, subvención número 19-FY19-01 y el National Cancer Institute, subvención números R33CA217700-01 y K08CA190815 . El proyecto del programa Genomics of AML del NCI proporcionó apoyo para la obtención y anotación de muestras humanas, número de subvención P01 CA101937. Los servicios principales fueron proporcionados por el Centro de Adquisición de Tejidos del Centro Oncológico Alvin J. Siteman y el Núcleo de Recursos Compartidos de Bioestadística con el apoyo de una subvención del Centro Oncológico del NCI, número P30CA091842. La secuenciación prospectiva fue apoyada en parte por reactivos proporcionados por Illumina Inc. El personal del Laboratorio de Citogenómica y Patología Molecular, GTAC, y el Instituto del Genoma McDonnell de la Facultad de Medicina de la Universidad de Washington también contribuyeron a este proyecto.

Duncavage EJ, Schroeder MC, et al. La secuenciación del genoma como alternativa a la citogenética en las neoplasias mieloides. El diario Nueva Inglaterra de medicina. 11 de marzo de 2021.


Discusión

El genoma de la cabra es, hasta donde sabemos, el primer genoma grande que se secuencia y ensambla. de novo utilizando tecnología de mapeo de genoma completo, lo que demuestra que este enfoque se puede utilizar para obtener un ensamblaje altamente contiguo para un genoma grande sin la ayuda de mapas genéticos tradicionales. Los superandamios largos proporcionan suficiente información de grupos de ligamiento para el mapeo de genes y la reproducción asistida por marcadores, y son lo suficientemente largos como para anclarse en los cromosomas utilizando información aproximada de colinealidad de otros mamíferos estrechamente relacionados cuyos genomas completos están disponibles. Planeamos actualizar el ensamblaje del genoma de la cabra a medida que estén disponibles los mapas híbridos de radiación para todos los cromosomas.

La secuencia del genoma de la cabra será útil para mapear las lecturas obtenidas mediante la resecuenciación de más razas de cabras, lo que facilitará la identificación de marcadores SNP para la reproducción asistida por marcadores genómicos. Hasta donde sabemos, la cabra es el primer pequeño rumiante cuyo genoma ha sido secuenciado. El genoma de la cabra debería ser útil para comprender las características genómicas que distinguen a los rumiantes de las especies no rumiantes. También será útil para mejorar la utilidad de la cabra como modelo biomédico y biorreactor. Además, los genes que identificamos que están relacionados con la producción de fibra de cachemira podrían usarse como marcadores para criar mejores cabras de cachemira, o pueden ser objetivos potenciales para la manipulación genética o no genética.


Discusión

Los marcadores moleculares, como las repeticiones de secuencia simple (SSR), indels y SNP, pueden, por primera vez, desarrollarse para diversas aplicaciones en el ñame de Guinea, incluido el mapeo de ligamiento, análisis de asociación de todo el genoma, selección genómica y MAS. Ya hemos analizado las secuencias que contienen motivos SSR en el genoma e identificado más de 22.000 candidatos que se pueden utilizar para diseñar cebadores (archivo adicional 1: Tabla S19). Diseñamos pares de cebadores para 1000 de estas secuencias y obtuvimos la información necesaria para su uso inmediato en análisis genéticos (archivo adicional 13). Marcadores SSR aislados de uno Dioscorea las especies se pueden transferir a otras especies [30]. Desde un punto de vista práctico del fitomejoramiento, el marcador ligado al sexo sp16 debería resultar útil para seleccionar plántulas para el cruce, lo que ahorra sustancialmente el espacio y la mano de obra necesarios para cultivar plantas y acelera los programas de mejoramiento. Sin embargo, el sistema de determinación del sexo puede variar entre Dioscorea especies (ver a continuación), por lo que la transferibilidad de los marcadores de ADN ligados al sexo de D. rotundata a otras especies debería abordarse en estudios futuros.

Nuestra identificación del locus que sustenta un rasgo importante por QTL-seq, utilizando la progenie F1 derivada de padres altamente heterocigotos, abre nuevas vías para el mapeo basado en WGS de rasgos importantes en cultivos y especies de árboles para los cuales las líneas endogámicas son difíciles de obtener y / o los tiempos de generación son demasiado largos, lo que impide el uso de enfoques de análisis de vinculación convencionales.

El desarrollo de marcadores de ADN vinculados a características agronómicamente importantes y su uso para MAS aumentan el papel que desempeña el ñame para garantizar la seguridad alimentaria de los hogares de escasos recursos en África y más allá. los D. rotundata Las secuencias del genoma descritas aquí también deberían contribuir a comprender el origen del ñame de Guinea y su domesticación a partir de sus especies progenitoras silvestres, que están ampliamente distribuidas en África occidental y central.

Nuestros resultados sugieren que el sistema de determinación del sexo del ñame de Guinea implica heterogamia femenina (macho = ZZ, hembra = ZW). Identificamos dos marcadores de ADN, sp1 (ligado a la supuesta región ligada a Z) y sp16 (presumiblemente ubicado dentro de la supuesta región ligada a W, que en TDr96_F1 se presume que es ZW, y abarca solo 161 kb). Los cromosomas que llevan las regiones unidas a Z y W probablemente no estén fuertemente diferenciados, y las secuencias divergentes correspondientes a los cromosomas Z y W no se recuperaron en nuestro genoma de referencia. El trabajo futuro debería probar las diferencias estructurales, como las inversiones, entre las regiones vinculadas a Z y W. Sin embargo, la determinación del sexo del ñame de Guinea no es un sistema genético simple. La masculinidad constante de los individuos con el genotipo ZZ, basada en la secuencia sp16, frente a la masculinidad ocasional de los individuos ZW, sugiere que la masculinidad es el fenotipo predeterminado y que el alelo W es dominante sobre Z y puede, pero no siempre, suprime el órgano masculino. desarrollo y feminización de la flor. Si la función feminizante del alelo W falla en un subconjunto de flores, el individuo será monoico. Los individuos con ZW pueden cambiar de sexo con el tiempo (Fig. 7), lo que indica que la función de supresión de Z puede verse afectada por el entorno. La autopolinización entre flores masculinas y femeninas de plantas monoicas ZW podría ser posible, lo que podría permitir la generación de líneas endogámicas, permitiendo la fijación de los alelos deseados de características agronómicamente importantes. Sin embargo, para que sea práctico, es posible que tengamos que monitorear cuidadosamente el nivel de depresión endogámica en D. rotundata. La dioecia es la norma en Dioscorea especies, e informes anteriores sugieren que los machos suelen ser del sexo heterogamético (XY) en el género [31, 32]. Un estudio genético de D. tokoro también confirmó un sistema masculino XY [19]. D. tokoro pertenece a la sección Stenophora, que está relacionada lejanamente con la sección Enantiophyllum, que contiene D. rotundata [3]. Nuestros datos sugieren que el sistema de determinación del sexo ha cambiado dentro del género durante la evolución, lo que podría ser un tema interesante para estudios futuros. Una vez el D. rotundata Se ha aislado el gen de determinación del sexo, su comparación con otra especie de monocotiledónea dioica como Espárragos, para el que se ha aislado recientemente el gen de determinación del sexo [33], sería interesante.


La secuenciación del genoma es el método para evaluar la secuencia del ácido nucleico (macromoléculas que se encuentran en todas las células y virus), el orden de los nucleótidos (el bloque de construcción básico de los ácidos nucleicos) en el ADN. Es útil para determinar el orden de los 4 compuestos biológicos del ADN que contienen nitrógeno: adenina (A), guanina (G), citosina (C) y timina (T).


Secuenciación del genoma completo y cromosomas B - Biología

Las secuencias del genoma de organismos no modelo se están acumulando a un ritmo sin precedentes.

La expansión de las familias de genes y la selección positiva son la base de la evolución adaptativa.

La resecuenciación del genoma completo revela demografía, adaptación local y especiación.

Las tecnologías de secuenciación de alto rendimiento están revolucionando las ciencias de la vida. Los últimos 12 meses han visto un estallido de secuencias del genoma de organismos no modelo, en cada caso representando una fuente fundamental de datos de gran importancia para la investigación biológica. Esto tiene relación con varios aspectos de la biología evolutiva, y ahora estamos comenzando a ver patrones que emergen de estos estudios. Estos incluyen una heterogeneidad significativa en la tasa de recombinación que afecta la evolución adaptativa y la composición de la base, el papel del tamaño de la población en la evolución adaptativa y la importancia de la expansión de las familias de genes en la adaptación específica del linaje. Además, la resecuenciación de muestras de población (genómica de poblaciones) ha permitido identificar la base genética de fenotipos críticos y arrojar luz sobre el panorama de la divergencia genómica durante la especiación.


2 métodos principales para secuenciar el genoma | Genética

Los genetistas utilizan los siguientes dos métodos para secuenciar los genomas: 1. Método de clonación por clon 2. Clonación de escopeta.

Método n. ° 1. Método de clonación por clonación:

Este método fue el primero en ser desarrollado. Comienza con la construcción de bibliotecas genómicas de fragmentos de restricción que cubren todo el ADN genómico (o clones genómicos) de un organismo. Mediante el uso de marcadores genéticos, los clones superpuestos se ensamblan en mapas genéticos y físicos que abarcan todo el genoma.

La secuencia de nucleótidos se determina clon por clon hasta que se secuencia el genoma completo. El método clon por clon fue elegido para el proyecto Genoma Humano financiado con fondos públicos patrocinado por los Institutos Nacionales de Salud y el Departamento de Energía (EE. UU.).

Método # 2. Clonación de escopeta:

En este método, se preparan bibliotecas genómicas y se secuencian clones seleccionados al azar hasta que se analizan todos los clones de la biblioteca. El software Assembler organiza la información de la secuencia de nucleótidos en una secuencia del genoma.

Este método, desarrollado por Craig Venter y sus colegas en el Instituto de Investigación del Genoma (TIGR), se utilizó para secuenciar el genoma de la bacteria Haemophilus influenzae en 1995, el primer organismo en tener su genoma completamente secuenciado.

Después de refinar el método y usarlo para secuenciar los genomas de otros procariotas, se usó el método de escopeta para secuenciar genomas eucariotas, incluidos Drosophila y humanos. Usando el método de la escopeta, venter y sus colegas comenzaron un proyecto de genoma humano financiado con fondos privados. El proyecto comenzó en septiembre de 1999 y la secuencia finalizó en junio de 2000.

En febrero de 2001, cuando se publicaron las conclusiones del borrador de la secuencia humana, se encontraron secuencias completas de genomas de 599 virus y viroides, 205 plásmidos naturales, 185 orgánulos, 31 eubacterias, 7 arqueas (bacterias), un hongo, dos animales y una planta. volverse disponible.

Una vez que la secuencia de bases completa de un genoma está disponible, los científicos pueden comenzar a interpretar la información total contenida en el genoma, esto se denomina genómica funcional. Por tanto, la genómica funcional implica la determinación de las funciones de cada proteína codificada por el genoma. La secuencia de aminoácidos de una proteína puede dar una pista de su supuesta función basándose en la similitud con proteínas ya conocidas.


17.3 Secuenciación del genoma completo

Al final de esta sección, podrá hacer lo siguiente:

Aunque ha habido avances significativos en las ciencias médicas en los últimos años, los médicos todavía están confundidos por algunas enfermedades y están utilizando la secuenciación del genoma completo para descubrir la raíz del problema. La secuenciación del genoma completo es un proceso que determina la secuencia de ADN de un genoma completo. La secuenciación del genoma completo es un enfoque de fuerza bruta para la resolución de problemas cuando existe una base genética en el centro de una enfermedad. Varios laboratorios ahora brindan servicios para secuenciar, analizar e interpretar genomas completos.

Por ejemplo, la secuenciación del exoma completo es una alternativa de menor costo a la secuenciación del genoma completo. En la secuenciación del exoma, el médico secuencia solo las regiones productoras de exones que codifican el ADN. En 2010, los médicos utilizaron la secuenciación de todo el exoma para salvar a un niño cuyos intestinos tenían múltiples abscesos misteriosos. El niño tuvo varias operaciones de colon sin alivio. Finalmente, realizaron la secuenciación del exoma completo, que reveló un defecto en una vía que controla la apoptosis (muerte celular programada). Los médicos utilizaron un trasplante de médula ósea para superar este trastorno genético, lo que condujo a una cura para el niño. Fue la primera persona en recibir un tratamiento exitoso basado en un diagnóstico de secuenciación del exoma completo. Hoy en día, la secuenciación del genoma humano está más disponible y los resultados están disponibles en dos días por alrededor de $ 1000.

Estrategias utilizadas en proyectos de secuenciación

La técnica de secuenciación básica utilizada en todos los proyectos de secuenciación modernos es el método de terminación de cadena (también conocido como método didesoxi), que Fred Sanger desarrolló en la década de 1970. El método de terminación de cadena implica la replicación del ADN de una plantilla monocatenaria mediante el uso de un cebador y un desoxinucleótido regular (dNTP), que es un monómero, o una sola unidad de ADN. El cebador y el dNTP se mezclan con una pequeña proporción de didesoxinucleótidos marcados con fluorescencia (ddNTP). Los ddNTP son monómeros a los que les falta un grupo hidroxilo (–OH) en el sitio en el que normalmente se une otro nucleótido para formar una cadena (Figura 17.13). Los científicos etiquetan cada ddNTP con un color diferente de fluoróforo. Cada vez que un ddNTP se incorpora a la hebra complementaria en crecimiento, finaliza el proceso de replicación del ADN, lo que da como resultado múltiples hebras cortas de ADN replicado que cada una termina en un punto diferente durante la replicación. Cuando la electroforesis en gel procesa la mezcla de reacción después de separarla en cadenas simples, las múltiples cadenas de ADN recién replicadas forman una escalera debido a los diferentes tamaños. Debido a que los ddNTP están marcados con fluorescencia, cada banda del gel refleja el tamaño de la hebra de ADN y el ddNTP que terminó la reacción. Los diferentes colores de los ddNTP marcados con fluoróforo ayudan a identificar el ddNTP incorporado en esa posición. La lectura del gel sobre la base del color de cada banda en la escalera produce la secuencia de la hebra de la plantilla (Figura 17.14).

Estrategias tempranas: secuenciación de escopeta y secuenciación de extremos por parejas

En el método de secuenciación de escopeta, varias copias de fragmentos de ADN se cortan aleatoriamente en muchas piezas más pequeñas (algo así como lo que le sucede a un cartucho de bala redonda cuando se dispara con una escopeta). Todos los segmentos se secuencian utilizando el método de secuenciación en cadena. Luego, con la ayuda de una computadora de secuencia, los científicos pueden analizar los fragmentos para ver dónde se superponen sus secuencias. Al hacer coincidir las secuencias superpuestas al final de cada fragmento, los científicos pueden reformar toda la secuencia de ADN. Una secuencia más grande que se ensambla a partir de secuencias más cortas superpuestas se llama contig. Como analogía, considere que alguien tiene cuatro copias de una fotografía de paisaje que nunca ha visto antes y no sabe nada sobre cómo debería aparecer. Luego, la persona rasga cada fotografía con sus manos, de modo que de cada copia estén presentes piezas de diferentes tamaños. Luego, la persona mezcla todas las piezas y le pide que reconstruya la fotografía. En una de las piezas más pequeñas ves una montaña. En una pieza más grande, ves que la misma montaña está detrás de un lago. Un tercer fragmento muestra solo el lago, pero revela que hay una cabaña en la orilla del lago. Por lo tanto, al observar la información superpuesta en estos tres fragmentos, sabrá que la imagen contiene una montaña detrás de un lago que tiene una cabaña en su orilla. Este es el principio detrás de la reconstrucción de secuencias de ADN completas mediante secuenciación de escopeta.

Originalmente, la secuenciación de escopeta solo analizaba un extremo de cada fragmento en busca de superposiciones. Esto fue suficiente para secuenciar pequeños genomas. Sin embargo, el deseo de secuenciar genomas más grandes, como el de un humano, llevó al desarrollo de la secuenciación de escopeta de doble cañón, o secuenciación por pares. En la secuenciación de extremos por pares, los científicos analizan el final de cada fragmento en busca de superposición. La secuenciación por pares es, por lo tanto, más engorrosa que la secuenciación rápida, pero es más fácil reconstruir la secuencia porque hay más información disponible.

Secuenciación de próxima generación

Desde 2005, las técnicas de secuenciación automatizada utilizadas por los laboratorios están bajo el paraguas de la secuenciación de próxima generación, que es un grupo de técnicas automatizadas utilizadas para la secuenciación rápida de ADN. Estos secuenciadores automatizados de bajo costo pueden generar secuencias de cientos de miles o millones de fragmentos cortos (de 25 a 500 pares de bases) en el lapso de un día. Estos secuenciadores utilizan un software sofisticado para superar el engorroso proceso de poner todos los fragmentos en orden.

Conexión Evolution

Comparación de secuencias

Una alineación de secuencia es una disposición de proteínas, ADN o ARN. Los científicos lo usan para identificar regiones similares entre tipos de células o especies, lo que puede indicar la función o conservación de la estructura. Podemos usar alineaciones de secuencia para construir árboles filogenéticos. El siguiente sitio web utiliza un programa de software llamado BLAST (herramienta básica de búsqueda de alineación local).

En "Explosión básica", haga clic en "Explosión de nucleótidos". Ingrese la siguiente secuencia en el cuadro grande "secuencia de consulta": ATTGCTTCGATTGCA. Debajo del cuadro, ubique el campo "Especies" y escriba "humano" o "Homo sapiens". Luego, haga clic en "BLAST" para comparar la secuencia ingresada con las secuencias conocidas del genoma humano. El resultado es que esta secuencia ocurre en más de cien lugares del genoma humano. Desplácese hacia abajo debajo del gráfico con las barras horizontales y verá una breve descripción de cada uno de los resultados coincidentes. Elija uno de los resultados cerca de la parte superior de la lista y haga clic en "Gráficos". Esto lo llevará a una página que muestra la ubicación de la secuencia dentro de todo el genoma humano. Puede mover el control deslizante que parece una bandera verde hacia adelante y hacia atrás para ver las secuencias inmediatamente alrededor del gen seleccionado. A continuación, puede volver a la secuencia seleccionada haciendo clic en el botón "ATG".

Uso de secuencias de genoma completo de organismos modelo

El bioquímico británico y premio Nobel Fred Sanger utilizó un virus bacteriano, el bacteriófago fx174 (5368 pares de bases), para secuenciar completamente el primer genoma. Más tarde, otros científicos secuenciaron varios otros orgánulos y genomas virales. El biotecnólogo, bioquímico, genetista y empresario estadounidense Craig Venter secuenció la bacteria Haemophilus influenzae en la década de 1980. Aproximadamente 74 laboratorios diferentes colaboraron en la secuenciación del genoma de la levadura Saccharomyces cerevisiae, que comenzó en 1989 y se completó en 1996, porque era 60 veces más grande que cualquier otra secuenciación del genoma. En 1997, las secuencias del genoma de dos organismos modelo importantes estaban disponibles: la bacteria Escherichia coli K12 y la levadura Saccharomyces cerevisiae. Ahora conocemos los genomas de otros organismos modelo, como el ratón. Mus musculus, la mosca de la fruta Drosophila melanogaster, el nematodo Caenorhabditis. elegansy humanos Homo sapiens. Los investigadores realizan una extensa investigación básica en organismos modelo porque pueden aplicar la información a organismos genéticamente similares. Un organismo modelo es una especie que los investigadores utilizan como modelo para comprender los procesos biológicos en otras especies que representa el organismo modelo. Tener genomas completos secuenciados ayuda con los esfuerzos de investigación en estos organismos modelo. El proceso de adjuntar información biológica a las secuencias de genes es la anotación del genoma. Anotar secuencias de genes ayuda con experimentos básicos en biología molecular, como el diseño de cebadores de PCR y dianas de ARN.

Enlace al aprendizaje

Haga clic en cada paso de secuenciación del genoma en este sitio.

Usos de la secuencia del genoma

Los microarrays de ADN son métodos que los científicos utilizan para detectar la expresión génica mediante el análisis de diferentes fragmentos de ADN que se fijan a un portaobjetos de vidrio o un chip de silicio para identificar genes y secuencias activos. Podemos descubrir casi un millón de anomalías genotípicas utilizando microarrays, mientras que la secuenciación del genoma completo puede proporcionar información sobre los seis mil millones de pares de bases del genoma humano. Aunque es interesante estudiar las aplicaciones médicas de la secuenciación del genoma, esta disciplina se centra en la función anormal de los genes. Conocer todo el genoma permitirá a los investigadores descubrir temprano enfermedades de aparición futura y otros trastornos genéticos. Esto permitirá tomar decisiones más informadas sobre el estilo de vida, la medicación y tener hijos. La genómica aún está en su infancia, aunque algún día puede convertirse en una rutina utilizar la secuenciación del genoma completo para examinar a cada recién nacido y detectar anomalías genéticas.

Además de las enfermedades y la medicina, la genómica puede contribuir al desarrollo de enzimas novedosas que convierten la biomasa en biocombustible, lo que da como resultado una mayor producción de cultivos y combustibles y un menor costo para el consumidor. Este conocimiento debería permitir mejores métodos de control sobre los microbios que utiliza la industria para producir biocombustibles. La genómica también podría mejorar los métodos de monitoreo que miden el impacto de los contaminantes en los ecosistemas y ayudan a limpiar los contaminantes ambientales. Genomics has aided in developing agrochemicals and pharmaceuticals that could benefit medical science and agriculture.

It sounds great to have all the knowledge we can get from whole-genome sequencing however, humans have a responsibility to use this knowledge wisely. Otherwise, it could be easy to misuse the power of such knowledge, leading to discrimination based on a person's genetics, human genetic engineering, and other ethical concerns. This information could also lead to legal issues regarding health and privacy.


Sequencing methods: from genes to genomes

In 1944 Canadian-born American bacteriologist Oswald Avery and colleagues recognized that the hereditary material passed from parent to offspring was DNA. Subsequent genetic analyses carried out by other scientists on viruses, bacteria, yeast, fruit flies, and nematodes demonstrated that the intentional induction of mutations that disrupted the genetic code, combined with the analysis of observable traits (phenotypes) produced by such mutations, were important approaches to the study of gene function. Such studies, however, were able to query only a fraction of genes in a genome.

The first sequencing methods (the Maxam-Gilbert and Sanger methods), developed in the 1970s, were deployed to reveal the nucleic acid composition of individual genes and the relatively small genomes of certain viruses. The sequencing of larger genomes remained out of reach conceptually, because of high costs and the effort required, until the launch of the Human Genome Project (HGP) in 1990 in the United States. Although the project was not universally embraced, some recognized that technology had evolved to the point where whole genome sequencing of larger genomes could be considered realistically. Particularly important was the development of automated sequencing machines that employed fluorescence instead of radioactive decay for the detection of the sequencing reaction products. Automation offered new possibilities for scaling up the production of DNA sequencing to tackle large genomes.

An early aim of the HGP was to obtain the whole genome sequences of important experimental model organisms, such as the yeast Saccharomyces cerevisiae, the fruit fly Drosophila melanogaster, and the nematode Caenorhabditis elegans. In sequencing those smaller and therefore more-tractable genomes, three outcomes were anticipated. First, the sequences would be of value to the research community, serving to accelerate efforts to understand gene function by using model systems. Second, the experience gained would inform approaches to sequencing the human genome and other similarly sized genomes. Third, functional relationships between sequences of different organisms would be revealed as a consequence of cross-species sequence similarity. Ultimately, with the involvement of more than one thousand scientists worldwide, two human genome sequences were published in 2001. With this development came established methods and analytic standards that were used to sequence other large genomes.

A major challenge for de novo sequencing, in which sequences are assembled for the very first time (such as with the HGP), is the production of individual DNA reads that are of sufficient length and quality to span common repetitive elements, which are a general property of complex genome sequences and a source of ambiguity for sequence assembly. In many of the early de novo whole genome sequencing projects, emphasis was placed on the production of so-called reference sequences, which were of enduring high quality and would serve as the foundation for future experimentation.

An important approach used by many projects that sequenced large genomes involved hierarchical shotgun sequencing, in which segments of genomic DNA were cloned (copied) and arranged into ordered arrays. Those ordered arrays were known as physical maps, and they served to break large genomes into thousands of short DNA fragments. Those short fragments were then aligned, such that identical sequences overlapped, thereby enabling the fragments to be linked together to yield the full-length genomic sequence. The fragments were relatively easy to manipulate in the laboratory, could be apportioned among collaborating laboratories, and were amenable to the detailed error-correction exercises important in generating the high-quality reference sequences sought by HGP scientists. Some genome projects were conducted without the use of such maps, using instead an approach called whole genome shotgun sequencing. This approach avoided the time and expense needed to create physical maps and provided more-rapid access to the DNA sequence.

Whether using physical maps or the whole genome shotgun sequencing approach, the sequencing exercise involved randomly fragmenting either cloned (copied) or native genomic DNA into very short segments that could then be inserted into bacterial cells as plasmids for amplification, producing many copies of the segments, prior to nucleic acid purification and sequence analysis. In a process known as assembly, computer programs were then used to stitch the sequences back together to reconstruct the original DNA sequencing target. Assembly of whole genome shotgun sequencing data was difficult and required sophisticated computer programs and powerful supercomputers, and, even in the years following the completion of the HGP, whole genome shotgun sequence assembly remained a significant challenge for whole genome sequencing projects.


Resultados

Improvement of amaranth genome assembly

The previously published amaranth genome assembly was created with the ALLPATHS-LG assembler [31] using Illumina short-read technology, producing an assembly of 3518 scaffolds (13,462 contigs) spanning 376.4 Mb, with a scaffold N50 of 371 kb [23] (Fig. 1, Table 1). To improve this short-read assembly (SRA1), we generated 238 million Hi-C-based PE reads and used them to scaffold SRA1 with Proximo TM (Phase Genomics), an adapted proximity-guided assembler based on the ligating adjacent chromatin enables scaffolding in situ (LACHESIS) assembler [25]. Proximo clustered 92.1% (3240) of the short-read scaffolds, representing 99.6% (375.2 Mb) of the total input sequence length, onto 16 large pseudomolecules to produce a substantially improved proximity-guided assembly (PGA1) (Fig. 1, Table 1, Additional file 1: Table S1). These 16 large pseudomolecules presumably represent each of the 16 haploid chromosomes of amaranth. The number of scaffolds clustered to specific chromosomes ranged from 152 to 280, and the length of the chromosomes ranged from 15.9 to 35.9 Mb. A total of 16,873 gaps, spanning 12.3 Mb of sequence length, were present in PGA1.

Outline of the assembly process. Hi-C data were used to scaffold the original ALLPATHS-LG assembly (SRA1) to produce the first proximity-guided assembly (PGA1). Gaps within PGA1 were filled using PacBio long reads with PBJelly and polished with Quiver and Pilon to produce PGA1.5. This gap-filled assembly was then broken at sequence gaps, rescaffolded with the Hi-C data, gap-filled with PBJelly, and polished with Quiver and Pilon to produce the final assembly (PGA2). To illustrate the utility of the Hi-C data, SRA1 was also combined with the PacBio data alone (without Hi-C data) to produce the hybrid assembly APS1. Summary statistics are provided in cajas next to each assembly, and the improvements of PGA1 and PGA2 relative to the input assemblies are provided in rojo y blue boxes, respectivamente. sN50 y sL50 denote the scaffold N50 size and length, respectively. HQ indicates the number or length of scaffolds that were determined to have high quality clustering and orientation within the assembly

To close gaps in PGA1, we generated 13.6 Gb of single-molecule, real-time sequences (PacBio). The mean length of these reads was 5706 bp (N50 = 11,027 bp), equating to approximately 31× coverage of the predicted amaranth genome size [23]. The PacBio reads were aligned to PGA1 using PBJelly2 [32], and the assembly was further polished with Quiver [33] and Pilon [34] to produce PGA1.5 (Fig. 1, Table 1). Together, these programs closed 14,112 (84%) sequence gaps while increasing the total length of the assembly to 400.9 Mb (6.4% increase), with a new total gap length of 582 kb. The polished assembly consisted of 2207 contigs arranged into 287 scaffolds, with a substantially improved N50 for both contig and scaffold lengths (648 kb and 24.7 Mb, respectively) (Fig. 1, Table 1). The largest 16 scaffolds increased only slightly in size, ranging in size from 17.1 to 38.0 Mb and representing 99.4% of the total assembly length. The remaining 271 scaffolds, which were unassigned to chromosomes, represented only 2.3 Mb (0.6%) of the total sequence in the assembly.

To improve contiguity and accuracy in our final assembly, and to assess the accuracy of PGA1 and PGA1.5, we produced a second proximity-guided assembly (PGA2) (Fig. 1, Table 1). PGA2 was produced by breaking the polished PGA1.5 scaffolds at all gap positions followed by de novo reassembly into 16 chromosomes using Proximo and PBJelly2 with the original Hi-C data and PacBio long reads, respectively. The assembly was then further polished using Quiver and Pilon (Fig. 1, Table 1). The final PGA2 has a scaffold N50 of 24.4 Mb and consists of 908 scaffolds, including 16 large chromosomes representing 98.0% of the total sequence length. The 16 chromosomes ranged in size from 17.0 to 38.1 Mb (Fig. 2). The total sequence length of the assembly spanned 403.9 Mb, representing 93.5% of the predicted genome size. The 892 scaffolds that remain unintegrated into a chromosome are small (N50 = 14.5 kb) and represent approximately 2% of the total assembly length, with one scaffold (C177) being substantially larger than the rest, spanning 1.09 Mb. The contig N50 of the final assembly is 1.25 Mb, and only 771 gaps are present in the assembly.

Completeness of the chromosome-scale (PGA2) assembly. For each of the 16 chromosomes, the panel superior indicates the density of genes (azul) and putative centromeric repeats (rojo). Red tick marks sobre el left-hand side indicate the y-axis scale for the centromeric repeats, and blue tick marks sobre el right-hand side indicate the scale for gene density. Gene density values are scaled relative to centromeric repeat values such that the first azul y red ticks are 0 while subsequent blue ticks represent the value of the corresponding sequential red tick (i.e., the second blue tick for Chr1 has a value of 5.0e-08). Gray asterisks in plots for Chr1, Chr5, Chr6, and Chr10 represent the approximate positions of mapped single nucleotide polymorphisms (SNPs) from contigs 343, 177, 833, and 747, respectively, which were not assembled into the pseudomolecules. Red boxes en el middle panel represent 1-Mb bins containing regions categorized as being telomeric. En el panel inferior, the genetic position of mapped markers is plotted as a function of physical distance

The value of incorporating PacBio long reads into our genome assembly strategy is evident when comparing PGA1 and PGA2 (Fig. 1, Table 1). PGA1 was produced by Proximo scaffolding of SRA1, while PGA2 was produced by scaffolding PGA1 with PacBio long reads followed by a second round of Proximo scaffolding. PGA2 has a slightly improved scaffold N50 relative to PGA1, covers an extra 27.2 Mb, and also has substantially fewer gaps (771) than PGA1 (16,873), suggesting that the addition of PacBio long reads was highly successful in closing gaps in the fragmented initial assembly.

To assess the value of Hi-C-based scaffolding relative to scaffolding with only PacBio long reads, we assembled the PacBio reads together with the ALLPATHS-based SRA1 scaffolds using the hybrid assembler SSPACE-LongRead [35] and PBJelly2 to produce the APS1 assembly (Fig. 1, Table 1). Relative to the Hi-C improved PGA2, the APS1 assembly was similar in total length (spanning 400.9 Mb) and number of scaffolds (1184). However, the N50 of the APS1 assembly scaffolds was dramatically smaller (1.1 Mb), as was the contig N50 (369 kb), suggesting that the Hi-C data markedly enhanced the scaffolding, which facilitated improved gap closing of PGA2. Together, these results demonstrate the utility of combining Hi-C and PacBio data for optimal scaffolding and gap filling.

Assembly validation

The quality of the assemblies was assessed by several methods, namely, (1) assessment of contig placement and orientation likelihood in PGA1 and PGA2 after proximity-guided assembly (2) recall statistics to compare sequence placement before (PGA1.5) and after (PGA2) proximity-guided assembly (3) comparison of BioNano physical maps with PGA2 and (4) comparison of PGA2 with a newly developed linkage map from high-density GBS data.

Contigs within PGA1 and PGA2 were given a quality score for order and orientation based on the differential log-likelihood of the orientation of a given contig having produced the observed log-likelihood, relative to its neighbors. A contig orientation was termed high quality if its placement and orientation relative to neighbors was 100 times more likely than alternatives [25]. Of the clustered and orientated scaffolds in PGA1, 1023 scaffolds were designated as high quality (HQ), representing 84.5% (316.9 Mb) of the total assembly sequence length (Fig. 1). Meanwhile, 1148 scaffolds representing 91.3% (358.3 Mb) of the clustered and orientated scaffolds in PGA2 were designated as HQ (Fig. 1), indicating the increased accuracy of PGA2.

We further investigated the placement of scaffolds in PGA2 by comparing PGA2 and PGA1.5. When PGA1.5 was broken into 3048 contigs for de novo proximity-guided assembly to produce PGA2 (Fig. 1), 2688 contigs (88.2%), spanning 396.1 Mb (99.0%) of the total input sequence length, were clustered onto the 16 chromosomes of PGA2. Of the clustered contigs, 2149 (80.0%), representing 99.1% of the total sequence length, were ordered and oriented, including 1148 HQ contigs. The mean contig size of the 539 contigs that could be assigned to a chromosome but failed to be ordered/oriented was 6.4 kb. This small contig size likely contributed to the inability of the proximity-guided assembler to confidently place the contigs within the framework of the chromosomes due to the low number of interactions on a short contig and also the inability to discern interaction distance differences over the short molecule. Similarly, the 360 contigs that could not be assigned to a chromosome were also small (mean size of 11.6 kb) and often contained highly repetitive DNA sequences. Thus, our comparison of PGA1.5 and PGA2 indicated that 98% of the sequence clustered to the same chromosome and that 93% and 95% have identical ordering and orientation within chromosomes, respectively — confirming the accuracy of the scaffolding by Proximo. It is not possible to determine the true order/orientation of those sequences with placement discrepancies nonetheless, considering the increase in HQ confidence placement from PGA1 (84.5%) to PGA2 (91.3%), it is likely that the placement and orientation in PGA2 are more correct.

Using BioNano molecules with a minimum length of 150 kb and a minimum of nine labels per molecule, we produced 427 physical maps of the amaranth genome that spanned 315 Mb with an N50 of 914 kb. These physical maps were aligned to the amaranth assemblies, with 74% (315), 79% (339), and 86% (365) of the maps unambiguously aligning to the SRA1, PGA1, and PGA2, respectively. The increased number of physical maps aligning to PGA2 is suggestive of an accurate and improved assembly of the amaranth genome. The lack of perfect agreement was not unexpected, especially when considering that some of the sequence assembly is still missing (the anticipated genome size is 431.8 Mb) and that the BioNano physical maps are themselves the product of a de novo assembly process with an inherent level of assembly errors.

The relationship between the physical position of single nucleotide polymorphisms (SNPs) within PGA2 and the linkage position of the same SNPs in a newly developed high-density GBS linkage map (Additional file 2: Figure S1) was investigated. We genotyped a total of 3522 SNPs in a population of 91 segregating recombinant inbred lines (RILs). The number of SNPs per chromosome ranged from 351 for chromosome 1 (Chr1) to 131 for Chr16, averaging 218 per chromosome (Additional file 3: Table S2). Using PGA2 as a reference for genotype calling provided a nucleotide position for each SNP within the linkage map. Of the 3522 total SNPs, only 28 (0.80%) did not group to the linkage group corresponding to their predicted physical chromosome (logarithm of the odds, LOD > 7.0), and another 12 (0.34%) failed to group with any linkage group. Grouped SNPs were then ordered and the linkage positions compared to their physical positions within their respective chromosomes (Fig. 2). Collinearity of the linkage map and the physical map was evident for all chromosome/linkage group comparisons, indicating that the linkage order of the SNPs was highly correlated with physical order (r = 0.96) along the chromosome.

PGA2 includes 892 contigs that were not assigned to a chromosome with the Hi-C data. With the exception of contig C177, which spans slightly more than 1 Mb, these contigs are quite small (average size = 9.1 kb). To place C177 within the context of the chromosomes, we identified seven segregating SNPs spanning the length of the contig. When included in the linkage map, these SNPs map as a single contiguous group to the proximal end of Chr5 (Fig. 2). Of the remaining unassigned contigs, we identified and mapped three SNPs in contig C343 (1.4 kb) and one each on C833 (10.3 kb) and C747 (125.0 kb), which placed the contigs on Chr1, Chr6, and Chr10, respectively (Fig. 2). Together these contigs span 1.2 Mb, representing slightly more than 15% of the total unassigned sequence, leaving only 1.7% of the total sequence length unassigned to a specific amaranth chromosome.

Genome annotation

RepeatModeler and RepeatMasker indicated that 48% (194.4 Mb) of PGA2 was classified as repetitive, with another 3.6% (14.7 Mb) classified as low complexity (including satellite, simple repeat, and small nuclear RNA) (Additional file 4: Table S3). Of the repeat fraction, 95.8 Mb were classified as retrotransposons or DNA transposons, leaving 98.5 Mb classified as unknown. The most common classified repetitive elements were long terminal repeat retrotransposons, including Copia-like (28.0 Mb) and gitano-like (19.4 Mb) elements. The most common DNA transposon was a TcMar-Stowaway-like element, representing 7.5 Mb (1.84%) of the amaranth genome.

PGA2 was annotated with the MAKER annotation pipeline using as evidence a deeply sequenced RNA transcriptome consisting of 65,947 transcriptome scaffolds [23], the translated RefBeet-1.1 gene index from Beta vulgaris (beet), and the uniprot_sprot database. The MAKER pipeline identified a total of 23,847 gene predictions, which is an increase of 788 genes relative to the annotation of SRA1 [23]. The mean transcript length was 1385 bp, with a mean annotation edit distance (AED) measure of 0.16. AED integrates measurements of sensitivity, specificity, and accuracy to calculate annotation quality. AED values < 0.25 are indicative of high quality annotations [36]. The completeness of the gene space defined by the annotation was quantified using a large core set of highly conserved plant-specific single-copy orthologs [37]. Of the 956 plant-specific orthologs, 917 (96%) were identified in the assembly, of which 894 (94%) were considered complete, suggesting a high quality genome assembly.

Genomic features of PGA2

Regions of reduced recombination relative to physical distance are evident on the linkage groups (Fig. 2), presumably corresponding to the physical locations of concentrated heterochromatin within the genome, such as in centromeres, telomeres, or satellites. Indeed, recombination is often suppressed in centromeres [38], with estimates of crossover suppression ranging from fivefold to greater than 200-fold depending on the organism [39]. Further supporting this assumption is the observation that gene density in these regions is substantially reduced (Fig. 2), which is a well-documented feature of the centromere [40, 41]. Centromeres in most plant species are dominated by a single monomeric satellite repeat tandemly arranged in megabase-sized arrays — making them the most common repeat found in the genome. Centromeric repeat sequences are highly diverse among plant species, with the only commonality being that most share a unit length ranging between 150 and 180 bp, which is close to the size of the nucleosome unit [42]. Using the method of Melters et al. [43], we identified a high-copy-number 169-bp monomer tandem repeat that aligned specifically with the presumed centromere location in each of the amaranth chromosomes (Fig. 2). Although the 169-bp monomer is similar in size to the average monomer found in other plant species (e.g., Arabidopsis thaliana, 178 bp [44]), it unsurprisingly shares little sequence similarity to known plant centromeric repeats. Indeed, a phylogenetic analysis by Melters et al. [43] showed that centromeric repeats exhibit little evidence of sequence similarity beyond

50 million years of divergence. We note that these putative centromeric repeats, as well as the regions of reduced recombination, cover a large portion of several amaranth chromosomes, suggesting the presence of large pericentromeric heterochromatic regions, as has been documented in other plant species [45, 46].

Telomeres in plants are defined by a simple telomeric repeat, TTTAGGG [47]. Basic Local Alignment Search Tool (BLAST) searches of PGA2 identified 19 regions of tandemly repeated telomeric repeat sequences on 13 of the 16 chromosomes (Fig. 2). Most (16) are located within 1 Mb of the end of the chromosomes, with four chromosomes having telomeric repeats capping both ends of their assembly (Fig. 2). Considering the difficulty associated with assembling the highly conserved and repetitive sequence of the telomere, the identification of 16 of the possible 32 telomeric ends is indicative of a highly complete chromosome-scale genome assembly.

Utility of genome assembly

The utility of the assembly, annotation, and linkage map was demonstrated by mapping the betalain locus, which controls stem color and serves as a morphological marker for hybrid breeding programs. Pigmentation for stem color segregated in the RIL mapping population (PI 642741, red PI 481125, green Fig. 3a) in a qualitative single-gene fashion (33 red: 13 heterozygous: 25 green χ 2 = 18.6) as determined from scoring F5:6 plantas. The betalain locus mapped to Chr16 at linkage position 33.1 cM, between SNP markers found at PGA2 reference positions 5,302,418 and 5,632,023 bp (Fig. 3b). A total of 139 annotated gene sequences are found within a 2-Mb bin surrounding the flanking SNPs (Additional file 5: Table S4), including AH2023178 (chromosomal position: 5,301,687–5,302,514) and AH2023177 (5,230,972–5,238,675), which are annotated as being homologous to CYP76AD1 (cytochrome P450) and DODA1 (4,5-DOPA dioxygenase extradiol 1), respectively, and are the two key enzymes in the betalain biosynthethic pathway [48] (Fig. 4c). CYP76AD1 and DODA1 convert l -3,4-dihydroxyphenylalanine ( l -DOPA) into cyclo-DOPA and betalamic acid, respectively. Betalamic acid and cyclo-DOPA spontaneously cyclize to give red pigments (betacyanin) [49] and are thus both candidate genes for targeted investigations. Interestingly but perhaps not unexpectedly, these genes are also linked in the beet genome on beet chromosome 2, being separated by approximately 50 kb — thus maintaining microsynteny between the two closely related species. More recently, Hatlestad et al. [50] demonstrated that an anthocyanin MYB-like gene regulates the betalain red pigment pathway in beets through gene silencing. In beet, this gene is linked 7.6 cM from CYP76AD1. A BLAST search of the amaranth genome also identified an orthologous MYB-like gene at a syntenic position (976,669–989,943) on Chr16, placing it outside of the target region predicted by the linked SNP markers.

The identification of genes putatively underlying the betalain stem color locus in amaranth. a Color difference between the mapping parents for the RIL populations. B Frequency of the red parental (PI 642741) allele in Chr16 in all homozygous red progeny. los two blue dots indicate SNP markers flanking the map position of the stem color phenotype. C The betalain biosynthetic pathway, including the key enzymes encoded by DODA1 y CYP76AD1