Información

¿Cómo modelar los residuos faltantes en una proteína de varios archivos PDB?

¿Cómo modelar los residuos faltantes en una proteína de varios archivos PDB?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo varias estructuras de rayos X (archivos PDB) de la misma proteína. A todos les faltan tramos de residuos. Quiero usarlos todos para construir un solo modelo, con la menor cantidad posible de residuos faltantes. ¿Existe una herramienta (servidor web, software) disponible para hacer esto?

En una aplicación en particular, tengo un requisito adicional. Uno de los archivos PDB es especial (llámelo plantilla), en el sentido de que solo quiero agregarle residuos faltantes. Es decir, el modelo resultante debe contener el archivo pdb especial y alinearse perfectamente con él, con la única diferencia de que el modelo resultante tiene algunos residuos adicionales que se completaron a partir de la información de los otros archivos pdb. De acuerdo, el modelo resultante no debería alinearse "perfectamente" con la plantilla. Permitiré algo de relajación en los puntos de conexión. Pero aún así, la idea es que la plantilla PDB debería tener un "mayor peso".

Entonces, esos son los dos problemas: 1) ¿Cómo reconstruir un modelo más completo a partir de un montón de archivos PDB de la misma proteína? 2) ¿Cómo completar los residuos faltantes en un archivo PDB utilizando información de otros archivos PDB de la misma proteína?


Le sugiero que utilice modelizador: modelado avanzado (https://salilab.org/modeller/tutorial/advanced.html), donde puede utilizar múltiples plantillas PDB para obtener la estructura final del modelo.

Todo lo mejor… :)


Fusionar varios archivos PDB en un solo archivo

Tengo varios archivos pdb y cada uno de ellos corresponde a un dominio en una proteína. Quiero fusionar estos archivos en un solo pdb para toda la proteína, y el enfoque que estoy buscando debería permitirme ordenar estos dominios de acuerdo con el orden en el que están ubicados en la proteína (por ejemplo, fusionando el dominio A , B y C por orden CBA). Sería preferible si pudiera hacer la fusión con VMD, pero cualquier sugerencia sería apreciada.


Métodos de modelado de bucle

El modelado de bucle no está restringido a segmentos con una asignación de estructura secundaria DSSP en blanco. Es más generalmente aplicable a cualquier fragmento que une segmentos más grandes.

Hay varios métodos de modelado de bucles presentes en Rosetta y se están desarrollando activamente más. El objetivo de todos los métodos de modelado de bucles es muestrear el espacio conformacional del segmento peptídico de tal manera que los puntos finales de los extremos del péptido estén conectados. A continuación, presentaremos ejemplos de los siguientes protocolos:

  • CCD (descenso cíclico de coordenadas)
    Esto genera bucles por inserción de fragmentos a partir de una biblioteca de fragmentos generada previamente y puntúa favorablemente las conformaciones que cierran el bucle.
  • KIC (cierre cinemático)
    Esto genera bucles calculando analíticamente las posibles conformaciones sujetas a las limitaciones de los puntos finales anclados.
  • Remodelar
    Este no es un algoritmo en sí mismo, sino un ejecutable alternativo y fácil de usar para utilizar CCD y KIC
  • KIC generalizada Esto usa el mismo algoritmo que KIC, pero se puede usar para backbones arbitrarios, bucles a través de cadenas laterales y otras biomoléculas. (Se proporcionarán enlaces a ejemplos detallados).
  • Loop Hash
    Esto busca rápidamente conformaciones de péptidos utilizando un mapa hash pregenerado. (Dado que esto se encuentra actualmente en desarrollo, no lo discutiremos).

3 EL MÉTODO MODFOLDCLUST

El servidor también incluye la opción de agrupar varios modelos utilizando el método ModFOLDclust. El método lleva a cabo comparaciones de modelos por pares para producir predicciones tanto globales como locales de la precisión del modelo. La puntuación de agrupamiento global se basa en el método 3D-Jury (Ginalski et al., 2003), en el que cada modelo se compara con cualquier otro modelo y se calcula la puntuación media de similitud estructural. Sin embargo, en esta aplicación, la puntuación TM se utiliza para comparaciones por pares, con una puntuación de corte de & gt0.2. Esta emulación de la puntuación del Jurado 3D se ha evaluado previamente en el conjunto de modelos de servidor CASP7 y se demostró que supera significativamente todos los métodos probados para la selección de modelos de la más alta calidad (McGuffin, 2007). Sin embargo, a diferencia del servidor 3D-Jury, donde los usuarios pueden evaluar un solo modelo a través de la comparación con algunos modelos de reconocimiento de pliegues disponibles (Kajan y Rychlewski, 2007), la implementación del servidor ModFOLD permite a los usuarios cargar directamente múltiples modelos de su propia elección desde cualquier fuente.

Además de la puntuación de agrupamiento global, el método ModFOLDclust incorpora la puntuación de la calidad del modelo local por residuo. La calidad del modelo local se evalúa utilizando una puntuación similar a la media. S-score (Levitt y Gerstein, 1998), que se utilizó originalmente para la evaluación de modelos en el método 3D-SHOTGUN (Fischer, 2003) y más recientemente se comparó con el servidor Pcons (Wallner y Elofsson, 2006). La idea en esta implementación es reutilizar cada superposición de modelos por pares, realizada en el cálculo de la puntuación global, con el fin de evaluar la conservación estructural local de cada residuo. Aquí el S-score se usa para evaluar residuos que están dentro de 3.9 Å según superposiciones de puntajes TM por pares, donde los puntajes TM & gt0.2. los S-la puntuación se define como: SI = 1/(1 + (DI/D0) 2), donde SI varía de 0 a 1, DI es la distancia entre los residuos alineados estructuralmente y D0 es el umbral de distancia (3.9). Un SI se da una puntuación de 0 si DI & gt 3,9 Å. los SA continuación, se suman las puntuaciones de cada residuo y se toma la puntuación media. El significado SLa puntuación de cada residuo se convierte luego a la distancia predicha desde la estructura nativa, simplemente reordenando la ecuación: DI = D0√((1/SI)−1).


Cómo construir un modelo para una proteína heterooligomérica usando hemoglobina

En este ejemplo, vamos a construir un modelo de hemoglobina a partir de Physeter macrocephalus (Cachalote). La hemoglobina es la proteína transportadora de oxígeno de los glóbulos rojos. Está formado por cuatro cadenas de proteínas (globulinas) conectadas entre sí para formar un heterotetrámero. La hemoglobina normal del adulto contiene dos cadenas de alfa-globulina (UniprotKB AC: P09904) y dos de beta-globulina (UniprotKB AC: P09905).

Vaya a la página principal de SWISS-MODEL y haga clic en "Iniciar modelado" para iniciar un nuevo proyecto de modelado. Ahora, proporcione su proteína objetivo. Primero, ingrese el UniprotKB AC (P09904) de la subunidad alfa en el formulario de entrada de la secuencia de destino.


Luego, haga clic en el botón "Agregar objetivo hetero" e ingrese el UniprotKB AC (P09905) para la subunidad beta.


Para buscar estructuras de plantillas disponibles, haga clic en el botón "Buscar plantillas".

Una vez que se inicia la búsqueda, puede verificar el estado del trabajo y, opcionalmente, puede marcar la página utilizando el enlace proporcionado y venir más tarde para visualizar los resultados. De lo contrario, debe esperar hasta que finalice la búsqueda.

Una vez finalizada la búsqueda de plantillas, las plantillas disponibles se enumeran junto con la información de su estado oligomérico.

Como puede ver, la mayoría de las plantillas son los heterotetrámeros esperados (hetero-2-2-mers, lo que indica que ambas subunidades están cada una dos veces en la plantilla) y cubren la secuencia objetivo completa. La identidad de secuencia es mayoritariamente superior al 80%.


Ahora seleccionamos la vista Estructura cuaternaria para comparar mejor los diferentes estados oligoméricos de las plantillas.


Aquí, las plantillas se agrupan de acuerdo con el estado oligomérico, la estequiometría y la puntuación QSQE (estimación de la calidad de la estructura cuaternaria), y los resultados se muestran como un árbol de decisiones. Cada hoja del árbol es una plantilla etiquetada con el ID de SMTL y una barra que indica la identidad y cobertura de la secuencia (los tonos más oscuros de azul se refieren a una identidad de secuencia superior). Según la estequiometría, se forman dos grupos: tenemos 2-2-mers y 1-1-mers.
Se pueden visualizar y comparar diferentes estructuras de plantillas mediante la superposición de estructuras en el visor 3D haciendo clic en su nombre.

El gráfico de huellas dactilares de PPI muestra la identidad de secuencia de las plantillas con la secuencia objetivo en el eje x. En el eje y, la diferencia en la similitud de secuencia entre la superficie de la proteína y la interfaz de la proteína se expresa expresada como puntuación de "Conservación de la interfaz". Los valores por debajo de cero indican una mayor tasa de mutación de los residuos superficiales en comparación con los de la interfaz, lo que confirma la conservación de la interfaz de la familia de proteínas.
Se puede observar que la interfase tetramérica (hetero-2-2-meros) es la más conservada.

Para obtener más información sobre la predicción de la estructura cuaternaria y la huella dactilar de PPI, consulte el artículo de Bertoni et al ..

Ahora podemos seleccionar plantillas con el estado oligomérico correcto. De la lista de estructuras de plantilla, seleccione la más adecuada para su aplicación basándose en la anotación proporcionada. Por ejemplo, puede valer la pena considerar que algunas de las estructuras de molde disponibles (por ejemplo, 3cy5.1) contienen el importante compuesto de porfirina que contiene hierro, a saber, el grupo hemo (HEM).

Tras la inspección, observamos que el modelo construido es de alta calidad (GMQE, QMEAN y estimaciones de calidad locales altas). Para ver las estimaciones de calidad local en el modelo, cambie el esquema de color a QMEAN (haga clic en el símbolo de engranaje junto a la alineación a la izquierda).


Cómo calcular la estructura promedio de una proteína con múltiples modelos / conformaciones

Tengo un archivo PDB '1abz' (https://files.rcsb.org/view/1ABZ.pdb), que contiene las coordenadas de una estructura de proteína con 23 modelos diferentes (MODELO numerado 1-23). Por favor ignore los comentarios del encabezado, la información interesante comienza en la línea 276 que dice 'MODELO 1'.

Me gustaría calcular la estructura promedio de una proteína. El archivo PDB de la proteína contiene múltiples conformaciones / modelos y me gustaría calcular las coordenadas promedio para los átomos individuales por residuo, de modo que termine con una conformación / modelo.

No pude averiguar cómo hacerlo usando Biopython, así que traté de calcular las coordenadas promedio usando Pandas. Creo que he logrado calcular el promedio, pero el problema ahora es que tengo un archivo csv que ya no está en formato PDB, por lo que no puedo cargar este archivo en PyMol.

Mis preguntas son, ¿cómo puedo convertir mi archivo csv al formato PDB? Mejor aún, ¿cómo puedo obtener las coordenadas promedio en Biopython o en Python sin comprometer el formato de archivo pdb original?

Aquí está el código que usé para calcular las coordenadas promedio en pandas.


Proteínas de filamentos intermedios

Jens Bohnekamp,. Lori L. Wallrath, en Métodos en enzimología, 2016

Abstracto

Drosophila melanogaster es un organismo útil para determinar la función de las proteínas y modelar enfermedades humanas. Drosophila ofrece un tiempo de generación rápido y una abundancia de recursos genómicos y herramientas genéticas. La conservación de la estructura de las proteínas, las vías de señalización y los procesos de desarrollo hacen que los estudios realizados en Drosophila relevante para otras especies, incluidos los seres humanos. Drosophila Se han generado modelos para enfermedades neurodegenerativas, distrofia muscular, cáncer y muchos otros trastornos. Recientemente, las enfermedades de las proteínas de los filamentos intermedios se han modelado en Drosophila. Estos modelos han revelado nuevos mecanismos de patología, han iluminado posibles nuevas vías de terapia y han hecho factibles las pantallas de compuestos de organismos completos. El objetivo de este capítulo es esbozar los pasos para estudiar la función de los filamentos intermedios y modelar las enfermedades asociadas a los filamentos intermedios en Drosophila. Los pasos son generales y se pueden aplicar para estudiar la función de casi cualquier proteína. Los protocolos descritos aquí son tanto para principiantes como para experimentados. Drosophila investigador, permitiendo la rica biología celular y del desarrollo que Drosophila ofertas para ser aplicadas a estudios de filamentos intermedios.


Conclusión

Biopython no solo facilita el trabajo con secuencias de ADN, sino que también se puede aprovechar para que la proteómica visualice y analice proteínas. Proporciona métodos potentes y flexibles para el análisis de proteínas de rutina que se pueden utilizar para desarrollar tuberías personalizadas en función de sus necesidades específicas. Sé que a medida que continúe profundizando en lo que Biopython tiene para ofrecer, seguiré impresionado, por lo que puede esperar más artículos que cubran sus capacidades en el futuro.

Como siempre, todo el código y las dependencias que se describen en este artículo se pueden encontrar en este repositorio, que continuaré actualizando a medida que explore Biopython. Espero que esta guía le muestre lo simple que puede ser comenzar sus propios proyectos de bioinformática con Biopython, ¡y espero ver lo que puede crear!


INTRODUCCIÓN

Las estructuras tridimensionales de las proteínas proporcionan información valiosa sobre su función a nivel molecular e informan un amplio espectro de aplicaciones en la investigación de las ciencias de la vida. A menudo, los complejos de proteínas son fundamentales para muchos procesos celulares. Una descripción detallada de sus interacciones y la estructura cuaternaria general es esencial para una comprensión integral de los sistemas biológicos, cómo operan los complejos y redes de proteínas y cómo podemos modularlos (1, 2). Dada su relevancia biológica, no es sorprendente que el número de grandes complejos depositados por año en el Protein Data Bank (PDB) esté creciendo rápidamente (3). Una contribución significativa a esta tendencia proviene del progreso continuo de las tecnologías de determinación de estructuras, incluidos los desarrollos recientes de métodos basados ​​en microscopía electrónica (EM), que son particularmente adecuados para grandes conjuntos macromoleculares (4). Aún así, en comparación con los métodos de alto rendimiento para el cribado de interacciones proteína-proteína (es decir, levadura de dos híbridos, purificación por afinidad, presentación en fagos, etc.), la velocidad a la que se determinan experimentalmente nuevas estructuras complejas es considerablemente menor. Este crecimiento desigual requiere métodos computacionales para llenar el vacío.

Se han desarrollado varios enfoques para abordar la predicción computacional de interacciones proteína-proteína (5). Los métodos de coevolución, basados ​​en mutaciones de aminoácidos correlacionados en alineamientos profundos de secuencias múltiples (MSA), se utilizan de manera eficiente para identificar proteínas que interactúan basándose únicamente en la información de la secuencia (6, 7). Cuando las estructuras 3D de los socios de unión están disponibles, o pueden modelarse de manera confiable, se pueden usar métodos de acoplamiento para obtener un modelo tridimensional del complejo basado en la complementariedad geométrica y fisicoquímica de las moléculas que interactúan (8-11). El manejo eficiente de la flexibilidad de las proteínas sigue siendo uno de los principales desafíos en el desarrollo de un software de simulación de acoplamiento eficaz, por lo que estos métodos son generalmente más precisos cuando se requiere poco o ningún cambio conformacional para la unión. De acuerdo con el experimento CAPRI (Evaluación crítica de interacciones previstas (12)) a nivel comunitario, se ha logrado un progreso considerable en el campo con el desarrollo de estrategias de modelado híbrido, que pueden incorporar información experimental disponible sobre la interacción (es decir, enlaces cruzados, NMR, SAXS, etc.) como limitaciones en la simulación del proceso de acoplamiento (13-15). Los resultados de las evaluaciones más recientes muestran que se obtiene una calidad de modelos significativamente mejorada cuando la información de la plantilla de múltiples cadenas está disponible y se utiliza para el modelado (16).

Con la disponibilidad de estructuras de complejos de proteínas más determinadas experimentalmente, se ha observado que las interfaces que interactúan a menudo se conservan entre los complejos homólogos (17) y que las plantillas están disponibles para la mayoría de las interacciones proteína-proteína conocidas (18). Estas observaciones proporcionaron el fundamento para el modelado comparativo o de homología de complejos de proteínas. De manera similar al modelado comparativo de proteínas monoméricas, la información de la estructura cuaternaria de una proteína se transfiere por homología a otra, y se obtiene un modelo del complejo basado en las estructuras de los homólogos que interactúan, es decir, interólogos, como plantillas (19-21) . El enfoque se puede escalar a genomas completos y aplicarse a conjuntos de proteínas binarios y de orden superior (17, 18, 22, 23). Como se destaca en la introducción de la primera evaluación de ensamblajes de proteínas en el reciente experimento CASP XII (24), el modelado comparativo de complejos de proteínas está recibiendo mucha atención y se espera que desempeñe un papel relevante en la elucidación del espacio de estructura cuaternaria de proteínas.

SWISS-MODEL https://swissmodel.expasy.org fue el primer servidor de modelado de homología de proteínas totalmente automatizado y se ha mejorado continuamente durante los últimos 25 años (25-30). Su funcionalidad de modelado se ha ampliado recientemente para incluir el modelado de complejos homo y heteroméricos, dadas las secuencias de aminoácidos de los socios que interactúan como punto de partida. Otras características introducidas recientemente incluyen el desarrollo de un nuevo motor de modelado, ProMod3, con mayor precisión de los modelos producidos, y un método de estimación de calidad de modelo local mejorado (QMEANDisCo) basado en una versión novedosa de QMEAN (31).

SWISS-MODEL genera actualmente ∼3000 modelos por día (∼2 modelos por minuto), frente a ∼1500 modelos por día en 2014 (30), lo que lo convierte en uno de los servidores de modelado de estructuras más utilizados en todo el mundo. Su rendimiento se evalúa y compara continuamente con otros servidores de última generación en el campo. Con este objetivo, participamos activamente en el proyecto CAMEO (Continuous Automated Model Evaluation, https://cameo3d.org) (32), una evaluación de predicción ciega totalmente automatizada basada en la publicación previa semanal de secuencias del PDB (33) , lo que nos permite monitorear y mejorar constantemente el rendimiento del servidor.


Búsqueda de plantilla

El grado de dificultad para identificar una plantilla adecuada para una secuencia diana puede variar desde "trivial" para familias de proteínas bien caracterizadas hasta "imposible" para proteínas con un pliegue desconocido. El servidor SWISS-MODEL proporciona acceso a un conjunto de métodos cada vez más sofisticados para buscar plantillas.

La biblioteca de plantillas SWISS-MODEL se busca en paralelo tanto con BLAST como con HHblits para identificar plantillas y obtener alineaciones objetivo y ndashtemplate. El uso combinado de estos dos enfoques garantiza buenos alineamientos en niveles de identidad de secuencia altos y bajos.

Al usar la opción & ldquoTemplate Search & rdquo, las plantillas se buscan usando BLAST (Camacho y col.) y HHblits (Steinegger y col.). Para este último, construimos un perfil para la secuencia objetivo como se describe en (Steinegger y col.) usando 1 iteración de HHblits contra Uniclust30 (Mirdita y col.) y utilícelo para buscar todos los perfiles del SMTL. Las plantillas encontradas se enumeran junto con la información estructural relevante que se puede utilizar fácilmente para clasificar las plantillas y seleccionar la mejor de acuerdo con los criterios definidos por el usuario.

Clasificación de los resultados de la plantilla

Cuando se completa la búsqueda de plantillas, primero se filtran las plantillas y alineaciones para eliminar la redundancia. A continuación, se elige un conjunto de 50 plantillas de máxima clasificación de la lista completa de plantillas de acuerdo con una puntuación simple que combina la cobertura de secuencia y la similitud de secuencia. Las plantillas y alineaciones mejor clasificadas se analizan y clasifican de acuerdo con la calidad esperada de los modelos resultantes, según lo estimado por GMQE y, si se predice que el modelo objetivo será un oligómero, QSQE. En detalle, la clasificación de la plantilla predeterminada está de acuerdo con el orden lexicográfico descendente de (is_full_biounit, compartimiento, gmqe + qs_value), dónde: is_full_biounit solo se usa para heterómeros y se establece en 1, si todas las cadenas de la biounidad de la plantilla se incluyen para el modelado, o 0 en caso contrario compartimiento se calcula como ceil ((gmqe - max_gmqe) / 0.1), donde max_gmqe es la mejor gmqe observado en las plantillas gmqe es el GMQE de la plantilla qs_value se establece en QSQE de la plantilla, si se predice que el modelo objetivo será un oligómero, o 0 en caso contrario.

Visualización de los resultados de la identificación de la plantilla

los Resultados de la plantilla La página sirve tanto como una descripción general de las plantillas disponibles como como una herramienta interactiva de selección de plantillas. La parte superior de la pantalla contiene un resumen de las plantillas de mayor rango identificadas por los métodos de búsqueda de plantillas. Las plantillas identificadas y la clasificación de la plantilla predeterminada corresponden a las utilizadas en el modo automatizado. Tenga en cuenta que en el modo automatizado, se pueden elegir plantillas adicionales, además de la mejor clasificada, para modelar si representan estados conformacionales alternativos o cubren diferentes regiones de la proteína objetivo.

Pueden estar disponibles cuatro tipos de vistas (según la entrada de datos): (i) una Plantillas tabla de resumen, que enumera todas las plantillas en forma tabular y proporciona una descripción general de los atributos relevantes de cada plantilla, (ii) la Estructura cuaternaria, (iii) un gráfico interactivo que muestra las plantillas en relación entre sí en Similitud de secuencia espacio, y (iv) la secuencia Alineación de plantillas seleccionadas.

Las plantillas se pueden seleccionar en cualquiera de estas vistas para el siguiente paso de modelado. Las plantillas seleccionadas se muestran automáticamente en el visor 3D. Si se seleccionan varias plantillas, se muestra su superposición estructural, lo que permite una visualización instantánea de las diferencias estructurales entre ellas.

Se puede acceder a la lista completa de todas las plantillas identificadas en la parte inferior de la página Resultados de la plantilla.

En las Plantillas, se puede recuperar una tabla de resumen, anotaciones de plantilla y alineaciones de plantilla de destino y ndash haciendo clic en las flechas en el extremo izquierdo de las filas de la tabla para expandir el cuadro con la descripción de las plantillas individuales.


Para cada plantilla, se proporciona la siguiente información: el ID SMTL, el título de la estructura, la cobertura de la secuencia objetivo, GMQE, QSQE, la identidad de la secuencia al objetivo, el método experimental utilizado para obtener la estructura (y la resolución, si aplicable), el estado oligomérico, los ligandos (si los hay), la similitud de secuencia con la diana y el método de búsqueda de plantilla utilizado.

Para cada molde, se predice el estado oligomérico del modelo. Si el estado oligomérico predicho del modelo difiere del de la biounidad plantilla o no se incluyen todas las cadenas de la biounidad, se muestra un símbolo de advertencia (signo de exclamación en un triángulo). Siempre que sea posible, el usuario puede elegir el estado oligomérico manualmente expandiendo la vista de la plantilla bajo el punto "Predicción de destino".

Varios métodos se utilizan actualmente para determinar la estructura de una proteína. En el modelado de homología, generalmente es preferible utilizar estructuras determinadas por cristalografía de rayos X con alta resolución como plantillas. Generalmente desaconsejamos el uso de estructuras de RMN promediadas. En casos individuales, teniendo en cuenta el conjunto de estructuras determinadas por espectroscopía de RMN, podría proporcionar información útil. Se requiere especial cuidado cuando se utilizan estructuras determinadas por microscopía electrónica, ya que varían desde "blobología" de baja resolución hasta estructuras con resolución atómica.

Target & ndashtemplate similitud de secuencia se calcula a partir de un BLOSUM62 normalizado (Henikoff y col.) matriz de sustitución (es decir, los valores más grande y más pequeño en BLOSUM62 son 1 y 0, respectivamente). La similitud de secuencia de la alineación se calcula como la suma de las puntuaciones de sustitución dividida por el número de pares de residuos alineados. No se tienen en cuenta las lagunas.

los Estructura cuaternaria La vista proporciona información sobre el análisis de la estructura cuaternaria. Las plantillas se agrupan y se muestran en un árbol de decisión de acuerdo con su estado oligomérico, estequiometría, topología y similitud de interfaz. En el nivel del estado oligomérico, las plantillas se agrupan en grupos monoméricos, homoméricos o heteroméricos. La estequiometría considera solo el número de cadenas en la estructura, mientras que en el nivel de topología, las plantillas se agrupan de acuerdo con las interacciones entre las subunidades. La similitud de la interfaz cuantifica la similitud entre las interfaces en función de los contactos interfaciales compartidos entre las cadenas y, por lo tanto, permite distinguir entre diferentes estructuras cuaternarias y modos de unión. Cada hoja del árbol corresponde a una plantilla etiquetada con el código PDB y una barra que indica la identidad de secuencia con el objetivo y la cobertura.

Interacción proteína y ndashproteína (PPI) Las curvas de huellas dactilares informan sobre la conservación de interfaces de plantilla. Los residuos que participan en las interfaces están sujetos a diferentes limitaciones evolutivas que los residuos en la superficie de la proteína, p. Ej. interactuando con el solvente. Un valor de conservación de la interfaz (eje y) por debajo de 0 indica que los residuos de la interfaz son menos propensos a mutar en comparación con los residuos de la superficie. Una estimación de la conservación se deriva típicamente de un alineamiento de secuencia múltiple (MSA) de proteínas homólogas. La alineación se corta usando diferentes cortes de identidad de secuencia (eje x) para filtrar el MSA de la proteína diana (por ejemplo, con un corte de identidad de secuencia al 50%, solo se retienen las secuencias con> 50% de identidad de secuencia a la diana) . De esta forma se puede observar cómo las diversas interfaces de plantilla se "adaptan" a la familia de proteínas diana. Teniendo en cuenta el conjunto completo de homólogos, la estructura cuaternaria alternativa puede tener una conservación de interfaz similar, lo que dificulta la selección de la plantilla. Considerando homólogos más cercanos, las huellas digitales PPI de las diversas plantillas divergirán, lo que permitirá una selección más fácil, ya que las interfaces mejor adaptadas alcanzarán valores más bajos de conservación de la interfaz.

En el Similitud de secuencia gráfico, cada plantilla se muestra como un círculo. Las distancias entre las plantillas en el gráfico son proporcionales a la identidad de secuencia entre ellas. Por tanto, secuencias similares se agrupan.

En el Alineación de plantillas seleccionadas ver se visualizan las alineaciones de las plantillas seleccionadas al objetivo.

Se puede acceder a los archivos de proyecto de DeepView desde el menú desplegable, usando el 'Más' botón. Esto permite al usuario visualizar diferentes alineaciones en el contexto estructural de la plantilla, lo que ayuda a corregir inserciones y eliminaciones mal colocadas y ajustar manualmente las regiones desalineadas. El proyecto modificado puede guardarse en el disco y enviarse como "modo de proyecto" al espacio de trabajo para la construcción de modelos por la tubería SWISS-MODEL.

Esquemas de color

Esquemas de puntuación

SOA (accesibilidad a solventes) Baja SOA - & gt Alta SOA
Factor b & lt10 & lt & lt15 & lt & lt20 & lt & lt25 & lt & lt30 & lt & lt35 & lt & lt40Trastorno bajo - & gt Trastorno alto
Rango de factor b Trastorno bajo - & gt Trastorno alto
Entropía Baja entropía - & gt Alta entropía
Alta conservación - & gt Baja conservación

Esquemas de modelos

QMEAN Baja calidad - & gt Alta calidad
Indels MODELO XX XXXX XXXX X --- X XX
PLANTILLA XXXXXXXXXXX ---- XX
Destaca inserciones / eliminaciones en el modelo

Esquemas de índice de alineación

Esquemas de residuos

Hidrofóbico R K DENQ H P Y W S T G A M C F L V I Menos hidrofóbico - & gt Más hidrofóbico
Tamaño G A S P V T C LI N D KQ E M H F R Y W Más pequeño - & gt Más grande
Cargado ED (Negativo) HKR (Positivo)
Polar RKDENQ
Prolina PAG
Ser / Thr S T
Cisteína C
Alifático I LV
Aromático FYWH

Esquema de clúster

Las reglas se especifican de esta manera: (A, C, D): <50%, p, q, rstv> <85%, w, y> El residuo de la columna se da primero entre paréntesis, se puede especificar más de uno, en cuyo caso las reglas se aplican a cada uno de estos residuos. A continuación, la regla o reglas se dan entre llaves, solo se debe cumplir una regla para que se aplique el color. En primer lugar se indica el porcentaje mínimo, seguido del residuo o residuos que deben cumplir o superar este porcentaje dentro de la columna. Si un grupo de residuos se concatenan juntos, como 'rstv', entonces cualquier combinación de estos residuos en total debe cumplir o exceder el porcentaje dado para que se aplique el color. Para residuos o grupos de residuos separados por comas, al menos uno de estos debe exceder por sí mismo el porcentaje.


Tutorial

Todos los archivos de entrada y salida de este ejemplo están disponibles para descargar, ya sea en formato zip (para Windows) o formato .tar.gz (para Unix / Linux).

Para este ejemplo, no describiremos paso a paso todos los comandos de MODELLER. Por favor, consulte el ejemplo básico en el tutorial para obtener más detalles.

Un objetivo importante del modelado es contribuir a la comprensión de la función de la proteína modelada. Inspección de 1bdm: una estructura de plantilla (construida en el tutorial de modelado básico) reveló que el bucle 93-100, una de las partes funcionalmente más importantes de la enzima, está desordenado y no aparece en la estructura de PDB. Lo más probable es que el bucle largo del sitio activo sea flexible en ausencia de un ligando y no podría verse en el mapa de difracción. La falta de fiabilidad de las coordenadas de la plantilla y la incapacidad de MODELLER para modelar inserciones largas es la razón por la que este bucle se modeló mal en TvLDH, como lo indica el perfil DOPE.

Perfil de puntuación DOPE para el modelo TvLDH.B99990001

Dado que estamos interesados ​​en comprender las diferencias en la especificidad entre dos proteínas similares, necesitamos construir modelos precisos y exactos. Por lo tanto, necesitamos encontrar nuevas estrategias para aumentar la precisión de los modelos. En este ejemplo, exploraremos tres enfoques diferentes:

  • Uso de múltiples plantillas.
  • Modelando el bucle usando ab-initio métodos.
  • Modelado utilizando un ligando conocido unido al sitio de unión.

Varias plantillas

La estructura de la malato deshidrogenasa 1bdm se ha agrupado en la base de datos DBAli dentro de la familia fm00495 de 4 miembros (2mdh: A, 2mdh: B. 1b8p: A y 1bdm: A). La alineación múltiple generada por el comando salign () in MODELLER se utiliza en DBAli para generar una alineación de estructuras múltiples de la familia. La alineación se puede descargar de la base de datos DBAli o puede usar el archivo `salign.py 'para calcularla en su computadora.

Lee todas las secuencias de archivos PDB (utilizando el append_model comando), y luego usa salignar varias veces, para generar una alineación aproximada inicial y luego mejorarla utilizando más información. Luego, la alineación se escribe en formatos PIR y PAP, y se calcula un puntaje de calidad llamando salignar una vez más.

Después de inspeccionar la alineación de múltiples estructuras, es evidente que la cadena B de 2mdh contiene un número inusual de residuos de LYS. El ENCABEZADO del archivo PDB indica que la secuencia de la proteína era desconocida en el momento del refinamiento y era difícil identificar la mayoría de los residuos en la estructura. Por lo tanto, la entrada 2mdh: B se eliminó de la alineación de estructuras múltiples.

En cuanto al ejemplo básico del tutorial, a continuación debemos alinear nuestra secuencia de consulta con las estructuras de la plantilla. Para esa tarea usamos nuevamente el salign () comando (archivo `align2d_mult.py '). Establecemos el align_block para igualar el número de estructuras en la alineación de la plantilla, len (aln), (es decir, 3), y solicitar una alineación por pares, ya que no queremos cambiar la alineación existente entre las plantillas. Configurando gap_function solicitamos el uso de una penalización por hueco dependiente de la estructura, utilizando información estructural para estas 3 secuencias. Sólo se utiliza información de secuencia para la secuencia final de TvLDH.

A continuación, construimos el nuevo modelo para la secuencia objetivo TvLDH basado en la alineación con las múltiples plantillas usando el archivo `model_mult.py ':

Finalmente, usamos el potencial DOPE para evaluar las coordenadas del nuevo modelo usando el archivo `evalu_model.py ':

La evaluación del modelo indica que el bucle problemático (residuos 90 a 100) ha mejorado mediante el uso de múltiples plantillas estructurales. La puntuación global DOPE para los modelos también mejoró de -38999,7 a -39164,4. MODELLER pudo utilizar la variabilidad en la región del bucle de las tres plantillas para generar una conformación más precisa del bucle. However, the conformation of a loop in the region around the residue 275 at the C-terminal end of the sequence has higher DOPE score than for the model based on a single template.

DOPE score profile for model TvLDH.B99990001.pdb

We will use the LoopModel class in MODELLER to refine the conformation of the loop between residues 273 and 283 (in the A chain). We will use the model number 1 created in the previous example as a starting structure to refine the loop. You can find this structure renamed as ` TvLDH-mult.pdb ' in the loop_modeling subdirectory.

Loop refining

In this example, the LoopModel class is used to refine a region of an existing coordinate file. Note that this example also redefines the LoopModel.select_loop_atoms routine. This is necessary in this case, as the default selection selects all gaps in the alignment for refinement, and in this case no alignment is available. You can still redefine the routine, even if you do have an alignment, if you want to select a different region for optimization. Note that for the sake of time, we will be building only 10 different independently optimized loop conformations by setting the loop.ending_model parameter to 10. The next image shows the superimposition of the 10 conformations of the loop modeling. In blue, green and red we have marked the initial, best and worst loop conformations as scored by DOPE, respectively.

Superimposition of all 10 calculated loop conformations rendered by Chimera.

The file ` model_energies.py ' computes the DOPE score for all built models by using a Python por loop. The best energy loop corresponds to the 8th model (file: ` model_energies.py ') with a global DOPE score of -39099.1. Its energy profile calculated by ` evaluate_model.py ' is shown next.

DOPE score profile for model TvLDH.BL00080001.pdb

There is only a very small increase of global DOPE score by ab-initio refinement of the loop. However, there is a small decrease in the DOPE score in the region of the loop. Therefore, we will continue the next step using the best refined structure (file: ` TvLDH.BL00080001.pdb '), which is renamed in the ligand directory as ` TvLDH-loop.pdb '. It is important to note that a most accurate approach to loop refinement requires the modeling of hundreds of independent conformations and their clustering to select the most representative structures of the loop.

Modeling ligands in the binding site

1emd , a malate dehydrogenase from E. coli, was identified in PDB. While the 1emd sequence shares only 32% sequence identity with TvLDH, the active site loop and its environment are more conserved. The loop for residues 90 to 100 in the 1emd structure is well resolved. Moreover, 1emd was solved in the presence of a citrate substrate analog and the NADH cofactor. The new alignment in the PAP format is shown below (file ` TvLDH-1emd_bs.pap ').

The modified alignment refers to an edited 1emd structure ( 1emd_bs ), as a second template. The alignment corresponds to a model that is based on 1emd_bs in its active site loop and on TvLDH_model , which corresponds to the best model from the previous step, in the rest of the fold. Four residues on both sides of the active site loop are aligned with both templates to ensure that the loop has a good orientation relative to the rest of the model.

The modeling script below has several changes with respect to ` model-single.py '. First, the name of the alignment file assigned to alnfile is updated. Next, the variable knowns is redefined to include both templates. Another change is an addition of the `env.io.hetatm = True' command to allow reading of the non-standard pyruvate and NADH residues from the input PDB files. The script is shown next (file ` model-multiple-hetero.py ').

A ligand can be included in a model in two ways by MODELLER . The first case corresponds to the ligand that is not present in the template structure, but is defined in the MODELLER residue topology library. Such ligands include water molecules, metal ions, nucleotides, heme groups, and many other ligands (see question 8 in the the MODELLER FAQ). This situation is not explored further here. The second case corresponds to the ligand that is already present in the template structure. We can assume either that the ligand interacts similarly with the target and the template, in which case we can rely on MODELLER to extract and satisfy distance restraints automatically, or that the relative orientation is not necessarily conserved, in which case the user needs to supply restraints on the relative orientation of the ligand and the target (the conformation of the ligand is assumed to be rigid). The two cases are illustrated by the NADH cofactor and pyruvate modeling, respectively. Both NADH and cofactor are indicated by the `.' characters at the end of each sequence in the alignment file above (the `/' character indicates a chain break). In general, the `.' character in MODELLER indicates an arbitrary generic residue called a ``block'' residue (for details see the section on block residues in the MODELLER manual). Note that the `.' characters are present ambos en uno of the template structures and in the model sequence. The former tells MODELLER to read the ligands from the template, and the latter tells it to include the ligands in the model. The 1emd structure file contains a citrate substrate analog. To obtain a model with pyruvate, the physiological substrate of TvLDH, we convert the citrate analog in 1emd into pyruvate by deleting the group CH(COOH) 2 , thus obtaining the 1emd_bs template file. A major advantage of using the `.' characters is that it is not necessary to define the residue topology.

To obtain the restraints on pyruvate, we first superpose the structures of several LDH and MDH enzymes solved with ligands. Such a comparison allows us to identify absolutely conserved electrostatic interactions involving catalytic residues Arg161 and His186 on one hand, and the oxo groups of the lactate and malate ligands on the other hand. The modeling script can now be expanded by creating a new class 'MyModel', which is derived from AutoModel but which differs in one important respect: the special_restraints routine is redefined to add, to the default restraints, some user defined distance restraints between the conserved atoms of the active site residues and their substrate. In this case, a harmonic upper bound restraint of 3.5±0.1Å is imposed on the distances between the three specified pairs of atoms. A trick is used to prevent MODELLER from automatically calculating distance restraints on the pyruvate-TvLDH complex the ligand in the 1emd_bs template is moved beyond the upper bound on the ligand-protein distance restraints (i.e., 10).

The final selected model (shown in the ribbons image below) has a DOPE global score of -37640.9. The DOPE score is increased due to the new interactions of the protein with the ligand that are not accounted when calculating the DOPE score.

Final model with NAD and LAC ligands in the binding site rendered by Chimera.

MODELLER (copyright © 1989-2021 Andrej Sali) is maintained by Ben Webb at the Departments of Biopharmaceutical Sciences and Pharmaceutical Chemistry, and California Institute for Quantitative Biomedical Research, Mission Bay Byers Hall, University of California San Francisco, San Francisco, CA 94143, USA. Any selling or distribution of the program or its parts, original or modified, is prohibited without a written permission from Andrej Sali. This file last modified: Wed Feb 10 12:01:19 PST 2021.


Ver el vídeo: Building missing residues in PDB structure as loop regions using PyMol (Agosto 2022).