Predikce vnitřně neuspořádaných proteinů

Z Wikipedie, otevřené encyklopedie

Predikce vnitřně neuspořádaných proteinů je soubor bioinformatických technik, které slouží pro předpověď vnitřně neuspořádaných proteinů či regionů na základě jejich sekvence.[1]

Soubor konformací NMR struktur thylakoidního proteinu TSP9, demonstrující neuspořádanost proteinu.

Vnitřně neuspořádané/nestrukturované proteiny či anglicky intrinsically disordered proteins, jsou typ proteinů, které nemají fixní 3D strukturu, jsou dynamické. Při experimentálním zjišťováním struktury běžnými metodami (NMR, Rentgenová krystalografie, cirkulární dichroismus atd.) takovéto proteiny vykazují velké množství konformací. Proteiny mohou být neuspořádány celé, či častěji, jen z části (pak se jedná o tzv. vnitřně neuspořádané regiony). Neuspořádané části proteinů jsou většinou nejen funkční, ale i velmi důležité. Významnou roli hrají například v transkripční regulaci, signální transdukci a translaci. Častý mechanismus funkce je složení neuspořádaného proteinu po specifické interakci. Oproti předchozím očekáváním je jejich výskyt zcela běžný, a navíc častější u eukaryot než u ostatních domén. [2][3]

Výzkum neuspořádaných proteinů je ovšem problematický, jednak kvůli jejich dynamičnosti, ale také kvůli tomu, že jsou často neuspořádané jen za určitých podmínek (pH, lokalizace, post-translační modifikace…).[1]

Predikce[editovat | editovat zdroj]

Existuje mnoho způsobů predikce neuspořádaných proteinů založených na různých metodách, často používajíc i jiné definice neuspořádanosti. Jedná se například o: VSL2B, DisEMBL, DISOPRED, IUPred, SPOT-Disorder2, fIDPnn, RawMSA, AUCpreD a Espritz. Predikované i experimentálně určené neuspořádané proteiny jsou uloženy v databázích, například DisProt nebo MobiDB. Nejlepší techniky využívají metod hlubokého učení. V roce 2021 bylo provedeno porovnání 43 metod predikce v rámci experimentu CAID (Critical Assessment of protein Intrinsic Disorder prediction), mezi nejlepší se v rámci tohoto experimentu zařadily metody SPOT-Disorder2, fIDPnn, RawMSA a AUCpreD.[1]

Základem většiny těchto metod je tendence aminokyselin buď podporovat neuspořádanost nebo uspořádanost proteinu. Hydrofilní nabité aminokyseliny, A, R, G, Q, S, P, E a K podporují neuspořádanost. Naopak hydrofobní a nenabité aminokyseliny, W, C, F, I, Y, V, L, a N podporují uspořádanost proteinů. Zbylé aminokyseliny se vyskytují v obou typech.[3]

Příklady predikčních metod[editovat | editovat zdroj]

IUPred[editovat | editovat zdroj]

IUPred je jedna z běžně využívaných metod, dnes již ve své třetí iteraci. Základní princip této metody je odhad energie mezi postranními řetězci aminokyselin, odhadnutou z lokální kompozice aminokyselin. Metoda zároveň využívá databází (DisProt, PDB) s již ověřenými neuspořádanými proteinovými strukturami.[4]

SPOT-Disorder2[editovat | editovat zdroj]

Metoda využívá sítě dlouhé krátkodobé paměti (Long Short-Term Memory, LSTM), dále tzv. „Squeeze-and-Excitation residual inception“ sítí spolu s evolučními daty pro predikci neuspořádaných proteinů. Metoda takto predikuje pravděpodobnost neuspořádání pro každý postranní řetězec v rámci sekvence.[5]

flDPnn[editovat | editovat zdroj]

flDPnn používá tříkrokový predikční proces. Nejdříve se tvoří sekvenční profil, následně je tento profil využit pro zakódování numerických prvků a nakonec jsou tyto prvky vloženy do modelu strojového učení, který tvoří samotné predikce.[6]

AUCpreD[editovat | editovat zdroj]

AUCpreD využívá tzv. DeepCNF (Deep Convolutional Neural Fields), metody která je schopna modelovat vztah mezi sekvencí a strukturou hierarchicky zároveň s korelacemi mezi sousedními postranními řetězci.[7]

DISOPRED[editovat | editovat zdroj]

DISOPRED byla metoda původně trénována na evolučně konzervovaných neuspořádaných regionech získaných rentgenovou krystalografií. Jako IUPRED je dnes ve své 3. iteraci. Kromě samotné predikce, metoda navíc dokáže rozeznat a anotovat protein-vázající neuspořádané regiony.[8]

Espritz[editovat | editovat zdroj]

Espritz je soubor predikčních metod založených čistě na sekvenci aminokyselin, což umožňuje rychlou práci s velkým množstvím dat. Espritz využívá dvousměrných rekurentních neurálních sítí (BRNN) pro svou predikci, trénovaných na datech z databází PDB a Disprot.[9]

Alphafold[editovat | editovat zdroj]

Alphafold je jedním z pionýrů predikce 3D struktur proteinů. Není tedy zaměřen přímo na predikci nestrukturovaných proteinů, ale i přesto je dokáže odhalit a to svou neschopností dobře předpovědět konformaci těchto regionů a proteinů. Metoda pro svou predikci využívá aminokyselinové sekvence, ze které díky umělé neuronové sítě pomocí hlubokého učení předvídá výslednou proteinovou konformaci. Metoda hledá homologní sekvence pomocí MSA a využívá evolučních vztahů mezi sekvencemi. Neurální síť nakonec posuzuje kvalitu predikce.[10][11] Metoda je vyvíjena společností Google DeepMind a dnes je již ve své třetí iteraci.[12]

Reference[editovat | editovat zdroj]

  1. a b c NECCI, Marco; PIOVESAN, Damiano; TOSATTO, Silvio C. E. Critical assessment of protein intrinsic disorder prediction. Nature Methods. 2021-05, roč. 18, čís. 5, s. 472–481. Dostupné online [cit. 2024-05-14]. ISSN 1548-7105. DOI 10.1038/s41592-021-01117-3. PMID 33875885. (anglicky) 
  2. DYSON, H. Jane; WRIGHT, Peter E. Intrinsically unstructured proteins and their functions. Nature Reviews Molecular Cell Biology. 2005-03, roč. 6, čís. 3, s. 197–208. Dostupné online [cit. 2024-05-14]. ISSN 1471-0072. DOI 10.1038/nrm1589. (anglicky) 
  3. a b DUNKER, A.Keith; LAWSON, J.David; BROWN, Celeste J. Intrinsically disordered protein. Journal of Molecular Graphics and Modelling. 2001-02, roč. 19, čís. 1, s. 26–59. Dostupné online [cit. 2024-05-14]. ISSN 1093-3263. DOI 10.1016/s1093-3263(00)00138-8. 
  4. ERDŐS, Gábor; PAJKOS, Mátyás; DOSZTÁNYI, Zsuzsanna. IUPred3: prediction of protein disorder enhanced with unambiguous experimental annotation and visualization of evolutionary conservation. Nucleic Acids Research. 2021-07-02, roč. 49, čís. W1, s. W297–W303. Dostupné online [cit. 2024-05-14]. ISSN 0305-1048. DOI 10.1093/nar/gkab408. PMID 34048569. (anglicky) 
  5. HANSON, Jack; PALIWAL, Kuldip K.; LITFIN, Thomas. SPOT-Disorder2: Improved Protein Intrinsic Disorder Prediction by Ensembled Deep Learning. Genomics, Proteomics & Bioinformatics. 2019-12-01, roč. 17, čís. 6, s. 645–656. Dostupné online [cit. 2024-05-14]. ISSN 1672-0229. DOI 10.1016/j.gpb.2019.01.004. PMID 32173600. (anglicky) 
  6. HU, Gang; KATUWAWALA, Akila; WANG, Kui. flDPnn: Accurate intrinsic disorder prediction with putative propensities of disorder functions. Nature Communications. 2021-07-21, roč. 12, čís. 1, s. 4438. Dostupné online [cit. 2024-05-14]. ISSN 2041-1723. DOI 10.1038/s41467-021-24773-7. PMID 34290238. (anglicky) 
  7. WANG, Sheng; MA, Jianzhu; XU, Jinbo. AUCpreD: proteome-level protein disorder prediction by AUC-maximized deep convolutional neural fields. Bioinformatics. 2016-09-01, roč. 32, čís. 17, s. i672–i679. Dostupné online [cit. 2024-05-14]. ISSN 1367-4803. DOI 10.1093/bioinformatics/btw446. PMID 27587688. (anglicky) 
  8. JONES, David T.; COZZETTO, Domenico. DISOPRED3: precise disordered region predictions with annotated protein-binding activity. Bioinformatics. 2015-03-15, roč. 31, čís. 6, s. 857–863. Dostupné online [cit. 2024-05-14]. ISSN 1367-4811. DOI 10.1093/bioinformatics/btu744. PMID 25391399. (anglicky) 
  9. academic.oup.com [online]. [cit. 2024-05-14]. Dostupné online. DOI 10.1093/bioinformatics/btr682. 
  10. RUFF, Kiersten M.; PAPPU, Rohit V. AlphaFold and Implications for Intrinsically Disordered Proteins. Journal of Molecular Biology. 2021-10-01, roč. 433, čís. From Protein Sequence to Structure at Warp Speed: How Alphafold Impacts Biology, s. 167208. Dostupné online [cit. 2024-05-17]. ISSN 0022-2836. DOI 10.1016/j.jmb.2021.167208. 
  11. academic.oup.com [online]. [cit. 2024-05-17]. Dostupné online. DOI 10.1093/bioinformatics/btz422. PMID 31116374. 
  12. ABRAMSON, Josh; ADLER, Jonas; DUNGER, Jack. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature. 2024-05-08, s. 1–3. Dostupné online [cit. 2024-05-17]. ISSN 1476-4687. DOI 10.1038/s41586-024-07487-w. (anglicky)