UniProt

UniProt
UniProt (logo).png
Contenu
DescriptionUniProt est la ressource universelle des protéines , un référentiel central de données sur les protéines créé en combinant les bases de données Swiss -Prot, TrEMBL et PIR-PSD .
Types de données
capturées
Annotation des protéines
OrganismesTous
Contact
Centre de rechercheEMBL-EBI , Royaume-Uni ; SIB , Suisse ; PIR , États-Unis.
Citation principaleConsortium UniProt [1]
Accès
Format de donnéesFichier plat personnalisé, FASTA , GFF , RDF , XML .
Site Internetwww.uniprot.org
www.uniprot.org/news/
URL de téléchargementwww.uniprot.org/downloads & pour télécharger des jeux de données complets ftp.uniprot.org
URL du service WebOui - API JAVA voir les informations ici & REST voir les informations ici
Outils
la toileRecherche avancée, BLAST , Clustal O, récupération/téléchargement en masse, mappage d'ID
Divers
LicenceCreative Commons Attribution-NoDerivs
Gestion des versionsOui

Fréquence de diffusion des données
8 semaines
Politique de conservationOui – manuel et automatique. Règles d'annotation automatique générées par les conservateurs de bases de données et les algorithmes de calcul.

Entités pouvant être ajoutées aux signets
Oui - à la fois les entrées de protéines individuelles et les recherches

UniProt est une base de données librement accessible de séquences de protéines et d'informations fonctionnelles, de nombreuses entrées étant dérivées de projets de séquençage du génome . Il contient une grande quantité d'informations sur la fonction biologique des protéines dérivées de la littérature de recherche. Il est maintenu par le consortium UniProt, qui se compose de plusieurs organisations européennes de bioinformatique et d'une fondation de Washington, DC , États-Unis.

Le consortium UniProt

Le consortium UniProt comprend l' Institut européen de bioinformatique (EBI), l' Institut suisse de bioinformatique (SIB) et le Protein Information Resource (PIR). EBI, situé au Wellcome Trust Genome Campus à Hinxton, au Royaume-Uni, héberge une vaste ressource de bases de données et de services bioinformatiques. Le SIB, situé à Genève, en Suisse, gère les serveurs ExPASy (Expert Protein Analysis System) qui constituent une ressource centrale pour les outils et bases de données protéomiques. PIR, hébergé par la National Biomedical Research Foundation (NBRF) au Georgetown University Medical Center à Washington, DC, États-Unis, est l'héritier de la plus ancienne base de données de séquences de protéines, Margaret Dayhoff's Atlas of Protein Sequence and Structure, publié pour la première fois en 1965. [2] En 2002, EBI, SIB et PIR ont uni leurs forces en tant que consortium UniProt. [3]

Les racines des bases de données UniProt

Chaque membre du consortium est fortement impliqué dans la maintenance et l'annotation de la base de données de protéines. Jusqu'à récemment, EBI et SIB produisaient ensemble les bases de données Swiss-Prot et TrEMBL, tandis que PIR produisait la base de données de séquences de protéines (PIR-PSD). [4] [5] [6] Ces bases de données coexistaient avec différentes couvertures de séquences protéiques et priorités d'annotation.

Swiss-Prot a été créé en 1986 par Amos Bairoch pendant son doctorat et développé par l' Institut Suisse de Bioinformatique puis développé par Rolf Apweiler à l' Institut Européen de Bioinformatique . [7] [8] [9] Swiss-Prot visait à fournir des séquences protéiques fiables associées à un haut niveau d'annotation (comme la description de la fonction d'une protéine, sa structure de domaine , les modifications post-traductionnelles , les variantes, etc. ), un niveau minimal de redondanceet haut niveau d'intégration avec d'autres bases de données. Reconnaissant que les données de séquence étaient générées à un rythme dépassant la capacité de Swiss-Prot à suivre, TrEMBL (Translated EMBL Nucleotide Sequence Data Library) a été créé pour fournir des annotations automatisées pour les protéines non présentes dans Swiss-Prot. Pendant ce temps, PIR a maintenu le PIR-PSD et les bases de données associées, y compris iProClass, une base de données de séquences de protéines et de familles organisées.

Les membres du consortium ont mis en commun leurs ressources et expertises qui se chevauchaient et ont lancé UniProt en décembre 2003. [10]

Organisation des bases de données UniProt

UniProt fournit quatre bases de données principales : UniProtKB (avec les sous-parties Swiss-Prot et TrEMBL), UniParc, UniRef et Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) est une base de données de protéines partiellement organisée par des experts, composée de deux sections : UniProtKB/Swiss-Prot (contenant des entrées révisées et annotées manuellement) et UniProtKB/TrEMBL (contenant des entrées non révisées et annotées automatiquement). [11] Au 22 février 2023 , la version "2023_01" d'UniProtKB/Swiss-Prot contient 569 213 entrées de séquence (comprenant 205 728 242 acides aminés extraits de 291 046 références) et la version "2023_01" d'UniProtKB/TrEMBL contient 245 871 724 entrées de séquence (comp augmentation de 85 739 380 194 amino acides). [12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot est une base de données de séquences de protéines annotées manuellement et non redondantes. Il combine des informations extraites de la littérature scientifique et une analyse informatique évaluée par le bioconservateur . L'objectif d'UniProtKB/Swiss-Prot est de fournir toutes les informations pertinentes connues sur une protéine particulière. Les annotations sont régulièrement révisées pour suivre les découvertes scientifiques actuelles. L'annotation manuelle d'une entrée implique une analyse détaillée de la séquence protéique et de la littérature scientifique. [13]

Les séquences du même gène et de la même espèce sont fusionnées dans la même entrée de base de données. Les différences entre les séquences sont identifiées et leur cause documentée (par exemple, épissage alternatif , variation naturelle , sites d'initiation incorrects , limites d'exons incorrectes , décalages de cadre , conflits non identifiés). Une gamme d'outils d'analyse de séquence est utilisée dans l'annotation des entrées UniProtKB/Swiss-Prot. Les prédictions informatiques sont évaluées manuellement et les résultats pertinents sélectionnés pour être inclus dans l'entrée. Ces prédictions incluent les modifications post-traductionnelles, les domaines transmembranaires et la topologie ,peptides signal , identification de domaine et classification des familles de protéines . [13] [14]

Les publications pertinentes sont identifiées en effectuant des recherches dans des bases de données telles que PubMed . Le texte intégral de chaque article est lu, et les informations sont extraites et ajoutées à l'entrée. Les annotations issues de la littérature scientifique incluent, mais sans s'y limiter : [10] [13] [14]

Les entrées annotées sont soumises à une assurance qualité avant d'être incluses dans UniProtKB/Swiss-Prot. Lorsque de nouvelles données deviennent disponibles, les entrées sont mises à jour.

UniProtKB/TrEMBL

UniProtKB/TrEMBL contient des enregistrements de haute qualité analysés par calcul, qui sont enrichis d'annotations automatiques. Il a été introduit en réponse à l'augmentation du flux de données résultant des projets de génome, car le processus d'annotation manuelle chronophage et laborieux d'UniProtKB/Swiss-Prot ne pouvait pas être élargi pour inclure toutes les séquences de protéines disponibles. [10] Les traductions des séquences codantes annotées dans la base de données de séquences nucléotidiques EMBL-Bank/GenBank/DDBJ sont automatiquement traitées et saisies dans UniProtKB/TrEMBL. UniProtKB/TrEMBL contient également des séquences de PDB et de prédiction de gènes, y compris Ensembl , RefSeq et CCDS . [15]Depuis le 22 juillet 2021, il comprend également des prédictions avec AlphaFold tertiaire et Alphafold-multimer peut même faire des structures quaternaires [16] . [17]

UniParc

UniProt Archive (UniParc) est une base de données complète et non redondante, qui contient toutes les séquences de protéines des principales bases de données de séquences de protéines accessibles au public. [18]Les protéines peuvent exister dans plusieurs bases de données source différentes et en plusieurs copies dans la même base de données. Afin d'éviter la redondance, UniParc ne stocke qu'une seule fois chaque séquence unique. Les séquences identiques sont fusionnées, qu'elles appartiennent à la même espèce ou à des espèces différentes. Chaque séquence se voit attribuer un identifiant stable et unique (UPI), permettant d'identifier la même protéine à partir de différentes bases de données sources. UniParc ne contient que des séquences protéiques, sans annotation. Les références croisées des bases de données dans les entrées UniParc permettent d'extraire des informations supplémentaires sur la protéine à partir des bases de données sources. Lorsque les séquences dans les bases de données source changent, ces changements sont suivis par UniParc et l'historique de tous les changements est archivé.

Bases de données sources

Actuellement, UniParc contient des séquences de protéines provenant des bases de données publiques suivantes :

UniRef

Les grappes de référence UniProt (UniRef) se composent de trois bases de données d'ensembles groupés de séquences de protéines provenant d'UniProtKB et d'enregistrements UniParc sélectionnés. [21] La base de données UniRef100 combine des séquences identiques et des fragments de séquence (de n'importe quel organisme ) en une seule entrée UniRef. La séquence d'une protéine représentative, les numéros d'accession de toutes les entrées fusionnées et les liens vers les enregistrements UniProtKB et UniParc correspondants sont affichés. Les séquences UniRef100 sont regroupées à l'aide de l' algorithme CD-HIT pour construire UniRef90 et UniRef50. [21] [22]Chaque cluster est composé de séquences qui ont au moins 90 % ou 50 % d'identité de séquence, respectivement, avec la séquence la plus longue. Le regroupement des séquences réduit considérablement la taille de la base de données, permettant des recherches de séquences plus rapides.

UniRef est disponible sur le site FTP d'UniProt.

Financement

UniProt est financé par des subventions du National Human Genome Research Institute , des National Institutes of Health (NIH), de la Commission européenne , du gouvernement fédéral suisse par l'intermédiaire de l'Office fédéral de l'éducation et de la science, NCI-caBIG et du département américain de la Défense. [11]

Les références

  1. ^ UniProt, Consortium. (janvier 2015). "UniProt : une plaque tournante pour l'information sur les protéines". Recherche sur les acides nucléiques . 43 (numéro de la base de données) : D204–12. doi :10.1093/nar/gku989. PMC  4384041 . PMID  25348405.
  2. ^ Dayhoff, Margaret O. (1965). Atlas de la séquence et de la structure des protéines . Silver Spring, MD : Fondation nationale de la recherche biomédicale.
  3. ^ "Version 2002: NHGRI Funds Global Protein Database" . Institut national de recherche sur le génome humain (NHGRI) . Archivé de l'original le 24 septembre 2015 . Récupéré le 14 avril 2018 .
  4. ^ O'Donovan, C.; Martin, MJ; Gattiker, A.; Gasteiger, E.; Bairoch, A.; En ligneApweiler, R. (2002). "Ressource de connaissances sur les protéines de haute qualité: SWISS-PROT et TrEMBL". Briefings en bioinformatique . 3 (3): 275–284. doi : 10.1093/bib/3.3.275 . PMID  12230036.
  5. ^ Wu, CH; Ouais, LS ; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, RS; Suzek, BE ; Vinayaka, CR; Zhang, J.; Barker, WC (2003). "La ressource d'information sur les protéines". Recherche sur les acides nucléiques . 31 (1): 345–347. doi :10.1093/nar/gkg040. PMC 165487 . PMID  12520019. 
  6. ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martin, MJ; Michoud, K.; O'Donovan, C.; Phan, I. ; Pilbout, S.; En ligneSchneider, M. (2003). "La base de connaissances sur les protéines SWISS-PROT et son supplément TrEMBL en 2003". Recherche sur les acides nucléiques . 31 (1): 365–370. doi :10.1093/nar/gkg095. PMC 165542 . PMID  12520024. 
  7. ^ Bairoch, A.; Apweiler, R. (1996). "La banque de données de séquences protéiques SWISS-PROT et son nouveau supplément TREMBL". Recherche sur les acides nucléiques . 24 (1): 21–25. doi :10.1093/nar/24.1.21. PMC 145613 . PMID  8594581. 
  8. ^ Bairoch, A. (2000). "Serendipity in bioinformatics, les tribulations d'un bioinformaticien suisse à travers des moments passionnants!". Bioinformatique . 16 (1): 48–64. doi : 10.1093/bioinformatique/16.1.48 . PMID  10812477.
  9. Séverine Altairac, "Naissance d'une banque de données : Interview du prof. Amos Bairoch". Protéines à la Une , août 2006. ISSN  1660-9824.
  10. ^ un bc Apweiler, R.; Bairoch, A.; Wu, CH (2004). "Bases de données de séquences de protéines". Opinion actuelle en biologie chimique . 8 (1): 76–80. doi :10.1016/j.cbpa.2003.12.004. PMID  15036160.
  11. ^ un b Uniprot, C. (2009). "La ressource protéique universelle (UniProt) en 2010". Recherche sur les acides nucléiques . 38 (problème de base de données) : D142–D148. doi :10.1093/nar/gkp846. PMC 2808944 . PMID  19843607. 
  12. ^ "Statistiques UniProtKB / Swiss-Prot Release 2023_01" . web.expasy.org . Récupéré le 31 mars 2023 .
  13. ^ abc "Comment annotons-nous manuellement une entrée UniProtKB ?". www.uniprot.org . Récupéré le 14 avril 2018 .
  14. ^ un b Apweiler, R.; Bairoch, A.; Wu, CH; Barker, WC ; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, MJ; Natale, DA; o'Donovan, C.; Redaschi, N.; Oui, LS (2004). "UniProt : la base de connaissances universelle sur les protéines". Recherche sur les acides nucléiques . 32 (90001) : 115D–1119. doi :10.1093/nar/gkh131. PMC 308865 . PMID  14681372. 
  15. ^ "D'où viennent les séquences de protéines UniProtKB ?". www.uniprot.org . Récupéré le 14 avril 2018 .
  16. ^ Humphreys, Ian R.; Pei, Jimin; Baek, Minkyung; Krishnakumar, Aditya ; Anishchenko, Ivan; Ovchinnikov, Sergey; Zhang, Jing; Ness, Travis J.; Banjade, Sudep ; Bagde, Saket R.; Stancheva, Viktoriya G. (2021). "Structures calculées des complexes protéiques eucaryotes centraux". Sciences . 374 (6573) : eabm4805. doi :10.1126/science.abm4805. PMC 7612107 . PMID  34762488. 
  17. ^ "Mettre le pouvoir d'AlphaFold entre les mains du monde". Esprit profond . Récupéré le 24 juillet 2021 .
  18. ^ Leinonen, R.; Diez, FG ; Binns, D.; Fleischmann, W.; Lopez, R.; En ligneApweiler, R. (2004). "Archives UniProt". Bioinformatique . 20 (17): 3236–3237. doi : 10.1093/bioinformatique/bth191 . PMID  15044231.
  19. ^ "Fondation de recherche sur les protéines" .
  20. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ lien mort permanent ]
  21. ^ ab Suzek, BE; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). "UniRef : clusters de référence UniProt complets et non redondants". Bioinformatique . 23 (10): 1282-1288. doi : 10.1093/bioinformatique/btm098 . PMID  17379688.
  22. ^ Li, W.; Jaroszewski, L.; En ligneGodzik, A. (2001). "Regroupement de séquences hautement homologues pour réduire la taille des grandes bases de données de protéines". Bioinformatique . 17 (3): 282–283. doi : 10.1093/bioinformatique/17.3.282 . PMID  11294794.

Liens externes

  • UniProt