UniProt

UniProt Taxonomy Database
nettsted
URLwww.uniprot.org/ og www.uniprot.org/
NettstedstypeDatabase
TungeEngelsk
KommersiellNei
EierenUniProt Consortium
Laget avEMBL-EBI , Storbritannia; SIB , Sveits; PIR , USA.
Lanseringdesember 2003
Nåværende tilstandAktiv

UniProt ( Universal Pro tein ) er den største bioinformatikkdatabasen for proteinsekvenser av alle levende organismer og virus. Mye informasjon kommer fra genomsekvenseringsprosjekter.

UniProt-konsortiet

UniProt Consortium (UniProt Consortium) består av European Institute of Bioinformatics (EBI), Swiss Institute of Bioinformatics (SIB) og Protein Information Resource (PIR). EBI, som ligger på Wellcome Trust Genome Campus i Hinxton , Storbritannia , huser en stor bioinformatikkdatabase og et servicesenter. SIB, basert i Genève , Sveits , administrerer ExPASy -servere (Expert Protein Analysis System) som er en sentral ressurs for proteomikkverktøy og databaser . PIR, arrangert av National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington , DC, USA, er arvingen til den eldste proteinsekvensdatabasen , Margaret Dayhoffs Atlas of Protein Sequence and Structure , først publisert i 1965 . [1] I 2002 slo EBI, SIB og PIR seg sammen under navnet Consorzio UniProt [2] .

Opprinnelsen til UniProt-databasene

Hvert konsortiummedlem er sterkt involvert i proteindatabasebehandling og merknader. Inntil nylig produserte EBI og SIB sammen Swiss-Prot og TrEMBL databasene, mens PIR produserte sin Protein Sequence (PIR-PSD) database. [3] [4] [5] Disse databasene eksisterte samtidig med ulike prioriteringer av dekning og merknader av proteinsekvensene .

Swiss-Prot ble opprettet i 1986 av Amos Bairoch under doktorgraden og utviklet av Swiss Bioinformatics Institute og European Bioinformatics Institute . [6] [7] Swiss-Prot har som mål å gi pålitelige proteinsekvenser assosiert med et høyt nivå av merknader (som beskrivelsen av funksjonen til et protein, strukturen til dets domene , post-translasjonelle modifikasjoner , varianter, etc.) , et minimumsnivå av redundans og et høyt nivå av integrasjon med andre databaser. Ved å erkjenne at sekvensdata ble produsert i en hastighet utover Swiss-Prots evne til å håndtere dem, ble TrEMBL (Translated EMBL Nucleotide Sequence Data Library) opprettet for å gi automatiserte merknader for proteiner som ennå ikke er til stede i Swiss-Prot. I mellomtiden opprettholdt PIR PIR-PSD og relaterte databaser, inkludert iProClass, en database med proteinsekvenser og familier.

Konsortiets medlemmer slo sammen sine overlappende ressurser og ekspertise, og lanserte UniProt i desember 2003. [8]

Organisering av UniProt-databaser

UniProt tilbyr fire hoveddatabaser:

UniProtKB

UniProt Knowledgebase ( UniProtKB ) er en ekspert kuratert proteindatabase som består av to seksjoner. UniProtKB / Swiss-Prot (inneholder reviderte, manuelt kommenterte oppføringer) og UniProtKB / TrEMBL (inneholder ikke-reviderte, automatisk kommenterte oppføringer). [9] I versjon 2010_09 av 10. august 2010 inneholdt UniProtKB / Swiss-Prot 519 348 oppføringer, og UniProtKB / TrEMBL inneholdt 11 636 205 oppføringer. [10] [11]

UniProtKB / Swiss-Prot

UniProtKB / Swiss-Prot er en høykvalitets, manuelt annotert, ikke-redundant proteinsekvensdatabase. Den kombinerer informasjon hentet fra vitenskapelig litteratur og beregningsanalyse evaluert av biokurator . Formålet med UniProtKB / Swiss-Prot er å gi all kjent informasjon knyttet til et bestemt protein. Merknadene gjennomgås med jevne mellomrom for å holde tritt med gjeldende vitenskapelig kunnskap. Annoteringer for manuell oppføring inkluderer detaljerte analyser av proteinsekvenser og vitenskapelig litteratur. [12]

Sekvenser fra samme gen og samme art slås sammen til samme databaseoppføring. Forskjeller mellom sekvenser identifiseres, og årsaken deres dokumenteres (f.eks . Alternativ spleising , naturlig variasjon , feil initieringssteder , feil eksongrenser, rammeskift , uidentifiserte konflikter ). En rekke sekvensanalyseverktøy brukes i UniProtKB / Swiss-Prot-annoteringer. Dataprognoser evalueres manuelt, og relevante resultater velges for å inkluderes i oppføringen. Disse spådommene inkluderer post-translasjonelle modifikasjoner , transmembrandomener og topologi , signalpeptid , domeneidentifikasjon og proteinfamilieklassifisering . [12] [13]

Publikasjoner om emnet identifiseres gjennom forskningsdatabaser som Pubmed . Den fullstendige teksten til hvert dokument leses, og informasjonen trekkes ut og settes inn i oppføringen. Merknader fra den vitenskapelige litteraturen inkluderer (men er ikke begrenset til): [12] [13] [14]

De kommenterte oppføringene er underlagt kvalitetskontroll før inkludering i UniProtKB / Swiss-Prot. Når nye data er tilgjengelige, oppdateres oppføringene.

UniProtKB / TrEMBL

UniParc

UniRef

UniMes

Merknader

  1. ^ Dayhoff, Margaret O., Atlas over proteinsekvens og struktur , Silver Spring, Md, National Biomedical Research Foundation, 1965, ISBN.
  2. ^ 2002 Utgivelse: NHGRI Funds Global Protein Database , på genome.gov . Hentet 5. mai 2019. Arkivert fra originalen 13. april 2019 .
  3. ^ O'Donovan C, Martin MJ, Gattiker A, Gasteiger E, Bairoch A, Apweiler R, Høykvalitets proteinkunnskapsressurs: SWISS-PROT og TrEMBL , i korthet. Bioinformatikk , vol. 3, nei. 3, september 2002, s. 275–84, PMID  12230036 .
  4. ^ Wu CH, Yeh LS, Huang H, et al. , The Protein Information Resource , i Nucleic Acids Res. , vol. 31, n. 1, januar 2003, s. 345-7, PMC  165487 , PMID  12520019 .
  5. ^ Boeckmann B, Bairoch A, Apweiler R, et al. , The SWISS-PROT protein kunnskapsbase og dets supplement TrEMBL i 2003 , i Nucleic Acids Res. , Vol. 31, n. 1, januar 2003, s. 365–70, PMC  165542 , PMID  12520024 .
  6. ^ Bairoch Amos, [http://bioinformatics.oupjournals.org/cgi/reprint/16/1/48 Serendipity in bioinformatics, prøvelsene til en sveitsisk bioinformatiker gjennom spennende tider!] , In Bioinformatics , vol. 16, nei. 1, 2000, s. 48–64, DOI : 10.1093 / bioinformatikk / 16.1.48 , PMID  10812477 .
  7. ^ Séverine Altairac, " Naissance d'une banque de données: Intervju av prof. Amos Bairoch ". Proteines à la Une , august 2006. ISSN 1660-9824.
  8. ^ Pågående og fremtidig utvikling ved Universal Protein Resource , i Nucleic Acids Research , vol. 39, Databaseutgave, januar 2011, s. D214–9, DOI : 10.1093 / nar / gkq1020 , PMC 3013648 , PMID 21051339 .   
  9. ^ Den universelle proteinressursen (UniProt) i 2010 , i Nucleic Acids Res. , Vol. 38, Databaseutgave, januar 2010, s. D142-8, DOI : 10.1093 / nar / gkp846 , PMC 2808944 , PMID 19843607 .   
  10. ^ UniProtKB / SwissProt utgivelsesstatistikk
  11. ^ UniProtKB / TrEMBL utgivelsesstatistikk , ebi.ac.uk. Hentet 5. mai 2019 (arkivert fra originalen 25. april 2019) .
  12. ^ a b c UniProtKB-merknader
  13. ^ a b Apweiler R, Bairoch A, Wu CH, et al. , UniProt: kunnskapsbasen Universal Protein , i Nucleic Acids Res. , vol. 32, Databaseutgave, januar 2004, s. D115–9, DOI : 10.1093 / nar / gkh131 , PMC  308865 , PMID  14681372 .
  14. ^ Apweiler R, Bairoch A, Wu CH, Proteinsekvensdatabaser , i Curr Opin Chem Biol , vol. 8, nei. 1, februar 2004, s. 76–80, DOI : 10.1016 / j.cbpa.2003.12.004 , PMID  15036160 .

Eksterne lenker

  • UniProt , på uniprot.org .
  • neXtProt , på beta.nextprot.org . Arkivert fra originalen 11. mai 2011. Hentet 5. august 2019 .
  • EBI ,på ebi.ac.uk.
  • SIB , på isb-sib.ch .
  • PIR , på pir.georgetown.edu . Hentet 14. mai 2011 (arkivert fra originalen 12. mars 2014) .