UniProt Taxonomy Database nettsted | |
---|---|
URL | www.uniprot.org/ og www.uniprot.org/ |
Nettstedstype | Database |
Tunge | Engelsk |
Kommersiell | Nei |
Eieren | UniProt Consortium |
Laget av | EMBL-EBI , Storbritannia; SIB , Sveits; PIR , USA. |
Lansering | desember 2003 |
Nåværende tilstand | Aktiv |
UniProt ( Universal Pro tein ) er den største bioinformatikkdatabasen for proteinsekvenser av alle levende organismer og virus. Mye informasjon kommer fra genomsekvenseringsprosjekter.
UniProt Consortium (UniProt Consortium) består av European Institute of Bioinformatics (EBI), Swiss Institute of Bioinformatics (SIB) og Protein Information Resource (PIR). EBI, som ligger på Wellcome Trust Genome Campus i Hinxton , Storbritannia , huser en stor bioinformatikkdatabase og et servicesenter. SIB, basert i Genève , Sveits , administrerer ExPASy -servere (Expert Protein Analysis System) som er en sentral ressurs for proteomikkverktøy og databaser . PIR, arrangert av National Biomedical Research Foundation (NBRF) ved Georgetown University Medical Center i Washington , DC, USA, er arvingen til den eldste proteinsekvensdatabasen , Margaret Dayhoffs Atlas of Protein Sequence and Structure , først publisert i 1965 . [1] I 2002 slo EBI, SIB og PIR seg sammen under navnet Consorzio UniProt [2] .
Hvert konsortiummedlem er sterkt involvert i proteindatabasebehandling og merknader. Inntil nylig produserte EBI og SIB sammen Swiss-Prot og TrEMBL databasene, mens PIR produserte sin Protein Sequence (PIR-PSD) database. [3] [4] [5] Disse databasene eksisterte samtidig med ulike prioriteringer av dekning og merknader av proteinsekvensene .
Swiss-Prot ble opprettet i 1986 av Amos Bairoch under doktorgraden og utviklet av Swiss Bioinformatics Institute og European Bioinformatics Institute . [6] [7] Swiss-Prot har som mål å gi pålitelige proteinsekvenser assosiert med et høyt nivå av merknader (som beskrivelsen av funksjonen til et protein, strukturen til dets domene , post-translasjonelle modifikasjoner , varianter, etc.) , et minimumsnivå av redundans og et høyt nivå av integrasjon med andre databaser. Ved å erkjenne at sekvensdata ble produsert i en hastighet utover Swiss-Prots evne til å håndtere dem, ble TrEMBL (Translated EMBL Nucleotide Sequence Data Library) opprettet for å gi automatiserte merknader for proteiner som ennå ikke er til stede i Swiss-Prot. I mellomtiden opprettholdt PIR PIR-PSD og relaterte databaser, inkludert iProClass, en database med proteinsekvenser og familier.
Konsortiets medlemmer slo sammen sine overlappende ressurser og ekspertise, og lanserte UniProt i desember 2003. [8]
UniProt tilbyr fire hoveddatabaser:
UniProt Knowledgebase ( UniProtKB ) er en ekspert kuratert proteindatabase som består av to seksjoner. UniProtKB / Swiss-Prot (inneholder reviderte, manuelt kommenterte oppføringer) og UniProtKB / TrEMBL (inneholder ikke-reviderte, automatisk kommenterte oppføringer). [9] I versjon 2010_09 av 10. august 2010 inneholdt UniProtKB / Swiss-Prot 519 348 oppføringer, og UniProtKB / TrEMBL inneholdt 11 636 205 oppføringer. [10] [11]
UniProtKB / Swiss-ProtUniProtKB / Swiss-Prot er en høykvalitets, manuelt annotert, ikke-redundant proteinsekvensdatabase. Den kombinerer informasjon hentet fra vitenskapelig litteratur og beregningsanalyse evaluert av biokurator . Formålet med UniProtKB / Swiss-Prot er å gi all kjent informasjon knyttet til et bestemt protein. Merknadene gjennomgås med jevne mellomrom for å holde tritt med gjeldende vitenskapelig kunnskap. Annoteringer for manuell oppføring inkluderer detaljerte analyser av proteinsekvenser og vitenskapelig litteratur. [12]
Sekvenser fra samme gen og samme art slås sammen til samme databaseoppføring. Forskjeller mellom sekvenser identifiseres, og årsaken deres dokumenteres (f.eks . Alternativ spleising , naturlig variasjon , feil initieringssteder , feil eksongrenser, rammeskift , uidentifiserte konflikter ). En rekke sekvensanalyseverktøy brukes i UniProtKB / Swiss-Prot-annoteringer. Dataprognoser evalueres manuelt, og relevante resultater velges for å inkluderes i oppføringen. Disse spådommene inkluderer post-translasjonelle modifikasjoner , transmembrandomener og topologi , signalpeptid , domeneidentifikasjon og proteinfamilieklassifisering . [12] [13]
Publikasjoner om emnet identifiseres gjennom forskningsdatabaser som Pubmed . Den fullstendige teksten til hvert dokument leses, og informasjonen trekkes ut og settes inn i oppføringen. Merknader fra den vitenskapelige litteraturen inkluderer (men er ikke begrenset til): [12] [13] [14]
De kommenterte oppføringene er underlagt kvalitetskontroll før inkludering i UniProtKB / Swiss-Prot. Når nye data er tilgjengelige, oppdateres oppføringene.
UniProtKB / TrEMBL