Grid databehandling

Innen datavitenskap er grid computing eller grid-systemer en distribuert datainfrastruktur som brukes til å behandle store mengder data ved bruk av en enorm mengde ressurser . Spesielt tillater disse systemene koordinert deling av ressurser i en virtuell organisasjon.

Historie

Deling av dataressurser gjør det mulig å dele informasjonsteknologiens historie inn i 4 epoker. Den første var den preget av ideen om en enkelt datamaskin for mange brukere. I denne epoken har kjøp av dataressurser så store kostnader at problemet er at de ulike brukerne bruker disse ressursene samtidig.

Fra åttitallet ble kostnadene for maskinvaren redusert som gjorde det mulig å ha en datamaskin for hver enkelt bruker. De første personlige datamaskinene ble født i denne perioden og datainfrastrukturen utviklet seg mot SIMD . Siden slutten av 1980-tallet begynner ideen om å dele maskinvarearkitektur å spre seg, også takket være det nevnte prisfallet, noe som førte til fødselen av de første virtuelle parallelle maskinene.

Nittitallet er de der Moores lov anvendes fullt ut og datanettverk og Internett (grunnleggende konsepter for nettet ) er etablert.

Evolution of Grid Computing

SETI @ home- prosjektet , lansert i 1999 av Dan Werthimer, er et velkjent eksempel på et nettdataprosjekt, om enn enkelt. SETI @ Home ble fulgt av mange andre lignende prosjekter innen matematikk og mikrobiologi.

For øyeblikket er det viktigste europeiske rutenettet det til CERN i Genève som nå heter EGEE (gLite er navnet på mellomvaren den produserer; tidligere LCG og før det DataGrid), utviklet – blant annet – av et italiensk-tsjekkisk team og hovedsakelig ved INFN , National Institute of Nuclear Physics.

I motsetning til den som brukes av SETI @ Home, er for tiden et rutenett unnfanget ved å gi et mellomvarenivå mellom databehandlings- og minneressursene (CE - dataelement og SE - lagringselement) og brukerne av selve nettet.
Hovedformålet med mellomvaren er å utføre såkalt match-making , dvs. koblingen mellom de forespurte og tilgjengelige ressursene for å garantere fordelingen av jobber (begrep som brukes i batch- systemer for å indikere en prosess eller en del av den ) under de beste forholdene, alltid med synlighet av statusen til hele rutenettet.

Et annet viktig fenomen som skal fremheves er fødselen, sammen med de store nasjonale og internasjonale rutenettene, av flere implementeringer på lokal eller storbyskala av distribuerte systemer som opprettholder egenskapene til et rutenett. Disse systemene er indikert med begrepene Local Area Grid (LAG) og Metropolitan Area Grid (MAG) eller, enklere, Metropolitan Grid med tydelig referanse til klassifiseringen introdusert i nettverket ( LAN , MAN , WAN ). Ettersom koordineringen av nasjonale nett forutser fremtidig etablering av et verdensomspennende nett, nærmer implementeringen av lokale eller storbynett seg en verden av intranett . Faktisk gir de en type infrastruktur som kan brukes enklere enn internett for introduksjon av distribuert databehandling i forretningsmiljøet.

Referanseorganet for utvikling av homogenitet og standarder for protokoller brukt av grids er GGF (Global Grid Forum), som opprettet OGSA (Open Grid Services Architecture) standarder. I 2004 ble WSRF (Web Services Resource Framework) utstedt, som er et sett med spesifikasjoner for å hjelpe programmerere med å skrive applikasjoner som er i stand til å få tilgang til nettressurser.

I dag er den mest kjente og brukte programvaren BOINC , en Grid Computing-programvare utviklet av University of California (Berkeley) . Faktisk står forkortelsen BOINC for Berkeley Open Infrastructure for Network Computing. Denne programvaren er åpen kildekode.

Beskrivelse

Rutenettsystemer

Begrepet "grid" ble laget rundt midten av nittitallet. Det virkelige og spesifikke problemet som ligger til grunn for begrepet grid er koordinert deling av ressurser innenfor en dynamisk og multi-institusjonell virtuell organisasjon (Virtual Organization, kort referert til som VO) [1] . Deling er ikke bare begrenset til utveksling av filer, men omfatter direkte tilgang til datamaskiner , programvare , generelt til all maskinvaren som trengs for å løse et vitenskapelig, teknisk eller industrielt problem. Enkeltpersoner og institusjoner, som stiller sine ressurser til rådighet for nettet til samme formål, er en del av samme VO.

Et fellestrekk ved grid-prosjekter er behovet for å ha et dataintensivt datamiljø, der applikasjoner trenger å få tilgang til store mengder geografisk distribuert data raskt og pålitelig, og, det er nettopp belastningen av grid, få disse applikasjonene til å fungere best mulig. mulig måte. Det er lett å observere at ingen datamaskin på markedet for øyeblikket vil være i stand til å behandle slike datamengder i løpet av rimelig tid. Imidlertid kan deling av ressurser som riktig koordinerte CPUer og disker gi brukeren inntrykk av å ha tilgang til en virtuell superdatamaskin, med utrolig regnekraft og lagringskapasitet som er i stand til å støtte store arbeidsbelastninger [2] . Behovet for å designe og implementere en Resource Broker ressursplanlegger oppstår fra ideen om å få hele arkitekturen til et rutenett til å fremstå som en enkelt virtuell superdatamaskin , skjule all den interne kompleksiteten for brukeren og vise ham bare fordelene . [3]

Det er en av de kritiske komponentene i ressursstyringssystemet, det har som oppgave å tildele ressurser til jobber (gridlets), for å møte behovene til applikasjonene og systemet. Ressursene den må spore og administrere inkluderer datasystemer og datalagringssystemer (via Storage Broker, sammenkoblingsnettverk og via Network Monitor) [4] . Planlegging er et tradisjonelt felt innen informatikk, men selv om mange teknikker har blitt studert for mange typer systemer (fra uniprosessor til multiprosessor til distribuerte systemer), gjør de typiske egenskapene til datanett mange av disse tilnærmingene utilstrekkelige. Faktisk, mens ressursene og jobbene i tradisjonelle systemer er under direkte kontroll av planleggeren, er ressursene til rutenettene geografisk fordelt. Sistnevnte er heterogene i naturen og tilhører ulike individer eller organisasjoner, hver med sine egne planleggingspolicyer, ulike tilgangskostnadsmodeller, arbeidsmengder og ressurstilgjengelighet som varierer dynamisk over tid. Mangelen på sentralisert kontroll, sammen med tilstedeværelsen av brukere som genererer jobber (gridlets), svært forskjellige fra hverandre, gjør planleggingen mer komplisert enn for tradisjonelle datasystemer.

Klassifikasjoner av Grid Computing

Grid computing skiller seg fra cloud computing eller peer-to-peer databehandling hovedsakelig på grunn av tre faktorer: [5]

Desentral, lokal eller global koordinering av ressurser som dataklynger, dataanalyse, databaser, etc.
Standardiserte og åpne grensesnitt (noder) og mellomvare som tar for seg å distribuere operasjonene og koble dataenhetene til "hovednettet".
En tjeneste som distribuerer datastrømmer på en optimal måte og garanterer skalerbarhet selv ved komplekse beregningsoperasjoner.

I tillegg er det flere typer nettdatabehandling:

Datanettverk: Dette er den klassiske formen. Brukere bruker datakraften til en virtuell superdatamaskin, levert av leverandøren, til å distribuere og skalere komplekse dataprosesser.
Datanett: her utnyttes datamulighetene til datamaskinene i en klynge til å evaluere, overføre, dele og analysere store datamengder.
Kunnskapsnett: omhandler skanning, kobling, innsamling, evaluering og strukturering av dataposter og databaser.
Ressursnett: et system som etablerer hierarkier blant alle aktørene innen nettdatabehandling.
Tjenestenett: Denne typen nettdatabehandling kombinerer dataytelsen til datamaskinen med ytelsen til tjenesten som er i bruk.

Applikasjoner for Grid Computing

Et eksempel på anvendelse av grid computing-paradigmet er neuGRID , et prosjekt i det 7. rammeprogrammet som sørger for utvikling av en infrastruktur for studiet av nevrodegenerative sykdommer.

GridSim

Det er utviklet et grafisk grensesnitt som lar brukeren legge inn egenskapene til nettsystemet, hvis oppførsel analyseres, og presenterer den grafiske rekonstruksjonen fra tid til annen. På slutten av den første fasen, det vil si innsettingen av karakteristikkene, starter den andre fasen, i forhold til simuleringen. Under simuleringen behandles dataene og rapporten med all informasjon og svar fra systemet presenteres for brukeren. GridSim-simulatoren brukes til simuleringen, mens JUNG brukes til den grafiske representasjonen av systemet. JUNG (Java Universal Network / Graph Framework) er et åpen kildekode-grafmodellerings- og visualiseringsbibliotek skrevet i Java.

Merknader

^ Ian Foster, C. Kesselman, S. Tuecke, The Anatomy of the Grid: Enabling Scalable Virtual Organizations ( PDF ), Intl. J. Supercomputer Applications, 2001 (arkivert fra originalen 25. april 2005) .
^ M. Baker, R. Buyya, D. Laforenza, The Grid: International Efforts in Global Computing, International Conference on Advances in Infrastructure for Electronic Business, Science and Education on the Internet ( PDF ) , L'Aquila, august 2000.
^ K. Krauter, R. Buyya, M. Maheswaran, A Taxonomy and Survey of Grid Resource Management System for Distributed Computing, Software: Practice and Experience (SPE) Journal ( PDF ), New York, 2001.
^ S. Vazhkudai, S. Tuecke og I. Foster, Replica Selection in the Globus Data Grid, Proceedings of the First IEEE/ACM International Conference on Cluster Computing and the Grid (CCGRID 2001), s. 106-113 , IEEE Computer Society Press, mai 2001.
^ Hva er Grid Computing? , på ionos.it . Hentet 28. januar 2022 .

Bibliografi

( EN ) Patrick P. Gelsinger, PA Gargini, GH Parker, AYC Yu, Microprocessors circa 2000 , 1989.
( EN ) Peter M. Kogge, The architecture of Symbolic Computers , McGraw-Hill, 1991, ISBN 0-07-035596-7 .
( EN ) Ian Foster, Carl Kesselman, The Grid 2: Blueprint for a New Computing , Morgan Kaufmann, 2003, ISBN 1-55860-933-4 .
Andrew Stuart Tanenbaum , Grid computing , i Computer Architecture. En strukturell tilnærming , Milan, Pearson Education, 2006, s. 626-628, ISBN 978-88-7192-271-3 .

Relaterte elementer

Eksterne lenker

( NO ) Grid-forum , på gridforum.org .
( NO ) INFN-Grid , på grid.infn.it. Hentet 21. desember 2004 (arkivert fra originalen 18. oktober 2007) .
The Metropolitan Area Grid , på people.na.infn.it .
Distributed Computing Research Group Arkivert 18. juni 2006 på Internet Archive . ved universitetet i Napoli "Federico II"
( NO ) Grid Cafe , på gridcafe.org . Hentet 8. september 2018 (arkivert fra originalen 5. desember 2008) .
( EN ) EU DataGrid-prosjektet , på eu-datagrid.web.cern.ch . Hentet 8. september 2006 (arkivert fra originalen 31. august 2016) .
( NO ) LHC Computing Grid , på lcg.web.cern.ch. Hentet 8. september 2006 (arkivert fra originalen 19. august 2006) .
( NO ) EGEE (enabling grid for the e-science) , på public.eu-egee.org . Hentet 8. september 2006 (arkivert fra originalen 8. september 2006) .
( NO ) HackGrid-prosjektet! , på hackgrid.org . Hentet 13. desember 2021 (arkivert fra originalen 4. april 2008) .
( NO ) DEISA , på deisa.org .
ENEA CRESCO , på cresco.enea.it .
( EN ) CoreGRID Network of Excellence , på coregrid.net .
Nettside om Trigrid-prosjektet , på andreacannella.altervista.org . Hentet 2. mars 2009 (arkivert fra originalen 2. mars 2010) .
Artikkel om utvikling av et nettdatasystem i Java , på programmingmore.blogspot.com .