Crawler

En crawler (også kalt en webcrawler , edderkopp eller robot ) er programvare som analyserer innholdet i et nettverk (eller database ) på en metodisk og automatisert måte, vanligvis på vegne av en søkemotor . Nærmere bestemt er en crawler en type bot (program eller skript som automatiserer operasjoner), som vanligvis skaffer seg en tekstkopi av alle dokumentene som finnes på en eller flere nettsider, og skaper en indeks som gjør at de senere kan søkes og visualiseres .

En ekstremt vanlig bruk av crawlere er gjort på nettet ; den er basert på en liste over nettadresser å besøke levert av søkemotoren (som i utgangspunktet igjen er basert på adressene foreslått av brukere eller på en liste som er forhåndskompilert av programmererne selv). Når du analyserer en URL, identifiserer den alle hyperkoblinger i dokumentet og legger dem til i listen over URL-er som skal besøkes. Prosessen kan avsluttes manuelt eller etter at et visst antall tilkoblinger er fulgt.

Videre har robotsøkeprogrammer som er aktive på Internett rett til å bli adressert av det som er angitt i " robots.txt "-filen plassert i roten av nettstedet. I denne filen kan du angi hvilke sider som ikke skal analyseres. Crawleren har rett til å følge rådene, men ikke plikten.

Navn på edderkoppene til hovedsøkemotorene, oppdatert fra 21. februar 2008
Crawler Søkemotor
Googlebot Google
Rask Rask - Alltheweb
Nam Inktomi - Yahoo!
Scooter AltaVista
Mercator AltaVista
Spør Jeeves Spør Jeeves
Teoma agent Theoma
Ia arkiver Alexa - Internettarkiv
Yahoo! Nam Yahoo
Romilda Facebook
DuckDuckBot DuckDuckGo

Eksempler på søkeroboter

Følgende er en liste over generelle offentlige robotsøkerobotarkitekturer :

Åpen kildekode-crawler

Kritikk

Begrepet Web Crawler brukes også for å indikere kontroversielle offline nettlesere , for eksempel: PageNest (tidligere WebStripper ), MSIECrawler , Offline Explorer , etc. Disse programmene er laget for å laste ned innholdet på et helt nettsted til harddisken på brukerens datamaskin. For eksempel forbyr Memory Alpha bruk av dem fordi de går aggressivt inn på nettstedet, noe som drastisk bremser bruken av nettstedet av andre brukere [1] og lovbrytere risikerer å bli blokkert [2] .

Merknader

  1. ^ Memory Alpha: Database - nedlasting , på memory-alpha.org . Hentet 28. desember 2010 .
  2. ^ Se Memory Alpha robots.txt-fil

Relaterte elementer

Andre prosjekter

Eksterne lenker