CAPTCHA

Det engelske akronymet CAPTCHA (uttales: [ˈkæp.tʃə] ) betegner innen datavitenskap en test som består av ett eller flere spørsmål og svar for å avgjøre om brukeren er et menneske og ikke en datamaskin , eller mer presist, en bot .

Akronymet, som angivelig er avledet fra det engelske " C ompletely A utomated Public T uring -test- to-telling C omputers and H umans A gjengir,"part "Caught you!" (Jeg tok deg!) . Begrepet ble laget i 2000 av Luis von Ahn , Manuel Blum og Nicholas J. Hopper fra Carnegie Mellon University og John Langford fraIBM .

En CAPTCHA -test som vanligvis brukes er en der brukeren blir bedt om å skrive hvilke bokstaver eller tall som er i en sekvens, som virker forvrengt eller uskarp på skjermen .

Siden testen håndteres av en datamaskin, mens den originale Turing-testen håndteres av et menneske, blir CAPTCHA -testen noen ganger beskrevet som en omvendt Turing-test; Dette er imidlertid en misvisende definisjon, fordi det også kan indikere en Turing-test der begge deltakerne prøver å bevise at de ikke er mennesker; faktisk, bokstavelig talt, er du en robot .

Beskrivelse

Opprinnelse

CAPTCHA- er ble først utviklet i 1997 av AltaVistas FoU- avdeling ledet av Andrei Broder , for å hindre roboter i å legge til URL -er til søkemotoren deres . Broder og kollegene prøvde å lage bilder som er motstandsdyktige mot OCR - angrep , og derfor konsulterte de manualen til Brother -skannerne , som indikerte alle egenskapene som en tekst må ha for å bli gjenkjent av skanneren: veldefinerte og lineære tegn, mangel på forskjeller mellom fontene som er brukt i teksten, en homogen bakgrunn som tydelig kan skilles fra teksten og så videre. Ved å bruke disse indikasjonene tvert imot, var det mulig å oppnå den verst tenkelige situasjonen, det vil si en tekst hvis skanning ville vært svært vanskelig: skjeve tegn, forskjellige fonter, farger på teksten som ligner på bakgrunnen eller lignende enheter. Broder hevdet at innføringen av denne teknologien hadde redusert spam med mer enn 95 %.

Uavhengig av AltaVista-teamet utviklet og formidlet Luis von Ahn og Manuel Blum ideen om CAPTCHA -testen i 2000 , noe som betyr enhver type program som var i stand til å skille mellom mennesker og datamaskiner. De oppfant ulike typer tester, inkludert den første som fikk utbredt sirkulasjon takket være bruken av Yahoo!

Applikasjoner

CAPTCHA- er brukes til å hindre roboter fra å bruke visse tjenester, for eksempel forum , registrere seg på nettsteder , skrive kommentarer og generelt alt som kan brukes til å lage spam eller bryte sikkerheten med hackingoperasjoner som brute force . Denne typen tester ble også brukt for å bekjempe bot-generert spam ved å tvinge avsenderen av en e-postmelding som ikke er kjent av mottakeren til å bestå en CAPTCHA -test før meldingen ble levert.

Funksjoner

Per definisjon er CAPTCHA- tester helt automatiske og krever normalt ikke menneskelig inngripen for administrasjon eller vedlikehold, med utvilsomt fordeler når det gjelder kostnader og pålitelighet.

Algoritmene som brukes til å utføre testene blir ofte offentliggjort, selv om de i mange tilfeller er beskyttet av patenter. Denne åpenhetspolitikken er rettet mot å demonstrere det faktum at sikkerheten til metoden ikke ligger i kunnskapen om en hemmelig algoritme (som kan oppnås med reverse engineering -teknikker eller uredelig); tvert imot, for å "bryte" algoritmen er det nødvendig å løse et problem klassifisert som "hardt" innen kunstig intelligens .

Det er ikke obligatorisk å ty til visuelle teknikker: ethvert kunstig intelligensproblem som har samme grad av kompleksitet, for eksempel talegjenkjenning , er egnet til å tjene som grunnlag for en test av denne typen. Noen implementeringer lar brukeren alternativt velge en test basert på auditive teknikker, selv om denne tilnærmingen har gjennomgått en langsommere utvikling og ikke nødvendigvis er like effektiv som den visuelle. I tillegg er det mulig å ty til andre typer tester som krever en tekstforståelsesaktivitet, som å svare på et spørsmål eller en logikkquiz, følge spesifikke instruksjoner for å lage et passord, etc. Også i dette tilfellet er data om motstanden til disse teknikkene mot mottiltak knappe.

En lovende teknikk som har utviklet seg de siste årene, bruker tester basert på å gjenkjenne et ansikt i et kjent bilde. For denne typen CAPTCHA snakker vi om RTT basert på ansiktsgjenkjenning . I litteraturen for øyeblikket er bare to metoder basert på denne typen CAPTCHA implementert : ARTiFACIAL [1] og en CAPTCHA basert på ansiktsgjenkjenning . [2] [3]

Tilgjengelighet

Bruken av CAPTCHA -tester basert på lesing av tekster eller andre aktiviteter relatert til visuell persepsjon forhindrer eller sterkt begrenser tilgangen til beskyttede ressurser for brukere med synsproblemer, og siden slike tester er spesifikt utformet for ikke å kunne leses av automatiske verktøy, er den vanlige teknologiske hjelpemidler som brukes av blinde eller synshemmede brukere er ikke i stand til å tolke dem; men selv dyschromatopsi- brukere vil kanskje ikke klare testen. Bruken av CAPTCHA -tester , vanligvis knyttet til de innledende fasene av tilgang eller registrering til nettstedene og noen ganger gjentatt for hver tilgang, kan utgjøre en diskriminering av disse funksjonshemmede brukerne slik at det i noen jurisdiksjoner utgjør et brudd på loven.

I de nye generasjonene av CAPTCHA- er, laget for å motstå de mest sofistikerte tekstgjenkjenningsprogrammene, kan det bli ganske komplisert, om ikke umulig, å kunne gjenkjenne tekst av mange brukere, selv i full besittelse av deres visuelle evne.

W3C har laget en rapport som fremhever noen av tilgjengelighetsproblemene knyttet til bruken av disse teknikkene. [4]

Mottiltak

Etter den massive bruken av CAPTCHA , har noen mottiltak blitt oppdaget som lar spammere bestå testene.

Intelligent programvare er nå i stand til å løse CAPTCHAer av ulike typer. [5]

Greg Mori og Jitendra Malik presenterte i 2003 en studie [6] som illustrerer hvordan man kan omgå et av de mest populære systemene for å utføre CAPTCHA -tester , EZ-Gimpy; denne tilnærmingen viste seg å være effektiv i 92 % av tilfellene. Sammenlignet med det mer sofistikerte, men mindre utbredte Gimpy-systemet, synker metodens effektivitet til 33 %. For øyeblikket er det imidlertid ikke kjent om denne algoritmen er implementert utenfor forskningssammenheng.

Noen programmer har også blitt opprettet for å søke etter en løsning gjentatte ganger og andre for å gjenkjenne skrevne tegn, ved å bruke spesielle teknikker og ikke standard OCR . Prosjekter som PWNtcha [7] har gjort store fremskritt, og har bidratt til den generelle migrasjonen til CAPTCHA som blir stadig vanskeligere.

En annen metode for å bestå en CAPTCHA er å dra nytte av økter der testen allerede har bestått, lagre testene og deretter opprette et løsningsarkiv.

Men den mest effektive metoden er å bruke et menneske til å løse CAPTCHA : det er faktisk mulig å betro betalte mennesker oppgaven med å løse CAPTCHA . Det nevnte W3C-dokumentet [4] sier at en operatør enkelt kan løse hundrevis av CAPTCHA- tester på en time.

Denne mulige løsningen ville kreve en økonomisk investering som ikke alltid er berettiget, men en billigere metode har blitt oppdaget for å oppnå de samme resultatene: spammeren bruker til dette formålet et nettsted med en tjeneste som menneskelige brukere ber om tilgang, som kan et forum, men også en samling pornografiske bilder. Når en bruker ber om å logge inn, blir han derfor tilbudt en CAPTCHA hentet fra det eksterne nettstedet som spammeren ønsker å angripe: testen løses deretter av brukeren, som i bytte mottar en godtgjørelse som har en ubetydelig kostnad for spammeren , mens systemet "resirkulerer" testløsningen for å overvinne målstedets barriere.

reCaptcha

CAPTCHA- testene har hatt sekundære bruksområder, ikke bare relatert til eliminering av spam: den mest kjente gjelder gjenkjennelse av tekster i eldgamle bøker og kalles reCaptcha . Mange biblioteker konverterer digitalt sine samlinger av gamle tekster (inkludert manuskripter); denne konverteringen oppnås gjennom digitalisering av sidene og deres påfølgende analyse gjennom et OCR -program , som analyserer bildene av sidene og trekker ut teksten i dem. OCR-programmer har imidlertid problemer med å tolke falmede bokstaver og gulnede sider av gamle tekster, og når de ikke klarer å gjenkjenne en tekst med sikkerhet, krever de menneskelig inngripen, noe som bremser prosessen og øker kostnadene ved digitalisering.

Carnegie Mellon University- forskere bestemte seg for å bruke CAPTCHA- systemer for å tolke tvilsomme ord identifisert av OCR-programmer. Når to OCR-systemer identifiserer et ord forskjellig, blir det assosiert med et kjent ord og sendt til en bruker som må bestå en CAPTCHA -test for å få tilgang til en tjeneste. Det antas at hvis en bruker er i stand til å finne det kjente ordet riktig, vil han også finne det ukjente ordet med stor sannsynlighet. Når tre brukere gir samme svar, lagrer systemet ordet som riktig. Dette systemet gjorde det mulig å konvertere 440 millioner ord med 99 % nøyaktighet. Fra august 2008 konverterte dette systemet 4 millioner ord per dag. [8] Prosjektet ble senere et oppstartsselskap som i september 2009 ble kjøpt opp av Google , som startet en skanningsprosedyre av titalls millioner bøker lagret i hundrevis av bokhandler rundt om på planeten og har til hensikt å utnytte reCaptcha- for å rette opp feil som følge av OCR-skanning av tekster. [9]

CAPTCHA i kulturen på Internett

Et av internettfenomenene født på 4chan gjelder CAPTCHA . Den refererer til en kode som lyder "Inglip Summoned": den resulterte i den falske legenden om at en mørk gud, slik Inglip, vendte tilbake til jorden for å dra den inn i mørket. Det er også flere videoer på YouTube der Inglip ga ordre til sine følgere, alltid gjennom ekstravagante og ofte uforståelige CAPTCHA -koder . [10]

Merknader

  1. ^ Arkivert kopi ( PDF ), på research.microsoft.com . Hentet 14. mars 2010 ( arkivert 7. januar 2010) .
  2. ^ Gratis Captcha-nedlastinger for ansiktsgjenkjenning: Luxand FaceSDK av Luxand Development, Luxand Blink! Pro av Luxand Development og mer
  3. ^ IEEE Xplore - Abstrakt side
  4. ^ a b Matt May, Inaccessibility of Visually-Oriented Anti-Robot Tests , på W3C Working Group Note , 23. november 2005. Hentet 12. juli 2011 ( arkivert 19. juli 2011) .
  5. ^ Amerikansk oppstart lager programvare for å løse Captcha ved hjelp av kunstig intelligens , på CesarNews . Hentet 26. mars 2021 (arkivert fra originalen 28. oktober 2013) .
  6. ^ Greg Mori, Jitendra Malik, Recognizing Objects in Adversarial Clutter: Breaking a Visual CAPTCHA ( PDF ) ,cs.sfu.ca. Hentet 12. juli 2011 ( arkivert 29. september 2011) .
  7. ^ PWNtcha-Caca Labs , på sam.zoy.org . Hentet 3. oktober 2005 ( arkivert 11. september 2005) .
  8. ^ Gamle tekster har en fremtid "An antispam method will save them" , på repubblica.it , 19. august 2008. Hentet 19. august 2008 ( arkivert 21. august 2008) .
  9. ^ Google kjøper reCaptcha , på macitynet.it , 16. september 2009. Hentet 16. september 2009 ( arkivert 22. september 2009) .
  10. ^ Inglipedia , i inglipnomicon.wikia.com , 16. september 2009. Hentet 5. juni 2011 ( arkivert 18. juni 2011) .

Relaterte elementer

Andre prosjekter

Eksterne lenker