I dag er Informasjonsutvinning et tema med stor relevans og interesse for et bredt spekter av mennesker og lokalsamfunn. Enten på grunn av dens innvirkning på samfunnet, dens kulturelle relevans eller dens betydning i det akademiske feltet, har Informasjonsutvinning fanget oppmerksomheten til mange, generert debatter, refleksjoner og forskning rundt dette temaet. Fra ulike perspektiver og tilnærminger har Informasjonsutvinning vakt stor interesse på grunn av sin innflytelse på ulike aspekter av dagliglivet. I denne artikkelen vil vi utforske ulike fasetter av Informasjonsutvinning, analysere dens betydning, implikasjoner og mulige fremtidige utviklinger.
Informasjonsutvinning eller datautvinning[1][2] (engelsk: data mining) vil si å gjennomgå store, eksisterende databaser for å generere ny informasjon.[3] Hovedformålet med data-utvinningsprosessen er å hente ut informasjon fra datasett og transformere det til en forståelig struktur for videre bruk.
Manuell utvinning av mønster fra data har eksistert i mange århundrer med metoder som Bayes' teorem (1700-tallet) og regresjonsanalyse (1800-tallet). Utviklingen av datateknologi har økt muligheten til innhenting, lagring og manipulering av data. Ettersom at datasett har økt i størrelse og kompleksitet, har manuell utvinning blitt erstattet med indirekte og automatiserte måter å prosessere data på. Eksempler på dette er genetisk algoritme (1950-tallet), beslutningstre (1960-tallet), nevralt nettverk (1970-tallet) og støttevektormaskiner (1990-tallet).
Kunnskapsfunn i databaser er vanligvis definert i disse trinnene:
Det finnes mange variasjoner av denne prosessen, og det hele kan forenkles til tre steg:
Før datautvinningsalogitmer kan bli brukt, må man velge et konkret datasett. På grunn av at datautvinning bare kan oppdage mønster som faktisk er til stede i data, må det valgte datasettet være stort nok til å kunne inneholde disse mønstrene. Samtidig skal mønstrene bli funnet innen en akseptabel tidsfrist. Preprossesering er viktig for å analysere multivariable datasett før datautvinningen. Datasettet blir deretter renset for å fjerne observasjoner som inneholder støy eller mangler data.
Datautvinning består av seks forskjellige klasser med oppgaver[4]:
Datautvinning kan utilsiktet bli misbrukt, og kan da gi resultater som synes å være av betydning. Disse resultatene vil ikke kunne forutsi fremtidig atferd, og kan ikke reproduseres på en ny prøve av data.
Det siste steget av kunnskapsfunn fra data er å verifisere at mønstrene som er produsert av datautvinningsalgoritmene oppstår i større datasett. Mønstre funnet av algoritmene er ikke nødvendigvis gyldige. Det er vanlig for algoritmer å finne mønstre i treningssettet som ikke er tilstede i det generelle datasettet, og dette kalles overtilpasning. For å løse dette bruker evalueringen et testsett med data som algoritmen ikke er trent i. De lærde mønstrene påføres dette datasettet, og det faktiske resultatet blir sammenlignet med ønsket resultat.
Hvis de lærde mønstrene ikke oppfyller de ønskede standarder, er det nødvendig å revurdere og endre pre-prosessering og datautvninngstrinnene. Hvis de derimot oppfyller de ønskede standarder, så må man tolke de lærde mønstrene og gjøre dem om til kunnskap.
Selv om uttrykket datautvinning i seg selv ikke har noen etiske implikasjoner, blir det ofte assosiert med utvinning av personers atferd.[9] Måten datautvinning blir brukt på, kan i noen tilfeller, føre til spørsmål angående personvern, lovlighet og etikk.[10]
Datautvinning krever forberedelse av data som kan avdekke informasjon eller mønstre som kan sette taushetsplikten og personvernet i fare. Dette kan oppstå gjennom data aggregering. Data aggregering går ut på å kombinere data sammen (eventuelt fra forskjellige kilder) på en måte som forenkler analysen. I utgangspunktet er ikke dette datautvinning, men et resultat av forberedelsen til analysen av data. Trusselen mot personvernet kommer når dataene er kompilert fordi den eller de som utvinner data, eller alle som har tilgang til det nykompilerte datasettet, kan være i stand til å identifisere individ, spesielt når dataene originalt var anonyme.[11][12][13] Et eksempel på dette er tilfellet hvor journalister klarte å identifisere flere individ basert på et sett med anonymisert søkehistorikk som AOL, ved en feiltakelse, publiserte i 2006.[14]
Før man begynner med datautvinning er det anbefalt at at man kjenner til følgende:[15]
I USA har bekymringer for personvernet vært adresser i en viss grad av den amerikanske kongressen, via passeringer av regulatoriske kontroller som Health Insurance Portability and Accountability Act (HIPAA). HIPAA krever at enkelt personer gir "informert samtykke" om informasjon de gir, for nåværende og fremtidig bruk.
Beskyttelse gjennom informert samtykke blir undergravd av kompleksiteten til samtykkeerklæringer som kreves av deltakere. Samtykkeerklæringene er ofte uforståelig for den gjennomsnittlige mannen i gaten.[16] Dette understreker nødvendigheten til data anonymitet i data aggregering- og datautvinningspraksiser.
Personvernlovgivning som HIPAA og Family Educational Rights and Privacy Act (FERPA) gjelder kun for de spesifikke områdene som slike lover adresserer. De fleste bedrifters datautvinning i USA, er ikke kontrollert av noen lovgivning.
Europa har sterke personvernlover, og det arbeides med å styrke rettighetene til forbrukerne ytterligere. Men, U.S.-E.U. Safe Harbor-prinsippene utsetter europeiske brukere for personvern utnyttelse fra amerikanske selskap. Som en konsekvens av Edward Snowden's Global surveillance disclosure, har det blitt en økt diskusjon om å oppheve denne avtalen.