Den teoretiske delen av kurset, særlig ting 10 og 11, forklarer at ikke alle informasjonsbehov dekkes av søking. Viktig informasjon kommer også fra personer og gjenstander. Og om du har behov for å samle MYE informasjon, kan det være helt andre metoder som må benyttes. Denne tingen introduserer åpne data og noen metoder for innhenting av informasjon som går langt forbi søk og søkekompetanse.
Sir Tim Berners-Lee blir ofte omtalt som mannen som oppfant the World Wide Web og hans tanker gir en fin introduksjon til dette temaet. Hans visjon var et internett hvor maskinleselig innhold kan gi meningsfull informasjon for mennesker i ulike sammenhenger. Sammen med James Hendler og Ora Lassila publiserte han en artikkel i Scientific American i 2001 hvor de beskriver en virkelighet hvor data legger grunnlag for en smidig hverdag. I en TedTalk fra 2009 snakker han varmt om åpne data og i 2010 om alle mulighetene deling av data har gitt. Senere har han blitt noe skeptisk til filterbobler og sentralisering av data og makt.
Åpne offentlige data er informasjon (data) som samlet inn eller utarbeidet ved offentlige virksomheter og som er gjort åpent tilgjengelige, gratis og fri for alle å bruke. Dette kan være kartdata, statistikk, regnskap og annet. Data i denne sammenheng betyr informasjon som er strukturert, for eksempel i en database, tabell eller liste, slik at de kan leses og tolkes av både maskiner og mennesker. Kravene til åpne data er blant annet at de må gjøres tilgjengelig for alle i sin helhet og kunne lastes ned gratis, være mulig å redigere og bruke uten restriksjoner. Data som inneholder personopplysninger eller er pålagt taushetsplikt kan ikke gjøres åpent tilgjengelig for alle.
Det er flere grunner til at offentlige data skal legges åpent tilgjengelig for alle. Stortingsmeldingen Digital agenda for Norge beskriver nytteverdien på følgende måte:
Regjeringen ønsker også at forskningsdata blir gjort åpent tilgjengelig. Gjennom Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata legges det føringer for at forskning som er gjennomført med offentlig støtte skal være åpent tilgjengelig, og det samme skal gjelde forskningsdataene.
Det er Digitaliseringsdirektoratet som har ansvar for Norges offisielle nettsted for åpne offentlige data. Dette er et register over åpne data i Norge hvor virksomhetene selv kan registrere sine åpne datasett. I tillegg tilbyr de datahotell for de som ønsker å lagre og tilgjengeliggjøre dataene i Digitaliseringsdirektoratets tekniske infrastruktur.
I dag finnes enorme mengder data fra både offentlige og private kilder tilgjengelig på internett. Analyser av store datamengder kalles stordata eller Big data. Denne typen analyser kan vise sammenhenger som ikke er åpenbare og hjelpe oss å forutse hendelser. Bruk av stordata i byer og distrikter kan ha betydning for bedre ressursbruk innenfor infrastruktur, byplanlegging, mobilitet, helse, livskvalitet og mye mer.
Om du har behov for å hente ut store mengder informasjon fra internettet, gjøres det på helt andre måter ved tradisjonelle søk. Det kan for eksempel være aktuelt ved behov for å hente ut kontaktinformasjon fra flere virksomheter og mange nettsider, overvåke priser og prisendringer, sammenligne priser, samle informasjon om produkter, eiendommer eller vær, spore endringer i nettsider og mye mer.
API-er
API er en forkortelse for Application Programming Interface. Det beskriver en «web service» for et bestemt nettsted som lar andre nettsteder søke i og hente ut utvalgte data fra databaser og vise på sine egne nettsider. Her kontrollerer eieren av web servicen hvilke data andre skal få tilgang til å hente ut. Statistisk sentralbyrå tilbyr å hente ut data fra Statistikkbanken ved hjelp av API, for eksempel som Vestfold og Telemark fylkeskommune har gjort på sine nettsider. API-er er også nødvendig om du vil sette opp en søkefunksjon i flere bibliotekkataloger samtidig.
Høsting av data
Høsting av data handler om automatisk uthenting av store mengder data (informasjon og innhold) fra nettsider. Det kalles også web scraping, web crawling og data extraction. Dataene samles og må ofte bearbeides for å kunne brukes videre. Dette krever egne program og god kjennskap til formater som HTML, XML, JSON, Turtle med flere. Eksempel på høsting av data er Biblioteksøk som er satt opp til å høste metadata fra norske bibliotek. Nettsider er som oftest offentlig informasjon, men dersom en eier ikke ønsker at denne informasjonen skal høstes eller brukes i andre sammenhenger finnes det tekniske muligheter for å stoppe høstingen. Web scraping forhindres ved å nekte roboter å crawle nettsidene, blokkere IP-adresser, krav om verifisering at det er menneske som prøver å hente informasjon (CAPTCHA) og andre. Noen former for høsting kan være underlagt lovreguleringer, avhengig av hvilket land du befinner deg i.
Data mining
Data mining eller datautvinning er ulike teknikker for å oppdage mønster i store datasett ved bruk av algoritmer, statistikk, databasesystemer og informasjonsteknologi. Datautvinning kan blant annet brukes til å forutse hva som vil komme til å skje, til å gruppere lignende objekter i kategorier (cluster) og identifiseres likheter.
Berners-Lee, T., Hendler, J. & Lassila, O. (2001). The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American, 284(5), 28-37. Hentet fra https://www.scientificamerican.com/article/the-semantic-web/
Datatilsynet (5. juni 2017). Big Data: Personvernprinsipper under press. https://www.datatilsynet.no/regelverk-og-verktoy/rapporter-og-utredninger/big-data/
Difi. (u.å.). Veileder for tilgjengeliggjøring av åpne dataHentet 9. mars 2020 fra https://data.norge.no/guide/veileder-apne-data/
Glez-Peña, D., Lourenço, A., López-Fernández, H., Reboiro-Jato, M., & Fdez-Riverola, F. (2013). Web scraping technologies in an API world. Briefings in Bioinformatics, 15(5), 788-797. https://doi.org/10.1093/bib/bbt026
Kommunal- og moderniseringsdepartementet (2016). Digital agenda for Norge: IKT for en enklere hverdag og økt produktivitet. (Meld. St. 27 2015-2016). https://www.regjeringen.no/no/dokumenter/meld.-st.-27-20152016/id2483795/
Kunnskapsdepartementet (2017). Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata. https://www.regjeringen.no/no/dokumenter/nasjonal-strategi-for-tilgjengeliggjoring-og-deling-av-forskningsdata/id2582412/
Leite, Walter L., Collier, Zachary K. (2018). Datamining. I The SAGE Encyclopedia of Educational Research Measurement, and Evaluation. https://dx.doi.org/10.4135/9781506326139
Munzert, S., Rubba, C., Meißner, P., Nyhuis, D., & Meißner, P. (2015). Automated Data Collection with R : A Practical Guide to Web Scraping and Text Mining. John Wiley & Sons.
Nasjonalbiblioteket. (u.å.). Høsting av nasjonalbibliografien og spesialbibliografier. Hentet 9. mars 2020 fra: https://kunnskapsbase.bibliotekutvikling.no/ressurser/metadata-til-folke-og-skolebibliotek/hosting-av-nasjonalbibliografien/
Octoparse (2019, 8. august). Data Harvesting & Data mining: What’s the Difference. https://www.octoparse.com/blog/data-harvesting-data-mining-whats-the-difference
Tim Berners-Lee, (2019. 28. oktober). I Wikipedia. https://no.wikipedia.org/w/index.php?title=Tim_Berners-Lee&oldid=19886626
Berners-Lee, T. (2009, februar). The Next Web. [Videoklipp]. TED Conferences. https://www.ted.com/talks/tim_berners_lee_the_next_web#t-957335
Berners-Lee, T. (2010, februar). The year open data went worldwide. [Videoklipp]. TED Conferences. https://www.ted.com/talks/tim_berners_lee_the_year_open_data_went_worldwide#t-311070
Berners-Lee, T. (2014, mars). A Magna Carta for the web. TED Conferences. [Videoklipp]. https://www.ted.com/talks/tim_berners_lee_a_magna_carta_for_the_web#t-347117