Tag Archives: suurandmed

Suurandmed eraisikute elektritarbimist mõõtmas ja tühje eluruume kindlaks tegemas

Statistikaamet osaleb Eurostati suurandmete katseprojektis, mille raames uuritakse elektri kaugmõõtjate andmete potentsiaalset kasutamisvõimalust riikliku statistika tootmisel. Kasutades Eleringi andmelao mõõteandmeid aastate 2013–2015 kohta uuris Statistikaamet, kas elektri suurandmete põhjal saaks toota Eesti eraisikute elektritarbimise statistikat ning hinnata registripõhise rahva ja eluruumide loenduse jaoks tühjade eluruumide olemasolu.

Suurandmete kasutamine statistika tegemisel võimaldaks vähendada kulu ühiskonnale, mis tuleneb aruannete esitamisest ja sellega seotud halduskoormusest. Suurandmete kasutamine võimaldaks ka märgatavalt lihtsustada statistika tegemise protsesse ja neid automatiseerida. Suurandmete kasutamise kogemuste saamiseks osaleb Eesti koos Taani, Rootsi, Austria, Portugali ja Itaaliaga Eurostati elektri kaugmõõtjate katseprojektis. Järgnevalt tutvustame katseprojekti esimesi tulemusi. Tegemist ei ole ametliku statistikaga, vaid demonstratsiooniga, milliseid väljundeid oleks võimalik suurandmete abil saada.

Katseprojektile seati kolm eesmärki:

  •  kas elektri mõõteandmete põhjal saaks teha seni küsitluse teel saadud elektrienergia statistikat ettevõtete kohta;
  •  kas elektriandmetest saaks toota kodumajapidamiste elektritarbimise statistikat ja
  •  kas elektriandmetest oleks võimalik tuvastada eluruume, milles elatakse, mis on tühjad või mida kasutatakse periooditi.

Katseprojektis kasutati Eleringi andmelao 2013.–2015. aasta andmeid, mis sisaldavad mõõteandmeid ligi 730 000 mõõtepunkti (elektriarvesti) kohta. Andmestikus on infot sõlmitud lepingute, lepingu omaniku (äriettevõte, eraisik), lepingu kehtivuse, lepinguga seotud mõõtepunkti ja selle aadressi kohta, samuti mõõteandmed. Statistikatöödes kasutatavad andmed anonümiseeritakse Statistikaametis. Andmestikus on mõõteandmeid kokku üle 18 miljardi kirje.

Ettevõtetega seotud mõõtepunkte oli 2015. aastal 12% ja eraisikutega 88%, samas moodustasid ettevõtted 78% ning eraisikud 22% tarbimisest. Järgnevad tulemused kajastavad suurandmete põhjal arvutatud eraisikute elektritarbimise tulemusi ja eluruumide kasutamist püsiva elukohana.

Eraisikute elektritarbimine ja eluruumide kasutamine püsiva elukohana

Leibkondade puhul elektrikasutuse uuringut Statistikaamet regulaarselt ei tee, mistõttu võrdlusandmeid ei olnud. Suurandmete linkimiseks kasutati Statistikaameti leibkondade ja eluruumide tabelit, mis sisaldas leibkonnaliikmete anonümiseeritud infot ja aadressi identifikaatorit. Elektriandmetega sidumiseks leiti leibkonnad, kus aadressi identifikaator ühtis mõõtepunkti omaga ja ainult ühel leibkonnaliikmel oli elektrileping. Nii õnnestus siduda 48% leibkondadest elektritarbimise infoga. Samuti oli võimalik siduda elektritarbimisega eluruumi info, millega saab hinnata näiteks elektritarbimise seotust hoone ehitusaasta ja eluruumi suurusega ning see pakuks võimalust hinnata eluruumi energiatõhusust. Saadud tulemus võimaldaks toota statistikat, mida Statistikaametil ei ole siiani olnud võimalik toota andmete puudumise tõttu.

Samuti hinnati, kas elektriandmete põhjal saaks kinnitada eluruumide kasutamist püsiva elukohana. Leiti tuhandeid aadresse, kus rahvastikuregistri järgi peaksid elama inimesed, kuid elektritarbimine oli 0 või siis vastupidi: oli suur elektritarbimine, kuid registri järgi seal kedagi ei elanud. Seetõttu on andmestikul oluline potentsiaal rahvastiku paiknemise analüüsil täiendava elumärgina.

Eraisikute elektritarbimine kuude kaupa

Kõige enam tarbisid eraisikud 2015. aastal elektrit jaanuaris ja kõige vähem juunis. Jaanuaris tarbiti 36% enam elektrit võrreldes juuniga. Teisel kohal oli elektritarbimiselt detsember. Suhteliselt võrdne elektritarbimine oli märtsis ja novembris (moodustades 82% jaanuari tarbimisest) ning mais ja augustis (moodustades ligi 65% jaanuari tarbimisest).

Eraisikute keskmine elektritarbimine kuude kaupa, 2015

 

Eraisikute elektritarbimine sõltub nädalapäevast ja kellaajast

Nagu võib arvata, on elektritarbimine kõige väiksem öistel tundidel – kõige vähem elektrit tarbiti kolmapäeval kella 02:00 ja 03:00 vahel. Elektritarbimine hakkab järk-järgult suurenema juba kell 05:00. Hommikupoolikul on elektritarbimine suurim vahemikus 06:00–07:00, mil suur osa inimestest ärkab ning alustab hommikuste toimingutega. Kuni pärastlõunani on elektritarbimine kodudes suhteliselt stabiilne ning hakkab taas suurenema 14:00 ja 15:00 vahel, kui paljude päev hakkab juba koolis, trennis, tööl ja mujal lõppema. Õhtune elektritarbimise haripunkt on ajavahemikus 17:00–19:00, mil tarbitakse ööpäeva jooksul ka kõige enam elektrit. Pärast kella 19:00 hakkab elektritarbimine järjest vähenema.

Eraisikute elektritarbimine ühel detsembrikuu kolmapäeval 24 h jooksul, 2015

 

Kui kolmapäeval joonistus välja nii-öelda tööinimese graafik, siis laupäeval, mil enamikul inimestest on vaba päev, on ka elektritarbimine kogu päeva jooksul ühtlasem. Kahe päeva öine (kella 23:00 ja 06:00 vaheline aeg) elektritarbimise muster ja tarbitud elektri hulk on sarnased. Kui kolmapäeval oli hommikupoolne elektritarbimise tipp vahemikus 06:00–07:00, siis laupäeval vastavalt 11:00–12:00. Laupäeva elektritarbimise haripunkt on kella 16:00–17:00 ajal ning pärast seda hakkab elektritarbimine järjest vähenema. Laupäeval tarbiti ligi 10% rohkem elektrit võrreldes kolmapäevaga ning madalaima ja kõrgeima keskmise elektritarbimise vahe oli mõlemal päeval ligi kahekordne.

Eraisikute elektritarbimine ühel detsembrikuu laupäeval 24 h jooksul, 2015

 

 

 

 

 

 

 

 

 

Tühjad kortermajad

Suurandmeid on võimalik Statistikaametis teiste andmetabelitega linkida ning seeläbi saada uut teadmust. Näiteks saab aadressiinfot ja elektritarbimist linkides tuvastada tühje kortermaju. Statistikaamet uuris, kas oleks võimalik tuvastada vähese elektritarbimisega korteritega kortermaju ja jaotada kortermajad energiatarbimise alusel gruppidesse vastavalt keskmisele kuutarbimisele – 0 kWh, 1–30 kWh, üle 30 kWh. See on üks lihtne näide, milliseid küsimusi saaksid teised riigiasutused Statistikaameti käest küsida ja millele saaks suurandmeid kasutades vastuse anda.

 

 

 

 

 

 

 

 

 

Kokkuvõte

Suurandmete kasutamine võimaldaks Statistikaametil mitmekesistada tooteportfelli ja pakkuda olulise administratiivse kuluta täiesti uut statistikat. Eurostati katseprojektist oleme õppinud, et suurandmeid kasutades saame ülevaate majapidamiste elektritarbimisest. Samuti on võimalik siduda elektritarbimisega eluruumi info, mille põhjal saab hinnata näiteks elektritarbimise seotust hoone ehitusaasta ja eluruumi suurusega ning seeläbi hinnata ka eluruumi energiatõhusust. Kasutades elektriandmeid on võimalik jälgida ka rahvastiku paiknemise dünaamikat.

Teisalt nägime ka, et andmestikuga töötades tuleb arvesse võtta, et see kajastab elektrilepinguga seotud subjekti elektritarbimist, kes ei pruugi olla tegelik lõpptarbija. Erinevate registrite sidumisel pidime tõdema registriandmete aadressiinfo ebaühtlast kvaliteeti. Seetõttu muudaks standardiseeritud aadresside kasutamine andmete analüüsi ja ka aadressiinfo uuendamise andmekogus oluliselt efektiivsemaks. Jätkame tööd, et jõuda suurandmetest kvaliteetse statistika tootmiseni. Suurandmed pakuvad võimalust toota statistikat kiiremini ja efektiivsemalt ning see on suund, mille poole Euroopa statistikaametid liiguvad.

Põhjalikum ülevaade Eesti Statistika Kvartalikirjas 4/2017 artiklis „Suurandmed statistikas“ (ilmus 29.12.2017).

 

 

Toomas Kirt, Statistikaameti arenduste ekspert

 

 

 

Helerin Äär, Statistikaameti geoinfo spetsialist

 

Metoodika

Suurandmetena käsitletakse tavaliselt andmeid, mis on mahult suured, mis võivad olla struktureerimata ja mida tekib lühikeses ajavahemikus väga palju. Nende omaduste tõttu ei saa suurandmete töötlemiseks tavaliselt kasutada traditsioonilisi andmetöötlusvahendeid. Suurandmed tekivad tavaliselt mingi protsessi tulemina, mille eesmärk ei ole toota andmeid statistiliseks töötluseks ning see muudab nende analüüsi mõnevõrra keerukamaks. Tuleb näiteks arvestada, et andmed võivad olla kallutatud ja esindada vaid osa populatsioonist ning andmetes võib olla vigu ning need võivad olla selektiivsed ja mittetäielikud. Vaatamata sellele pakuvad suurandmed palju võimalusi.

Animatsioonides on kasutatud ruutkaarti, mille iga 1 km ruudu kohta on toodud keskmine eraisikute elektritarbimine ühes tunnis / kuus. Animatsiooni andmed eraisikute keskmise elektritarbimise kohta kuude kaupa kajastavad 93% eraisikutega seotud mõõtepunktidest ning 24 h animatsioonid kolmapäeva ja laupäeva kohta 81% eraisikutega seotud mõõtepunktidest.

Suurandmed statistikas

Et statistikas on andmete kogumine kõige ressursimahukam protseduur, on suurandmete kasutamine statistikutele väga ahvatlev, eriti juhul, kui õnnestuks suurandmetega asendada uuringute või loenduste käigus kogutavaid andmeid. Samas on oluline selgeks teha suurandmete rakendatavuse piirid – tegemist pole universaalse meetodiga, mis asendaks kõike varasemat.

Tänapäeval, mil väga paljusid toiminguid teevad elektroonsed seadmed, koguneb nende mäludesse ka selliseid andmeid, mida otseselt kasutada ei kavatsetagi. Näiteks kaupluste kassaautomaatidest võib lisaks üksikkaupade eelistustele saada teavet ka ostjate kaubavalikute mustrite kohta. Niisuguste laekunud andmete kogused võivad olla väga suured ja ka andmed ise üsnagi eriilmelised: info mobiiltelefonide kasutamise, ühistranspordi, pangakontode, elektritarbimise ja paljugi muu kohta. Selliste suuremahuliste andmete kohta kasutatakse ühist nimetust suurandmed (big data).

Kahekümnenda sajandi esimesel poolel hakkas statistikateadlaste seas üldisemalt levima arusaam, et mingi nähtuse kohta järelduse tegemiseks piisab sellest, kui uurida ainult üht osa objektidest – valimit. Selle tõdemuse tulemusena töötati välja uued statistikasuunad, sh valikuuringute teooria, millele tuginedes tänapäeval tehakse kogu maailmas iga päev arvukalt uuringuid. Väga oluline on siinjuures mainida, et kõigi selliste uuringute puhul selgitatakse ka võimaliku vea suurus ja tõenäosus.

Hoolimata valikuuringute kasulikkusest ja tulemuslikkusest teaduses, majanduses ja poliitikas, on nende kasutamise võimalustel oma piirid. Valikuuringud ei saa asendada loendusi ja registreid, mis kajastavad kogu populatsiooni andmeid ja on ülimalt vajalikud tervikpildi saamisest riigi rahvastikust ning majandusest.

Suurandmete analüüsimine pakub suuri väljakutseid statistikutele. Uuel viisil kogutud ja uut tüüpi andmed nõuavad aga sobivate statistikameetodite arendamist. Suurandmete rakendajate väiteil on seni suurandmete põhjal tehtud järeldused olnud peamiselt empiirilised. Edasise arengu käigus on vaja välja töötada metoodika hinnangute arvutamiseks ja järelduste kvaliteedi hindamiseks. Arusaadavalt on suurandmete kasutamise puhul vaja jälgida isikuandmete kaitse reeglistikku.

Oluline on selgeks teha ka suurandmete rakendatavuse piirid – on selge, et tegemist pole universaalse meetodiga, mis asendaks kõike varasemat – kuigi esialgse entusiasmi hoos on ka sellist arvamust väljendatud. Kindlasti ei asenda suurandmete kasutamine kõikset statistikat – loendusandmetele ja registritele tuginevaid statistikatöid, sest üldjuhul ei kata suurandmed kogu populatsiooni ega mõõda täpselt seda, mis kajastub registrites ja loendusstatistikas.

Samas on suurandmete näol tegemist rikkaliku andmeallikaga, mille oluliseks hüveks on andmete objektiivsus. Isiku-uuringute puhul võib sageli kahelda ankeedivastuste objektiivsuses – kas inimesed ei näita ennast (teadlikult või ebateadlikult) mingis mõttes parematena, kui nad tegelikult on? Suurandmete puhul, mis inimeste käitumist nende teadmata registreerivad, seda probleemi ei ole. Oluline on vaid õppida neid andmeallikaid kasutama ja neist järeldusi tegema. Juba tänapäeval, kuid veel enam tulevikus, on edukas vaid andmepõhine majandus, mis kasutab oluliselt statistikat, kombineerides erinevatest allikatest pärinevaid andmeid – niihästi loendus-, uuringu- kui ka suurandmeid, arvestades kõigi andmete eripära.

Ene-Margit Tiit, Statistikaameti peametoodik ja Tartu Ülikooli emeriitprofessor

Artikkel ilmus ajalehes Postimees 03.08.2015 pealkirja all „Suurandmed statistikas“.