Pipedija - tautosaka, gandai, kliedesiai ir jokios tiesos! Durniausia wiki enciklopedija durnapedija!
Big Data: Skirtumas tarp puslapio versijų
| 29 eilutė: | 29 eilutė: | ||
O dar, Big Data duomenų mokslo ir IT srityse yra tas toksai keiksmažodis, pagal kurį neretai identifikuojami apsišaukėliai ir [[lameriai]] - daugelis mėgsta įsirašyti darbą su Big Data į savo [[CV]], bet pabandžius paklausinėt, ką ten su tuo darė, pradeda pasakoti vėjus iš serijos kaip turėjo "[[duomenų bazė|duomenų bazę]]", kurioje kažkaip tuos duomenis naudojo. Pradėjus gi klausinėti, kuo skiriasi Big Data nuo šiaip Data, tokie čirvai po truputį pradeda smirdėti. | O dar, Big Data duomenų mokslo ir IT srityse yra tas toksai keiksmažodis, pagal kurį neretai identifikuojami apsišaukėliai ir [[lameriai]] - daugelis mėgsta įsirašyti darbą su Big Data į savo [[CV]], bet pabandžius paklausinėt, ką ten su tuo darė, pradeda pasakoti vėjus iš serijos kaip turėjo "[[duomenų bazė|duomenų bazę]]", kurioje kažkaip tuos duomenis naudojo. Pradėjus gi klausinėti, kuo skiriasi Big Data nuo šiaip Data, tokie čirvai po truputį pradeda smirdėti. | ||
== Dar žr. == | |||
* [[O notacija]] - čia šita naudojama, kai vertinamas duomenų apdirbimo sudėtingumas | |||
[[Category:Duomenys]] | [[Category:Duomenys]] | ||
Dabartinė 23:21, 23 rugsėjo 2025 versija
Big Data - tai tokie duomenų kiekiai, kurių apimtys yra iš esmės didesnės, nei teoriškai įmanoma apdirbti. T.y., ne šiaip sau dideli ar labai dideli duomenų kiekiai, o tokie, kurių apdirbimas iš esmės yra neįmanomas dėl to, kad iki apdirbimo netgi teoriškai nepriartėtume. Dėl tokių apimčių tenka naudoti visiškai nestandartinius duomenų apdirbimo būdus, kurie įprastų duomenų atvejais turėtų mažai prasmės.
Viena iš Big Data specifikų - praktiškai niekada neįmanoma gauti tikslių duomenų, o gaunasi gauti tik įvairiai apibendrintus ir ekstrapoliuotus iki įvairaus tikslumo spėlionių lygio.
Kodėl su Big Data neveikia įprasti metodai
Įsivaizduokit, kad jūs galit išgerti stiklinę vandens. Jei labai stengsitės - gal būt netgi puslitrį. Gal netgi dar daugiau, o jei visą dieną pasistengsite - tai gal net ir 2-3 litrus. Čia yra įmanomi duomenų kiekiai.
Dabar įsivaizduokite, kad to vandens yra visa vonia - t.y., maždaug 200 litrų. Išties, jei gertumėt vandenį iš jos kasdien tris mėnesius, tai irgi išgertumėte. Tai tiesiog didelis kiekis vandens, bet vis dar išgeriamas.
Dabar įsivaizduokite, kad turite 100 vonių vandens, t.y.,, 20000 litrų, 20 kubinių metrų. Pačiam vienam išgerti tą vandenį jau būtų problemų, bet jei susitartumėte su 100 kitų žmonių, t.y., susiburtumėt į organizaciją, kuri užsiima vandens gėrimu, tai per kelis mėnesius net ir tokį vandens kiekį išgertumėte.
Iš principo, jei susikooperuotų 10 tūkstančių žmonių, tai jie tuos 20 kubinių metrų galėtų išgerti per dieną. O per kelis mėnesius jie gal išgertų ir 100 kartų didesnį kiekį vandens. Bet tie 10 tūkstančių žmonių tai labai daug, ar ne?
O dabar įsivaizduokite Nerį, kuria 200 kubinių metrų vandens prateka per vieną sekundę, ir tai net ne potvynio metu. Problema ta, kad nuo tam tikro kiekio vandens pasidaro nelabai įmanoma išgerti jį netgi teoriškai. Vandens kiekis, pratekantis Nerimi - tai jau yra toksai kiekis, kurio negalėtų išgerti visi Lietuvos žmonės kartu sudėjus.
O dabar įsivaizduokim Amazonę, kurios debitas yra 200 tūktančių kubinių metrų per sekundę. Ir įsivaizduokim, kad mes čia Lietuvoje galvojame, ką su tokiu kiekiu vandens mes galim padaryti, kai vien Amazonės žiočių plotis siekia apie 150 kilometrų, t.y., netoli pusės Lietuvos skersmens. Bandant tą Amazonės vandens kiekį įsivaizduoti, gaunasi kažkokia nesąmonė ir beprasmybė.
Štai vat tas beprasmiškai nesąmoningai didelis duomenų kiekis ir yra vadinamas Big Data - tai ne šiaip sau daug, o daugiau, nei turi kokią nors prasmę.
Big Data problemos
Esminė Big Data problema yra ta, kad su tokiais duomenų kiekiais neveikia jokie įprastiniai duomenų išrinkimo metodai - pvz., kraštutiniu atveju tų duomenų yra tiek daug, kad nėra įmanoma pasirinktinai gauti norimo tų duomenų fragmento, nes jis negali būti išsaugotas dėl per daug didelių apimčių. Arba, pvz., naudojant šiuolaikinius mainfreimus, nėra įmanoma suskaičiuoti visų duomenų eilučių per kokį nors adekvatų laiko tarpą, pvz., per mažiau kaip milijardą metų. Arba dar kaip nors panašiai.
Praktiniais atvejais, aišku, iki tokių ekstremumų dažnai neprieinama, bet net ir tūkstančius kartų mažesni duomenų kiekiai reiškia, kad, pvz., norint gauti kokio nors skaičiaus vidurkį iš visos duomenų bazės, reiktų, pvz., gal ir ne trilijono, bet, tarkim tūkstančio metų. Tai reiškia, kad tokių duomenų nesigauna apdirbti normaliais būdais, todėl tenka apdirbinėti nenormaliais būdais.
Vienas iš tipiškiausių būdų apdirbimui - tai imti, pvz., tik kas tūktantąją ar kas šimtatūkstantąją duomenų eilutę, šitaip suselektinti kažkokį didelį kiekį tų eilučių, o tada iš jų ekstrapoliuoti. Arba, pvz., daryti kelias dešimtis ar šimtus testų su lokaliais duomenų setais ir žiūrėti, ar yra jų tarpusavio variabilumas ir koksai jis, ir pagal kokius parametrus, gautus duomenis ekstrapoliuojant į visą teorinį setą.
Žodžiu, su Big Data gaunasi labai daug spėlionių, o pasitikrinimo metodai nebūtinai visada trivialūs - pvz., norint daugiau mažiau būti užtikrintu imties korektiškumu, reikia užtikrinti jos randomizaciją, bet tai vėlgi gali būti netrivialu, jei duomenų setai tokie masyvūs, kad nėra kaip jų išsaugoti.
O dar, Big Data duomenų mokslo ir IT srityse yra tas toksai keiksmažodis, pagal kurį neretai identifikuojami apsišaukėliai ir lameriai - daugelis mėgsta įsirašyti darbą su Big Data į savo CV, bet pabandžius paklausinėt, ką ten su tuo darė, pradeda pasakoti vėjus iš serijos kaip turėjo "duomenų bazę", kurioje kažkaip tuos duomenis naudojo. Pradėjus gi klausinėti, kuo skiriasi Big Data nuo šiaip Data, tokie čirvai po truputį pradeda smirdėti.
Dar žr.
- O notacija - čia šita naudojama, kai vertinamas duomenų apdirbimo sudėtingumas