Svakodnevno se velike organizacije nadograđuju tehnologijama koje olakšavaju i odgovaraju svakoj tvrtki, suočavajući se s velikim izazovima koji im omogućuju otkrivanje i analizu izvan alata koji se svakodnevno koriste, za njih je stvorena ono što je poznato kao Big Data ili na španjolskom masivni podaci, koji su veliki sustavi za pohranu podataka.
Ovaj fenomen pohrane uokviren je novim informacijskim i komunikacijskim tehnologijama. Veliki podaci su ono što zauzima sve aktivnosti povezane sa sustavima koji pohranjuju velik skup podataka. Jedna od glavnih karakteristika je da manipulira velikom količinom informacija, prikuplja ih, klasificira i potom pohranjuje. Svrha ove zbirke je stvoriti statistička izvješća koja će ih organizacije koristiti, bilo kao analizu poslovnih planova, oglašavanja, špijunaže, između ostalog.
Marža pohrane rasla je tijekom godina, od 2008. razina pohrane mjerena je u petabajtima do zettabajtima podataka. Stručnjaci povremeno traže nove mjere pohrane, jer postoje određena područja na kojima se moraju pohraniti velike količine podataka, a postojeći programi nisu baš optimalni.
Postoje tisuće alata za stvaranje i upravljanje velikim podacima, no nisu svi isti, postoje tri vrste podataka, a to su:
- Strukturirani podaci: oni su kod kojih podaci imaju vrlo određenu strukturu, kao što su datumi, brojevi, između ostalog. Primjer za njih su proračunske tablice.
- Nestrukturirani podaci: obično su to podaci koji imaju određeni format i ne mogu se pohraniti u proračunsku tablicu, a još manje manipulirati informacijama, primjer PDF dokumenata.
- Polustrukturirani podaci: ova vrsta podataka nema određeni format, jer ima vlastite polustrukturirane metapodatke, primjer toga su HTML kodovi.