Przed kilkoma dniami na łamach serwisu gigaom.com pojawił się interesujący artykuł zatytułowany Do we need a line between big data and big brother? Zarówno tytuł jak i jego treść zainspirowały mnie do przelania moich przemyśleń na ten temat “na papier”.

Co to jest Big Data?

Zanim przejdę do sedna, wyjaśnienia wymaga termin widniejący w tytule. Sformułowanie Big Data zaczęło pojawiać się w początkowych latach XXI wieku. Jedną z pierwszych publikacji na ten temat była zaprezentowana w 2003 roku publikacja pod tytułem The Google File System. Opisywała ona nowy system plików wymyślony przez Google w celu zapewnienia szybszego dostępu do zgromadzonych danych. W przypadku Google oznacza to szybszy dostęp do danych takich jak wyniki wyszukiwania, mapy, maile, blogi, książki, itd.

Czym zatem jest Big Data? Nie, nie jest to system plików. Big Data jest terminem określającym ogromne zbiory danych oraz metody dostępu do tych danych. Dane opisywane jako Big Data byłyby niemożliwe do przeanalizowania w tradycyjnie pojmowanych bazach danych. Wynika to z bardzo długiego czasu ich przetwarzania, co z kolei przekłada się na wysoki koszt oraz ryzyko przedawnienia się danych.

Co zatem należy rozumieć jako Big Data? Wszelkie zbiory danych, których “nie pomieści” standardowa baza danych. Mogą to być logi (access logi, logi serwera pocztowego, akcje użytkowników, itd), dane z kont bankowych, mapa interakcji użytkowników serwisu społecznościowego, cyfrowa wersja ludzkiego genomu czy dane statystyczne. Co więcej dane te nie muszą pochodzić z jednego źródła. Mogą one być zbierane przy pomocy typowych formularzy internetowych, wszelkiej maści sensorów umieszczonych w urządzeniach codziennego użytku, monitoringu miejskiego lub wprowadzane w dowolnej innej postaci cyfrowej. Mnogość źródeł informacji powoduje, iż przechowywane dane są niezorganizowane, co skutecznie utrudnia tradycyjne sposoby ich przetwarzania. W tym celu powstają takie projekty jak wspomniany GFS, czy MapReduce (kolejny projekt Google), dzięki którym przetwarzanie ogromnych ilości niezorganizowanych danych przebiega nad wyraz sprawnie. Nie bez znaczenia pozostaje fakt upowszechnienia się chmur obliczeniowych, które dają dostęp do nieograniczonych zasobów sprzętowych oraz powierzchni dyskowych. Coś co było zarezerwowane dla super komputerów i dużych centrów obliczeniowych, stało się dostępne dla statystycznego Kowalskiego – Kowalskiego z odpowiednio grubym portfelem.

Dlaczego Big Brother?

W tym momencie pojawia się pytanie, co z tym wszystkim ma wspólnego Wielki Brat? Wbrew pozorom bardzo wiele. W artykule, który pojawił się we wstępie, przywołany jest przykład Elizabeth Charnock, CEO Cataphora, firmy zajmującej się modelowaniem zachowań, twierdzącej, iż pełny monitoring pracowników nie jest niczym złym. Wręcz przeciwnie, według jej słów, monitoring taki ma bardzo dobry wpływ na całą korporację, przekładając się na lepsze warunki pracy. Jako przykład podano pracownika, którego osobiste problemy mogą być przyczyną błędu skutkującego pozwem lub utratą zaufania społecznego, co bezpośrednio przekłada się na ogromne koszty. Nie trzeba chyba wyjaśniać, iż w kraju, w którym szaleje kryzys i bezrobocie, straszenie bankructwem jest bardzo silną bronią.

O ile powyższy przykład może mieć uzasadnienie biznesowe (niekoniecznie moralne), tak zapisywanie każdej naszej aktywności w sieciach społecznościowych oraz budowanie mapy powiazań między ludźmi rodzi pytania o intencje osób mających dostęp do naszych danych. Podstawową linią obrony jest dostarczenie dopasowanych do potrzeb odbiorcy reklam. Przecież nie każdy ma ochotę oglądać podpaski i krem na pryszcze. Nie lepiej widzieć reklamy, w które będziemy chcieli kliknąć i kto wie, może nawet kupić reklamowany produkt? Ale czyż nie jest to wykorzystywaniem przewagi posiadania informacji oraz mechanizmów te informacje przetwarzających? Co jeśli chorujemy, a reklamy podpowiadają nam jakie leki mamy kupić? Co jeśli algorytm na podstawie treści naszych maili wywnioskuje, że mamy problemy rodzinne i zamiast pomóc je rozwiązać, podeśle namiary na dobrego prawnika? I chyba najważniejsze pytanie. Co jeśli nasze dane wpadną w ręce w kogoś, kto nie miałby oporów przed bardziej inwazyjną formą reklamowania produktów lub nawet oszustwem? Nierealne? Tylko Google posiada wszystkie nasze informacje? Niekoniecznie. Przed tygodniem Visa i Mastercard wpadły na pomysł (artykuł na Gazeta.pl) aby zbierane i przechowywane dane transakcji powiązać z danymi klientów banków (co aż tak trudne nie jest) w celu dostarczania jeszcze lepiej dopasowanych reklam. I to niby Google uważany jest za wroga prywatności.

Czy Big Data to Big Brother?

I tak, i nie. Z jednej strony możliwość przechowywania niezliczonych ilości danych oraz krótki czas dostępu pozwalają naukowcom rozwiązywać problemy, które jeszcze 10 lat temu wydawały się nie rozwiązywalne. Z drugiej taka koncentracja danych stanowi niemałą pokusę wykorzystania ich nie zawsze zgodnie z naszą wolą i w świetle prawa. Przyszło nam żyć w czasach, w których dopiero uczymy się nowoczesnych technologii i nie nam przyjdzie oceniać podejmowane dzisiaj decyzje. Pozostaje mieć nadzieję, iż przyszłe pokolenia nie będą musiały żałować naszych decyzji.