O PAP.pl

PAP.pl to portal PAP - największej agencji informacyjnej w Polsce, która zbiera, opracowuje i przekazuje obiektywne i wszechstronne informacje z kraju i zagranicy. W portalu użytkownik może przeczytać wybór najważniejszych depesz, wzbogaconych o zdjęcia i wideo.

Polscy badacze analizują Big Data i przewidują wyniki wyborów

Analiza publicznie dostępnych w sieci danych - blogów, forów internetowych, artykułów - pozwala dokładniej niż badania sondażowe przewidzieć wyniki demokratycznych wyborów. Pokazują to w swoich badaniach naukowcy z Uniwersytetu Warszawskiego.

epa06573318 A visitor stands at the entrance to an interactive installation that illustrates the 'big data' used by multinational and provided by its clients, in the German Spy Museum in Berlin, Germany, 01 March 2018. The German Spy Museum gives an insight into the history of espionage. The exhibition shows from the ancient spying devices to the most recent surveillance techniques. EPA/FELIPE TRUEBA Dostawca: PAP/EPA. Archiwum PAP/EPA © 2018 / FELIPE TRUEBA
Archiwum PAP/EPA © 2018 / FELIPE TRUEBA / epa06573318 A visitor stands at the entrance to an interactive installation that illustrates the 'big data' used by multinational and provided by its clients, in the German Spy Museum in Berlin, Germany, 01 March 2018. The German Spy Museum gives an insight into the history of espionage. The exhibition shows from the ancient spying devices to the most recent surveillance techniques. EPA/FELIPE TRUEBA Dostawca: PAP/EPA. Archiwum PAP/EPA © 2018 / FELIPE TRUEBA

W samej Polsce jest teraz ponad 27 mln internautów. Publicznie udostępniają oni co dzień w sieci ogromne ilości komentarzy, postów na blogach, plików, dokumentów. Jeśli wie się, jak w tych danych wyszukiwać konkretnych informacji, uzyskuje się niespotykany wcześniej wgląd w to, co ludzie ci myślą, jakie mają poglądy, co jest dla nich ważne, a co mniej.

Analizując publicznie dostępne w internecie treści, można np. z kilkudniowym wyprzedzeniem przewidzieć wyniki wyborów parlamentarnych czy prezydenckich. I to z dokładnością większą niż sondażownie. Pokazali to naukowcy z Wydziału Dziennikarstwa Informacji i Bibliologii Uniwersytetu Warszawskiego. Badacze próbują też - analizując Big Data - przewidzieć trendy gospodarcze czy kierunki rozwoju technologii.

"Odpowiedzi na pytanie, co ludziom w duszy gra, uzyskujemy drogą całkowicie legalną" - komentuje uczestnik badań dr hab. Wiesław Cetera. I podkreśla, że wszystkie dane wykorzystywane w badaniach, dostępne są publicznie, dla każdego. Badacze jedynie zbierają i „obrabiają” te informacje.

"Wyszukiwarki internetowe wyświetlają mniej niż 0,1 proc. informacji cyfrowych dostępnych w sieci. Reszta jest, z różnych powodów, pomijana" - mówi w rozmowie z PAP kierownik badań prof. Włodzimierz Gogołek. Dlatego jego zespół wykorzystuje własne roboty - programy, które przeczesują zadane im źródła informacji w poszukiwaniu konkretnych słów. "Przed wyborami prezydenckimi w 2015 r. skierowaliśmy roboty do wszystkich źródeł polskich informacji, które pisały na temat wyborów. To były np. gazety, książki, fora, blogi, publiczne posty na Facebooku" - mówi badacz. Roboty poszukiwały stron, na których padały słowa związane z wyborami, np.: "wybory" "Duda" i "Komorowski".

W zebranych tekstach - po odpowiedniej obróbce - wyszukiwano tzw. sentymentów. W uproszczeniu chodzi o emocje, jakie łączone były z poszukiwanymi słowami. Pozytywnymi sentymentami były np. słowa "zadziwiać", "cel", "lubić", "pewny", "wygrana". A negatywnymi sentymentami np. "winien", "zniszczenie", "upadek". Sprawdzano, jakie sentymenty pojawiały się w otoczeniu słów "Duda" oraz "Komorowski". I na tej podstawie wyliczano poparcie dla każdego z kandydatów. "Tydzień przed wyborami wiedzieliśmy, kto wygra. Nasze wyniki były dokładniejsze niż udostępnione przez CBOS" - chwali się prof. Gogołek. System przetestowano już podczas wyborów parlamentarnych w 2011 r. i w 2015 r., a także podczas wyborów prezydenckich w 2015 r. 

Dr hab. Wiesław Cetera wyjaśnia, że sondażownie wykonują badania na próbach np. 1 tys. - 2 tys. osób. A w analizie Big Data zbiory są znacznie, znacznie większe. "To próba badawcza tak duża, że nie można jej osiągnąć w tradycyjnych badaniach. A wiadomo, że im większa próba badawcza, tym dokładniejsze wyniki badań. Nawet jeśli w tej próbie znalazły się opinie małowartościowe" - opowiada naukowiec. I dodaje, że nawet jeśli poszczególne partie przed głosowaniem zatrudniały trolle - osoby opłacone do pisania komentarzy, nie miało to dotąd większego wpływu na wyniki naszych badań.

Prognozowanie wyników wyborów to tylko jeden z przykładów tego, jak można wykorzystać Big Data. Naukowcy z UW pomagają np. ekspertom z Narodowego Centrum Badań i Rozwoju wskazywać kierunki innowacyjnych działań, w które warto inwestować.

Prof. Gogołek opowiada, że jednym z zadań, jakie jego zespół dostał od NCBR, była próba wskazania perspektyw rozwoju cloud computingu - operowania informacją w chmurze. "Jeśli są pieniądze na cloud computing, to możemy wskazać, w którym kierunku warto iść, a który to chybiona droga" - opowiada.

Naukowcy przeanalizowali ogromne zbiory danych, w tym wyniki z przetargów publicznych. "Zaczęliśmy sprawdzać, kto w Polsce jest zainteresowany cloud computingiem" - opowiada prof. Gogołek. W tych badaniach również analizowano sentymenty - emocje, które pojawiały się w informacjach związanych z cloud computingiem. Jak podsumowuje wyniki badacz, duże firmy, o ustabilizowanym własnym informatycznym potencjale, do rozwiązań cloud computingowych podchodzą niechętnie, uważając je za zbyt drogie. Za to zainteresowanie tego typu rozwiązaniami daje się zauważyć wśród mniejszych firm, głównie start-upów i dużych, które wcześniej nie inwestowały we własny potencjał informatyczny.

Wiesław Cetera z kolei miał inny pomysł na analizę Big Data. Jak opowiada, przeanalizował występowanie słów związanych z terroryzmem w portalu arabskiej stacji telewizyjnej Al-Dżazira. Z kolei studenci prof. Gogołka wykorzystywali analizę Big Data do próby przewidzenia notowań polskich spółek giełdowych.

"Ameryki nie odkrywamy. Takie systemy analizy dużych zasobów informacyjnych istnieją od wielu lat i są wykorzystywane głównie przez ekonomistów, a szczególnie bankowców. My pokazujemy kolejne przykłady zastosowania takich rozwiązań, m.in. w badaniach nauk humanistycznych, wcześniej zdominowanych badaniami jakościowymi" - kończy prof. Gogołek. (PAP)

Autor: Ludwika Tomala

lt/ ekr/

Serwisy ogólnodostępne PAP