Kako smo skrejpovali i analizirali podatke predizbornih kampanja domaćih stranaka?

Digitalni forenzičar Andrej Petrovski piše o alatima i metodologiji koji leže iza istraživanja digitalne javnosti u predizbornoj kampanji koje je sproveo Share Labs.

Andrej Petrovski
30/06/2016

U okviru projekta praćenja izborne kampanje u onlajn okruženju za opšte i lokalne izbore u Srbiji 2016, istraživački tim Share Labs obuhvatio je ne samo stranačke aktivnosti, već pre svega pozicioniranje stranaka kroz različite kanale komunikacije na Mreži. Dakle, istraživanje se ne odnosi na rezultate izbora, već ponašanje javnosti na mrežama i interakcije medija i javnosti.

Kao osnovni mehanizam političkog oglašavanja, mediji su bili polazna tačka analize za koju je odabrano deset sajtova medija sa kojih su skrejpovani svi tekstovi vezani za izbore. Portali su izdvojeni prema rangiranju posete na indeksu Alexa, dok je za finalnu selekciju bila presudna raznovrsnost sadržaja, reputacija i društveni uticaj samih medija. Tako je sastavljena lista portala sa kojih su skrejpovani članci o izborima: Politika, Novosti, Blic, Danas, Kurir, Informer, Telegraf, RTS, B92 i N1.

Osnovni koraci istraživanja bili su skrejpovanje, kvantitativna analiza i vizuelizacija, a proces se ispostavio mnogo kompleksnijim od početno pretpostavljenog.

S obzirom na to da svaki od ovih sajtova ima različitu logičku i tehničku strukturu, prvi izazov bila je nemogućnost korišćenja generičkog skrejpera, odnosno istog softverskog alata kojim bi se preuzeli svi tekstovi. Stoga su istraživači napisali skriptu za svaki sajt posebno, tako da preuzima sadržaj na osnovu HTML tagova korišćenih u tekstu.

Pored sadržaja tekstova, skripte preuzimaju i sadržaje komentara na svaki pojedinačni tekst, te glasove (like/dislike) koje korisnici daju svakom komentaru ponaosob, što u kontekstu određene vesti daje dodatni aspekt izborne kampanje, odnosno uvid u povratnu reakciju javnosti i stranačkih aktivista.

Zbog zaštite privatnosti računara sa kojih je testiranje izvršeno, kao i zbog prevencije blokiranja IP adrese na nekom od servera, istraživači su sav saobraćaj koje skripte generišu (u oba smera) preusmerili na Tor mrežu. Treba napomenuti da operacije koje su vršile skripte ne predstavljaju prekršaj ni krivično delo, te da nisu uticale na samu funkcionalnost sajtova. Reč je isključivo o automatskom preuzimanju sadržaja koji su sami mediji učinili dostupnim na internetu.

Sve korišćene skripte su objavljenje na sajtu Share Labs.

Na prikupljene tekstove potom je primenjen specijalizovan softver za kvantitativnu analizu teksta Lexico 3, dok su pojedine analize vršene uz pomoć softverskog alata R. Analize podataka u CSV obliku eksportovani iz Lexico okruženja, a podaci su analizirani u programu R gde su rađene i vizuelne obrade.

Drugi segment istraživanja obuhvata pristustvo političkih stranaka na društvenim mrežama Facebook i Twitter. Potvrđena je hipoteza da su stranke sa ograničenim pristupom tradicionalnim medijima koristile društvene mreže kao komunikacioni kanal tokom izborne kampanje, pa se može slobodno reći da je sa nekoliko stotina korisnika koji su aktivno učestvovali u preko milion interakcija sa 22 političke stranke na Facebooku, ovo prva izborna kampanja u Srbiji u kojoj su društvene mreže imale relevantnu ulogu.

Svaka od ukupno 22 političke partije i pokreta okuplja oko sebe, u zavisnosti od svoje veličine, određenu zajednicu, najvernije pratioce, aktiviste i simpatizere. Ukupan broj svih korisnika koji su na bilo koji način bili aktivni u orbiti ovih naloga iznosi 197.539. Vrste podataka koje smo sakupljali sa Fejsbuka jesu broj učesnika i broj interakcija (lajkova i komentara).

Na društvenoj mreži Tviter, zahvaljujući njenoj posebnoj otvorenosti, analizirali smo sledeće podatke: imena najaktivnijih korisnika, broj njihovog ukupnog pominjanja, broj najpopularnijih relevantnih markera tema (tzv. heštagova), broj priloga (tzv. tvitova) korisnika.

Prikupljani postovi, komentari i lajkovi

Na Facebooku su targetovane zvanične stranice dvadeset i dve političke stranke koje su, samostalno ili u koaliciji, učestvovale u izbornom procesu. Prikupljani su svi postovi stranaka, kao i svi komentari i lajkovi na postove.

Softver korišćen za tu namenu je NodeXL Pro, koji predstavlja dodatak (plug-in) za Microsoft Excel i koji između ostalog daje mogućnost prikupljanja podataka sa Facebook stranica po različitim parametrima.

Istraživači Share Labs su prikupljali postove, lajkove i komentare po datumima, odnosno u intervalima od po nedelju dana. Odluka da se prikupljanje vrši na sedmičnom nivou doneta je usled potrebe da se prati dinamika kampanje. Prikupljanje se može vršiti po različitim vremenskim intervalima, u skladu sa potrebama istraživačkog projekta, a pozitivna strana ovog alata jeste, što se podaci mogu prikupljati retroaktivno, praktično bez ograničenja.

Prikupljeni podaci su zatim analizirani i vizualizovani pomoću Tabloa, verovatno najsofisticiranijeg alata za analitiku podataka koji je trenutno dostupan na tržištu. Tablo fajl sa analizama Share Labs se može slobodno preuzeti, kao i baza prikupljenih podataka u MS Access formatu.

Na sledećem grafiku, prikazan je broj tzv. interakcija po strankama. Drugim rečima ovaj grafikon pruža uvid u ponašanje zajednica korisnika unutar FB mreže na osnovu njihovih komentara (kao reakcije višeg reda koje zahteva napor pisanja ili kopiranja teksta) i sviđanja, tzv. lajkova (kao jedinice izražavanja sklonosti tj. pozitivnog odnosa prema predmetu diskusije).

Screen Shot 2016-06-30 at 12.12.41 PM

Iz priloženog vidimo da su sviđanja (verovatno iz praktičnih razloga) najčešći oblik interakcije, dok se kod Dveri i SNS izdvaja i značajno veća zastupljenost komentara u odnosu na ostale stranke.

#izbori2016

Kad je u pitanju Twitter, pristup je bio nešto drugačiji. Istraživači su prikupljali tvitove koji sadrže hešteg #izbori2016, od početka kampanje prepoznat kao “zvaničan” hešteg ovog predizbornog ciklusa u domaćoj onlajn zajednici. Potrebno je napomenuti da je Twitter znatno manje korišćen kanal komunikacije tokom kampanje u odnosu na Facebook.

Ako se u kontekstu Fejsbuka govori o milionima interakcija, kad je reč o Tviteru (TVT) taj broj je znatno manji i meri se u hiljadama, dok broj korisnika koji su bili uključeni u te aktivnosti iznosi nekoliko stotina.

[…]

Prvi segment se više odnosi na kvantifikaciju podataka i podrazumeva praćenje zvaničnih naloga političkih stranaka koje su učestvovale u ovoj izbornoj kampanji. Na zvaničnim nalozima stranaka objavljena („tvitovana“) su saopštenja, dok je TVT zajednica na njih reagovala.

Screen Shot 2016-06-30 at 12.07.34 PM

Drugi segment jeste analiza društvene mreže (ADM tj. Social Network Analysis (SNA)) svih priloga korisnika na Tviteru (tzv. tvitova (eng. Tweet)) koji u sebi sadrže tematski marker (heštag) #izbori2016 (#izbori2016). Ovakva analiza omogućava uvid u strukturu povezanih zajednica ali i zastupljenost stranaka i markera.

TwitterSNA1-011

Analiza je pokazala izrazitu polarizaciju zajednica na Tviteru po pitanju pomenutog markera tokom izbornih aktivnosti. Sa jedne strane je Srpska Napredna Stranka i zajednica korisnika koja se oko nje okuplja. Sa druge strane su praktično sve ostale stranke koje su se odlikovale visokom aktivnošću na Tviteru.

Za prikupljanje u realnom vremenu korišćen je Naoyun koji radi na Java platformi i importuje sve tvitove u Gephi (verzija 0.8.2, jer dodaci korišćeni za prikupljanje tvitova tada nisu bili dostupni za noviju verziju 0.9.1.), pomoću Graph Streaming dodatka.

Vizualizcija podataka sa Twittera takođe je rađena u Gefiju, uz upotrebu filtera kako bi se iz grafa isključila čvorišta sa manjim brojem veza što ih čini irelevantnim za širu sliku. Takođe, korišćeno je nekoliko algoritama za raspoređivanje čvorišta na grafiku, najčešće Yifan Hu i ForceAtlas2 (oba algoritma su sastavni deo Gefija).

Veći deo podataka i izvornog koda koji proizlazi iz ovog istraživanja dostupan je na opisanim linkovima. Za sve dodatne informacije, komentare i ideje za nove pristupe analizi prikupljenih podataka, možete se obratiti na adresu: [email protected].

Napomena: Softver trećih strana korišćen tokom ovog istraživanja dostupan je na osnovu slobodne ili akademske licence.

 

Andrej Petrovski

Objavio/la članak.

četvrtak, 30. Jun, 2016.

IT Industrija

🔥 Najčitanije