Skrejpovali smo B92.net — nikad nećete pogoditi koja vest je imala 247.056 minusa

Branko Kokanović, softverski inženjer napravio je projekat skrejpovanja i analize 2015. godine na B92.net-u. Naslov je omaž novim trendovima u novinarstvu, prisutnih i na ’92-ci.

Branko Kokanović
22/01/2016

2015. godina je prošla. Sa malim zakašnjenjem, ispod je prikazana osnovna analiza sajta B92 i vesti koje su se našle na njemu, kao i komentara i kategorija. Analizom su obuhvaćene sve vesti i komentari objavljeni na B92, od 01. 01. 2015. do 31. 12. 2015.

Samo prikupljanje podataka je obavljeno nizom alata pisanih u Pythonu, koje možete pogledati na Githubu, gde možete preuzeti i celokupan dump baze (~2.2Gb) i pogledati uputstvo kako da ih i sami izanalizirate.

Ukoliko bude interesovanja, predstavićemo i ceo proces u više detalja u nekom narednom članku ili okupljanju.

Dopuna: zbog velikog interesovanja, organizovaćemo događaj na ovu temu 24. februara. Uskoro više detalja.

U 2015. godini, B92 je izbacio dosta vesti, i dosta komentara, evo kratak pregled:
Screen Shot 2016-01-21 at 11.56.28
Pređena je magična cifra od 100.000 vesti godišnje. Čestitke za B92:) Gledajući broj komentara sa ove liste (a pošto su komentari moderisani), ova statistika govori i da su moderatori imali pune ruke posla (zamislite koliko komentara tek nije prošlo moderaciju).

Vesti

Evo koje tipove vesti je B92 objavljivao, po kategorijama:

vesti_po_kategoriji

Ako se gleda kako je B92 objavljivao vesti na dnevnom nivou, primećuje se porast trenda.
vesti_dnevno

Na početku godine su izbacivali 263 vesti dnevno, a na kraju čak 288. Ako se nastavi ovaj trend, do 2021. godine će objavljivati 150.000 vesti godišnje ili preko 400 dnevno (ne znam kakve će to vesti biti, ali se nadam da neće porasti broj vesti u kategorijama “politika” i “hronika”). Na prethodnoj slici se i jasno vidi da broj vesti na dnevnom nivou fluktuira od dana do dana. I tako i jeste – broj “vrhova” na prethodnom grafiku je 52, tj. broj nedelja.

Evo kako izgleda nedeljna distribucija vesti:

vesti_nedeljno

Valjda i B92 odmara vikendima.

Mnogo interesantnije od ovoga je videti kakva je distribucija vesti po satima, tj. kad se najčešće objavljuju vesti:

vesti_sat

Na grafiku se vidi kako je vrhunac vesti oko 11h prepodne, kao i dva peak-a – jedan u 17h i jedan oko 21h. Pretpostavka je da ovo nije slučajno. verovatno je rađena analiza i verovatno ljudi tad i najčešće čitaju vesti.

Međutim, znajući od malopre da distribucija vesti po danima nije jednaka, hajde da vidimo opet distribuciju vesti po satu, ali razbijenu po danima:

vesti_sat_dan

I zapravo, vidi se razlika. Očigledno je da je peak vesti vikendom drugačiji, tačnije 16h je udarni termin (dok je radnim danima to malo pomereno na 17h). Isto tako, subotom se vidi blagi skok oko 20h (dok je radnim danima on oko 21h), a i nedeljom se takođe vidi blagi skok oko 22h koga nema uopšte drugim danima.

A šta su bile najčešće teme na objavljenim vestima? Urađena je analiza reči koje su se pojavljivale u naslovima vesti. Ako izbacimo predloge i veznike (“i”, “ili”, “na”, “u”, “ako” i sl.) i ako se ne pravi razlika po raznim mogućim oblicima pojavljivanja reči (“Vučić”, “Vučića”, “Vučićeva” …), evo je lista najčešćih reči:

naslov_reci

Pozicija na kojoj se nalazi “SAD” je prilično fascinantna. “Godina” i “dan” su prilično standardni pojmovi, razmišljano je i da se izbace, ali nije na kraju. “Vučić” je i dalje neprikosnoveni vladar medijskog prostora, a godinu je obeležio i sve veći broj “izbeglica”. Interesantno je i da je “Zvezda” ispred “Partizana” globalno, a videćemo kasnije i detalje. “Novak” je uspeo da se ušunja na listu na poslednjem mestu (ovde nisu računata i pojavljivanja reči npr. “Đoković”), mada je lični utisak da je on držao prvo mesto cele godine:)

Ako zagrebemo malo više po ovoj listi tako što je razložimo po kategorijama, dobijamo malo veći nivo detalja:

naslov_reci_kategorija

Ostavljam čitaocu da iznese zaključke za svaku od navedenih kategorija, a ima ih, nije da ih nema.

Komentari

Pored vesti, analizirani su i komentari čitalaca. Kao što je gore već navedeno, pričamo o neverovatnoj cifri od preko milion i po komentara ili u proseku 16.2 komentara po vesti. Reći tako nešto, a da se ne pokaže distribucija tog broja nije fer, pa evo:

distribucija_broja_komentara

Ovaj grafik pokazuje koliko vesti ima koliko komentara (sa 0 komentara su oko 24.000 vesti, jedan komentar ima malo preko 10.000 itd.). A evo koje kategorije u proseku izazivaju najviše komentara (u obzir su uzete samo kategorije preko 50 vesti):
Screen Shot 2016-01-21 at 15.08.37
U principu, Srbi očigledno najviše vole da komentarišu seks, i to samo onda kad se umore od komentarisanja tenisa – valjda mislimo da smo u ovim oblastima najupućeniji da ostavimo komentar. Na dnu ove liste (nije prikazano ovde) se ubedljivo nalazi Bulevar koji je na preko 2400 objavljenih vesti uspeo da dobije ukupno… 10 komentara.Ako pogledamo kad to ostavljamo komentare, vidimo sličnu distribuciju kao i kod vesti:komentari_dan_nedeljeOvo nam ništa ne govori. Ako uporedimo ovaj grafik sa prethodnim, možemo da vidimo relativan odnos “koliko vesti dođe nekog dana”, a “koliko se te vesti komentarišu”, pa dobijamo:komentari_dan_nedelje_relativeLjudi “ne stižu” da iskomentarišu sve vesti tokom radnih dana, ali zato sve nadoknade vikendima, naročito nedeljom, kad deluje kao da fali vesti. Kad se pogleda slična analiza po satima, kao za vesti, tj. break-down po satima kad ljudi najčešće komentarišu, dobija se slična kriva:komentari_satKometari manje-više prate izlaženje vesti. U tu svrhu, napravljen je histogram koji pokazuje posle koliko vremena (u minutima) od objavljivanja vesti dolaze komentari:

distribucija_komentara

OK, ovde je prikazana distribucija za jedan dan (1440 minuta), pa se ne vidi najbolje maksimum. Kad zumiramo malo bolje, dobijamo:

distribucija_komentara_zoom

Ispada da najviše komentara na vest dolazi 30 minuta od njenog objavljivanja. Da li je to prosečno vreme čitanja vesti plus pisanje komentara pre nego što se ostavi komentar? Na osnovu komentara koji se mogu pročitati svaki dan na B92 – teško; deluje da nekad ljudi ne pročitaju ni naslov do kraja pre nego što nešto iskomentarišu. A ko su ti komentatori uopšte? Ako pogledamo imena prvih 10 autora sa najviše komentara, dobijamo prilično dosadnu listu:

autori

Osim što nam govori da su autori najčešće muškarci (štaviše, prvo žensko ime ne kreće tek od 20. mesta), ne možemo da ih povežemo sa konkretnim ljudima. Zato su izbačena sva “uobičajena” imena (gde je primenjena “šac” metoda šta je to definicija uobičajenosti), pa nova lista prvih 15 autora izgleda ovako:

autori2

Čestitke za “smuleco-a”, ko god bio – izdominirao je sa 5257 napisanih komentara u 2015. godini. Botovi, ne menjajte imena, pa ćete i vi možda biti na ovoj listi. A evo i koji autori ima najbolje komentare, tj. one sa najviše pluseva:
Screen Shot 2016-01-21 at 11.54.10
U obzir su uzeti samo autori sa preko 50 komentara. A evo to isto, samo za najomraženije autore:
Screen Shot 2016-01-21 at 11.54.52
A koji su to komentari najviše pogodili čitaoce da im oni daju plus. Evo je lista top 10 komentara:
Screen Shot 2016-01-21 at 15.10.27
I ista takva lista za najomraženije komentare (sa najviše minusa):

Screen Shot 2016-01-21 at 15.12.17

Hall of Fame

I na kraju, napravljen je pokušaj da se izvadi lista “najpozitivnijih” i “najnegativnijih “vesti, i probano je sa dosta raznih pristupa, ali nikad nije dobijena neka smislena lista. Da li su to vesti koje imaju najviše pluseva na komentarima, ili one koje imaju najviše prosečno pluseva, ili one kojima je odnos pluseva i minusa najveći – suština je da nema dobre metrike da se ovo nađe. Ipak, dok je ovo traženo, nađene su neke vesti koje od ostalih iskaču po raznim kriterijumima, pa će one biti prikazane. Ove vesti takođe daju dobru retrospektivu godine. To je sve, uživajte!

Vesti sa preko 1000 komentara

Screen Shot 2016-01-21 at 15.13.17

Vesti sa preko 150.000 pluseva na komentarima

Screen Shot 2016-01-21 at 15.14.00

Vesti sa preko 120.000 minusa

Screen Shot 2016-01-21 at 15.14.43

Vesti sa preko 600 pluseva u proseku na komentarima

Screen Shot 2016-01-21 at 15.20.56

Vesti sa preko 650 minusa u proseku na komentarima

Screen Shot 2016-01-21 at 15.22.18

Vesti sa preko 110.000 razlike između pluseva i minusa u komentarima

Screen Shot 2016-01-21 at 15.37.46

Vesti sa preko 25.000 razlike između minusa i pluseva u komentarima

Screen Shot 2016-01-21 at 15.43.20

Vesti sa preko 500 razlike između pluseva i minusa u komentarima u proseku

Screen Shot 2016-01-21 at 15.44.10

Vesti sa preko 300 razlike između minusa i pluseva u komentarima u proseku

Screen Shot 2016-01-21 at 15.45.07

Autor ni na koji nači nije povezan sa B92. U tekstu su iznete isključivo činjenice dobijene statističkom analizom. Ni originalni podaci, ni njima dobijeni rezultati nisu modifikovani.

Članak je originalno objavljen na autorovom blogu uz dopune i prilagođavanja za Startit.

Branko Kokanović

Objavio/la članak.

petak, 22. Januar, 2016.

IT Industrija

🔥 Najčitanije

Ana

utorak, 26. Januar, 2016.

Sve ovo pada u vodu jer B92 nije portal sa objektivnim novinarima. Previse je cenzure i plasiranja komentara istih prorezimskih ljudi. Stoga ovi rezultati ne pokazuju pravu sliku stvari a ona je daleko daleko gora po vlast i sve politicare svih stranaka. Samo se nadam da ce se narod opametiti i uzeti stvar u svoje ruke a ne da ocekuju da im neko objavi komentar od preplasenih novinara koji se i ne mogu nazvati pravim novinarima. Takodje diskutabilno je u tolikom broju vesti koliko je zaista njihovih vesti jer uglavnom svi portali rade copy paste jedni od drugih a i prevode vesti iz inostranstva sa nekoliko popularnih portala. Sve u svemu novinarstvo kod nas nikada niej bilo na nizim granama a oni koji sebe nazivaju novinarima su presmesni. Veci novinari su obicni ljudi koji pisu po blogovima, komentarisu vesti i sl.

Nikola

nedelja, 24. Januar, 2016.

Ovo je jedan od najzanimljivijih i najkorisnijih tekstova koje sam pročitao u poslednje vreme, ne samo na startit.rs, već uopšte! Svaka čast autoru i zahvalnost što je sa nama podelio ovu analizu. Mislim da bi bilo sjajno da se na nekom od budućih startit-ovih dešavanja organizuje prezentacija na ovu temu. Još jednom, sve pohvale!

AleksandarCucu

subota, 23. Januar, 2016.

Fenomenalna analiza! Hvala sto si ovo podelio sa svima.

Mina

petak, 22. Januar, 2016.

Nadam se da ovaj Aleksandar troluje. Inače, fascinantan tekst, ovo, ako ništa pokazuje stanje u zemlji: 'leba, igara i politike.

Предраг

petak, 22. Januar, 2016.

Сјајно.

Aleksandar

petak, 22. Januar, 2016.

Ovo je sramota sta se desava u Srbiji. I pored svog truda koji premijer ulaze kako bi popravio situaciju ova analiza prikazuje dobro kako to narod ne ume da primeti niti da ceni. Ni ne zasluzujemo bolje!!!

Branko Kokanovic

petak, 22. Januar, 2016.

Hvala Nenade. Ceo source code je objavljen na github-u (ima link u clanku), pa mozes da pogledas. Ukratko - nista custom, python i malo regex-a. Trajalo je par dana, ali u to vreme uracunaj i sve bolesti dok scrape-ujes

Orion

petak, 22. Januar, 2016.

Interesantan članak. Svaka čast na trudu!

Nenad

petak, 22. Januar, 2016.

Sjajan projekat i interesantni rezultati. Ako mi dozvolite par pitanja. Da li je korišćen neki komercijalni alat ili custom made? Zanima me koliko je dana trajalo prikupljanje podataka ovolikog sajta? Takođe, kako se došlo do URL-ova samo sadržaja obljavljenih u 2015 (puni crawl pa filter ili se skrejpovalo sa nekim include regexom)?

Komentar

petak, 22. Januar, 2016.

B92 bi vam trebao platiti za ovu analizu :)

Filip

petak, 22. Januar, 2016.

Fenomenalan tekst! :)