Kako smo na KupujemProdajem iskoristili 22 miliona oglasa za implementaciju mašinskog učenja

Tekst Velibora Antića o tome kako i zašto je najveći srpski sajt za oglase implementirao sistem mašinskog učenja za sortiranje oglasa i kako ovu tehnologiju planiraju da iskoriste i za druge poslove.

Velibor Antić
06/06/2017
kupujem_prodajem_machine_learning

Za softverske platforme, poput naše, veštačka inteligencija (AI) je ono što su roboti za fabričke pogone. AI u poslovne procese unosi brzinu i automatizaciju bez presedana i mogućnost predviđanja potreba i ponašanja korisnika.

U moru različitih primena širom različitih oblasti, ova napredna tehnologija u našoj industriji obećava da će oglasni portali biti sposobni da “gledaju” slike i “razumeju” tekst oglasa. To otvara širok spektar mogućnosti za unapređenje korisničkog iskustva i celokupnog poslovanja. Zapravo, portali koji uspešno primene AI biće u mogućnosti da sa manje resursa ponude bolji kvalitet usluga i naprednije korisničko iskustvo.

Šta?

Za KupujemProdajem.com smo definisali važan prostor za primenu AI, konkretno Machine Learninga. Naime, na našem portalu je u svakom trenutku aktivno preko 1,3 miliona oglasa, a svakog dana se postavi preko 40 hiljada novih. Za naše korisnike je od velike važnosti da, u tako kompleksnom ekosistemu, oglasi budu pravilno klasifikovani; primera radi, da se oglas za iPhone objavi u odgovarajućoj grupi kategorije Mobilni telefoni, a oglas za traktor u odgovarajućoj grupi kategorije Poljoprivreda.

Tačna klasifikacija oglasa jedno je od najvažnijih očekivanja naših korisnika, čak i ako oni nikada nisu razmišljali o tome, jer na njoj počivaju relevantnost i generalni kvalitet našeg ekosistema.

Ipak, korisnici neretko, u 10% slučajeva, odaberu pogrešnu kategoriju ili grupu prilikom postavljanja oglasa, što našim administratorima kreira obiman zadatak da oglase pravilno preraspodele. Od ovog proleća, taj posao smo počeli da poveravamo softveru koji je sposoban da “čita” tekst oglasa, prepozna šta je predmet oglašavanja i autonomno predloži pravilnu klasifikaciju, pri čemu vremenom uči i postaje sve precizniji.

U razmišljanju da li da tehnologiju razvijamo pod sopstvenim krovom ili koristimo third-party rešenje,  odlučili smo se za hibridni, partnerski pristup, vođeni željom da ovakav sistem radi pod “našom haubom” (naš back-end, naši serveri), ali i stavom da treba da zadržimo fokus kompanije. Machine Learning smo primenili u partnerstvu sa niškom kompanijom NIRI Intelligent Computing (NIRI IC), koja se preko 10 godina bavi izradom softverskih rešenja za inteligentnu obradu podataka. Od trenutka od kada smo počeli da pričamo o tome, rad na primeni Machine Learninga na KupujemProdajem.com trajao je punih godinu dana.

Kako?

Predispozicija svake uspešne primene Machine Learninga je Data, tačnije prikupljanje ogromne količine dobro struktuiranih podataka. Srećom, usled same prirode našeg portala, mi smo u ovom smislu “ležali na bogatstvu”. Krenuli smo od 22 miliona “starih” oglasa, iz svih mogućih kategorija i grupa, za koje smo već znali da su pravilno klasifikovani, te sa njima kreirali ogroman trening korpus za “obuku” Machine Learning klasifikatora.

Praktično, softver koji su razvili inženjeri iz NIRI IC detaljno je “pročitao” tekst svakog od 22 miliona oglasa i procenio spektralne karakteristike svakog teksta, tj. identifikovao ključne reči i stringove (grupe reči) koji su njihova specifična osobina. Budući da smo za svaki od ovih tekstova (oglasa) već imali ispravan podatak o tome kojoj kategoriji i grupi pripada, sledeći korak je bio da softver, po sličnom principu, identifikuje spektralne karakteristike svake kategorije i grupe. Skup svih karakteristika kategorija i grupa tako postaje model znanja klasifikatora.

machine_learning_kp2

Kreirani model znanja osnov je softverskog klasifikatora oglasa. Svaki novi oglas koji “provučemo” kroz Machine Learning platformu, prolazi kroz istu analizu spektralnih karakteristika, koje se potom upoređuju sa već definisanim spektralnim karakteristikama kategorija i grupa iz modela znanja. Na taj način, naš Machine Learning klasifikator je sposoban da vrlo pouzdano predloži optimalne kategorije i grupe za nove oglase.

U pilot fazi, klasifikator se pokazao dovoljno preciznim, čak i do 94% kada su u pitanju kategorije, odnosno 85% za grupe. Već sada, to nam omogućuje brži rad i garantuje bolji kvalitet za naše korisnike. Međutim, još uvek smo u stadijumu u kojem čovek (administrator) nadgleda rad softvera, tj. ručno odobrava predloge.

Izvesno je, pak, da idemo putem postepenog povećanja preciznosti, te da nas taj put vodi ka punoj automatizaciji, trenutku kada će Machine Learning softver pri samom postavljanju oglasa od strane korisnika proveriti klasifikaciju i bez ikakve ljudske intervencije premestiti oglas u pravilnu kategoriju i grupu. U tome će nam pomoći redovno “retreniranje” Machine Learning platforme. Trenutno, model znanja možemo poboljšavati periodičnim dodavanjem novih oglasa, na primer, na svakih 3-6 meseci, što će rezultovati još preciznijom klasifikacijom i usklađivanjem sa novim potrebama tržišta (npr. pojava nove vrste proizvoda).

Inače, tim NIRI-ja puno pažnje posvećuje i novoj generaciji klasifikatora, koji će samostalno zahtevati “dotreniravanje” i ljudsku asistenciju kada proceni da se nešto novo dešava na tržištu.

machine_learning_kp3

Rezultati u pilot fazi

Zašto?

Pravi potencijal Machine Learninga za nas leži u tome što će sistem vremenom postajati sve pametniji, sposobniji, pa ćemo moći da ga koristimo i na drugim važnim poslovima.

Primera radi, ova tehnologija može omogućiti portalu da automatski ponudi korisniku oglase koji su veoma slični onima koje pregleda, recimo oglase automobila srodne ne samo po proizvođaču i modelu, već i po očuvanosti, oštećenjima i drugim karakteristikama koje su od velike važnosti za kupce. Takođe, Machine Learning možemo trenirati i da autonomno prepoznaje oglase koji na bilo koji način krše pravila portala i reaguje na njih.

Svakako, pored razumevanja tekstualnog opisa proizvoda, velike mogućnosti za unapređenje leže u primeni Machine Learninga za automatizovanu analizu fotografije proizvoda!

Stoga ćemo nastaviti da negujemo saradnju sa NIRI IC, koja je dobar primer partnerstva zasnovanog na komplementarnim znanjima i veštinama dve inovativne lokalne kompanije. To je ovom zajedničkom projektu omogućilo da uspešno konkuriše za sredstva u Programu sufinansiranja inovacija pri Fondu za inovacionu delatnost Republike Srbije, sa idejom da se ovako dobijeni proizvod još brže probije na globalno tržište.

Velibor Antić

Objavio/la članak.

utorak, 6. Jun, 2017.

IT Industrija

🔥 Najčitanije

Djordje

utorak, 12. Septembar, 2017.

Dobili su to da oglasi koji su dodati budu stavljeni u odgovarajucu kategoriju tj. da ako ja prodajem neku graficku karticu i slucajno stavim kategoriju mobilni telefoni a ne racunarske komponente to ce njihov AI da ispravi i tako odrzavati pravilnu organizaciju podataka. Nema taj AI nikakve veze sa pretregom po unosu.

Mirko

sreda, 7. Jun, 2017.

A u praksi su isključili po defaultu pretragu oglasa po tekstu ! Ne kapiram kao dugogodišnji korisnik KP-a gde su napredovali , kao što rekoh kad pretražujete oglase od proleća su ustvari isključili pretragu po tekstu oglasa i pretražuje samo naslove oglasa, morate čekirati opciju za pretragu teksta, jer im je baza verovatno optrećena do granice izdržljivosti !!! Tako da ova AI priča meni nema smisla, lakše pronadjem oglas kad pretražujem KP preko Googleta !!!