Web stranice

Novi softver detektira botove koji ostružu podatke web stranica

TEHNIKE ZA kritičko RAZMIŠLJANJE - BORIS TEODOSILJEVIĆ

TEHNIKE ZA kritičko RAZMIŠLJANJE - BORIS TEODOSILJEVIĆ
Anonim

Web stranice kao što su ploče za posao suočene su s neprestanim problemom: njihovi se podaci stalno vrebaju automatiziranim robotima.

Podaci završavaju na drugim konkurentnim oglasnim pločama koje su ukrali sadržaj. To je problem koji pogađa bilo koju web stranicu čija intelektualna svojstva moraju biti javno objavljena besplatno, pa čak i one s modelima pretplate.

Ali tvrtka sa sjedištem u Atlanti koja se specijalizirala za otkrivanje botova razvila je softver koji može otkriti one screen-scraping

Glavni proizvod tvrtke Pramana, HumanPresent, otkriva automatizirane robote koji npr. unose spam u web-obrasce ili se registriraju besplatno.

[Daljnje čitanje: Kako ukloniti zlonamjerni softver s vašeg Windows računala] računi e-pošte koji će se koristiti za neželjenu poštu.

Pramana je sada razvio modul pod nazivom "Data mining i screening scraping prevention" za HumanPresent. On radi na mnogim istim principima kao i njegov glavni proizvod, ali je modificiran za scenarij za podatke koji se bave miniranjem podataka, rekao je David Crowder, izvršni direktor tvrtke Pramana.

HumanPresent može detektirati botove uočavanjem razlika u načinu na koji bi čovjek normalno stupio u interakciju s Web stranica i suprotstavlja se tome kako se botovi ponašaju. Prikazuje više od 30 mjernih podataka, kao što su udarci tipkovnice, klikovi mišem i vrijeme tih radnji.

HumanPresent pregledava pojedinačne transakcije, ali modul modula za podatke je izmijenjen kako bi pogledao vremenski određeno razdoblje kad bilo bot ili ljudski je na mjestu, Crowder je rekao.

Data mining botovi imaju tendenciju da u potpunosti zaobiđu korisničko sučelje preglednika. Na primjer, bot može zatražiti web stranicu s puno i puno podataka, ali se nikada ne pomiče ili klikne na stranicu. Ako se niz stranica otvore i pregledaju na taj način, to bi moglo značiti da je došlo do botova za prikupljanje podataka.

Pramana dodjeljuje jedinstveni ID posjetitelju, a nakon analize ponašanja posjetitelja može donijeti odluku o tome posjetitelj bot ili ne. Postoji nekoliko različitih načina na koje operater web stranice može odabrati rješavanje situacije.

IP adresa (Internet Protocol) računala botova može trajno blokirati. Jedna internetska aukcija o automobilima koja ispituje modul Pramana za data mining odlučila je premjestiti osumnjičene robota u "sandbox" gdje se poslužuju potpuno lažni podaci.

"Oni doista kopaju podatke - to je samo mrtav pogrešno", rekao je Crowder..

Ostale opcije uključuju traženje posjetitelja web stranice s izazovom ili zadatkom, koje neki botovi nisu sposobni za dovršavanje.

Rudarstvo podataka skupo košta tvrtke. Tvrtke koje prodaju vrhunske podatke otkrit će da će njihovi konkurenti kupiti pretplatu, a zatim koristiti automatizirane robote kako bi ukrali podatke za svoje web stranice. U jednom primjeru, web stranica koja ima gigabajta podataka o cijenama korištenih automobila otkrila je kako su podaci olovljeni i prodani na eBayu. "Oni se zapravo natječu sa svojim sadržajem", rekao je Crowder.

Neki Web-stranice imaju loše dizajne koje olakšavaju brisanje podataka.

Modul za prikupljanje podataka bit će umetnut u HumanPresent proizvod za sada, ali početkom iduće godine Pramana planira prodati ga odvojeno, Crowder je rekao. Pramana nudi HumanPresent ili kao predinstalirani uređaj ili kao konfiguracija softvera kao i usluge.

Za uslugu SaaS (softver kao uslugu), Pramanina tehnologija integrirana je u web aplikaciju i informacije o sesiji se šalju natrag do Pramane za analizu. Crowder je rekao da je Pramana u svojoj najnovijoj verziji znatno smanjila vrijeme latencije. Za korisnike koji trebaju veću brzinu, uređaj je dostupan.