Návrh aplikace pro automatizovanou extrakci atributů produktů webů
Abstrakt
Tato diplomová práce se zabývá takzvaným web scrapingem, specificky ukazuje možnou cestu, jak extrahovat data produktů z webu a webových stránek na zvoleném příkladu.
Teoretická část se věnuje popisu webu a jeho zdrojového kódu. Aby bylo možné stahovat data, je nejdříve potřeba těmto informacím rozumět. Dále je představeno prostředí jazyka R a některé metody, které jsou následně využity v praktické části při extrakci webu.
Praktická část obsahuje postupy (analýzu a návrh) pro tvorbu nástroje využívaného ke stažení. Z konkrétního e-shopu jsou stažena data, u kterých je zkontrolována jejich úspěšnost extrahování. Poslední část je věnována porovnání funkčnosti vytvořeného nástroje na jiném e-shopu.