Zobrazit minimální záznam

dc.contributor.advisorFesl, Jan
dc.contributor.authorDohnal, Patrik
dc.date.accessioned2024-03-12T11:35:14Z
dc.date.available2024-03-12T11:35:14Z
dc.date.issued2021
dc.date.submitted2021-04-29
dc.identifier.urihttps://dspace.jcu.cz/handle/20.500.14390/44789
dc.description.abstractTato bakalářská práce se zabývá návrhem systému pro klasifikaci obsahu webových stránek včetně následné implementace v programovacím jazyce Python. K samotné klasifikaci jsou využívány modely strojového učení jako jsou Naivní Bayesův klasifikátor, K-Nejbližších sousedů a Support Vector Machines. V rámci celého procesu se rovněž předpokládá tvorba vlastní množiny dat, na kterých jsou tyto modely trénovány a následně testovány. Součástí práce je i podrobná rešerše použitých metod.cze
dc.format44 s.
dc.format44 s.
dc.language.isocze
dc.publisherJihočeská univerzitacze
dc.rightsBez omezení
dc.subjectStrojové učenícze
dc.subjectText miningcze
dc.subjectKlasifikacecze
dc.subjectDatasetcze
dc.subjectWebové stránkycze
dc.subjectPředzpracování datcze
dc.subjectZakódování textucze
dc.subjectTF-IDFcze
dc.subjectSupport Vector Machinescze
dc.subjectNaivní Bayesuv klasifikátorcze
dc.subjectK-Nejbližší sousedůcze
dc.subjectMachine learningeng
dc.subjectText Miningeng
dc.subjectClassificationeng
dc.subjectDataseteng
dc.subjectWebpageseng
dc.subjectData preprocessingeng
dc.subjectWord embeddingeng
dc.subjectTF-IDFeng
dc.subjectSupport Vector Machineseng
dc.subjectNaive Bayes classifiereng
dc.subjectK-Nearest neighborseng
dc.titleDetekce kategorie obsahu webové stránky prostřednictvím metod strojového učení.cze
dc.title.alternativeDetection of websites content category using machine learning methods.eng
dc.typebakalářská prácecze
dc.identifier.stag60135
dc.description.abstract-translatedThis bachelor thesis is focused on design and the implementation of the algorithm for classifying the websites into a several categories. The implementation of this software is written in Python. For classifying purposes I use machine learning models such as Naive Bayes classifier, K-Nearest neighbors and Support Vector Machines. Within the process it is assumed to collect my own dataset, wich will be used for training and testing purposes. Thesis also includes detailed description of the methods I uesd.eng
dc.date.accepted2021-05-25
dc.description.departmentPřírodovědecká fakultacze
dc.thesis.degree-disciplineAplikovaná informatika - specializace Embedded systémycze
dc.thesis.degree-grantorJihočeská univerzita. Přírodovědecká fakultacze
dc.thesis.degree-nameBc.
dc.thesis.degree-programAplikovaná informatikacze
dc.description.gradeDokončená práce s úspěšnou obhajoboucze
dc.contributor.refereeJelínek, Jiří
dc.description.defence<p>Forma: prezenční</p> <p>Počet členů komise: 8</p> <p><strong>Obhajoba studenta<strong></strong></strong></p> <p>Prezentace:&nbsp;</p> <p>K čemu je to dobré&nbsp;</p> <p>Fulltextové vyhledávače&nbsp;</p> <p>Detekce závadného obsahu&nbsp;</p> <p>Princip učení klasifikace webové stránky pro všechny kategorie - workflow&nbsp;</p> <p>tvorba datasetu&nbsp;</p> <p>zvolil metodu ručního sběru - celkem 5 kategorií&nbsp;</p> <p>předzpracování text -> tvorba slovníku&nbsp;</p> <p>použité klasifikátory - SVM, kNN, Naive Bayes&nbsp;</p> <p>workflow klasifikace webové stránky pomocí naučeného klasifikátoru&nbsp;</p> <p>testování , metrika ACC&nbsp;</p> <p>výsledky klasifikátorů&nbsp;</p> <p>prostor pro zlepšení&nbsp;</p> <p><strong>Vedoucí:&nbsp;<strong></strong></strong></p> <p>kvalitní práce po stránce formy i obsahu, velká časová náročnost při tvorbě datové sady&nbsp;</p> <p>známka: 1&nbsp;</p> <p><strong>Oponent:&nbsp;<strong></strong></strong></p> <p>občas mat. nepřesnosti&nbsp;</p> <p>nesystémově působí kategorie &#61446;&#61446;ostatní&#61446;&#61446;&nbsp;</p> <p>rozsah práce autora je vzhledem k použitým knihovnám omezený&nbsp;</p> <p>chybí podrobnější výsledky&nbsp;</p> <p>možný problém se škálovatelností&nbsp;</p> <p>Celkově navrhuje 1-2.&nbsp;</p> <p>Otázky:&nbsp;</p> <p>Souhrnné výsledky přesnosti. - prezentuje výsledky.&nbsp;</p> <p>Jakým způsobem řešit synonyma. Proč nebyla použita wordToVec?&nbsp;</p> <p>Uvažoval jste využití cizojazyčné ont. struktury a jejího překladu do ČJ? Neuvažoval.&nbsp;</p> <p>Proč nebyla využita DB o web. stránkách? Zmiňuje SqlLite.&nbsp;&nbsp;</p> <p>Diskuse o omezení odevzdávaných dat (25MB).&nbsp;</p> <p>(Břehovský)Mohl byste v krátkosti popsat proces sběru dat? Scrapování pomocí Selenium.&nbsp;&nbsp;</p>cze


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v

Zobrazit minimální záznam