dc.contributor.advisor | Fesl, Jan | |
dc.contributor.author | Dohnal, Patrik | |
dc.date.accessioned | 2024-03-12T11:35:14Z | |
dc.date.available | 2024-03-12T11:35:14Z | |
dc.date.issued | 2021 | |
dc.date.submitted | 2021-04-29 | |
dc.identifier.uri | https://dspace.jcu.cz/handle/20.500.14390/44789 | |
dc.description.abstract | Tato bakalářská práce se zabývá návrhem systému pro klasifikaci obsahu webových stránek včetně následné implementace v programovacím jazyce Python. K samotné klasifikaci jsou využívány modely strojového učení jako jsou Naivní Bayesův klasifikátor, K-Nejbližších sousedů a Support Vector Machines. V rámci celého procesu se rovněž předpokládá tvorba vlastní množiny dat, na kterých jsou tyto modely trénovány a následně testovány. Součástí práce je i podrobná rešerše použitých metod. | cze |
dc.format | 44 s. | |
dc.format | 44 s. | |
dc.language.iso | cze | |
dc.publisher | Jihočeská univerzita | cze |
dc.rights | Bez omezení | |
dc.subject | Strojové učení | cze |
dc.subject | Text mining | cze |
dc.subject | Klasifikace | cze |
dc.subject | Dataset | cze |
dc.subject | Webové stránky | cze |
dc.subject | Předzpracování dat | cze |
dc.subject | Zakódování textu | cze |
dc.subject | TF-IDF | cze |
dc.subject | Support Vector Machines | cze |
dc.subject | Naivní Bayesuv klasifikátor | cze |
dc.subject | K-Nejbližší sousedů | cze |
dc.subject | Machine learning | eng |
dc.subject | Text Mining | eng |
dc.subject | Classification | eng |
dc.subject | Dataset | eng |
dc.subject | Webpages | eng |
dc.subject | Data preprocessing | eng |
dc.subject | Word embedding | eng |
dc.subject | TF-IDF | eng |
dc.subject | Support Vector Machines | eng |
dc.subject | Naive Bayes classifier | eng |
dc.subject | K-Nearest neighbors | eng |
dc.title | Detekce kategorie obsahu webové stránky prostřednictvím metod strojového učení. | cze |
dc.title.alternative | Detection of websites content category using machine learning methods. | eng |
dc.type | bakalářská práce | cze |
dc.identifier.stag | 60135 | |
dc.description.abstract-translated | This bachelor thesis is focused on design and the implementation of the algorithm for classifying the websites into a several categories. The implementation of this software is written in Python. For classifying purposes I use machine learning models such as Naive Bayes classifier, K-Nearest neighbors and Support Vector Machines. Within the process it is assumed to collect my own dataset, wich will be used for training and testing purposes. Thesis also includes detailed description of the methods I uesd. | eng |
dc.date.accepted | 2021-05-25 | |
dc.description.department | Přírodovědecká fakulta | cze |
dc.thesis.degree-discipline | Aplikovaná informatika - specializace Embedded systémy | cze |
dc.thesis.degree-grantor | Jihočeská univerzita. Přírodovědecká fakulta | cze |
dc.thesis.degree-name | Bc. | |
dc.thesis.degree-program | Aplikovaná informatika | cze |
dc.description.grade | Dokončená práce s úspěšnou obhajobou | cze |
dc.contributor.referee | Jelínek, Jiří | |
dc.description.defence | <p>Forma: prezenční</p>
<p>Počet členů komise: 8</p>
<p><strong>Obhajoba studenta<strong></strong></strong></p>
<p>Prezentace: </p>
<p>K čemu je to dobré </p>
<p>Fulltextové vyhledávače </p>
<p>Detekce závadného obsahu </p>
<p>Princip učení klasifikace webové stránky pro všechny kategorie - workflow </p>
<p>tvorba datasetu </p>
<p>zvolil metodu ručního sběru - celkem 5 kategorií </p>
<p>předzpracování text -> tvorba slovníku </p>
<p>použité klasifikátory - SVM, kNN, Naive Bayes </p>
<p>workflow klasifikace webové stránky pomocí naučeného klasifikátoru </p>
<p>testování , metrika ACC </p>
<p>výsledky klasifikátorů </p>
<p>prostor pro zlepšení </p>
<p><strong>Vedoucí: <strong></strong></strong></p>
<p>kvalitní práce po stránce formy i obsahu, velká časová náročnost při tvorbě datové sady </p>
<p>známka: 1 </p>
<p><strong>Oponent: <strong></strong></strong></p>
<p>občas mat. nepřesnosti </p>
<p>nesystémově působí kategorie ostatní </p>
<p>rozsah práce autora je vzhledem k použitým knihovnám omezený </p>
<p>chybí podrobnější výsledky </p>
<p>možný problém se škálovatelností </p>
<p>Celkově navrhuje 1-2. </p>
<p>Otázky: </p>
<p>Souhrnné výsledky přesnosti. - prezentuje výsledky. </p>
<p>Jakým způsobem řešit synonyma. Proč nebyla použita wordToVec? </p>
<p>Uvažoval jste využití cizojazyčné ont. struktury a jejího překladu do ČJ? Neuvažoval. </p>
<p>Proč nebyla využita DB o web. stránkách? Zmiňuje SqlLite. </p>
<p>Diskuse o omezení odevzdávaných dat (25MB). </p>
<p>(Břehovský)Mohl byste v krátkosti popsat proces sběru dat? Scrapování pomocí Selenium. </p> | cze |