V tomto kurze sa naučíš základy a pokročilé techniky spracovania prirodzeného jazyka (NLP). Začneš regulárnymi výrazmi, tokenizáciou, prácou so slovami a vetami, základmi analýzy textu a používaním knižníc ako NLTK či spaCy.
Postupne sa dostaneš k reprezentácii slov a dokumentov vo vektorovej forme (Bag-of-Words, TF-IDF), meraniu podobnosti textov a pokročilým vektorovým modelom ako Word2Vec a GloVe.
Precvičíš si aplikácie NLP, napríklad analýzu sentimentu alebo klasifikáciu textov (napr. fake news), vrátane praktických testov. Naučíš sa morfologickú a syntaktickú analýzu, rozpoznávanie pomenovaných entít a tvorbu sekvenčných modelov na generovanie textu s použitím neurónových sietí.
Kurz zahŕňa aj témy strojového prekladu, hodnotenia kvality modelov a rôzne prístupy k NLP – klasické, empirické a štatistické.
Domáca príprava je intenzívna, zahŕňa riešenie praktických príkladov v Pythone s knižnicami ako Gensim, TextBlob, Keras, a prípravu na dva praktické testy a záverečnú skúšku.