Matematická lingvistika
5. Matematická lingvistika
Garantující pracoviště: Ústav formální a aplikované lingvistiky
Oborový garant: Doc. RNDr. Markéta Lopatková, Ph.D.
Zaměření:
- – počítačová a formální lingvistika
- – statistické metody a strojové učení v počítačové lingvistice
Absolvent získá znalost teoretických základů formálního popisu přirozených jazyků, matematicko-informatických základů pro jejich počítačové zpracování a základy obecných metod strojového učení. Bude mít schopnost uplatnit tento vhled v návrhu a realizaci systémů automatického zpracování přirozeného jazyka a systémů pro práci s velkými korpusy nestrukturovaných (jazykových) i strukturovaných dat.
Povinné předměty
kód | Předmět | Kredity | ZS | LS | |
NTIN090 | Základy složitosti a vyčíslitelnosti | 5 | 2/1 Z+Zk | — | |
NTIN066 | Datové struktury I | 5 | 2/1 Z+Zk | — | |
NPFL063 | Úvod do obecné lingvistiky | 5 | 2/1 Z+Zk | — | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 6 | 2/2 Z+Zk | — | |
NPFL092 | Technologie pro NLP | 5 | 1/2 KZ | — | |
NSZZ023 | Diplomová práce I | 6 | 0/4 Z | 0/4 Z | |
NSZZ024 | Diplomová práce II | 9 | 0/6 Z | 0/6 Z | |
NSZZ025 | Diplomová práce III | 15 | 0/10 Z | 0/10 Z |
Povinně volitelné předměty
Je požadováno splnění povinně volitelných předmětů z následujícího seznamu v rozsahu alespoň 42 kreditů:
kód | Předmět | Kredity | ZS | LS | |
NPFL006 | Úvod do formální lingvistiky | 3 | 2/0 Zk | — | |
NPFL038 | Základy rozpoznávání a generování mluvené řeči | 6 | 2/2 Z+Zk | — | |
NPFL068 | Statistické metody zpracování přirozených jazyků II | 6 | — | 2/2 Z+Zk | |
NPFL070 | Zdroje lingvistických dat | 5 | — | 1/2 KZ | |
NPFL075 | Pražský závislostní korpus | 6 | — | 2/2 Z+Zk | |
NPFL079 | Algoritmy rozpoznávání mluvené řeči | 6 | — | 2/2 Z+Zk | |
NPFL082 | Informační struktura věty a výstavba diskurzu | 3 | — | 0/2 Z | |
NPFL083 | Lingvistická teorie a gramatické formalismy | 6 | — | 2/2 Z+Zk | |
NPFL087 | Statistický strojový překlad | 6 | — | 2/2 Z+Zk | |
NPFL093 | Aplikace NLP | 5 | — | 2/1 KZ | |
NPFL094 | Morfologická a syntaktická analýza | 3 | 2/0 KZ | — | |
NPFL095 | Moderní metody v počítačové lingvistice | 3 | 0/2 Z | — | |
NPFL096 | Komputační morfologie | 4 | — | 2/1 Zk | |
NPFL099 | Statistické dialogové systémy | 5 | — | 2/1 Z+Zk | |
NPFL103 | Vyhledávání informací | 6 | 2/2 Z+Zk | — | |
NPFL104 | Metody strojového učení | 5 | — | 1/2 Z+Zk | |
NPOZ009 | Odborné vyjadřování a styl | 3 | — | 1/1 KZ | |
NPRG027 | Zápočet k projektu | 6 | 0/4 Z | 0/4 Z | |
NPRG023 | Softwarový projekt | 9 | 0/6 Z | 0/6 Z | |
NPFL114 | Hluboké učení | 7 | — | 3/2 Z+Zk |
Státní závěrečná zkouška
Ke dvěma povinným okruhům společným pro všechny obory má obor Matematická lingvistika jeden společný povinný okruh pro obě zaměření, jeden povinný okruh dle zvoleného zaměření a jeden okruh si student vybírá z volitelných okruhů. Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření oboru Matematická lingvistika, jeden z okruhů zaměření Inteligentní agenti či Strojové učení oboru Umělá inteligence či jeden z okruhů zaměření Počítačová grafika oboru Počítačová grafika a vývoj počítačových her. Celkem tedy každý student dostane pět otázek.
Zkušební okruhy
- 1. Základy počítačového zpracování přirozeného jazyka (povinný okruh pro obě zaměření)
- 2. Lingvistické teorie a formalismy (povinný okruh pro zaměření Počítačová a formální lingvistika)
- 3. Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření Statistické metody a strojové učení v počítačové lingvistice)
- 4. Multimodální technologie a data (volitelný okruh)
- 5. Aplikace metod zpracování přirozeného jazyka (volitelný okruh)
Zkušební požadavky
1. Základy počítačového zpracování přirozeného jazyka
Základy obecné lingvistiky. Systém rovin popisu jazyka. Závislostní syntax, formální definice a vlastnosti závislostních stromů. Chomského hierarchie jazyků, bezkontextové jazyky, frázové, unifikační a kategoriální gramatiky pro přirozený jazyk. Návrh a vyhodnocení lingvistických experimentů, evaluační metriky. Základní stochastické modely. Jazykové modelování, základní metody trénování stochastických modelů. Základní algoritmy.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 6 | 2/2 Z+Zk | — | |
NPFL063 | Úvod do obecné lingvistiky | 5 | 2/1 Z+Zk | — |
2. Lingvistické teorie a formalismy
Funkční generativní popis. Pražský závislostní korpus. Další základní gramatické formalismy (Government and Binding, unifikační gramatiky, struktury rysů, HPSG, LFG, kategoriální gramatiky, (L)TAG). Fonetika, fonologie. Komputační morfologie. Syntax. Počítačová lexikografie. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Formální gramatiky a jejich využití v pravidlové morfologii a parsingu.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL063 | Úvod do obecné lingvistiky | 5 | 2/1 Z+Zk | — | |
NPFL083 | Lingvistická teorie a gramatické formalismy | 6 | — | 2/2 Z+Zk | |
NPFL075 | Pražský závislostní korpus | 6 | — | 2/2 Z+Zk | |
NPFL094 | Morfologická a syntaktická analýza | 3 | 2/0 KZ | — | |
NPFL006 | Úvod do formální lingvistiky | 3 | 2/0 Zk | — |
3. Statistické metody a strojové učení v počítačové lingvistice
Generativní a diskriminativní modely. Metody řízeného učení pro klasifikaci a regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech). Support Vector Machines a kernelové funkce. Logistická regrese. Metody neřízeného učení. Bayesovské sítě. Bias-variance tradeoff. Jazykové modely a modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a závislostní statistický parsing.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL067 | Statistické metody zpracování přirozených jazyků I | 6 | 2/2 Z+Zk | — | |
NPFL068 | Statistické metody zpracování přirozených jazyků II | 6 | — | 2/2 Z+Zk | |
NPFL104 | Metody strojového učení | 5 | — | 1/2 Z+Zk | |
NPFL087 | Statistický strojový překlad | 6 | — | 2/2 Z+Zk |
4. Multimodální technologie a data
Základy produkce a vnímání mluvené řeči. Metody zpracování řečového signálu. HMM modelování akustiky fonému. Implementace Baum-Welch a Viterbi algoritmu pro rozpoznáváni řeči. Rozpoznávání plynulé řeči s pomocí velkých slovníků. Adaptační techniky. Sumarizace řečových nahrávek. Vyhledávání témat a slov v řečových korpusech. Rozpoznávání mluvčího. Metody syntézy řeči. Zpracování textu pro syntézu řeči. Modelování prosodie. Základní komponenty dialogového systému. Porozumění mluvené řeči. Řízení dialogu – MDP a POMDP systémy. Zpětnovazební učení. Stav dialogu a jeho odhad v MDP a POMDP systémech. Simulace uživatele. Generování promluvy. Hodnocení kvality dialogových systémů. Indexace audio-vizuálních archivů.
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL038 | Základy rozpoznávání a generování mluvené řeči | 6 | 2/2 Z+Zk | — | |
NPFL079 | Algoritmy rozpoznávání mluvené řeči | 6 | — | 2/2 Z+Zk | |
NPFL099 | Statistické dialogové systémy | 5 | — | 2/1 Z+Zk |
5. Aplikace metod zpracování přirozeného jazyka
Kontrola překlepů, kontrola gramatické správnosti. Vstupní metody (input methods). Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Vyhodnocování kvality překladu. Vyhledávání informací, vyhledávací modely. Rozšiřování dotazů a relevance feedback. Shlukování dokumentů. Vyhledávání na webu. Hledání duplicit a detekce plagiátorství. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis), analýza sociálních sítí. Komerční implementace (Lucene, SOLR, Terrier). Komplexní systémy (GATE, NLTK, NLPTools).
Doporučené předměty
kód | Předmět | Kredity | ZS | LS | |
NPFL087 | Statistický strojový překlad | 6 | — | 2/2 Z+Zk | |
NPFL103 | Vyhledávání informací | 6 | 2/2 Z+Zk | — | |
NPFL093 | Aplikace NLP | 5 | — | 2/1 KZ |