DM882: Text Mining
Kommentar
Indgangskrav
Faglige forudsætninger
Studerende, der tager kurset forventes at:
- Har grundlæggende viden i sandsynlighedsteori, f.eks. ved at have fulgt DM566 (Data Mining and Machine Learning)
- Har grundlæggende viden inden for algoritmer, opnået f.eks. ved at have fulgt DM507 (algoritmer og datastrukturer)
- Har dygtighed i programmering, fortrinsvis Python, f.eks. ved at have fulgt DM561 (Lineær algebra)
Formål
Formålet med kurset er at give en introduktion til Text Mining af ustruktureret tekst på naturlige sprog. I takt med den stigende mængde af digital tekst, vokser behov for at etablere formaliserede rammer for digital tekstbehandling, med henblik på at kunne udtrække information og drage statistiske konklusioner baseret på tekstens indhold. Kurset er designet til at give et solidt teoretisk grundlag for behandlingen af ustruktureret tekst samt til at give eksempler på konkrete anvendelser. I starten arbejdede vi med enkle eksempler på ustruktureret tekst, der demonstrerer egenskaber ved gængse text mining-metoder. Når vi har afdækket metodernes fordele og mangler, går vi videre til mere realistiske anvendelser med datasæt fra online nyhedsmedier og videnskabelige publikationer. Indholdet af dette kursus er designet til at give en applikationskontekst af datalogi / datalogiske metoder, der håndterer virkelige data.
I forhold til uddannelsens kompetenceprofil er det kursets eksplicitte formål at:
- Give kendskab til nogle af de vigtigste kilder til og repræsentationer af ustruktureret tekst.
- Give kompetencer til at normalisere og formatere ustruktureret tekst til formater (corpora) der egner sig til text mining.
- Give forståelse af metoder så som Named Entitiy Recognition, emnegenkendelse eller sentimentanalyse.
- Give eksempler på anvendelser af text mining-metoder, der giver mulighed for at vælge det rigtige sæt værktøjer til en opgave.
- Give grundlag for planlægning og udførelse af tekst miningopgaver, fra rå ustruktureret tekst til færdige konklusioner.
- Giv forståelse for anvendelsen af teoretiske datalogiske metoder på virkelige data.
Målbeskrivelse
Kursets læringsmål er, at den studerende kan demonstrere evnen til at:
- Forstå nogle af hovedtyperne af ustruktureret tekst.
- At manipulere ustruktureret tekst.
- Transformer ustruktureret tekst til passende normaliseret repræsentation.
- Træne og anvende Named Entity Recognition Models.
- Træne og anvende Topic Detection Models.
- Træne og anvende modeller til sentimentanalysis.
- Forstå maskinoversættelsesmodeller.
- Forstå begrænsningerne i text mining metoder baseret på tekstens indhold, såsom ikke-engelsk tekst (f.eks. Dansk eller mandarin).
- Gennemføre statistisk analyse af ustruktureret tekst.
- Forstå text mining-metoders grænser og mangler.
- At danne hypoteser om ustruktureret tekst og vælge værktøjerne til at test hypoteserne.
Indhold
Kurset har følgende hovedemner:
- Kilder til og formater for ustruktureret tekst.
- Normalisering, repræsentation og annotering af ustruktureret tekst i beregningsegnede formater: corpora.
- Modeller for Named Entity Recognition
- Modeller for emnegenkendelse
- Sentiment Analysis
- Maskinoversættelses
- Supervised og unsupervised analyse af ustruktureret tekst.
Litteratur
Eksamensbestemmelser
Eksamenselement a)
Tidsmæssig placering
Udprøvninger
Projekt
EKA
Censur
Bedømmelse
Identifikation
Sprog
Hjælpemidler
Oplyses på kurset.
ECTS-point
Vejledende antal undervisningstimer
Undervisningsform
- Introfase: 20 timer
- Træningsfase: 15 timer, heraf: eksaminatorie: 15 timer
Aktiviteter i studiefasen: Løsning af små opgaver, individuelt eller i små grupper.
Ansvarlig underviser
Skemaoplysninger
Administrationsenhed
Team hos Uddannelsesjura & Registratur
Udbudssteder
Anbefalede studieforløb
Overgangsordninger
Se overgangsordninger for alle kurser på Det Naturvidenskabelige Fakultet.