DM882: Text Mining

Det Naturvidenskabelige Studienævn

Undervisningssprog: På dansk eller engelsk afhængigt af underviser, men engelsk ved internationale studerende
EKA: N340090102
Censur: Ekstern prøve
Bedømmelse: 7-trinsskala
Udbudssteder: Odense
Udbudsterminer: Forår
Niveau: Kandidat

STADS ID (UVA): N340090101
ECTS-point: 5

Godkendelsesdato: 28-10-2020


Varighed: 1 semester

Version: Godkendt - aktiv

Indgangskrav

Ingen

Faglige forudsætninger

Studerende, der tager kurset forventes at:

  • Har grundlæggende viden i sandsynlighedsteori, f.eks. ved at have fulgt DM566 (Data Mining and Machine Learning)
  • Har grundlæggende viden inden for algoritmer, opnået f.eks. ved at have fulgt DM507 (algoritmer og datastrukturer)
  • Har dygtighed i programmering, fortrinsvis Python, f.eks. ved at have fulgt DM561 (Lineær algebra)

Formål

Formålet med kurset er at give en introduktion til Text Mining af ustruktureret tekst på naturlige sprog. I takt med den stigende mængde af digital tekst, vokser behov for at etablere formaliserede rammer for digital tekstbehandling, med henblik på at kunne udtrække information og drage statistiske konklusioner baseret på tekstens indhold. Kurset er designet til at give et solidt teoretisk grundlag for behandlingen af ​​ustruktureret tekst samt til at give eksempler på konkrete anvendelser. I starten arbejdede vi med enkle eksempler på ustruktureret tekst, der demonstrerer egenskaber ved gængse text mining-metoder. Når vi har afdækket metodernes fordele og mangler, går vi videre til mere realistiske anvendelser med datasæt fra online nyhedsmedier og videnskabelige publikationer. Indholdet af dette kursus er designet til at give en applikationskontekst af datalogi / datalogiske metoder, der håndterer virkelige data.

I forhold til uddannelsens kompetenceprofil er det kursets eksplicitte formål at:

  • Give kendskab til nogle af de vigtigste kilder til og repræsentationer af ustruktureret tekst.
  • Give kompetencer til at normalisere og formatere ustruktureret tekst til formater (corpora) der egner sig til text mining. 
  • Give forståelse af metoder så som Named Entitiy Recognition, emnegenkendelse eller sentimentanalyse.
  • Give eksempler på anvendelser af text mining-metoder, der giver mulighed for at vælge det rigtige sæt værktøjer til en opgave.
  • Give grundlag for planlægning og udførelse af tekst miningopgaver, fra rå ustruktureret tekst til færdige konklusioner. 
  • Giv forståelse for anvendelsen af ​​teoretiske datalogiske metoder på virkelige data.

Målbeskrivelse

Kursets læringsmål er, at den studerende kan demonstrere evnen til at:

  • Forstå nogle af hovedtyperne af ustruktureret tekst.
  • At manipulere ustruktureret tekst.
  • Transformer ustruktureret tekst til passende normaliseret repræsentation.
  • Træne og anvende Named Entity Recognition Models.
  • Træne og anvende Topic Detection Models.
  • Træne og anvende modeller til sentimentanalysis.
  • Forstå maskinoversættelsesmodeller.
  • Forstå begrænsningerne i text mining metoder baseret på tekstens indhold, såsom ikke-engelsk tekst (f.eks. Dansk eller mandarin).
  • Gennemføre statistisk analyse af ustruktureret tekst.
  • Forstå text mining-metoders grænser og mangler.
  • At danne hypoteser om ustruktureret tekst og vælge værktøjerne til at test hypoteserne.

Indhold

Kurset har følgende hovedemner:

  • Kilder til og formater for ustruktureret tekst.
  • Normalisering, repræsentation og annotering af ustruktureret tekst i beregningsegnede formater: corpora.
  • Modeller for Named Entity Recognition
  • Modeller for emnegenkendelse
  • Sentiment Analysis
  • Maskinoversættelses
  • Supervised og unsupervised analyse af ustruktureret tekst.

Litteratur

Se BlackBoard for pensumlister og yderligere litteraturhenvisninger.

Eksamensbestemmelser

Eksamenselement a)

Tidsmæssig placering

Forår

Udprøvninger

Projekt

EKA

N340090102

Censur

Ekstern prøve

Bedømmelse

7-trinsskala

Identifikation

Fulde navn og SDU brugernavn

Sprog

Følger, som udgangspunkt, undervisningssprog

Hjælpemidler

Oplyses på kurset.

ECTS-point

5

Uddybende information

Eksamensformen ved reeksamen kan være en anden end eksamensformen ved den ordinære eksamen.

Vejledende antal undervisningstimer

35 vejledningstimer i alt

Undervisningsform

På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.

  • Introfase: 20 timer

Træningsfase: 15 timer, heraf:

  •  Eksaminatorie: 15 timer

Aktiviteter i studiefasen: Løsning af små opgaver, individuelt eller i små grupper.

Ansvarlig underviser

Navn E-mail Institut
Konrad Krawczyk konradk@imada.sdu.dk Institut for Biokemi og Molekylær Biologi

Skemaoplysninger

Administrationsenhed

Institut for Matematik og Datalogi (datalogi)

Team hos Registrering & Legalitet

NAT

Anbefalede studieforløb

Profil Program Semester Periode