DS804: Datamining og maskinlæring

Det Naturvidenskabelige Studienævn

Undervisningssprog: På dansk eller engelsk afhængigt af underviser, men engelsk ved internationale studerende
EKA: N340063102
Censur: Ekstern prøve
Bedømmelse: 7-trinsskala
Udbudssteder: Odense
Udbudsterminer: Forår
Niveau: Kandidat

STADS ID (UVA): N340063101
ECTS-point: 10

Godkendelsesdato: 05-11-2019


Varighed: 1 semester

Version: Godkendt - aktiv

Kommentar

NYT kursus forår 2020.
Kurset samlæses med: DM868, DM566, DM870: Data Mining and Machine Learning (10 ECTS)

Indgangskrav

Kurset kan ikke følges af studerende, der: enten har fulgt, eller har bestået DM555, DM855, DM859, DM566, DM868 eller DM870.    

Dette kursus kan ikke følges af kandidatstuderende på Datalogi. 


Faglige forudsætninger

Studerende, der følger kurset, anbefales at:

  • Have kendskab til de basale begreber af lineær algebra.
  • Have kendskab til basale algoritmer og data strukturer
  • Kunne programmere

Formål

Kurset har til formål at sætte den studerende i stand til at vælge og bruge nøgleteknikker i datamining og maskinlæring, hvilket er vigtigt i forhold til at kunne analysere store datasæt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser.

Datamining og maskinlæring teknologier udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data og til adaptivt at forbedre deres resultater på basis af erfaringerne fra de observerede data.

Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor datamining og maskinlæring, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra datamining og maskinlæring teknikker på udvalgte problemer.

Kurset giver et fagligt grundlag i dataanalyse på store datasæt og for at lave master projekter såvel som andre praktiske studieaktiviteter, der er placeret senere i uddannelsen.

I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:

  • Give viden om de basale datamining og maskinlæring opgaver og fremgangsmåder.
  • Give kompetence til anvendelse af basale datamining og maskinlæring metoder til problemer fra den virkelige verden
  • Give færdigheder i at designe datamining og maskinlæring metoder
  • Give viden om at kunne forstå og reflektere over teorier, metoder og praksis inden for det datalogiske fagområde
  • Give færdigheder i at kunne tilegne sig ny viden på en effektiv og selvstændig måde og kunne anvende denne viden reflekterende
  • Give færdigheder i at beskrive, analysere og løse datalogiske problemstillinger ved anvendelsen af metoder og modelleringsformalismer fra fagets kerneområder og dets matematiske støttediscipliner
  • Give færdigheder i at analysere fordele og ulemper ved forskellige algoritmer, specielt med hensyn til ressourceforbrug
  • Give færdigheder i at træffe og begrunde fagligt relaterede beslutninger
  • Give færdigheder i at beskrive, formulere og formidle problemstillinger og resultater til enten fagfæller og ikke specialister eller samarbejdspartnere og brugere

Målbeskrivelse

For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:

  • Beskrive datamining og maskinlæring opgaver præsenteret i løbet af kurset
  • Beskrive de algoritmer og metoder, der præsenteres i kurset
  • Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
  • Forklare de enkelte trin i de matematiske afledninger præsenteret i klassen
  • Anvende metoderne på simple problemer
  • Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
  • Reflektere over og vurdere design valg for datamining og maskinlæring systemer
  • Foretage eksperimentel evaluering af datamining og statistiske læringsmetoder og rapportere om resultaterne

Indhold

Kurset indeholder følgende faglige hovedområder:

  • grundelementer af sandsynlighedsteori 
  • læringsteori (gennemførligheden af læring, generalisering, overfitting);
  • fejl og støj;
  • bias og varians;
  • træning vs. testing (cross-validation, bootstrap, model udvælgelse);
  • metoden (fx regel læring, Bayes læring, næste naboer klassifikation, decision trees, clustering)
  • frequent pattern mining (item set mining og association rules).

Litteratur

Se BlackBoard for pensumlister og yderligere litteraturhenvisninger.

Eksamensbestemmelser

Eksamenselement a)

Tidsmæssig placering

Juni

Udprøvninger

Skriftlig eksamen

EKA

N340063102

Censur

Ekstern prøve

Bedømmelse

7-trinsskala

Identifikation

Studiekort

Sprog

Følger, som udgangspunkt, undervisningssprog

Hjælpemidler

Tilladt, nærmere beskrivelse af eksamensreglerne vil blive offentliggjort under 'Course Information' på kursets side i BlackBoard.

ECTS-point

10

Uddybende information

Eksamensformen ved reeksamen kan være en anden end eksamensformen ved den ordinære eksamen.

Vejledende antal undervisningstimer

70 timer per semester

Undervisningsform

På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.

  • Introfase (forelæsning, holdtimer) - 40 timer
  • træningsfase: 30 timer, heraf 30 timer eksaminatorie

I introfasen introduceres og perspektiveres begreber, teorier og modeller. I træningsfasen træner de studerende færdigheder og trænger dybere ned i det stof. I studiefasen får de studerende faglige, personlige og sociale erfaringer, der sætter dem i stand til at befæste og videreudvikle deres videnskabelige kompetencer. Der er fokus på fordybelse, forståelse og udvikling af samarbejdskompetencer.

Studiefaseaktiviteter:

  • Læse den tildelte litteratur
  • Løse hjemmeopgaver
  • Anvende det tilegnede viden i praktiske projekter 

Ansvarlig underviser

Navn E-mail Institut
Arthur Zimek zimek@imada.sdu.dk Institut for Matematik og Datalogi, Datalogi

Skemaoplysninger

23
Monday
01-06-2020
Tuesday
02-06-2020
Wednesday
03-06-2020
Thursday
04-06-2020
Friday
05-06-2020
08 - 09
09 - 10
10 - 11
11 - 12
12 - 13
13 - 14
14 - 15
15 - 16
Vis fuldt skema

Administrationsenhed

Institut for Matematik og Datalogi (datalogi, fiktiv)

Team hos Registrering & Legalitet

NAT

Anbefalede studieforløb