DM870: Data mining and machine learning
Kommentar
Indgangskrav
Kurset kan ikke følges af studerende, der: enten har fulgt, eller har bestået AI512, DM555, DM581, DM583, DM855, DM859, DM566, DM868, DS804, eller DSK804.
Faglige forudsætninger
Studerende, der følger kurset, forventes at kunne forstå algoritmer og være i stand til at programmere (eks. fra DM536).
Derudover anbefales det at den studerende at have følgende (eks. fra deres tidligere studie):
- basal viden om mængder og relationer og
- have kendskab til de basale begreber i lineær algebra.
Formål
Kurset har til formål at sætte den studerende i stand til at vælge og bruge nøgleteknikker i datamining og maskinlæring, hvilket er vigtigt i forhold til at kunne analysere store datasæt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser.
Datamining og maskinlæring teknologier udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data og til adaptivt at forbedre deres resultater på basis af erfaringerne fra de observerede data.
Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor datamining og maskinlæring, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra datamining og maskinlæring teknikker på udvalgte problemer.
Kurset giver et fagligt grundlag i dataanalyse på store datasæt og for at lave bachelor og master projekter såvel som andre praktiske studieaktiviteter, der er placeret senere i uddannelsen.
Målbeskrivelse
- Beskrive datamining og maskinlæring opgaver præsenteret i løbet af kurset
- Beskrive de algoritmer og metoder, der præsenteres i kurset
- Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
- Forklare de enkelte trin i de matematiske afledninger præsenteret i klassen
- Anvende metoderne på simple problemer
- Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
- Reflektere over og vurdere design valg for datamining og maskinlæring systemer
- Foretage eksperimentel evaluering af datamining og statistiske læringsmetoder og rapportere om resultaterne
Indhold
- grundelementer af sandsynlighedsteori
- læringsteori (gennemførligheden af læring, generalisering, overfitting);
- fejl og støj;
- bias og varians;
- træning vs. testing (cross-validation, bootstrap, model udvælgelse);
- metoden (fx regel læring, Bayes læring, næste naboer klassifikation, decision trees, clustering)
- frequent pattern mining (item set mining og association rules).
Litteratur
Eksamensbestemmelser
Eksamenselement a)
Tidsmæssig placering
Udprøvninger
Portfolio og test
EKA
Censur
Bedømmelse
Identifikation
Sprog
Varighed
Hjælpemidler
ECTS-point
Uddybende information
- Fremlæggelser i eksaminatorietimerne vægtes 10% af den samlede endelige bedømmelse
- Skriftlig eksamen vægtes 90% af den samlede endelige bedømmelse. Skriftlig eksamen afholdes i eksamensperioden
Vejledende antal undervisningstimer
Undervisningsform
Skemalagte undervisningstimer:
Antal undervisningstimer i alt: 70
Heraf:
Fællestimer i klasselokale/auditorium: 70
I forelæsningerne bliver koncepter, teori og modeller introduceret og sat i perspektiv. I øvelsestimerne og i forberedelse til øvelserne, træner de studerende deres færdigheder gennem øvelser og de graver sig dybere ned i emnerne.
Andre planlagte undervisningsaktiviteter:
- Læse den tildelte litteratur og forelæsningsmateriale
- Løse hjemmeopgaver
- Anvende det tilegnede viden i praktiske projekter
De studerende opnår akademisk, personlig, og social erfaring der konsoliderer og videreudvikler deres videnskablige kompetencer. Fokus er på fordybelse, forståelse og udvikling af færdigheder i både samarbejde og præsentation.
Ansvarlig underviser
| Navn | Institut | |
|---|---|---|
| Afsaneh M. Nejad | afsane@imada.sdu.dk | Institut for Matematik og Datalogi |
| Arthur Zimek | zimek@imada.sdu.dk | Data Science |
Skemaoplysninger
Administrationsenhed
Team hos Registratur
Udbudssteder
Anbefalede studieforløb
Overgangsordninger
Se overgangsordninger for alle kurser på Det Naturvidenskabelige Fakultet.