DM583: Datamining
Indgangskrav
Faglige forudsætninger
Studerende, der følger kurset, anbefales at
- have basale programmeringsfærdigheder (eks. fra DM574),
- have kendskab til basale algoritmer og data strukturer (eks. fra DM578),
- have kendskab til de basale begreber af lineær algebra (eks. AI511),
- have kendskab til de basale begreber af diskrete metoder for datalogi (eks. fra DM549) og
- have kendskab til begreber inden for sandsyndlighed og matematisk statistik (eks. fra AI501 og AI512).
Formål
Kurset har til formål at sætte den studerende i stand til at vælge og bruge nøgleteknikker i datamining, hvilket er vigtigt i forhold til at kunne analysere store datasæt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser.
Datamining teknologier udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data.
Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor datamining, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra datamining teknikker på udvalgte problemer. Teknikkerne til ikke-superviseret læring i dette kursus komplementerer tenikkerne til superviseret læring der læres i AI512.
Målbeskrivelse
- Beskrive datamining opgaver præsenteret i løbet af kurset
- Beskrive de algoritmer og metoder, der præsenteres i kurset
- Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
- Forklare de enkelte trin i de matematiske afledninger præsenteret i klassen
- Anvende metoderne på simple problemer
- Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
- Reflektere over og vurdere design valg for datamining systemer
- Foretage eksperimentel evaluering af datamining og rapportere om resultaterne
Indhold
Kurset omfatter følgende hovedemner:
- Repræsentation af data og (u)lighedsmål.
- Parametrisk og ikke-parametrisk tæthedsskøn (MLE, kernel-baseret, KNN-baseret).
- Expectation Maximization og Gaussiske blandingsmodeller (EM-GMM).
- Clustering (fx partitionsbaseret clustering som k-means, hierarkisk clustering, tæthedsbetinget clustering).
- Uovervåget detektion af outliers/anomalier.
- Mønsteranalyse (fx item set mining og associationsregler).
- Evaluering af uovervåget læring.
Litteratur
Eksamensbestemmelser
Eksamenselement a)
Tidsmæssig placering
Udprøvninger
Skriftlig eksamen
EKA
Censur
Bedømmelse
Identifikation
Sprog
Varighed
Hjælpemidler
ECTS-point
Vejledende antal undervisningstimer
Undervisningsform
- Supplerende læsning af den tildelte litteratur
- Lave yderligere øvelser som hjemmeopgaver
Ansvarlig underviser
| Navn | Institut | |
|---|---|---|
| Ricardo Jose Gabrielli Barreto Campello | campello@imada.sdu.dk | Institut for Matematik og Datalogi |
Skemaoplysninger
Administrationsenhed
Team hos Registratur
Udbudssteder
Anbefalede studieforløb
Overgangsordninger
Se overgangsordninger for alle kurser på Det Naturvidenskabelige Fakultet.