DM583: Datamining
Indgangskrav
Faglige forudsætninger
Studerende, der følger kurset, anbefales at:
- Have kendskab til de basale begreber af diskrete metoder for datalogi.
- Have kendskab til de basale begreber af lineær algebra.
- Have kendskab til basale algoritmer og data strukturer
- Kunne programmere
Formål
Kurset har til formål at sætte den studerende i stand til at vælge og bruge nøgleteknikker i datamining, hvilket er vigtigt i forhold til at kunne analysere store datasæt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser.
Datamining teknologier udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data.
Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor datamining, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra datamining teknikker på udvalgte problemer.
Kurset bygger på grundlæggende programmeringsevner (DM574), datastrukturer og algoritmer (DM578) i design af data mining algoritmer, databasesystemer (DM576) og lineær algebra (DM579). De uovervågede indlæringsteknikker, der undervises i på dette kursus, supplerer de overvågede indlæringsteknikker, der undervises i DM581.
Kurset giver et fagligt grundlag i dataanalyse på store datasæt og for at lave bachelor og master projekter såvel som andre praktiske studieaktiviteter, der er placeret senere i uddannelsen.
I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:
- Give viden om de basale datamining opgaver og fremgangsmåder.
- Give kompetence til anvendelse af basale datamining metoder til problemer fra den virkelige verden
- Give færdigheder i at designe datamining metoder
- Give viden om at kunne forstå og reflektere over teorier, metoder og praksis inden for det datalogiske fagområde
- Give færdigheder i at kunne tilegne sig ny viden på en effektiv og selvstændig måde og kunne anvende denne viden reflekterende
- Give færdigheder i at beskrive, analysere og løse datalogiske problemstillinger ved anvendelsen af metoder og modelleringsformalismer fra fagets kerneområder og dets matematiske støttediscipliner
- Give færdigheder i at analysere fordele og ulemper ved forskellige algoritmer, specielt med hensyn til ressourceforbrug
- Give færdigheder i at træffe og begrunde fagligt relaterede beslutninger
- Give færdigheder i at beskrive, formulere og formidle problemstillinger og resultater til enten fagfæller og ikke specialister eller samarbejdspartnere og brugere
Målbeskrivelse
For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
- Beskrive datamining opgaver præsenteret i løbet af kurset
- Beskrive de algoritmer og metoder, der præsenteres i kurset
- Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
- Forklare de enkelte trin i de matematiske afledninger præsenteret i klassen
- Anvende metoderne på simple problemer
- Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
- Reflektere over og vurdere design valg for datamining systemer
- Foretage eksperimentel evaluering af datamining og rapportere om resultaterne
Indhold
Kurset indeholder følgende faglige hovedområder:
- grundelementer af kontinuerlig sandsynlighedsteori
- metoden (partitioning clustering, density-based clustering, hierarchical clustering, outlier detection)
- frequent pattern mining (item set mining og association rules)
- evaluering af uovervåget indlæring
Litteratur
Eksamensbestemmelser
Eksamenselement a)
Tidsmæssig placering
Udprøvninger
Skriftlig eksamen
EKA
Censur
Bedømmelse
Identifikation
Sprog
Varighed
Hjælpemidler
ECTS-point
Uddybende information
Vejledende antal undervisningstimer
Undervisningsform
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
- Introfase (forelæsning) - 18 timer
- træningsfase: 12 timer, heraf 12 timer eksaminatorie
I introfasen introduceres og perspektiveres begreber, teorier og modeller. I træningsfasen træner de studerende færdigheder og trænger dybere ned i det stof. I studiefasen får de studerende faglige, personlige og sociale erfaringer, der sætter dem i stand til at befæste og videreudvikle deres videnskabelige kompetencer. Der er fokus på fordybelse, forståelse og udvikling af samarbejdskompetencer.
Studiefaseaktiviteter:
- Læse den tildelte litteratur
- Løse hjemmeopgaver
- Anvende det tilegnede viden i praktiske projekter
Ansvarlig underviser
Navn | Institut | |
---|---|---|
Ricardo Jose Gabrielli Barreto Campello | campello@imada.sdu.dk | Institut for Matematik og Datalogi |
Skemaoplysninger
Administrationsenhed
Team hos Uddannelsesjura & Registratur
Udbudssteder
Anbefalede studieforløb
Overgangsordninger
Se overgangsordninger for alle kurser på Det Naturvidenskabelige Fakultet.