DM864: Advanced Data Mining

Det Naturvidenskabelige Studienævn

Undervisningssprog: På dansk eller engelsk afhængigt af underviser, men engelsk ved internationale studerende
EKA: N340084112, N340084102
Censur: Intern prøve, en bedømmer
Bedømmelse: Bestået/Ikke bestået
Udbudssteder: Odense
Udbudsterminer: Efterår
Niveau: Kandidat

STADS ID (UVA): N340084101
ECTS-point: 5

Godkendelsesdato: 20-04-2023


Varighed: 1 semester

Version: Godkendt - aktiv

Indgangskrav

Ingen

Faglige forudsætninger

Studerende, der følger kurset, forventes at:
  • Have en basal forståelse for sandsynlighed og matematik;
  • Have kendskab til programmering;
  • Have kendskab af grundelementer af unsupervised data mining, fx, fra DM555, DM566, DM583, DM843, DM868, DM870, eller DS804.

Formål

Kurset har til formål at sætte den studerende i stand til at forstå og at anvende avancerede data mining metoder, fx ensemble metoder for clustering og outlier detection eller metoder for høj dimensional data (fx, subspace clustering), hvilket er vigtigt i forhold til at håndtere med kompleks, vanskelige og høj dimensional data i forskellige anvendelser.

Kurset bygger oven på den viden, der er erhvervet i kurserne DM555, DM566, DM583, DM843, DM868, DM870, eller DS804, og giver et fagligt grundlag for at anvendt projekter eller skrive speciale i emner relateret til unsupervised analyse af kompleks, vanskelig og høj dimensional data.

I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:
  • Give kompetence til at beskrive, analysere og løse avancerede problemstillinger i unsupervised data mining ved anvendelse af de lærte modeller og metoder.
  • Give kompetence til at analyse fordelene og ulemper ved forskelige metoder på avanceret unsupervised data mining.
  • Give færdigheder i tilstrækkelig brug af de lærte modeller og metoder.
  • Give viden og forstand om udvælgelse af specialiseret modeller og metoder på unsupervised data mining med ensemble tekniker eller adaptioner til høj dimensional data, herunder metoder fra fagets forskningsfront.

Målbeskrivelse

For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
  • beskrive de data mining opgaver som præsenteres i kurset;
  • beskrive de algoritmer og metoder som bliver præsenteret i kurset;
  • beskrive de emner der bliver præsenteret i kurset i et præcist matematisk sprog;
  • forklare de enkelte trin i de matematiske udledninger der præsenteres i kurset;
  • anvende metoderne på andre problemstillinger end dem der bliver præsenteret i kurset;
  • vurdere og reflektere over valg af design af data mining metoder for høj dimensional data og ensemble metoder.

Indhold

Kurset indeholder følgende faglige hovedområder:
  • generelle principper og metoder for ensemble læring;
  • specielle udfordringer og tilgange for ensemble clustering og ensemble outlier detection;
  • udvalgte metoder for ensemble clustering og ensemble outlier detection;
  • specielle udfordringer for data mining høj dimensional data;
  • generelle tilgange for unsupervised læring i høj dimensional data;
  • udvalgte metoder for subspace clustering;
  • udvalgte metoder for høj dimensional outlier detection.

Litteratur

Se itslearning for pensumlister og yderligere litteraturhenvisninger.

Eksamensbestemmelser

Forudsætningsprøve a)

Tidsmæssig placering

Efterår

Udprøvninger

Mundtlig præsentation

EKA

N340084112

Censur

Intern prøve, en bedømmer

Bedømmelse

Bestået/Ikke bestået

Identifikation

Fulde navn og SDU brugernavn

Sprog

Følger, som udgangspunkt, undervisningssprog

Hjælpemidler

Oplyses på kurset.

ECTS-point

0

Uddybende information

Præsentation af en eller flere videnskabelige artikler i klassen

Forudsætningsprøven er en forudsætning for deltagelse i eksamenselement a)

Eksamenselement a)

Tidsmæssig placering

Efterår

Forudsætninger

Type Forudsætningsnavn Forudsætningsfag
Delprøve Forudsætningsprøve a) N340084101, DM864: Advanced Data Mining

Udprøvninger

Rapport

EKA

N340084102

Censur

Intern prøve, en bedømmer

Bedømmelse

Bestået/Ikke bestået

Identifikation

Fulde navn og SDU brugernavn

Sprog

Følger, som udgangspunkt, undervisningssprog

Hjælpemidler

Nærmere beskrivelse af eksamensreglerne vil blive offentliggjort i itslearning.

ECTS-point

5

Uddybende information

Rapporten skal tage udgangspunkt i emnet for den mundtlige præsentation (en tildelt opgave) og sammenligne det med nogle andre fremlagte opgaver (eller opgaver, der er blevet diskuteret i forelæsningerne).

Vejledende antal undervisningstimer

30 timer per semester

Undervisningsform

På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.

  • Introfase 22 timer 
  • Træningsfase 8 timer, heraf eksaminatorier 8 timer. 

Aktiviteter i studiefasen:

  • Læse lærebogen og artikler
  • Løse hjemmeopgaver
  • Anvende opnået viden i praktiske projekter

I introfasen introduceres koncepter, teorier og modeller og sættes i perspektiv. I træningsfasen træner eleverne deres færdigheder gennem øvelser og graver dybere ned i faget. I studiefasen får de studerende akademiske, personlige og sociale erfaringer, der konsoliderer og videreudvikler deres videnskabelige færdigheder. Fokus er på fordybelse, forståelse og udvikling af samarbejdsevner.

Ansvarlig underviser

Navn E-mail Institut
Arthur Zimek zimek@imada.sdu.dk Data Science

Skemaoplysninger

Administrationsenhed

Institut for Matematik og Datalogi (datalogi)

Team hos Uddannelsesjura & Registratur

NAT

Udbudssteder

Odense

Anbefalede studieforløb

Profil Uddannelse Semester Udbuds periode

Overgangsordninger

Overgangsordninger beskriver, hvordan et kursus erstatter et andet kursus, når der ændres i et studieforløb.
Hvis der er lavet en overgangsordning for et kursus vil den fremgå af oversigten.
Se overgangsordninger for alle kurser på Det Naturvidenskabelige Fakultet.