DS803: Statistik for Data Science
Kommentar
Indgangskrav
Faglige forudsætninger
Studerende, der følger kurset, forventes at:
- Have kendskab til matematik på gymnasialt niveau
- Kunne anvende PC
Kurset kan ikke følges af studerende, der: Har bestået basale eller videregående statistikkurser på niveau med ST520 Anvendt statistik eller højere.
Formål
Kurset har til formål at sætte den studerende i stand til at
- Forstå basale begreber indenfor sandsynlighedsregning og fordelingsteori.
- Benytte grafiske og summariske metoder til beskrivende analyse.
- Beskrive data ved hjælp af nøgletalstørrelser såsom middelværdi, varians og korrelation.
- Opskrive konfidensintervaller for nøgletalstørrelser.
- Teste simple statistiske hypoteser.
- Analysere data ved hjælp af simple regressionsmetoder.
- Planlægge dataindsamling.
- Forstå centrale elementer i publicerede resultater fra statistiske analyser af konkrete data.
- Foretage en kritisk vurdering af relevansen af anvendte metoder og inferensen baseret herpå.
- Formulere statistiske resultater i ikke-tekniske termer.
- Anvende den statistiske software R til analyse af konkrete data, hvilket er vigtigt i forhold til at kunne arbejde akademisk med data science problemstillinger.
Kurset bygger indirekte oven på den viden, der er erhvervet i kurser på den studerendes respektive bachelorstudie, og giver grundlag for studiet af samtlige emner senere i master-forløbet, herunder arbejdet master-projektet.
I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:
- Give kompetence til at arbejde kritisk med egne projekter og data.
- Give færdigheder i kritisk vurdering af videnskabelige publikationer.
- Give viden om valg og anvendelse af passende statistiske analysemetoder.
Målbeskrivelse
For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
- Benytte grafiske og summariske metoder til beskrivende dataanalyse.
- Beskrive data ved hjælp af nøglestørrelser som middelværdi, varians og korrelation.
- Opskrive konfidensintervaller for nøglestørrelser.
- Teste simple statistiske hypoteser.
- Analysere data ved hjælp af simple regressionsmetoder.
- Planlægge dataindsamling.
- Forstå centrale elementer i publicerede resultater fra statistiske analyser af konkrete data.
- Vurdere relevansen af anvendte metoder og inferensen baseret herpå.
- Formulere statistiske resultater i ikke-tekniske termer.
- Benytte R til simple statistiske analyser.
Indhold
Kurset indeholder følgende faglige hovedområder:
- Grundlaget for statistiske overvejelser.
- Fra population til stikprøve og tilbage igen.
- Basale parametre og deres estimation.
- Beskrivende statistik (tabeller og grafisk præsentation).
- Basal calculus
- Sandsynligheder og fordelinger.
- Hypoteser og principper for tests.
- Eksempler på testmetoder: t-test, chi-kvadrat-test.
- Basale begreber bag lineære modeller med udgangspunkt i simpel lineær regression.
- Basale begreber med hensyn til studiedesign. Hyppige problemer indenfor anvendt statistik (typer af inferensfejl, massesignifikans).
- I kurset anvendes den statistiske software R.
Litteratur
Eksamensbestemmelser
Eksamenselement a)
Tidsmæssig placering
Udprøvninger
Portfolio
EKA
Censur
Bedømmelse
Identifikation
Sprog
Hjælpemidler
ECTS-point
Uddybende information
Eksamensformen ved reeksamen kan være en anden end eksamensformen ved den ordinære eksamen.
Vejledende antal undervisningstimer
Undervisningsform
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
- Introfase (forelæsning, holdtimer) - Antal timer: 26
- træningsfase: Antal timer: 22, heraf eksaminatorietimer 11 og laboratorieøveler 11 timer.
I introfasen benyttes en modificeret udgave af klassisk forelæsning, hvor fagets grundbegreber og metoder præsenteres, med såvel teori som eksempler baseret på konkrete data. I disse timer er der mulighed for spørgsmål og diskussion. I træningsfasen arbejdes der med regneopgaver og diskussionsemner, som relaterer sig til indholdet i de forudgående introfasetimer. I disse timer er der mulighed for at arbejde specifikt med særligt vanskelige emner. I studiefasen arbejder de studerende selvstændigt med opgaver og forståelsen af fagets termer og begreber diskuteres. Der er efterfølgende mulighed for at bringe spørgsmål op i enten introfasetimerne eller træningsfasetimerne.
Studiefaseaktiviteter:
- Arbejde med konkrete regneopgaver, ud over de opgaver, der indgår i træningsfasetimerne.
- Diskussion af fagets termer og begreber og problemer med dataindsamling og datakvalitet.