Statistikkere arbejder med grupper af tal. De finder det tit nyttigt at bruge et enkelt tal til at summere en gruppe af tal. Hvor ville et enkelt summeringstal komme fra?
Det bedste bud er at finde et tal der et sted omkring midten og bruge dette tal som en repræsentant for hele gruppen. Hvis du ser på en gruppe af tal og prøver at et der omkring midten, arbejder du med gruppens centrale tendens. Som med en god kage, findes den centrale tendens i mange smagsvarianter.
Middelværdier: Sagnet om gennemsnitter
Stort set alle bruger gennemsnit. Det statistiske udtryk for et gennemsnit er middelværdi. På et tidspunkt i dit liv, vil du uden tvivl beregne et. Middelværdien er en hurtig måde at karakterisere dine karaktere, din penge, eller måske din præstation i nogle opgaver eller sport over en periode.
En anden grund til at beregne middelværdien omhandler den slags arbejde videnskabsfolk udfører. Typisk vil en videnskabsmand tilføje nogle procedure til en lille gruppe af personer eller ting og måle resultaterne på en måde. Han eller hun bruger resultaterne fra prøven til at estimere effekten af proceduren på populationen, der udgjorde prøven. Mens det sker vil middelværdien af prøven være det bedste estimat af populations middelværdien.
Beregning af middelværdien
Du behøver sikkert ikke have mig til at fortælle dig, hvordan man beregner middelværdien, men jeg vil gøre det alligevel. Så vil jeg vise dig den statistiske formel. Mit mål er at hjælpe dig med generelt at forstå statistiske formler, og derefter gøre dig klar til hvordan Excel beregner middelværdier.
En middelværdi er bare en samling tal divideret med antallet af tal du har lagt sammen. Her er et eksempel. Antag du måler læsehastigheden for seks personer i ord per minut, og du vil finde deres gennemsnits læsehastighed:
55, 79, 43, 48, 53, 63
Den gennemsnitlige læsehastighed for de seks personer er
Det vil sige at middelværdien for denne prøve er 56,83333 ord per minut.
Først kan du prøve en formel som denne
Dette er uhåndterligt, som formlen ser ud, så statistikere bruger forkortelser. En almindelig brug af forkortelser for tal er X. En typisk forkortelse for udtrykket Antallet af tal du har summeret er N. Med disse forkortelser, bliver formlen til
En anden forkortelse, brugt i statistikken står for Sum af. Det er det store græske bogstav for S. Det udtales ”sigma”, og ser ud som dette: ∑. Her er formlen med sigma:
Hvad med middelværdien? Statistikkere forkorter også den. G ville være en god forkortelse, men de fleste bruger som en forkortelse for middelværdien. Her er formlen:
Er det det? Ja ikke helt. Dansk bogstaver, som , repræsenterer karakteristika ved prøven. For karakteristika for populationer, er forkortelserne græske bogstaver. For populations middelværdier, er forkortelsen den græske version af M, som er µ. Formlen for en populations middelværdi er
MIDDEL og MIDDELV
Excels regnearksfunktion MIDDEL beregner middelværdien af et sæt af tal. Figuren viser data og dialogboksen Funktionsargumenter for MIDDEL.
Her er trinene:
1. I dit regneark indtaster du dine tal i et array af celler og markerer cellen du vil have MIDDEL til at vise resultatet.
I dette eksempel har jeg indtastet 100, 58, 81, 64, 70, 58, 80, 89, 70 og 68 i cellerne B2 til B11, og jeg har valgt B12 til resultatet.
2. I menuen Statistik funktioner vælges MIDDEL for at åbne dialogboksen MIDDEL Funktionsargumenter.
3. I dialogboksen Funktionsargumenter indtaster jeg værdierne for argumenterne.
Hvis arrayet der indeholder celler med tal ikke allerede er i feltet Tal1, indtastes det i dette felt. Middelværdien (i dette tilfælde 73,8) vises i denne dialogboks.
4. Klik OK for at lukke dialogboksen Funktionsargumenter MIDDEL.
Dette indsætter middelværdien i den valgte celle i regnearket. I dette eksempel B12.
Som du kan se i figur ovenfor er formlen i formellinjen:
=MIDDEL(B2:B11)
Havde jeg defineret Tal som navnet for B2 til B11 ville formlen have været
=MIDDEL(Tal)
MIDDELV gør der samme som MIDDEL, men med en vigtig forskel: Når MIDDEL beregner en middelværdi, ignorerer den celler der indeholder tekst, og den ignorerer celler der indeholder udtrykkene SAND og FALSK. MIDDELV tager tekst og udtryk i betragtning når den beregner en middelværdi. Så vidt angår MIDDELV, hvis en celle indeholder tekst eller ordet FALSE, har det værdien 0. Hvis en celle indeholder ordet 1, har den værdien 1. MIDDELV inkluderer disse værdier i middelværdien.
Jeg er ikke sikker på du vil bruge denne mulighed i hverdags statistik (jeg har aldrig), men Excel har regnearksfunktioner som MIDDELV, VARIANSV og STDAFVV, og jeg vil sikre mig du ved hvordan de virker. Her er trinene til MIDDELV:
1. Indtast tallene i regnearket og marker cellen til resultatet.
I dette eksempel har jeg indtastet 55, 75, 50, 52, 63 og 59 i cellerne B2 til B7 og markeret B9. Dette efterlader B8 tom. Jeg har gjort dette for jeg vil indsætte forskellige værdier i B8 og vise dig effekten af MIDDELV.
2. Fra menuen Statistik funktioner vælges MIDDELV for at åbne dialogboksen MIDDELV Funktionsargumenter.
3. I dialogboksen Funktionsargumenter indtastes værdierne for argumenterne.
Denne gang indtaster jeg B2:B8 i feltet Værdi1. Middelværdien (59) dukker op i dialogboksen. MIDDELV ignorerer tomme celler, på samme måde som MIDDEL.
4. Klik OK for at lukke dialogboksen Funktionsargumenter og svaret vises i den valgte celle.
Nu til lidt eksperimenter. I B8, hvis jeg skriver aaa, ændres middelværdien i B9 fra 59 til 50,57143. Skrives der SAND i B8 ændres middelværdien i B9 til 50,71429. Endelig efter jeg skriver FALSK i B8 ændres middelværdien til 50,57143
Hvorfor ændringerne? MIDDELV evaluerer en tekststreng som aaa til nul. Derfor er middelværdien baseret på syv tal (ikke seks), hvor en af dem er nul. MIDDELV evaluerer værdien SAND som 1. Så middelværdien med SAND i B8 er baseret på syv tal, hvor et af dem er 1,00. MIDDELV evaluerer FALSK som nul, og beregner den middelværdi som hvis B8 indeholdte aaa.
MIDDEL.HVIS og MIDDEL.HVISER
De to funktioner MIDDEL.HVIS og MIDDEL.HVISER beregner en betinget middelværdi. MIDDEL.HVIS inkluderer tal i middelværdien, hvis en bestemt betingelse er opfyldt. MIDDEL.HVISER inkluderer tal i middelværdien hvis mere end en betingelse er opfyldt.
For at vise dig hvordan de to funktioner arbejder, har jeg sat et regneark op i figur 2. Posterne repræsenterer data fra et fiktiv psykologisk eksperiment. I dette eksperiment sidder en person foran en skærm og farveudfyldt figur dukker op. Farven er enten rød eller grøn, og figuren er enten kvadratisk eller cirkelformet. Kombination af hver forsøg er tilfældig, og alle kombinationer dukker op det samme antal gange. Det vil sige at hver optræden af en farveudfyldt figur er et forsøg. Derfor viser regnearket outputtet af 16 forsøg.
Personen der sidder foran skærmen trykker på en knap så snart han eller hun ser figuren. Kolonne D (kaldet ST_MS) præsenterer en persons reaktionstid i millisekunder (tusinddel af et sekund) for hvert forsøg. Kolonne B og C viser karakteristika omkring figuren vist i forsøget. For eksempel viser række2 dig at i første forsøg, dukkede en rød cirkel op og personen svarede på 560 millisekunder.
For hver kolonne, har jeg defineret navnet i toppen af cellen i kolonne til at referer til data i denne kolonne.
Jeg har beregnet tre middelværdier. Den første Samlet middelværdi (i celle D19) er bare
=MIDDEL(ST_MS)
Hvad med de to andre? Celle D20 indeholder middelværdien for forsøg der viser en cirkel. Det er det jeg mener med en betinget middelværdi: Det er middelværdien af forsøg, der opfylder kriteriet Form = Cirkel.
Figuren viser den udfyldte dialogboks Funktionsargumenter for MIDDEL.HVIS. Formlen oprettet efter der er klikkes på OK er
=MIDDEL.HVIS(Form;"Cirkel";ST_MS)
Det som dialogboksen og formlen fortæller dig er dette: Excel inkluderer en celle i kolonne D (ST_MS) i middelværdien, hvis den tilhørende celle i kolonne B (Form) indeholder værdien ”Cirkel”. Hvis ikke vil cellen ikke blive inkluderet.
For at oprette denne formel følges disse trin:
1. Indtast tallene i regnearket og vælg en celle der skal indeholde resultatet.
Cellen jeg har valgt er D20.
2. Fra menuen Statistik vælges MIDDEL.HVIS for at åbne dialogboksen MIDDEL.HVIS Funktionsargumenter.
3. I dialogboksen Funktionsargumenter indtastes værdier for argumenterne.
For MIDDEL.HVIS i dette eksempel er Område Form, Kriterie er ”Cirkel” (Excel til føjer dobbelte anførselsteg) og Middelområde er ST_MS.
4. Klik OK for at lukke dialogboksen Funktionsargumenter, og svaret vises i den valgte celle.
Lidt informationer om MIDDEL.HVIS: For at finde middelværdien for de otte første forsøg er formlen
=MIDDEL.HVIS(Form;<9;ST_MS)
For at finde middelværdien af reaktionsværdien hurtigere end 400 mi8llisekunder er formlen
=MIDDEL.HVIS(Form;”<400”;ST_MS)
Husk
I de to sidste er operatoren ”<” foranstillet den numeriske værdi. Hvis du prøver på en eller anden måde at placere værdien før operatoren, vil formlen ikke virke.
Hvad med middelværdien af de grønne kvadrater i celle D21? Figuren viser den fulde dialogboks for MIDDEL.HVISER, som kan arbejde med mere end et kriterie. Formlen til beregning af forsøg, hvor en Farve = Grøn og Form = Kvadrat er
=MIDDEL.HVISER(ST_MS;Farve;"Grøn";Form;"Kvadrat")
Bemærk at ST_MS er det første argument i MIDDEL.HVISER men det sidste argument i MIDDEL.HVIS.
For at oprette denne formel følges disse trin:
- Indtast tallene i regnearket og vælg en celle der skal indeholde resultatet.
Cellen jeg har valgt er D21.
2. Fra menuen Statistik vælges MIDDEL.HVISER for at åbne dialogboksen MIDDEL.HVISER Funktionsargumenter.
3. I dialogboksen Funktionsargumenter indtastes værdier for argumenterne.
I dette eksempel er det MIDDEL.HVISER Middelområde er ST_MS, Kristerieområde1 er ”Farve” og Kriterie1 er ”Grøn”, Kriterieområde2 er Form, Kriterie2 er ”Kvadrat.” (Excel tilføjer dobbelte anførselstegn.)
4. Klik OK for at lukke dialogboksen Funktionsargumenter, og svaret vises i den valgte celle.
Det du lige se får dig måske til at undres, hvorfor er det nødvendigt for Excel både at have MIDDEL.HVIS og MIDDEL.HVISER. Der sker jo det at
=MIDDEL.HVIS(Form;"Cirkel";ST_MS)
Giver det samme svar som
=MIDDEL.HVISER(ST_MS; Form;"Cirkel")
Så hvorfor to funktioner? Det korte svar: Jeg ved det ikke. Det lange svar: Jeg ved det ikke.
TRIMMIDDELVÆRDI
I en gentagelse af et berømt citat om statistikere er det blevet sagt “Der er tre slags løgnere: løgnere, forbandede løgnere og statistiske outlier. Outlier er en ekstrem værdi i et resultatsæt – så ekstrem, faktisk, at personen, der indsamlede resultaterne mener noget er galt.
Et eksempel på en outlier involverer psykologiske eksperimenter, der måler hvor lang tid en person er om at træffe en afgørelse. Målt i tusinddele af sekunder, vil disse reaktionstider afhænge af kompleksiteten af afgørelsen. Jo mere kompleks afgørelsen er, jo længere reaktionstid.
Typisk vil en person i denne slags eksperimenter gennemgå mange eksperimentale prøver – en afgørelse per prøve. En prøve med en overvejende hurtigt reaktionstid (langt under middelværdien) kan indikere at personen foretog et hurtigt gæt uden rent faktisk at overveje, hvad han eller hun skulle gøre. Et forsøg med en meget langsom reaktionstid (langt over middelværdien) kan måske betyde at personen ikke var tilstrækkelig opmærksom i første omgang, og derefter har opgivet opgaven.
Begge typer af outlier kan komme i vejen for konklusioner baseret på at finde en middelværdi for datasættet. Af denne årsag er det ofte en god ide at eliminerer dem før du beregner middelværdien. Statistikkere refererer til dette som at trimme middelværdien, og Excel funktionen TRIMMIDDELVÆRDI gør dette.
Her er hvordan du bruger TRIMMIDDELVÆRDI:
1. Indtast resultaterne i et regneark og marker cellen der skal indeholde resultatet.
I dette eksempel har jeg indtastet tallene i celle B2 til B11:
380, 320, 330, 572, 380, 307, 1200, 535, 527 og 548
Disse resultater kan komme fra et psykologisk eksperiment der måler reaktionstiden i tusinddele af et sekund. Jeg har valgt B12 til resultatet.
2. Fra menuen Statistik vælges TRIMMIDDELVÆRDI for at åbne dialogboksen TRIMMIDDELVÆRDI Funktionsargumenter.
3. I dialogboksen Funktionsargumenter indtastes værdier for argumenterne.
Dataarrayet skal være i feltet Vektor. I dette eksempel er det B2:B11.
4. Derefter skal jeg identificere den procentsats jeg vil trimme resultaterne med. I feltet Procent har jeg indtastet 0,2. Dette fortæller TRIMMIDDELVÆRDI at eliminere de ekstreme 20% af resultaterne før beregning af middelværdien. De ekstreme 20% middelværdi betyder de øverste 10% af resultaterne og de nederste 10% af resultaterne. Figuren viser dialogboksen, vektoren med resultaterne, og den valgte celle. Dialogboksen viser den trimmede middelværdi, 449.
Tip
Etiketten Procent er en smule misvisende. Du skal angive procenten som et decimaltal, så du indtaster 0,2 og ikke 20 i feltet Procent, hvis du vil trimme til ekstrem 20 procent. (Hurtigt spørgsmål: Hvis du indtaster 0 i feltet Procent, hvad er svaret da ækvivalent til? Svar: MIDDEL(B2:B11).
Husk
Hvilken procentdel af resultaterne skal trimme? Det er op til dig. Det afhænger af hvad du måler, hvor ekstreme dine resultater kan være, og hvor godt du kender området du studerer. Når du trimmer resultater og rapporterer en middelværdi, er det vigtigt at fortælle folk, at du har gjort det og lade dem vide hvilken procentdel du har trimmet.
I det kommende afsnit om medianen, viser jeg dig en anden måde at håndtere ekstreme resultater.
Andre måder at finde middelværdier på
Denne sektion omhandler to typer af middelværdier, der er forskellig fra dem du kender til. Jeg fortæller om dem fordi du måske løber ind i dem, men du gennemgår Excels statistiske muligheder. (Hvor mange forskellige slags middelværdier er der mulighed for? De antikke græske matematikkere fandt på 11!)
Geometrisk middelværdi
Antag du har en to årig investering der har et udbytte på 25% det første år og 75% det andet år. (Hvis du har det vil jeg gerne høre mere om det!) Hvad er det gennemsnitlige årlige udbytte?
For at svare på spørgsmålet, vi du måske være fristet til at finde middelværdien af 25 og 75 (som ender med at være 50). Men der mistes en vigtig pointe; I slutningen af det første år, gang du din investering med 1,25 – du lægger ikke 1,25 til den. I slutningen af det andet pr, ganger du det første års resultat med 1,75.
Den almindelige, hverdags, hjemmestrikket variant af middelværdien vil vikke give dig gennemsnits udbyttet. I stedet for beregner du middelværdien på denne måde:
Det gennemsnitlige udbytte er omkring 47,9 procent, ikke 50 procent. Denne slags gennemsnit kaldes den geometrisk middelværdi.
One Comment