Forstå sandsynlighedsmodeller og aksiomer

Bo Jönsson

3 år ago

Hvorfor overhovedet bekymre sig om prøverum, begivenheder og sandsynlighedsmål?

Sandsynlighedsteori er en af de fundamentale elementer, man bør studere for at få succes inden for machine learning eller kunstig intelligens.

Da det er en gren af matematikken, der beskæftiger sig med begrebet usikkerhed, giver sandsynlighedsteorien os en ramme for konsekvente ræsonnementer samt at lave forudsigelser og beslutninger. Det spiller en central rolle i machine learning, der håndterer ikke-deterministiske problemer.

I de følgende afsnit skal vi tackle de grundlæggende begreber i sandsynlighedsteori og langsomt bygge vores fundament i en af hoveddelene i machine learning.

Læs denne artikel som en ren rettesnor og for forhåbentlig at give nogle grundlæggende intuitioner at det grundlæggende i sandsynlighedsteori.

Sandsynlighedsrummet

Når vi taler om sandsynlighed, henviser vi oftest til chancen for, at en usikker begivenhed finder sted. Sandsynlighed kan derfor ses som brøkdelen af gange en begivenhed indtræffer eller som en grad af tro på en begivenhed. For eksempel sandsynligheden for, at en mønt viser hovedet op ad i et enkelt kast.

Konstruktionen af et sandsynlighedsrum giver den nødvendige matematiske struktur, ikke kun for at diskutere sandsynlighedsteori formelt, men også for at beskrive de tilfældige resultater af eksperimenter.

Formelt er sandsynlighedsrummet defineret af det tredobbelte (Ω, F, Ρ): Prøverummet (Omega), hændelsesrummet og sandsynlighedsmålet.

Prøverummet

Prøverummet, ofte betegnet Ω, beskriver et sæt af alle mulige udfald.

Lad os antage, at vi slår en mønt to gange i træk. Sættet af alle mulige udfald vil blive defineret som følgende: {KK, KP, PK, PP} | K = krone; P = plat.

Når vi kender prøverummet, så lad os tale om elementerne indeni og deres egenskaber.

Når vi kaster en enkelt mønt, vil resultatet være enten krone eller plat, ikke begge dele. Dette skyldes, at alle elementer udelukker hinanden, hvilket betyder, at du kun kan forvente ét resultat ad gangen.

Desuden er elementerne samlet set udtømmende. Hvis vi kaster en mønt igen, skal mindst et af udfaldene forekomme. Begge resultater, krone og plat, dækker alle mulighederne inden for hele prøverummet.

Elementerne skal have den “rigtige” granularitet. Dette betyder ganske enkelt, at elementerne i prøverummet skal være relevante for vores eksperiment. For at vende tilbage til vores eksempel med en enkelt møntvending, lad os udvide vores prøverum og inkludere elementer om vejret {KR, PR, KIR, PIR} | K=Krone; P=Plat; R=Regner; NR=Ikke Regner. Selvom det kan være interessant at registrere sådanne oplysninger, uanset om det regner eller ej, når man kaster en mønt, vil det højst sandsynligt være irrelevant for resultatet af vores eksperiment. Derfor har det nye prøverum ikke den rigtige granularitet.

Hændelsesrummet

Hændelsesrummet F beskriver et sæt potentielle resultater af eksperimentet, og er derfor en delmængde af prøverummet. Et sæt potentielle udfald af et møntkast ville for eksempel være {K} — mønten, der kastes, viser krone.

Euler-diagram af et begivenhedsrum. B er prøverummet, A er en begivenhed.

Sandsynlighedsmål

Når vi kaster en enkelt mønt, og vi ønsker at udtrykke sandsynligheden for, at mønten viser plat, har vi brug for en form for funktion til at transformere vores begivenhed til et tal med reel værdi.

Dette er, hvad sandsynlighedsmålet (eller sandsynlighedsfordelingen) Ρ gør. Den kortlægger en hændelse E ∈ F til et reelt tal mellem 0 og 1. Eller sagt anderledes kan Ρ opfattes som en funktion, der transformerer en hændelse E, dvs. et element i hændelsesrummet F til en reel værdi inden for området fra nul til én.

I vores tilfælde, vil det at udtrykke sandsynligheden for, at hændelsen er plat fra et enkelt møntkast være P(T) = 0,5

Nu hvor vi har defineret sandsynlighedsrummet, kan vi tale om visse regler eller sandsynlighedsaksiomer.

Sandsynlighedsaksiomer

Indført af Andrey Kolmogorov i 1933, er de tre sandsynlighedsaksiomer stadig kernen og fungerer som grundlaget for sandsynlighedsteori.

Første aksiom:

Sandsynligheden for en begivenhed er et ikke-negativt reelt tal.

Ligningen ovenfor fortæller os, at sandsynligheden P for, at en begivenhed E, inde i hændelsesrummet F, indtræffer, er større end eller lig med nul. Sandsynligheden er også et reelt tal.

På trods af den komplicerede ligning, bør det første aksiom føles intuitivt. Hvis vi tænker på at kaste en mønt – en negativ sandsynlighed for, at mønten vises, giver ingen mening, det vil enten være krone, eller også vil det ikke.

Andet aksiom:

Det andet aksiom beskriver den trivielle begivenhed, at mindst en af de elementære begivenheder forekommer mindst én gang.

Dette ville i det mindste være vores mønt, der vises som enten krone eller plat.

Tredje aksiom:

Sandsynligheden for to (eller en hvilken som helst tællelig sekvens af) usammenhængende sæt kan beregnes ved summen af de individuelle sandsynligheder for hvert sæt.

Kort sagt, hvis A og B er usammenhængende, hvilket betyder, at deres skæringspunkt er lig med et tomt sæt, så er sandsynligheden for foreningen A og B lig med summen af de individuelle sandsynligheder.

I vores eksempel ville begivenhed A være krone og begivenhed B ville være plat. Begge begivenheder er usammenhængende, derfor vil sandsynligheden for, at enten krone eller plat forekommer, være

P(A) + P(B) = 0,5 + 0,5 = 1

Denne ligning kan generaliseres yderligere.

Tredje aksiom, additivitet generaliseret

Sandsynlighedsberegninger: Eksempler

Efter at have talt om den teoretiske baggrund, lad os da få noget mere intuition ved at tage et kig på nogle eksempler.

Diskret/endeligt eksempel

Tænk på kast af to tetraedriske (fire-siddet) terninger i træk. Prøverummet ville være et 4×4-gitter, der dækker alle mulige resultater.

I alt har vi 16 (4×4) elementer i vores prøverum. Sandsynligheden for, at hvert udfald indtræffer, er 1/16. Hvad ville være sandsynligheden for, at den første terning viser ét?

Sandsynligheden for, at den første terning er ét

Som vist på billedet ovenfor, skal vi overveje fire potentielle udfald {(1,1), (1,2), (1,3), (1,4)}. Derfor er sandsynligheden for, at et af udfaldene indtræffer er 1/4.

Det underliggende princip i dette eksempel er den diskrete uniforme lov eller fordeling. Løst sagt betyder det, at prøverummet består af n lige sandsynlige elementer (1/16), og hændelsesrummet indeholder et antal k elementer (4).

Endnu et eksempel

Lad os lade som om, vi kaster en pil på et enhedskvadrat, og uanset hvad, rammer vi altid. Dette kan beskrives med 0 ≤ x, y ≤ 1.

Hvad ville være sandsynligheden for følgende hændelse?

Eller med andre ord, hvad er sandsynligheden for at kaste en pil, der rammer området defineret af x + y ≤ 1/2, som dybest set er en trekant som vist på billedet ovenfor. Hvis vi beregner arealet ved at gange 1/2 * grundlinje * højde, får vi

Dernæst, hvad er sandsynligheden for at ramme et bestemt punkt (0,5, 0,7)?

For at beregne sandsynligheden for den begivenhed, skal vi beregne arealet af et enkelt punkt, som er nul.

Konklusion

Vi talte om sandsynlighedsrummet, det tredobbelte (prøverum, hændelsesrum, sandsynlighedsmål), der definerer det, og lærte om de tre sandsynlighedsaksiomer og deres implikationer.

På trods af at det er grundlæggende begreber, er det vigtigt at få en intuition for de simple principper for at lægge et stærkt fundament. I sidste ende bliver det dette fundament, som vores “smarte modeller” er bygget på.