Die aannames beliggaam in statistiese modellering beskryf 'n stel waarskynlikheidsverdelings, waarvan sommige aanvaar word om die verspreiding voldoende te benader. 'n Spesifieke stel data word uit die definisie gekies. Die waarskynlikheidsverdelings inherent aan statistiese modellering is wat statistiese modelle van ander, nie-statistiese, wiskundige modelle onderskei.
Verband met wiskunde
Hierdie wetenskaplike metode is hoofsaaklik in wiskunde gewortel. Statistiese modellering van stelsels word gewoonlik gegee deur wiskundige vergelykings wat een of meer ewekansige veranderlikes en moontlik ander nie-toevallige veranderlikes in verband bring. Dus, 'n statistiese model is 'n "formele voorstelling van 'n teorie" (Hermann Ader, wat Kenneth Bollen aanhaal).
Alle statistiese hipotesetoetse en alle statistiese skattings word van statistiese modelle afgelei. Meer algemeen is statistiese modelle deel van die basis van statistiese afleiding.
Statistiese metodesmodellering
Informeel kan 'n statistiese model beskou word as 'n statistiese aanname (of stel statistiese aannames) met 'n sekere eienskap: hierdie aanname stel ons in staat om die waarskynlikheid van enige gebeurtenis te bereken. As 'n voorbeeld, oorweeg 'n paar gewone seskantige dobbelstene. Ons sal twee verskillende statistiese aannames oor die been bestudeer.
Die eerste statistiese aanname vorm die statistiese model, want met slegs een aanname kan ons die waarskynlikheid van enige gebeurtenis bereken. Die alternatiewe statistiese aanname maak nie 'n statistiese model daar nie, want met slegs een aanname kan ons nie die waarskynlikheid van elke gebeurtenis bereken nie.
In die voorbeeld hierbo met die eerste aanname, is dit maklik om die waarskynlikheid van 'n gebeurtenis te bereken. In sommige ander voorbeelde kan die berekening egter kompleks of selfs onprakties wees (dit kan byvoorbeeld miljoene jare se berekening vereis). Vir die aanname wat 'n statistiese model uitmaak, is hierdie moeilikheid aanvaarbaar: die uitvoering van die berekening hoef nie prakties uitvoerbaar te wees nie, net teoreties moontlik.
Voorbeelde van modelle
Sê nou ons het 'n bevolking van skoolkinders met eweredig verspreide kinders. Die lengte van 'n kind sal stogasties met ouderdom verband hou: wanneer ons byvoorbeeld weet dat 'n kind 7 jaar oud is, beïnvloed dit die waarskynlikheid dat die kind 5 voet lank (ongeveer 152 cm) sal wees. Ons kan hierdie verwantskap formaliseer in 'n lineêre regressiemodel, byvoorbeeld: groei=b0 + b1agei+ εi, waar b0 die kruising is, b1 die parameter is waarmee die ouderdom vermenigvuldig word wanneer die groeivoorspelling verkry word, εi is die foutterm. Dit impliseer dat hoogte deur ouderdom met 'n mate van fout voorspel word.
'n Geldige model moet by alle datapunte pas. Dus kan 'n reguit lyn (heighti=b0 + b1agei) nie 'n vergelyking vir 'n datamodel wees nie - tensy dit al die datapunte presies pas, dit wil sê alle datapunte lê perfek op die lyn. Die foutterm εi moet by die vergelyking ingesluit word sodat die model by alle datapunte pas.
Om 'n statistiese afleiding te maak, moet ons eers 'n paar waarskynlikheidsverdelings vir εi aanneem. Ons kan byvoorbeeld aanneem dat die verdelings van εi Gauss is, met nul gemiddeld. In hierdie geval sal die model 3 parameters hê: b0, b1 en die variansie van die Gaussiese verspreiding.
Algemene beskrywing
'n Statistiese model is 'n spesiale klas wiskundige model. Wat 'n statistiese model van ander wiskundige modelle onderskei, is dat dit nie-deterministies is. Dit word gebruik om statistiese data te modelleer. Dus, in 'n statistiese model wat met wiskundige vergelykings gedefinieer word, het sommige veranderlikes nie spesifieke waardes nie, maar het eerder waarskynlikheidsverdelings; dit wil sê, sommige veranderlikes is stogasties. In die voorbeeld hierbo is ε 'n stogastiese veranderlike; sonder hierdie veranderlike was die modelsal deterministies wees.
Statistiese modelle word dikwels in statistiese analise en modellering gebruik, selfs al is die fisiese proses wat gemodelleer word deterministies. Die gooi van munte is byvoorbeeld in beginsel 'n deterministiese proses; tog word dit gewoonlik as stogasties gemodelleer (via 'n Bernoulli-proses).
Parametriese modelle
Parametriese modelle is die statistiese modelle wat die meeste gebruik word. Oor semi-parametriese en nie-parametriese modelle, het Sir David Cox gesê: "Hulle sluit gewoonlik minder aannames oor die struktuur en vorm van die verspreiding in, maar bevat gewoonlik sterk onafhanklikheidsaannames." Soos alle ander genoemde modelle, word hulle ook dikwels in die statistiese metode van wiskundige modellering gebruik.
Veelvlakkige modelle
Veelvlakkige modelle (ook bekend as hiërargiese lineêre modelle, geneste datamodelle, gemengde modelle, ewekansige koëffisiënte, ewekansige effektemodelle, ewekansige parametermodelle of verdeelde modelle) is statistiese parametermodelle wat op meer as een vlak verskil. 'n Voorbeeld is 'n studentprestasiemodel wat maatstawwe vir individuele studente bevat sowel as maatstawwe vir klaskamers waarin studente gegroepeer is. Hierdie modelle kan beskou word as veralgemenings van lineêre modelle (veral lineêre regressie), hoewel hulle ook uitgebrei kan word na nie-lineêre modelle. Hierdie modelle het gewordbaie gewilder sodra voldoende rekenaarkrag en sagteware beskikbaar geword het.
Veelvlakkige modelle is veral geskik vir navorsingsprojekte waar data vir deelnemers op meer as een vlak georganiseer is (dws geneste data). Eenhede van ontleding is gewoonlik individue (op 'n laer vlak) wat binne konteks/aggregaat eenhede (op 'n hoër vlak) geneste is. Terwyl die laagste vlak van data in multivlakmodelle tipies individueel is, kan herhaalde metings van individue ook oorweeg word. Dus, multivlak modelle verskaf 'n alternatiewe tipe analise vir eenveranderlike of meerveranderlike herhaalde metings analise. Individuele verskille in groeikurwes kan oorweeg word. Daarbenewens kan multi-vlak modelle gebruik word as 'n alternatief vir ANCOVA, waar afhanklike veranderlike tellings aangepas word vir kovariate (bv. individuele verskille) voor toetsing vir behandeling verskille. Multivlakmodelle is in staat om hierdie eksperimente te ontleed sonder die aanname van eenvormige regressiehellings wat deur ANCOVA vereis word.
Veelvlakmodelle kan gebruik word vir data met baie vlakke, hoewel tweevlakmodelle die algemeenste is en die res van hierdie artikel fokus daarop. Die afhanklike veranderlike moet op die laagste vlak van analise ondersoek word.
Modelkeuse
Modelkeuseis die taak om uit 'n stel kandidaatmodelle gegewe die data te selekteer, uitgevoer binne die raamwerk van statistiese modellering. In die eenvoudigste gevalle word 'n reeds bestaande datastel oorweeg. Die taak kan egter ook die ontwerp van eksperimente behels sodat die data wat ingesamel is goed geskik is vir die modelkeusetaak. Gegewe kandidaatmodelle met soortgelyke voorspellende of verduidelikende krag, is die eenvoudigste model waarskynlik die beste keuse (Occam se skeermes).
Konishi & Kitagawa sê: "Die meeste statistiese afleidingsprobleme kan beskou word as probleme wat met statistiese modellering verband hou." Net so het Cox gesê: "Hoe die vertaling van die onderwerp na die statistiese model gedoen word, is dikwels die belangrikste deel van die ontleding."
Modelkeuse kan ook verwys na die probleem om 'n paar verteenwoordigende modelle uit 'n groot stel berekeningsmodelle te kies vir besluit- of optimaliseringsdoeleindes onder onsekerheid.
Grafiese patrone
Grafiese model, of probabilistiese grafiese model, (PGM) of gestruktureerde probabilistiese model, is 'n waarskynlikheidsmodel waarvoor die grafiek die struktuur van 'n voorwaardelike verwantskap tussen ewekansige veranderlikes uitdruk. Hulle word algemeen gebruik in waarskynlikheidsteorie, statistiek (veral Bayesiaanse statistiek) en masjienleer.
Ekonometriese modelle
Ekonometriese modelle is statistiese modelle wat inekonometrie. 'n Ekonometriese model definieer die statistiese verwantskappe wat vermoedelik bestaan tussen verskeie ekonomiese hoeveelhede wat verband hou met 'n bepaalde ekonomiese verskynsel. 'n Ekonometriese model kan afgelei word van 'n deterministiese ekonomiese model wat onsekerheid in ag neem, of van 'n ekonomiese model wat self stogasties is. Dit is egter ook moontlik om ekonometriese modelle te gebruik wat nie aan enige spesifieke ekonomiese teorie gekoppel is nie.