'n Statistiese model is 'n wiskundige projeksie wat 'n stel verskillende aannames beliggaam oor die generering van sommige steekproefdata. Die term word dikwels in 'n baie geïdealiseerde vorm aangebied.
Die aannames uitgedruk in die statistiese model toon 'n stel waarskynlikheidsverdelings. Baie daarvan is bedoel om die verspreiding waaruit 'n spesifieke stel inligting getrek word, korrek te benader. Die waarskynlikheidsverdelings inherent aan statistiese modelle is wat die projeksie van ander wiskundige wysigings onderskei.
Algemene projeksie
Wiskundige model is 'n beskrywing van die stelsel wat sekere konsepte en taal gebruik. Hulle is van toepassing op die natuurwetenskappe (soos fisika, biologie, aardwetenskap, chemie) en ingenieursdissiplines (soos rekenaarwetenskap, elektriese ingenieurswese), sowel as die sosiale wetenskappe (soos ekonomie, sielkunde, sosiologie, politieke wetenskap).
Die model kan help om die stelsel enbestudeer die invloed van verskeie komponente, en maak voorspellings van gedrag.
Wiskundige modelle kan baie vorme aanneem, insluitend dinamiese stelsels, statistiese projeksies, differensiaalvergelykings of spelteoretiese parameters. Hierdie en ander tipes kan oorvleuel, en hierdie model sluit baie abstrakte strukture in. In die algemeen kan wiskundige projeksies ook logiese komponente insluit. In baie gevalle hang die kwaliteit van 'n wetenskaplike veld af van hoe goed die teoreties ontwikkelde wiskundige modelle ooreenstem met die resultate van herhaalde eksperimente. Gebrek aan ooreenstemming tussen teoretiese prosesse en eksperimentele metings lei dikwels tot belangrike vooruitgang namate beter teorieë ontwikkel word.
In die fisiese wetenskappe bevat die tradisionele wiskundige model 'n groot aantal van die volgende elemente:
- Beheervergelykings.
- Bykomende submodelle.
- Definieer vergelykings.
- Konstituerende vergelykings.
- Aannames en beperkings.
- Aanvanklike en grensvoorwaardes.
- Klassieke beperkings en kinematiese vergelykings.
Formule
'n Statistiese model word as 'n reël gestel deur wiskundige vergelykings wat een of meer ewekansige veranderlikes en, moontlik, ander natuurlik voorkomende veranderlikes kombineer. Net so word projeksie beskou as "die formele konsep van 'n konsep."
Alle statistiese hipotesetoetsing en statistiese evaluasies word uit wiskundige modelle verdien.
Inleiding
Informeel kan 'n statistiese model beskou word as 'n aanname (of stel aannames) met 'n spesifieke eienskap: dit laat 'n mens toe om die waarskynlikheid van enige gebeurtenis te bereken. As 'n voorbeeld, oorweeg 'n paar gewone seskantige dobbelstene. Twee verskillende statistiese aannames oor die been moet ondersoek word.
Die eerste aanname is:
Vir elk van die dobbelstene is die waarskynlikheid om een van die getalle (1, 2, 3, 4, 5 en 6) te kry: 1/6.
Vanuit hierdie aanname kan ons die waarskynlikheid van beide dobbelstene bereken: 1:1/6×1/6=1/36.
Meer algemeen kan jy die waarskynlikheid van enige gebeurtenis bereken. Dit moet egter verstaan word dat dit onmoontlik is om die waarskynlikheid van enige ander nie-triviale gebeurtenis te bereken.
Slegs die eerste mening versamel 'n statistiese wiskundige model: as gevolg van die feit dat dit met slegs een aanname moontlik is om die waarskynlikheid van elke aksie te bepaal.
In die voorbeeld hierbo met aanvanklike toestemming, is dit maklik om die moontlikheid van 'n gebeurtenis te bepaal. Met sommige ander voorbeelde kan die berekening moeilik of selfs onrealisties wees (dit kan byvoorbeeld baie jare se berekeninge verg). Vir 'n persoon wat 'n statistiese ontledingsmodel ontwerp, word sulke kompleksiteit as onaanvaarbaar beskou: die implementering van berekeninge behoort nie prakties onmoontlik en teoreties onmoontlik te wees nie.
Formele definisie
In wiskundige terme word die statistiese model van 'n stelsel gewoonlik beskou as 'n paar (S, P), waar S isdie stel moontlike waarnemings, dit wil sê die steekproefruimte, en P is die stel waarskynlikheidsverdelings op S.
Die intuïsie van hierdie definisie is soos volg. Daar word aanvaar dat daar 'n "ware" waarskynlikheidsverdeling is wat veroorsaak word deur die proses wat sekere data genereer.
Stel
Dit is hy wat die parameters van die model bepaal. Parameterisering vereis gewoonlik verskillende waardes om verskillende verspreidings tot gevolg te hê, d.w.s.
moet hou (met ander woorde, dit moet injektief wees). Daar word gesê dat 'n parametrisering wat aan die vereiste voldoen, identifiseerbaar is.
Voorbeeld
Veronderstel dat daar 'n aantal studente is wat van verskillende ouderdomme is. Die lengte van die kind sal stogasties verband hou met die jaar van geboorte: wanneer 'n skoolseun byvoorbeeld 7 jaar oud is, beïnvloed dit die waarskynlikheid van groei, net sodat die persoon langer as 3 sentimeter sal wees.
Jy kan hierdie benadering byvoorbeeld soos volg in 'n reguitlyn-regressiemodel formaliseer: hoogte i=b 0 + b 1agei + εi, waar b 0 die kruising is, b 1 is die parameter waardeur ouderdom word vermenigvuldig wanneer hoogtemonitering verkry word. Dit is 'n foutterm. Dit wil sê, dit neem aan dat hoogte deur ouderdom met 'n sekere fout voorspel word.
'n Geldige vorm moet ooreenstem met alle inligtingspunte. Dus, die reglynige rigting (vlak i=b 0 + b 1agei) is nie in staat om 'n vergelyking vir 'n datamodel te wees nie - as dit nie absoluut alle punte duidelik beantwoord nie. D.w.ssonder uitsondering lê alle inligting foutloos op die spel. Die foutmarge εi moet in die vergelyking ingevoer word sodat die vorm by absoluut alle inligtingsitems pas.
Om 'n statistiese afleiding te maak, moet ons eers 'n paar waarskynlikheidsverdelings vir ε i aanneem. Byvoorbeeld, 'n mens kan aanvaar dat die verdelings van ε i 'n Gaussiese vorm het met nul gemiddelde. In hierdie geval sal die model 3 parameters hê: b 0, b 1 en die variansie van die Gaussiese verspreiding.
Jy kan die model formeel spesifiseer as (S, P).
In hierdie voorbeeld word die model gedefinieer deur S te spesifiseer en daarom kan sommige aannames oor P gemaak word. Daar is twee opsies:
Hierdie groei kan benader word deur 'n lineêre funksie van ouderdom;
Dat die foute in die benadering soos binne 'n Gauss versprei word.
Algemene opmerkings
Statistiese parameters van modelle is 'n spesiale klas van wiskundige projeksie. Wat maak een spesie anders as 'n ander? Dit is dus dat die statistiese model nie-deterministies is. Dus, daarin, anders as wiskundige vergelykings, het sekere veranderlikes nie sekere waardes nie, maar het eerder 'n verspreiding van moontlikhede. Dit wil sê, individuele veranderlikes word as stogasties beskou. In die voorbeeld hierbo is ε 'n stogastiese veranderlike. Daarsonder sou die projeksie deterministies wees.
Die bou van 'n statistiese model word dikwels gebruik, selfs al word die materiële proses as deterministies beskou. Byvoorbeeld, die gooi van munte is in beginsel 'n voorafbepalende aksie. Dit word egter steeds in die meeste gevalle as stogasties gemodelleer (deur 'n Bernoulli-proses).
Volgens Konishi en Kitagawa is daar drie doelwitte vir 'n statistiese model:
- Voorspellings.
- Inligtingontginning.
- Beskrywing van stogastiese strukture.
Projeksiegrootte
Veronderstel daar is 'n statistiese voorspellingsmodel, Die model word parametries genoem as O 'n eindige dimensie het. In die oplossing moet jy skryf dat
waar k 'n positiewe heelgetal is (R staan vir enige reële getalle). Hier word k die dimensie van die model genoem.
As 'n voorbeeld kan ons aanneem dat alle data afkomstig is van 'n eenveranderlike Gaussiese verspreiding:
In hierdie voorbeeld is die dimensie van k 2.
En as nog 'n voorbeeld, kan aanvaar word dat die data uit (x, y) punte bestaan, wat aanvaar word om in 'n reguit lyn met Gaussiese residue (met nul gemiddeld) versprei te wees. Dan is die dimensie van die statistiese ekonomiese model gelyk aan 3: die snypunt van die lyn, sy helling en die variansie van die verspreiding van residue. Daar moet kennis geneem word dat in meetkunde 'n reguit lyn 'n dimensie van 1 het.
Hoewel die bogenoemde waarde tegnies die enigste parameter is wat dimensie k het, word dit soms beskou as om k afsonderlike waardes te bevat. Byvoorbeeld, met 'n eendimensionele Gaussiese verspreiding, is O die enigste parameter met 'n grootte van 2, maar word soms beskou as tweeindividuele parameter – gemiddelde waarde en standaardafwyking.
'n Statistiese prosesmodel is nie-parametries as die stel O-waardes oneindig-dimensioneel is. Dit is ook semi-parametries as dit beide eindig-dimensionele en oneindig-dimensionele parameters het. Formeel, as k 'n dimensie van O is en n die aantal steekproewe is, het semi-parametriese en nie-parametriese modelle
dan is die model semi-parametries. Andersins is die projeksie nie-parametries.
Parametriese modelle is die statistieke wat die meeste gebruik word. Met betrekking tot semi-parametriese en nie-parametriese projeksies, het sir David Cox gesê:
"Gewoonlik behels hulle die minste hipoteses oor tekstuur en verspreidingsvorm, maar hulle sluit kragtige teorieë oor selfgenoegsaamheid in."
Neste modelle
Moenie hulle met meervlakkige projeksies verwar nie.
Twee statistiese modelle word geneste as die eerste na die tweede omgeskakel kan word deur beperkings op die parameters van die eerste te plaas. Byvoorbeeld, die versameling van alle Gaussiese verdelings het 'n geneste stel nul-gemiddelde verdelings:
Dit wil sê, jy moet die gemiddeld in die versameling van alle Gaussiese verdelings beperk om verdelings met nul gemiddeld te kry. As 'n tweede voorbeeld, die kwadratiese model y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) het 'n ingebedde lineêre model y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - d.w.s. parameter b2 is gelyk aan 0.
In albei hierdie voorbeelde het die eerste model 'n hoër dimensionaliteit as die tweede model. Dit is dikwels, maar nie altyd die geval nie. Nog 'n voorbeeld is die stel Gaussiese verdelings met positiewe gemiddelde, wat dimensie 2 het.
Vergelyking van modelle
Daar word aanvaar dat daar 'n "ware" waarskynlikheidsverspreiding is onderliggend aan die waargenome data wat veroorsaak word deur die proses wat dit gegenereer het.
En modelle kan ook met mekaar vergelyk word, deur gebruik te maak van verkennende analise of bevestigende. In 'n verkennende analise word verskillende modelle geformuleer en 'n assessering word gemaak van hoe goed elkeen van hulle die data beskryf. In 'n bevestigende analise word die voorheen geformuleerde hipotese met die oorspronklike een vergelyk. Algemene kriteria hiervoor sluit in P 2, Bayesiaanse faktor en relatiewe waarskynlikheid.
Konishi en Kitagawa se gedagte
“Die meeste probleme in 'n statistiese wiskundige model kan as voorspellende vrae beskou word. Hulle word gewoonlik geformuleer as vergelykings van verskeie faktore.”
Verder het sir David Cox gesê: "As 'n vertaling van die onderwerp is die probleem in die statistiese model dikwels die belangrikste deel van die analise."