Logistiese regressie: model en metodes

INHOUDSOPGAWE:

Logistiese regressie: model en metodes
Logistiese regressie: model en metodes
Anonim

Metodes van logistiese regressie en diskriminantanalise word gebruik wanneer dit nodig is om respondente duidelik volgens teikenkategorieë te onderskei. In hierdie geval word die groepe self verteenwoordig deur vlakke van een enkelvariant parameter. Kom ons kyk van naderby na die logistiese regressiemodel en vind uit hoekom dit nodig is.

logistiese regressie
logistiese regressie

Algemene inligting

'n Voorbeeld van 'n probleem waarin logistiese regressie gebruik word, is die klassifikasie van respondente in groepe wat mosterd koop en nie koop nie. Differensiasie word uitgevoer in ooreenstemming met sosio-demografiese kenmerke. Dit sluit in veral ouderdom, geslag, aantal familielede, inkomste, ens. In bedrywighede is daar differensiasiekriteria en 'n veranderlike. Laasgenoemde kodeer die teikenkategorieë waarin die respondente eintlik verdeel moet word.

Nuances

Daar moet gesê word dat die reeks gevalle waarin logistiese regressie toegepas word, baie nouer is as vir diskriminante analise. In hierdie verband word die gebruik van laasgenoemde as 'n universele metode van differensiasie oorweegmeer verkies. Verder beveel kenners aan om klassifikasiestudies met diskriminantanalise te begin. En slegs in die geval van onsekerheid oor die resultate, kan jy logistiese regressie gebruik. Hierdie behoefte is te wyte aan verskeie faktore. Logistiese regressie word gebruik wanneer daar 'n duidelike begrip is van die tipe onafhanklike en afhanklike veranderlikes. Gevolglik word een van die 3 moontlike prosedures gekies. In diskriminantanalise het die navorser altyd te doen met een statiese bewerking. Dit behels een afhanklike en verskeie onafhanklike kategoriese veranderlikes met enige tipe skaal.

Views

Die taak van 'n statistiese studie wat logistiese regressie gebruik, is om die waarskynlikheid te bepaal dat 'n spesifieke respondent aan 'n spesifieke groep toegewys sal word. Differensiasie word uitgevoer volgens sekere parameters. In die praktyk, volgens die waardes van een of meer onafhanklike faktore, is dit moontlik om respondente in twee groepe te klassifiseer. In hierdie geval vind binêre logistiese regressie plaas. Die gespesifiseerde parameters kan ook gebruik word wanneer in groepe van meer as twee verdeel word. In so 'n situasie vind multinomiale logistiese regressie plaas. Die resulterende groepe word uitgedruk in vlakke van 'n enkele veranderlike.

logistiese regressie
logistiese regressie

Voorbeeld

Kom ons sê daar is respondente se antwoorde op die vraag of hulle belangstel in die aanbod om 'n grondstuk in die voorstede van Moskou te koop. Die opsies is "nee"en ja. Dit is nodig om uit te vind watter faktore 'n oorheersende invloed op die besluit van potensiële kopers het. Om dit te doen, word die respondente vrae gevra oor die infrastruktuur van die gebied, die afstand na die hoofstad, die area van die terrein, die teenwoordigheid / afwesigheid van 'n residensiële gebou, ens. Met behulp van binêre regressie is dit moontlik om te versprei die respondente in twee groepe. Die eerste sal diegene insluit wat in die verkryging belangstel - potensiële kopers, en die tweede, onderskeidelik, diegene wat nie in so 'n aanbod belangstel nie. Vir elke respondent sal daarbenewens die waarskynlikheid om aan een of ander kategorie toegewys te word, bereken word.

Vergelykende kenmerke

Die verskil van die twee opsies hierbo is die verskillende aantal groepe en die tipe afhanklike en onafhanklike veranderlikes. In binêre regressie word byvoorbeeld die afhanklikheid van 'n digotome faktor van een of meer onafhanklike toestande bestudeer. Boonop kan laasgenoemde enige tipe skaal hê. Multinomiale regressie word beskou as 'n variasie van hierdie klassifikasie opsie. Daarin behoort meer as 2 groepe tot die afhanklike veranderlike. Die onafhanklike faktore moet óf 'n ordinale óf 'n nominale skaal hê.

Logistiese regressie in spss

In die statistiese pakket 11-12 is 'n nuwe weergawe van analise bekendgestel - ordinaal. Hierdie metode word gebruik wanneer die afhanklike faktor aan dieselfde naam (ordinale) skaal behoort. In hierdie geval word onafhanklike veranderlikes van een spesifieke tipe gekies. Hulle moet óf ordinaal óf nominaal wees. Die klassifikasie in verskeie kategorieë word die meeste beskouuniverseel. Hierdie metode kan gebruik word in alle studies wat logistiese regressie gebruik. Die enigste manier om die kwaliteit van 'n model te verbeter, is egter om al drie tegnieke te gebruik.

toereikendheid kwaliteit kontrole en logistiese regressie
toereikendheid kwaliteit kontrole en logistiese regressie

Ordinale klassifikasie

Daar moet gesê word dat daar vroeër in die statistiese pakket geen tipiese moontlikheid was om gespesialiseerde analise vir afhanklike faktore met 'n ordinale skaal uit te voer nie. Vir alle veranderlikes met meer as 2 groepe is die multinominale variant gebruik. Die betreklik onlangs ingevoerde ordinale analise het 'n aantal kenmerke. Hulle neem die besonderhede van die skaal in ag. Intussen word ordinale logistiese regressie in onderrighulpmiddels dikwels nie as 'n aparte tegniek beskou nie. Dit is as gevolg van die volgende: ordinale analise het geen noemenswaardige voordele bo multinoom nie. Die navorser kan wel laasgenoemde gebruik in die teenwoordigheid van beide 'n ordinale en 'n nominale afhanklike veranderlike. Terselfdertyd verskil die klassifikasieprosesse self amper nie van mekaar nie. Dit beteken dat die uitvoer van ordinale analise geen probleme sal veroorsaak nie.

Analise-opsie

Kom ons kyk na 'n eenvoudige geval - binêre regressie. Gestel, in die proses van bemarkingsnavorsing word die vraag na gegradueerdes van 'n sekere metropolitaanse universiteit beoordeel. In die vraelys is vrae aan respondente gevra, insluitend:

  1. Is jy in diens? (ql).
  2. Voer jaar van gradeplegtigheid in (v 21).
  3. Wat is die gemiddeldegradeplegtigheid (gemiddeld).
  4. Geslag (v22).

Logistiese regressie sal die impak van onafhanklike faktore aver, q 21 en q 22 op die veranderlike ql evalueer. Eenvoudig gestel, die doel van die ontleding sal wees om die waarskynlike indiensneming van gegradueerdes te bepaal op grond van inligting oor die veld, jaar van graduering en GPA.

logistiese sigmoïed regressie-aanwyser
logistiese sigmoïed regressie-aanwyser

Logistiese regressie

Om parameters te stel deur binêre regressie te gebruik, gebruik die Analiseer►Regressie►Binêre logistieke kieslys. In die Logistic Regression-venster, kies die afhanklike faktor uit die lys van beskikbare veranderlikes aan die linkerkant. Dit is ql. Hierdie veranderlike moet in die Afhanklike veld geplaas word. Daarna is dit nodig om onafhanklike faktore in die Covariates plot in te voer - q 21, q 22, gemiddeld. Dan moet jy kies hoe om hulle by jou ontleding in te sluit. As die aantal onafhanklike faktore meer as 2 is, word die metode van gelyktydige bekendstelling van alle veranderlikes, wat by verstek gestel is, gebruik, maar stap vir stap. Die gewildste manier is Backward:LR. Deur die Kies-knoppie te gebruik, kan jy nie alle respondente by die studie insluit nie, maar slegs 'n spesifieke teikenkategorie.

Definieer Kategoriese Veranderlikes

Die kategoriese knoppie moet gebruik word wanneer een van die onafhanklike veranderlikes nominaal is met meer as 2 kategorieë. In hierdie situasie, in die Define Categorical Variables-venster, word net so 'n parameter op die Kategorical Covariates-afdeling geplaas. In hierdie voorbeeld is daar nie so 'n veranderlike nie. Daarna volg Kontras in die aftreklyskies die Afwyking-item en druk die Verander-knoppie. As gevolg hiervan sal verskeie afhanklike veranderlikes uit elke nominale faktor gevorm word. Hulle getal stem ooreen met die aantal kategorieë van die aanvanklike toestand.

Stoor nuwe veranderlikes

Deur die Stoor-knoppie in die hoofdialoogkassie van die studie te gebruik, word die skepping van nuwe parameters ingestel. Hulle sal die aanwysers bevat wat in die regressieproses bereken is. Jy kan veral veranderlikes skep wat definieer:

  1. Behoort tot 'n spesifieke klassifikasiekategorie (Groeplidmaatskap).
  2. Waarskynlikheid om 'n respondent aan elke studiegroep toe te wys (Probabilities).

Wanneer die Opsies-knoppie gebruik word, kry die navorser geen noemenswaardige opsies nie. Gevolglik kan dit geïgnoreer word. Nadat die "OK"-knoppie geklik is, sal die resultate van die ontleding in die hoofvenster vertoon word.

logistiese regressiekoëffisiënt
logistiese regressiekoëffisiënt

Kwaliteitkontrole vir toereikendheid en logistiese regressie

Oorweeg die Omnibus-toetse van modelkoëffisiënte-tabel. Dit vertoon die resultate van die ontleding van die kwaliteit van die benadering van die model. As gevolg van die feit dat 'n stap-vir-stap-opsie gestel is, moet u na die resultate van die laaste fase (Stap2) kyk. 'n Positiewe resultaat sal oorweeg word as 'n toename in die Chi-kwadraat-aanwyser gevind word wanneer na die volgende stadium op 'n hoë mate van betekenisvolheid beweeg word (Sig. < 0.05). Die kwaliteit van die model word in die Modellyn geëvalueer. As 'n negatiewe waarde verkry word, maar dit word nie as betekenisvol beskou met die algehele hoë wesenlikheid van die model nie, die laastekan as prakties geskik beskou word.

Tafels

Modelopsomming maak dit moontlik om die totale variansie-indeks, wat deur die gekonstrueerde model (R-vierkant-indeks) beskryf word, te skat. Dit word aanbeveel om die Nagelker-waarde te gebruik. Die Nagelkerke R Square parameter kan as 'n positiewe aanwyser beskou word as dit bo 0,50 is. Daarna word die resultate van die klassifikasie geëvalueer, waarin die werklike aanwysers van behoort aan een of ander kategorie wat bestudeer word, vergelyk word met dié wat op grond van die regressiemodel voorspel is. Hiervoor word die Klassifikasietabel gebruik. Dit stel ons ook in staat om gevolgtrekkings te maak oor die korrektheid van differensiasie vir elke groep wat oorweeg word.

logistiese regressiemodel
logistiese regressiemodel

Die volgende tabel bied 'n geleentheid om die statistiese betekenisvolheid van die onafhanklike faktore wat in die analise ingevoer is, sowel as elke nie-gestandaardiseerde logistiese regressiekoëffisiënt, uit te vind. Op grond van hierdie aanwysers is dit moontlik om die behoort van elke respondent in die steekproef tot 'n bepaalde groep te voorspel. Deur die Stoor-knoppie te gebruik, kan jy nuwe veranderlikes invoer. Hulle sal inligting bevat oor die feit dat hulle aan 'n bepaalde klassifikasiekategorie behoort (Voorspeldekategorie) en die waarskynlikheid om by hierdie groepe ingesluit te word (Voorspelde waarskynlikheidslidmaatskap). Nadat jy "OK" geklik het, sal die berekeningsresultate in die hoofvenster van Multinomial Logistic Regression verskyn.

Die eerste tabel, wat aanwysers bevat wat belangrik is vir die navorser, is Modelpassinginligting. 'n Hoë vlak van statistiese betekenisvolheid sal dui op hoë kwaliteit engeskiktheid om die model te gebruik om praktiese probleme op te los. Nog 'n belangrike tabel is Pseudo R-Square. Dit laat jou toe om die proporsie van totale variansie in die afhanklike faktor te skat, wat bepaal word deur die onafhanklike veranderlikes wat vir ontleding gekies word. Volgens die Waarskynlikheidsverhoudingtoetse-tabel kan ons gevolgtrekkings maak oor die statistiese betekenisvolheid van laasgenoemde. Parameterskattings weerspieël nie-gestandaardiseerde koëffisiënte. Hulle word gebruik in die konstruksie van die vergelyking. Daarbenewens is vir elke kombinasie van veranderlikes die statistiese betekenisvolheid van hul impak op die afhanklike faktor bepaal. Intussen word dit in bemarkingsnavorsing dikwels nodig om respondente volgens kategorie te onderskei nie individueel nie, maar as deel van die teikengroep. Hiervoor word die Waargenome en Voorspelde Frekwensies-tabel gebruik.

Praktiese toepassing

Die oorweegde metode van ontleding word wyd gebruik in die werk van handelaars. In 1991 is die logistiese sigmoïed regressie-aanwyser ontwikkel. Dit is 'n maklik-om-te gebruik en doeltreffende hulpmiddel om waarskynlike pryse te voorspel voordat dit "oorverhit". Die aanwyser word op die grafiek getoon as 'n kanaal wat deur twee parallelle lyne gevorm word. Hulle is ewe gespasieer van die neiging. Die breedte van die gang sal uitsluitlik afhang van die tydraamwerk. Die aanwyser word gebruik wanneer daar met byna alle bates gewerk word – van geldeenheidspare tot edelmetale.

logistiese regressie in spss
logistiese regressie in spss

In die praktyk is 2 sleutelstrategieë vir die gebruik van die instrument ontwikkel: vir wegbreek envir 'n draai. In laasgenoemde geval sal die handelaar fokus op die dinamika van prysveranderings binne die kanaal. Soos die waarde die ondersteunings- of weerstandslyn nader, word 'n weddenskap geplaas op die waarskynlikheid dat die beweging in die teenoorgestelde rigting sal begin. As die prys naby die boonste grens kom, kan jy van die bate ontslae raak. As dit by die onderste limiet is, moet u daaraan dink om te koop. Die uitbreekstrategie behels die gebruik van bestellings. Hulle word op 'n relatief klein afstand buite die grense geïnstalleer. As u in ag neem dat die prys in sommige gevalle hulle vir 'n kort tydjie oortree, moet u dit veilig speel en stopverliese stel. Terselfdertyd moet die handelaar natuurlik, ongeag die gekose strategie, die situasie wat op die mark ontstaan het so kalm moontlik raaksien en evalueer.

Gevolgtrekking

Dus, die gebruik van logistiese regressie laat jou toe om respondente vinnig en maklik in kategorieë te klassifiseer volgens die gegewe parameters. Wanneer jy ontleed, kan jy enige spesifieke metode gebruik. In die besonder is multinomiale regressie universeel. Kenners beveel egter aan om al die metodes wat hierbo beskryf word in kombinasie te gebruik. Dit is te wyte aan die feit dat in hierdie geval die kwaliteit van die model aansienlik hoër sal wees. Dit sal op sy beurt die toepassingsgebied uitbrei.

Aanbeveel: