Studiu statistic al relațiilor în statistică. Studiu statistic al relaţiei indicatorilor. Determinarea parametrilor ecuației de regresie începe cu faptul că se stabilește relația dintre indicatorii luați în considerare. Pentru aceasta se calculează coeficientul

13.1. Tipuri de conexiuni între fenomene, caracteristicile acestora

Studiul realității arată că schimbarea trăsăturii studiate este în Relație strânsă cu alte semne.

Când se studiază dependențe specifice, unele semne acționează ca factori care provoacă modificări în alte semne – se numesc semnele factorilor (X).

Semne care sunt rezultat influența acestor semne factoriale se numesc semne efective (U).

De exemplu: având în vedere relația dintre productivitatea muncii și calificările muncitorilor, nivelul productivității muncii este un semn productiv, iar calificările muncitorilor sunt factoriale, deoarece. creşterea acestuia duce la o creştere a productivităţii muncii.

Există două tipuri principale de conexiuni între fenomene.

- relațiile funcționale se caracterizează prin corespondență deplină între modificarea factorului și atributul rezultat (fiecare valoare a atributului - factor corespunde unor valori destul de precise ale atributului efectiv)

Un exemplu de relație funcțională este dependența circumferinței (L) de raza (r).

- corelații, în care nu există o corespondență completă între modificarea factorului și semnele rezultate, impactul factorilor individuali se manifestă numai în medie în timpul observației în masă, date reale.

În cel mai simplu caz de aplicare a dependenței de corelare, valoarea atributului efectiv este considerată ca o consecință a unei modificări a unui singur factor (de exemplu: creșterea calificărilor lucrătorilor este considerată ca fiind motivul creșterii productivității muncii) .

Cu toate acestea, factorul evidențiat în acest exemplu ca caracteristică principală nu este singurul motiv pentru modificarea caracteristicii productive, ci, împreună cu acesta, multe alte motive afectează valoarea caracteristicii productive (în special, nivelul de alimentare cu energie, mecanizare și automatizarea producției afectează productivitatea muncii).

În prezența unei dependențe de corelare se stabilește doar tendința ca modificarea atributului rezultat să se schimbe cu o modificare a valorii atributului factorului.

Explicația pentru aceasta este complexitatea relațiilor dintre factorii analizați, a căror interacțiune este influențată de nesocotiți, variabile aleatoare. Prin urmare, legătura apare doar în medie, în masa cazurilor.

Cu o corelație, fiecare valoare a argumentului (x este un semn al factorului).

Corespunde valorilor distribuite aleator ale funcției într-un anumit interval (y - semnul rezultatului).

De exemplu, în agricultură, aceasta poate fi relația dintre randament și cantitatea de îngrășământ aplicată. În mod evident, îngrășămintele sunt implicate în formarea culturii, pentru un anumit câmp, participarea aceleiași cantități de îngrășământ va determina o creștere diferită a randamentului, deoarece există o serie de alți factori (vreme, condiții de sol etc.) care formează recolta. Cu toate acestea, în medie, o astfel de relație se observă o creștere a masei îngrășămintelor aplicate duce la o creștere a randamentului.

Tipuri de relatii:

a) După direcția de comunicare se împart în:
- Drept- când variabila dependentă crește odată cu creșterea trăsăturii factorului (relație pozitivă)
- verso, când creșterea unui semn factor duce la o scădere a celui efectiv (relație negativă)

b) După gradul de etanşeitate:

c) După expresia analitică:
- liniară
- curbilinie.

Sarcini de statistică în studiul relațiilor dintre fenomene este următorul:

1. evaluarea cantitativă a prezenței și direcției comunicării;

2. caracterizarea formei de influență a unor factori asupra altora (modificarea gradului de apropiere a corelației);

3. găsirea unei expresii analitice a conexiunii (construirea ecuațiilor de regresie sau a modelelor de corelație-regresie);

4. evaluarea conformităţii modelelor obţinute şi a utilizării lor practice.

13.2. Metode de depistare a prezenței unei corelații între două semne

Pentru a răspunde la întrebarea despre prezența sau absența unei corelații, se folosesc o serie de metode:

- comparație paralelă a serii de valori ale caracteristicilor efective și factoriale, este cea mai simplă abordare. Valorile atributului factorului sunt aranjate în ordine crescătoare și apoi urmăresc direcția de schimbare a valorii atributului efectiv;

Cu toate acestea, prezența un numar mare valori diferite ale atributului rezultat corespunzătoare aceleiași valori a factorului-atribut face dificilă perceperea unor astfel de serii paralele. În astfel de cazuri, pentru a stabili o conexiune - utilizați tabele statistice – corelație și grupare.

Construirea unui tabel de corelare începeți cu gruparea valorilor caracteristicilor factoriale și rezultate.

În acest caz, semnul factor (x), de regulă, are valori specifice și este situat în rânduri; iar caracteristica rezultată (y) este prezentată ca intervale și este situată în coloanele tabelului.

Numerele situate la intersecția rândurilor și coloanelor din tabel indică frecvența construirii acestei combinații de valori X și Y.

Un astfel de tabel de corelare, deja cu o cunoștință generală, face posibil:

Determinați prezența sau absența unei conexiuni;

Află direcția acesteia.

Dacă frecvențele din tabelul de corelare sunt situate în diagonală din colțul din stânga sus spre dreapta jos (adică, valorile mari ale factorului corespund unor valori mari ale rezultatului), atunci putem presupune prezența unei corelații directe între semne.

Dacă frecvențele sunt situate din colțul din dreapta sus până în stânga jos, atunci se presupune prezența feedback-ului.

Construcția unui tabel de grup începe și cu gruparea. Pentru fiecare grup, se calculează valorile medii ale caracteristicii efective și apoi se compară datele obținute.

- Metoda grafică aplicată pentru:

· Identificarea prealabilă a prezenței sau absenței comunicării;

· Definiții ale naturii și formei de comunicare.

Folosind date despre valorile individuale ale factorului-caracteristic și valorile corespunzătoare ale caracteristicii rezultate, este posibil să construiți un grafic de dispersie în axe dreptunghiulare, care se numește câmpul de corelare.

După ce a determinat valoarea medie a punctelor, se poate construi o linie, care este legătură empirică .

Dacă linia empirică de comunicare se apropie de o linie dreaptă de comunicare, atunci poate exista o linie dreaptă de corelație între semne.

Dacă la orice curbă, atunci este posibilă o corelație curbilinie.

13.3. Măsurarea gradului de apropiere a corelației dintre două trăsături

Este clar că unii factori au un efect mai puternic, alții mai slab asupra caracteristicii eficiente.

Caracteristica puterii influenței unor factori asupra altora este dată folosind indicatori ai gradului de apropiere a corelației dintre două semne, acestea includ:

· Coeficientul de corelare a semnelor;

· Coeficient de corelație liniară;

Coeficientul de corelare a rangului

a) Coeficientul de corelare a semnelor

Numărul de coincidențe ale semnelor abaterii valorilor individuale de la media semnelor factoriale și rezultate;

Numărul de nepotriviri semnelor de abatere.

b) Coeficientul de corelație liniară este un indicator mai bun al gradului de apropiere a conexiunii. La calcularea acestui indicator, se iau în considerare nu numai semnele abaterilor, ci și mărimile acestor abateri.

Există multe variante ale acestei formule.

Mulți oameni de știință s-au ocupat de probleme de corelare și, în general, de dependențe stocastice (manifestate în multe cazuri).

Corelație multiplă.

Coeficient de corelație multiplă: , unde

Varianța totală a datelor reale ale atributului rezultat, adică dispersie y.

Varianta reziduala care caracterizeaza variatia y din cauza unor factori neincluși în ecuația de regresie.

Reflectă apropierea relației dintre variația variabilei dependente și variația tuturor variabilelor independente incluse în analiză

0< <1 чем ближе к 1, тем более сильная связь, к 0 - не все факторы учтены, не подходящая форма уравнения.

c) Coeficientul de corelare a rangurilor (coeficientul de conectare a caracteristicilor calitative)

Vă permite să măsurați strânsoarea relației dintre caracteristicile calitative care nu pot fi exprimate prin numere. Fiecărei unități a populației i se atribuie un număr de serie în serie, care va fi sortat după nivelul atributului. Astfel, o serie de valori este clasată, iar numărul fiecărei unități individuale va fi rangul acesteia.

Vă puteți face o idee despre corelație comparând rangurile caracteristicilor factoriale și rezultate. Metoda lui Spearman și metoda lui Kendell.

13.4. Ecuații de regresie, tipurile lor

Studiul dependențelor de corelație se bazează pe studiul unor astfel de relații între variabile, în care valoarea unei variabile care poate fi utilizată pentru variabila dependentă „în medie” se modifică în funcție de ce valori ia o altă variabilă, considerată drept cauză. în raport cu variabila dependentă.

Studiul dependențelor duce la căutarea relațiilor analitice sub formă de formule (adică funcții care sunt scrise prin compilare). ecuații de regresie).

Iar pe domeniul grafic este construit linia de regresie teoretică aceasta este linia în jurul căreia sunt grupate punctele câmpului de corelație și care indică direcția principală, tendința principală a conexiunii.

Următoarele tipuri de funcții sunt cel mai adesea utilizate pentru a caracteriza relațiile fenomenelor economice:

Liniar:

Hiperbolic:

Indicativ:

Putere:

13.5. Modele de corelație-regresie (CRM),

aplicarea lor în analiză şi prognoză

În practică, cel mai adesea schimbarea trăsăturii studiate depinde de acțiunea mai multor motive. În astfel de cazuri, modificarea corelației nu poate fi limitată la dependențe pereche și este necesar să se includă în analiză și alți semne-factori care afectează semnificativ variabila studiată.

Selecția factorilor pentru construirea modelelor multifactoriale se bazează pe o analiză calitativă și cantitativă a fenomenelor socio-economice folosind criterii statistice.

Model de corelație-regresie sistemul de caracteristici interconectate este o ecuație de regresie care include factorii principali.

Construirea modelelor de regresie multifactorială permite descrierea cantitativă a principalelor modele ale fenomenelor studiate, identificarea factorilor semnificativi care provoacă modificări ale indicatorilor economici și evaluarea impactului acestora.

Modelele rezultate sunt utilizate în principal în două direcții:

Pentru analiza comparativă

În prognoză

Posibilitatea aplicării metodelor de analiză corelație-regresie a fost constrânsă în trecutul recent de complexitatea ridicată a calculelor necesare. Astăzi, pachetele de aplicații statistice s-au răspândit, eliminând aceste limitări.

Pentru a extinde posibilitățile de analiză economică se utilizează coeficientul de elasticitate:

, Unde

Valoarea medie a semnului factorului

Valoarea medie a caracteristicii efective

Coeficient de regresie pentru semnul factorului corespunzător.

Afișează câte procente se va schimba în medie valoarea atributului rezultat atunci când se schimbă atributul factorului.

Setați ca valoare de referință.

Este necesar să se facă distincția între relațiile funcționale și relațiile de corelare. Spre deosebire de dependența funcțională, în care fiecare valoare a unei variabile corespunde strict unei valori specifice a altei variabile, dependența, în care o valoare a variabilei ( X) poate corespunde (datorită stratificării acțiunii altor cauze) cu setul de valori ale altei variabile ( y) se numește corelație. Dependența de corelație apare doar pe baza observației în masă.

Un exemplu de dependență de corelare este dependența productivității muncii de experiența de muncă a muncitorilor, dependența randamentului de perioada de semănat, dependența producției anuale de lapte a vacilor de numărul fătărilor etc.

Cel mai simplu caz de dependență de corelație este baie de aburi corelație, adică dependenta intre doua semne (eficient si unul dintre cele factoriale).

Principalele sarcini în studiul dependențelor de corelație sunt:

1. găsirea unei formule matematice care să exprime această dependenţă y din X

2. măsurarea etanşeităţii unei astfel de dependenţe.

Rezolvarea primei probleme, i.e. determinarea formei de legătură cu căutarea ulterioară a parametrilor ecuației se numește găsirea ecuației de legătură (ecuația de regresie). Indicatori considerați ca o funcție X, notează (a se citi: „y, aliniat cu x”).

Sunt posibile diferite forme de comunicare:

1. drept:

2. curbilinie sub forma:
a) parabole de ordinul doi (sau ordinul superior)
b) hiperbole
c) funcţia exponenţială etc.

Parametrii pentru toate ecuațiile de constrângere sunt cel mai adesea determinați din așa-numitele sisteme de ecuații normale, îndeplinirea cerinței „metodei celor mai mici pătrate” (LSM). Această cerință poate fi scrisă ca sau, cu o relație liniară, i.e. este necesar să se determine la ce valori ale parametrilor și suma abaterilor pătrate y de la va fi minim. După ce au găsit derivatele parțiale ale sumei specificate în raport cu și și echivalându-le cu zero, este ușor să scrieți un sistem de ecuații, a cărui soluție este dată de parametrii funcției dorite, adică. ecuații de regresie.

Deci, sistemul de ecuații normale cu o dependență liniară are forma:

Dacă relația este exprimată printr-o parabolă de ordinul doi

atunci sistemul de ecuații normale pentru găsirea parametrilor , , arată astfel:

A doua sarcină - măsurarea apropierii dependenței - pentru toate formele de comunicare poate fi rezolvată folosind calculul raportului de corelație teoretic:

Dispersie într-o serie de valori egalizate
indicator eficient;

Dispersie într-o serie de valori reale y.

Deoarece varianța reflectă variația în serie numai datorită variației factorului X, iar variația reflectă variația y datorită tuturor factorilor, apoi raportul lor, numit coeficientul teoretic de determinare, arată ce proporție în varianța totală a seriei y ocupă varianţa cauzată de variaţia factorului X. rădăcina pătrată a raportului acestor varianțe ne oferă raportul de corelație teoretic. Dacă = , atunci aceasta înseamnă că rolul altor factori în variație y anulată, iar relația:

Înseamnă variație completă a dependenței y din X.

Dacă =0, atunci aceasta înseamnă că variația X nu are efect asupra variației. y, iar în acest caz .

Prin urmare, valoarea maximă pe care o poate lua raportul de corelare este 1, valoarea minimă este 0.

Este ușor de demonstrat din punct de vedere matematic că, în cazul unei dependențe liniare, raportul de corelație poate fi înlocuit cu o expresie numită coeficient de corelație liniară, notată r, adică unde este coeficientul de regresie în ecuația relației și, respectiv, abaterea standard din serie X iar pe rând y.

Coeficientul de corelație liniară poate fi exprimat și prin alte formule identice cu prima, în special:

sau și de asemenea

Coeficientul de corelație liniară poate lua valori modulo de la 0 la 1 (semnul „+” pentru dependență directă și semnul „-” pentru dependența inversă).

Să luăm în considerare soluția problemei pe această temă.

Sarcina 1

Fie ca 10 întreprinderi de același tip să aibă următoarele date de ieșire ( X) în mii de unități și asupra consumului de combustibil de referință ( y) în tone (coloanele 1 și 2 din tabel).

Este necesar să se găsească o ecuație pentru dependența consumului de combustibil de producție (sau o ecuație de regresie y pe X) și măsurați strânsoarea relației dintre ele.

Soluţie.

A. Considerând ecuația de regresie sub forma unei funcții liniare a formei , găsim parametrii acestei ecuații ( și ) din sistemul de ecuații normale

X y x2 X y =1,16+0,547x y2
3,9 4,4 5,5 5,5 6,6 6,6 8,8 12,1 12,1 14,3

Sumele necesare pentru a rezolva , , sunt calculate mai sus în tabel. Le substituim în ecuații și rezolvăm sistemul:

De aici, după ce am găsit anterior coeficientul de corelație liniară r=0,96 considerate semnificative, și relația dintre XȘi y- real.

Întrebări de securitate la subiect:

1. Ce semne sunt eficiente, factoriale.

2. Care sunt cele două tipuri principale de conexiuni între fenomene se disting. Explicați esența lor.

3. Spuneți clasificarea relațiilor.

4. Care sunt sarcinile statisticii în studiul relaţiilor dintre fenomene.

5. Spuneți-ne ce metode cunoașteți pentru a identifica prezența unei corelații între două caracteristici.

6. Ce indicatori sunt utilizați pentru a caracteriza puterea influenței unor factori asupra altora.

7. Povestește-ne despre coeficientul de corelație multiplă.

8. Ce sunt „modele de corelație-regresie” și care este aplicarea lor în analiză și prognoză.

9. Vorbește-ne despre coeficientul de corelație liniară.

10. Care este esența metodei celor mai mici pătrate.

Lista bibliografică

1. Eliseeva I.I., Yuzbashev M.M. Teoria Generală a Statisticii: Manual / Ed. I.I. Eliseeva. Ed. a 5-a, revizuită. si suplimentare M.: Finanțe și statistică, 2004.

2. Efimova M.R., Petrova E.V., Rumyantseva V.N. Teoria generală a statisticii: manual. - Ed. a II-a, Rev. si suplimentare – M.: INFRA-M, 2000. – 416 p.

3. Teoria generală a statisticii: Manual / Ed. O.E. Bashina, A.A. Spirin, ed. a 5-a. M., 1999.

4. Workshop de teoria statisticii: Proc. indemnizație / Ed. R.A. Shmoylova. M.: Finanțe și statistică, 1999.

5. Sidenko A.V., Popov G.Yu., Matveeva V.M. Statistici: manual. M., 2000.

6. Statistica socială: Manual / Ed. I.I. Eliseeva. Ed. a 3-a, revizuită. si suplimentare M.: Finanțe și statistică, 2003.

7. Statistica bunurilor si serviciilor: Manual / Ed. I.K. Belyavsky. M., 2002.

8. Statistică: Manual / Ed. V.S. Mkhitaryan. M.: Economist, 2005

9. Teoria Statisticii: Manual / Ed. Profesorul G.L. Gromyko. – M.: INFRA-M, 2000. – 414 p.

10. Economia si statistica firmelor / Ed. S.D. Ilyenkova. M., 2000

Adnotare: Pentru majoritatea studiilor statistice, este important să se identifice relațiile existente între fenomene și procese în curs. Aproape toate fenomenele observate ale vieții economice a societății, oricât de independente ar părea la prima vedere, de regulă, sunt rezultatul acțiunii anumitor factori. De exemplu, profitul primit de o întreprindere este asociat cu mulți indicatori: numărul de angajați, educația acestora, costul activelor fixe de producție etc.

12.1. Conceptul de funcțional și corelație

Există două tipuri principale de conexiune între fenomenele sociale și economice - funcționale și statistice (numite și stocastice, probabilistice sau de corelație). Înainte de a le considera mai detaliat, introducem conceptele de caracteristici independente și dependente.

Independente sau factoriale sunt semne care provoacă modificări în alte semne înrudite. Semnele, a căror schimbare sub influența anumitor factori trebuie urmărită, sunt numite dependente sau eficiente.

Cu o relație funcțională, o modificare a variabilelor independente duce la obținerea unor valori precis definite ale variabilei dependente.

Cel mai adesea, relațiile funcționale se manifestă în științele naturii, de exemplu, în mecanică, relațiile funcționale sunt dependența distanței parcurse de un obiect de viteza de mișcare a acestuia etc.

Cu o relație statistică, fiecare valoare a variabilei independente X corespunde unui set de valori ale variabilei dependente Y și nu se știe dinainte care dintre ele. De exemplu, știm că profitul unei bănci comerciale este într-un anumit fel legat de mărimea capitalului ei autorizat (acest fapt nu este pus la îndoială). Cu toate acestea, este imposibil să se calculeze valoarea exactă a profitului pentru o anumită valoare a ultimului indicator, deoarece depinde și de mulți alți factori, pe lângă mărimea capitalului autorizat, printre care există și aleatori. În cazul nostru, cel mai probabil, vom determina doar valoarea medie a profitului, care va fi primit în ansamblu pentru totalul băncilor cu o sumă similară de capital autorizat. Astfel, o relație statistică diferă de una funcțională prin prezența unui număr mare de factori care acționează asupra variabilei dependente.

De remarcat că relația statistică se manifestă doar „în general și medie” cu un număr mare de observații ale fenomenului. Deci, intuitiv, putem presupune că există o relație între volumul activelor imobilizate ale întreprinderii și profitul pe care îl primește, și anume, odată cu creșterea primei, valoarea profitului crește. Dar se poate obiecta la acest lucru și da un exemplu de întreprindere care are o cantitate suficientă de echipamente de producție moderne, dar care suferă totuși pierderi. În acest caz, avem un exemplu clar de relație statistică, care se manifestă doar în populații mari care conțin zeci și sute de unități, spre deosebire de cea funcțională, care se confirmă pentru fiecare observație.

O corelație este o relație statistică între caracteristici, în care o modificare a valorilor variabilei independente X duce la o schimbare regulată a așteptării matematice a unei variabile aleatoare Y.

Exemplul 12.1. Să presupunem că pentru întreprinderi sunt disponibile date privind valoarea profitului reportat al anului precedent, volumul investițiilor în capitalul principalși asupra sumelor alocate pentru achiziționarea de valori mobiliare (mii de unități den.):

Tabelul 12.1.
Numarul companiei Profitul reportat al anului precedent Achizitie de valori mobiliare Investiții în active fixe
1 3 010 190 100
2 3 100 182 250
3 3 452 185 280
4 3 740 170 270
5 3 980 172 330
6 4 200 160 420
7 4 500 145 606
8 5 020 120 690
9 5 112 90 800
10 5 300 30 950

Tabelul arată că există o corespondență directă între rezultatul reportat al întreprinderii și investiția acesteia în capitalul principal: cu o creștere a profitului reportat crește și volumul investițiilor. Acum să acordăm atenție relației dintre indicatorul profitului reportat și volumul titlurilor de valoare achiziționate. Aici are un caracter complet diferit: o creștere a primului indicator duce la efectul opus - valoarea titlurilor achiziționate, cu rare excepții (care exclude deja în mod clar prezența unei conexiuni funcționale), scade. O astfel de analiză vizuală a datelor, în care observațiile sunt clasate în ordine crescătoare sau descrescătoare a valorii independente x, iar apoi este analizată modificarea valorilor variabilei dependente y, se numește metoda de reducere a datelor paralele.

În exemplul considerat, în primul caz, legătura este directă etc. o creștere (scădere) a unui indicator implică o creștere (scădere) a altuia (există o corespondență în modificările indicatorilor), iar în al doilea - opusul etc. o scădere a unui indicator determină o creștere a altuia, sau o creștere a unuia corespunde unei scăderi a altuia.

Dependențe directe și inverse caracterizează direcția relației dintre caracteristici, care poate fi ilustrată grafic folosind câmpul de corelație. Când este construit într-un sistem de coordonate dreptunghiular, valorile variabilei independente x sunt situate pe axa absciselor, iar variabila dependentă y este plasată pe axa ordonatelor. Intersecția coordonatelor este indicată prin puncte care simbolizează observații. Forma împrăștierii punctelor în câmpul de corelație este utilizată pentru a judeca forma și strângerea relației. Figura 12.1 prezintă câmpurile de corelare corespunzătoare diferitelor forme de comunicare.


Orez. 12.1.

a - conexiune directă (pozitivă);

b - relație de feedback (negativ);

c - lipsa de comunicare

Secțiunea de știință statistică care se ocupă cu studiul relațiilor cauzale dintre fenomenele socio-economice și procesele care au o expresie cantitativă este analiza corelației-regresiune. În esență, există două domenii separate de analiză - corelația și regresia. Cu toate acestea, datorită faptului că, în practică, sunt utilizate cel mai adesea într-un mod complex (pe baza rezultatelor analizei de corelație, se efectuează o analiză de regresie), acestea sunt combinate într-un singur tip.

Efectuarea analizei de corelație-regresie presupune rezolvarea următoarelor sarcini:

Dintre sarcinile enumerate, primele două sunt atribuite direct problemelor de analiză a corelației, următoarele trei - analizei de regresie și numai în raport cu indicatorii cantitativi.

12.1.1. Cerințe pentru informațiile statistice studiate prin metode de corelare și analiză de regresie

Metodele de analiză de corelare și regresie nu pot fi aplicate tuturor datelor statistice. Enumerăm principalele cerințe pentru informațiile analizate:

  1. observațiile utilizate pentru studiu trebuie selectate aleatoriu din populația generală de obiecte. În caz contrar, datele inițiale, care reprezintă un anumit eșantion din populația generală, nu vor reflecta natura lor, concluziile desprinse din acestea despre modelele de dezvoltare se vor dovedi a fi lipsite de sens și fără valoare practică;
  2. cerinţa ca observaţiile să fie independente unele de altele. Dependența observațiilor între ele se numește autocorelare, pentru eliminarea ei în teoria analizei corelație-regresie s-au creat metode speciale;
  3. setul de date inițial trebuie să fie omogen, fără observații anormale. Într-adevăr, o singură observație anormală poate duce la consecințe catastrofale pentru modelul de regresie, parametrii acestuia se vor dovedi a fi părtinitori, concluziile absurde;
  4. este de dorit ca datele inițiale pentru analiză să respecte legea distribuției normale. Legea distribuției normale este utilizată astfel încât anumite criterii să poată fi utilizate atunci când se verifică semnificația coeficienților de corelație și se construiesc limite de interval pentru aceștia. Dacă nu este necesar să se verifice semnificația și să se construiască estimări de interval, variabilele pot avea orice lege de distribuție. În analiza de regresie, la construirea unei ecuații de regresie, cerința pentru distribuția normală a datelor inițiale se impune doar variabilei rezultate Y, factorii independenți sunt considerați variabile nealeatoare și pot avea de fapt orice lege de distribuție. Ca și în cazul analizei de corelație, cerința distribuției normale este necesară pentru a verifica semnificația ecuației de regresie, a coeficienților acesteia și a găsi intervale de încredere;
  5. numărul de observații prin care se stabilește relația de caracteristici și se construiește un model de regresie trebuie să depășească numărul de caracteristici factoriale de cel puțin 3-4 ori (și de preferință de 8-10 ori). După cum s-a menționat mai sus, o relație statistică apare doar cu un număr semnificativ de observații bazate pe legea numerelor mari, iar cu cât relația este mai slabă, cu atât sunt necesare mai multe observații pentru stabilirea relației, cu atât mai puternice - cu atât mai puține;
  6. semnele factorilor X nu ar trebui să fie dependente funcțional unele de altele. O relație semnificativă de caracteristici independente (factoriale, explicative) între ele indică multicoleniaritate. Prezența acestuia duce la construirea unor modele de regresie instabile, regresii „false”.

12.1.2. Conexiuni liniare și neliniare

O relație liniară este exprimată printr-o linie dreaptă, iar o relație neliniară printr-o linie curbă. O relație liniară se exprimă prin ecuația unei drepte: y = a 0 + a i *x. Linia dreaptă este cea mai atractivă din punct de vedere al simplității calculării parametrilor ecuației. Se recurge întotdeauna la el, inclusiv în cazurile de relații neliniare, când nu există amenințarea unor pierderi semnificative în acuratețea estimărilor. Totuși, pentru unele dependențe, reprezentarea lor într-o formă liniară duce la erori mari (erori de aproximare) și, ca urmare, la concluzii false. În aceste cazuri se folosesc funcții de regresie neliniară, care în cazul general pot avea orice formă arbitrară, mai ales că software-ul modern vă permite să le construiți rapid. Cel mai adesea, următoarele ecuații neliniare sunt folosite pentru a exprima o relație neliniară: putere, parabolic, hiperbolic, logaritmic.

Parametrii acestor modele, ca și în cazul dependențelor liniare, sunt estimați și pe baza metodei celor mai mici pătrate (vezi Secțiunea 12.3.1).

12.2. Analiza corelației-regresiune

Sarcinile principale ale analizei corelației sunt de a determina prezența unei conexiuni între caracteristicile selectate, de a stabili direcția acesteia și de a cuantifica proximitatea conexiunii. Pentru aceasta, în analiza corelației, se estimează mai întâi matricea coeficienților de corelație perechi, apoi, pe baza acesteia, se determină coeficienți de corelație parțială și multiplă și coeficienți de determinare. După găsirea valorilor coeficienților, se verifică semnificația acestora. Rezultatul final al analizei de corelație este selectarea semnelor factorului X pentru construcția ulterioară a unei ecuații de regresie care să permită descrierea cantitativă a relației.

Să luăm în considerare etapele analizei corelației mai detaliat.

12.2.1. Coeficienți de corelație perechi (liniari).

Analiza corelației începe cu calcularea coeficienților de corelație perechi (liniari).

Coeficientul de corelație de pereche este o măsură a relației liniare dintre două variabile pe fondul acțiunii celorlalte variabile incluse în model.

În funcție de ordinea de calcul care este mai convenabilă pentru cercetător, acest coeficient este calculat folosind una dintre următoarele formule:

Coeficientul de corelație al perechii variază de la -1 la +1. Valoarea absolută egală cu unu indică faptul că relația este funcțională: -1 - invers (negativ), +1 - direct (pozitiv). Valoarea zero a coeficientului indică absența unei relații liniare între caracteristici.

O evaluare calitativă a valorilor cantitative obținute ale coeficienților de corelație perechi poate fi dată pe baza scalei prezentate în tabel. 12.2.

Notă: o valoare pozitivă a coeficientului indică faptul că relația dintre semne este directă, o valoare negativă este inversă.

12.2.2. Evaluarea materialității comunicării

După obținerea valorilor coeficienților, trebuie verificată semnificația acestora. Întrucât datele inițiale, în funcție de care se stabilește relația de trăsături, sunt un anumit eșantion dintr-o anumită populație generală de obiecte, coeficienții de corelație perechi calculați din aceste date vor fi selectivi. Astfel, ei estimează relația doar pe baza informațiilor pe care le poartă unitățile de observație selectate. Dacă datele inițiale reflectă „bine” structura și tiparele populației generale, atunci coeficientul de corelație calculat din ele va arăta o legătură reală inerentă realității întregii populații de obiecte studiate. Dacă datele nu „copiază” relația populației în ansamblu, atunci coeficientul de corelație calculat va forma o idee falsă a relației. În mod ideal, pentru a stabili acest fapt, este necesar să se calculeze coeficientul de corelație pe baza datelor întregii populații și să-l compare cu cel calculat din observațiile selectate. Cu toate acestea, în practică, de regulă, acest lucru nu se poate face, deoarece întreaga populație este adesea necunoscută sau este prea mare. Prin urmare, cât de realist reprezintă coeficientul realitatea poate fi judecat doar aproximativ. Pe baza logicii, se ajunge usor la concluzia ca, evident, odata cu cresterea numarului de observatii (pentru ), increderea in coeficientul calculat va creste.

Semnificația coeficienților de corelație perechi este testată în unul din două moduri: folosind tabelul Fisher-Yates sau testul t Student. Considerați metoda de verificare folosind tabelul Fisher-Yates ca fiind cea mai simplă.

La începutul testului, se stabilește un nivel de semnificație (notat cel mai adesea cu litera alfabetului grecesc „alfa” - ), care indică probabilitatea de a lua o decizie eronată. Posibilitatea de a greși apare din faptul că nu întreaga populație, ci doar o parte a acesteia, este folosită pentru a determina relația. De obicei ia următoarele valori: 0,05; 0,02; 0,01; 0,001. De exemplu, dacă = 0,05, atunci aceasta înseamnă că, în medie, în cinci cazuri din o sută, decizia luată cu privire la semnificația (sau nesemnificația) coeficienților de corelație perechi va fi eronată; la = 0,001 - într-un caz din o mie etc.

Al doilea parametru la verificarea semnificației este numărul de grade de libertate v, care în acest caz se calculează ca v = n - 2. Conform tabelului Fisher-Yates se găsește valoarea critică a coeficientului de corelație r cr. (=0,05, v=n - 2). Coeficienții al căror modul este mai mare decât valoarea critică găsită sunt considerați semnificativi.

Exemplul 12.2. Să presupunem că în primul caz sunt 12 observații, iar din acestea s-a calculat coeficientul de corelație de pereche, care s-a dovedit a fi 0,530, în al doilea - 92 de observații, iar coeficientul de corelație de pereche calculat a fost 0,36. Dar dacă le verificăm semnificația, în primul caz coeficientul se va dovedi a fi nesemnificativ, iar în al doilea - semnificativ, în ciuda faptului că este mult mai mic ca magnitudine. Rezultă că în primul caz sunt prea puține observații, ceea ce crește cerințele, iar valoarea critică a coeficientului de corelație de pereche la un nivel de semnificație = 0,05 este 0,576 (v = 12 - 2), iar în al doilea caz există sunt mult mai multe observatii si este suficient sa depasim valoarea critica de 0,205 ( v = 92 - 2) pentru ca coeficientul de corelatie la acelasi nivel sa fie semnificativ. Astfel, cu cât sunt mai puține observații, cu atât valoarea critică a coeficientului va fi întotdeauna mai mare.

Testarea de semnificație decide în esență dacă rezultatele calculate sunt aleatorii sau nu.

12.2.3. Determinarea coeficientului de corelație multiplă

Următoarea etapă a analizei corelației este asociată cu calculul coeficientului de corelație multiplu (cumulativ).

Coeficientul de corelație multiplă caracterizează strânsoarea relației liniare dintre o variabilă și un set de alte variabile luate în considerare în analiza corelației.

Dacă se studiază relația dintre caracteristica rezultată y și doar două caracteristici factoriale x 1 și x 2, atunci următoarea formulă poate fi utilizată pentru a calcula coeficientul de corelație multiplă, ale cărui componente sunt coeficienți de corelație perechi:

unde r sunt coeficienți de corelație perechi.

9.1. Cauzalitate, regresie, corelație

În procesul de studiu statistic al dependențelor se relevă relații cauzale între fenomene, ceea ce face posibilă identificarea factorilor (semnelor) care au un impact major asupra variației fenomenelor și proceselor studiate. Relațiile cauzale sunt legătura dintre fenomene și procese, atunci când o schimbare a unuia dintre ele - cauza, duce la o schimbare a celuilalt - efectul.

Semnele în funcție de semnificația lor pentru studierea relației sunt împărțite în două tipuri: factoriale și efective.

Fenomenele socio-economice sunt rezultatul influenţei simultane a unui număr mare de cauze. Prin urmare, la studierea acestor fenomene, este necesar să se identifice cauzele principale, principale, făcând abstracție de la cele secundare.

Prima etapă a studiului statistic al conexiunii se bazează pe o analiză calitativă a fenomenului studiat, i.e. studiul naturii sale prin metode de teorie economică, sociologie, economie concretă. A doua etapă este construirea unui model de comunicare. A treia și ultima etapă, interpretarea rezultatelor, este din nou asociată cu trăsăturile calitative ale fenomenului studiat.

În statistică se disting relațiile funcționale și cele stocastice. O relație funcțională este o astfel de relație în care o anumită valoare a unui atribut factor corespunde uneia și numai unei valori a atributului efectiv. O astfel de relație se manifestă în toate cazurile de observație și pentru fiecare unitate specifică a populației studiate. Dacă o dependență cauzală nu apare în fiecare caz individual, ci în general, în medie, cu un număr mare de observații, atunci o astfel de dependență se numește stocastică. Un caz special al unei conexiuni stocastice este o corelație, în care modificarea valorii medii a atributului efectiv se datorează unei modificări a semnelor factorilor.

Relaţiile dintre trăsături şi fenomene, datorită diversităţii lor mari, se clasifică după o serie de temeiuri: după gradul de apropiere a conexiunii, direcţie şi expresie analitică.

Gradul de etanșeitate al corelației poate fi cuantificat cu ajutorul coeficientului de corelație, a cărui valoare determină natura relației (Tabelul 1).

Tabelul 1 - Criterii cantitative pentru apropierea conexiunii

Către distinge între înainte și înapoi.

Cu o legătură directă cu o creștere sau scădere a valorilor unui atribut factor, are loc o creștere sau scădere a valorilor atributului efectiv. În cazul feedback-ului, cu o creștere a valorilor atributului factorului, valorile atributului efectiv scad și invers.

După expresia analitică se disting conexiuni: rectilinie(sau doar liniar) și neliniară. Dacă relația statistică dintre fenomene poate fi exprimată aproximativ prin ecuația unei drepte, atunci se numește liniară; dacă este exprimată prin ecuația unei linii curbe (parabolă, hiperbolă, exponențială, exponențială etc.), atunci o astfel de relație se numește neliniar sau curbiliniu.

Pentru a identifica prezența unei conexiuni, natura și direcția acesteia în statistică, se folosesc următoarele metode: aducerea de date paralele; grupări analitice; diagrame statistice; corelații.

Metoda de reducere a datelor paralele pe baza unei comparații a două sau mai multe serii de valori statistice. O astfel de comparație vă permite să stabiliți prezența unei conexiuni și să vă faceți o idee despre natura acesteia. De exemplu, o modificare a două valori este reprezentată de următoarele date.

Grafic, relația dintre două caracteristici este reprezentată folosind câmpul de corelație. În sistemul de coordonate, valorile atributului factorului sunt reprezentate pe axa absciselor, iar atributul rezultat este reprezentat pe axa ordonatelor. Cu cât legătura dintre caracteristici este mai puternică, cu atât punctele vor fi grupate mai strâns în jurul unei anumite linii care exprimă forma conexiunii (Fig.).

În absența conexiunilor strânse, există o aranjare aleatorie a punctelor pe grafic.

Este tipic pentru fenomenele socio-economice ca, împreună cu factorii semnificativi care formează nivelul unei trăsături efective, este influențat de mulți alți factori necontabiliați și aleatori. Aceasta indică faptul că interrelațiile dintre fenomenele studiate de statistică sunt de natură corelațională.

Corelație este o relație statistică între variabile aleatoare care nu au o natură strict funcțională, în care o modificare a uneia dintre variabilele aleatoare duce la o modificare a așteptării matematice ( mărime medie) un alt.

În statistică, se obișnuiește să se facă distincția între următoarele tipuri de dependențe.

1. Corelația de perechi - relația dintre două semne (eficient și factorial sau două factoriale).

2. Corelație parțială - relația dintre caracteristicile efective și un factor cu o valoare fixă ​​a altor caracteristici factoriale.

3. Corelație multiplă - dependența rezultatului și a două sau mai multe caracteristici factoriale incluse în studiu.

Sarcina analizei corelației este o determinare cantitativă a proximității relației dintre două trăsături (cu o relație de pereche) și dintre rezultantă și un set de trăsături factori (cu o relație multifactorială).

Etanșeitatea conexiunii este exprimată cantitativ prin valoarea coeficienților de corelație, care fac posibilă determinarea „utilității” semnelor factorilor în construirea ecuațiilor de regresie multiple. În plus, valoarea coeficientului de corelație servește ca evaluare a conformității ecuației de regresie cu relațiile cauza-efect identificate.

9.2. Estimarea etanșeității comunicării

Strângerea corelației dintre caracteristicile factoriale și rezultante poate fi calculată folosind următorii coeficienți: coeficientul de corelație empirică (coeficientul Fechner); coeficientul de asociere; coeficientul de conjugare reciprocă a lui Pearson și Chuprov; factor de contingență; coeficienții de corelație de rang ai lui Spearman și Kendall; coeficient de corelație liniară; corelație etc.

Cea mai complet strângere a relației caracterizează coeficientul de corelație liniară: , unde este media produselor valorilor caracteristicilor hu; – valorile medii ale caracteristicilor XȘi la; - abateri standard ale caracteristicilor XȘi y. Este folosit dacă relația dintre caracteristici este liniară.

Coeficientul de corelație liniară poate fi pozitiv sau negativ.

O valoare pozitivă indică o relație directă, o valoare negativă indică o relație inversă. Cu cât este mai aproape de ±1, cu atât relația este mai strânsă. Cu o relație funcțională între caracteristici = ±1. Apropierea de 0 înseamnă că relația dintre caracteristici este slabă.

9.3. Metode de analiză de regresie

Strâns legat de conceptul de corelare este conceptul regresie. Primul servește la evaluarea strângerii conexiunii, al doilea - explorează forma acesteia. Analiza corelației-regresiune, ca concept general, include măsurarea etanșeității și direcției conexiunii (analiza corelației) și stabilirea expresiei (formei) analitice a conexiunii (analiza de regresie).

După ce utilizarea analizei de corelație a relevat prezența unor relații statistice între variabile și a evaluat gradul de apropiere a acestora, se procedează la descrierea matematică a unui anumit tip de dependență folosind analiza de regresie. Pentru aceasta, este selectată o clasă de funcții care leagă indicatorul efectiv la si argumente x 1 , x 2 ,… xk, selectați cele mai informative argumente, calculați estimările valorilor necunoscute ale parametrilor de conexiune și analizați proprietățile ecuației rezultate.

O funcție care descrie dependența valorii medii a caracteristicii rezultate la din valorile date ale argumentelor, se numește functie de regresie (ecuatie). Regresia - o linie, un tip de dependență a semnului efectiv mediu de cel factorial.

Cea mai dezvoltată în teoria statisticii este metodologia corelației perechilor, care are în vedere influența variației atributului factorului x asupra efectivului y.

Ecuația de corelație în linie dreaptă are forma: .

Parametrii un 0Și a 1 se numesc parametrii ecuaţiei de regresie.

Pentru a determina parametrii ecuației de regresie, se utilizează metoda celor mai mici pătrate, care dă un sistem de două ecuații normale:

.

Rezolvând acest sistem într-o formă generală, se pot obține formule pentru determinarea parametrilor ecuației de regresie: ,

EXERCIȚII

Problema 9.1. 15 fabrici sunt clasate în ordinea crescătoare a rentabilității producției.

numarul companiei

Rentabilitatea producției, %

Producția unui muncitor, t/persoană

Costul unitar de producție, frecare.

Stabiliți prezența și forma unei corelații între rentabilitatea producției și a producției, rentabilitatea producției și costul unitar de producție folosind metodele graficelor statistice și ale analizei de regresie.

1. Cursul de teoria statisticii pentru formarea specialistilor in profilul financiar si economic : manual / Salin V. N. - M .: Finante si statistica, 2006. - 480 p.

2. Teoria generală a statisticii: un manual pentru studenți / M. R. Efimova, E. V. Petrova, V. N. Rumyantsev. - Ed. a II-a, corectată. si suplimentare - M. : INFRA-M, 2006. - 414 p.

3. Atelier de teoria generală a statisticii: manual / M.R. Efimova, O.I. Gancenko, E.V. Petrov. - Ed. a 3-a, revizuită. si suplimentare - M. Finanțe și statistică, 2007. - 368 p.

4. Atelier de statistică / A.P. Zinchenko, A.E., Shibalkin, O.B. Tarasova, E.V. Shaikin; Ed. A.P. Zincenko. - M.: KolosS, 2003. - 392 p.

5. Statistică: un manual pentru studenți. instituții medii. prof. educație / V.S. Mkhitaryan, T.A. Dubrova, V.G. Minashkin și alții; Ed. V.S. Mkhitaryan. - Ed. a III-a, șters. - M .: Centrul editorial „Academia”, 2004. -272 p.

6. Statistică: un manual pentru studenți / Sankt Petersburg. stat Universitatea de Economie și Finanțe; ed. I. I. Eliseeva. - M.: Învățământ superior, 2008. - 566 p.

7. Teoria statisticii: un manual pentru studenții specialităților economice ai universităților / R. A. Shmoylova [și alții]; ed. R. A. Shmoylova. - Ed. a 5-a. - M. : Finanțe și statistică, 2008. - 656 p.

Trimiteți-vă munca bună în baza de cunoștințe este simplu. Foloseste formularul de mai jos

Studenții, studenții absolvenți, tinerii oameni de știință care folosesc baza de cunoștințe în studiile și munca lor vă vor fi foarte recunoscători.

Găzduit la http://www.allbest.ru/

Lectura

Tema: Studiu statistic al relaţiei indicatorilor

1. Metode de corelare și analiză de regresie a relației dintre indicatorii activității comerciale

Studiul interrelațiilor pe piața de bunuri și servicii este cea mai importantă funcție a lucrătorilor economici. În același timp, este important ca studiul relației dintre indicatorii activității comerciale să fie necesar nu numai pentru a stabili faptul existenței unei relații. Pentru a fundamenta științific previzionarea și managementul rațional al mecanismului relațiilor de piață, este important să se acorde certitudine matematică relațiilor identificate. Fără o evaluare cantitativă a tiparelor de comunicare, este imposibil să aducem rezultatele evoluțiilor economice la un asemenea nivel încât să poată fi utilizate în scopuri practice.

Indicatorii statistici ai activității comerciale, reflectând interdependența obiectivă a aspectelor individuale ale activității comerciale, pot consta în următoarele tipuri principale de comunicare:

Relația de echilibru a indicatorilor de activitate comercială caracterizează relația dintre sursele de formare a fondurilor și utilizarea acestora. Se manifestă, de exemplu, în formula de bilanț al mărfurilor:

El + P \u003d B + Ok

Partea stângă a formulei caracterizează oferta, iar partea dreaptă - utilizarea resurselor de mărfuri. O semnificație practică importantă a formulei soldului mărfurilor este aceea că, în absența contabilității cantitative pentru vânzarea de mărfuri, aceasta este utilizată pentru a determina valoarea vânzărilor cu amănuntul a bunurilor individuale.

Relațiile componente ale indicatorilor de activitate comercială se caracterizează prin faptul că modificarea indicatorului statistic este determinată de modificarea componentelor incluse în acest indicator, ca multiplicatori:

a = b x c

În statisticile de afaceri, relațiile dintre componente sunt utilizate în metoda indexului pentru a identifica rolul factorilor individuali în măsurarea agregată a unui indicator complex.

ipq= Ip x Iq

Semnificația practică a indicatorilor care se află în relația dintre componente este că vă permite să determinați valoarea uneia dintre componentele necunoscute.

Relațiile factorilor se caracterizează prin faptul că apar într-o variație consistentă a indicatorilor studiați. În același timp, unii indicatori acționează ca factori factori, alții ca eficienți. La rândul lor, relațiile factorilor pot fi considerate funcționale și corelaționale. Cu o conexiune funcțională, modificarea caracteristicii efective (y) se datorează în întregime acțiunii caracteristicii factorului (x):

Cu o corelație, modificarea atributului rezultat (y) se datorează influenței atributului factorului (x) nu în întregime, ci doar parțial, deoarece influența altor factori (e) este posibilă:

Prin natura lor, corelațiile sunt conexiuni relative. Aici, cu aceeași valoare considerată a atributului factorului, sunt posibile valori diferite ale atributului rezultat. Acest lucru se datorează prezenței altor factori care pot fi diferiți ca compoziție, direcție și forță de acțiune asupra unităților individuale ale populației statistice. Prin urmare, pentru populația statistică studiată în ansamblu, aici se stabilește un astfel de raport în care o anumită modificare a atributului factorului corespunde modificării medii a indicatorului celui efectiv. În consecință, o trăsătură caracteristică a corelațiilor este că ele apar nu în cazuri izolate, ci într-o masă. Într-un studiu statistic al corelației, influența caracteristicilor factorilor luate în considerare este determinată atunci când sunt extrase din alte argumente. La studierea corelației, se pun următoarele sarcini:

verificarea prevederilor teoriei economice privind posibilitatea unei legături între indicatorii studiați și conferirea conexiunii identificate a unei forme analitice de dependență;

stabilirea unor estimări cantitative ale strângerii conexiunii, care caracterizează puterea influenței semnelor factorilor asupra celor efective.

Dacă se studiază relația dintre două trăsături, aceasta este o corelație de pereche. Dacă se studiază relația dintre multe trăsături, corelația este multiplă.

2. Construirea ecuaţiilor funcţiilor simulate

Cea mai dezvoltată în teoria statisticii este metodologia așa-numitei corelații de perechi. Când se studiază relația indicatorilor, se folosesc diferite tipuri de ecuații de relații rectilinie și curbilinie:

liniar -

parabolic -

hiperbolic -

Determinarea parametrilor ecuației de regresie începe cu faptul că se stabilește relația dintre indicatorii luați în considerare. Pentru aceasta, se calculează coeficientul de corelație de pereche:

Pentru a trage concluzii despre semnificația practică a coeficientului de corelație obținut, se face o evaluare calitativă pe baza scalei Chaddock:

Cu valorile indicatorilor de apropiere a conexiunii care depășesc 0,7, dependența atributului efectiv de factorul unu este mare, deoarece valoarea coeficientului de determinare va fi întotdeauna mai mare de 50%.

Coeficientul de determinare caracterizează ce proporție din indicatorul efectiv explică influența factorului studiat:

Prin urmare, dacă coeficientul de corelație depășește 0,7, există o relație între indicatorul efectiv și factorul studiat, ceea ce explică modificarea indicatorului efectiv față de factorul luat în considerare cu mai mult de 50%.

Exemplu: analizați datele privind prețul mediu al brânzei parmezan în regiunea Donețk pentru un număr de ani:

Salariul mediu, UAH

Astfel, există o dependență mare a salariului mediu lunar față de an și anume, 92% din salariu se explică prin modificarea anului.

3. Evaluarea adecvării și fiabilității ecuației

regresia corelației comerciale statistice

Parametrii funcțiilor alese pentru modelare pot fi găsiți în diferite moduri. Cea mai precisă metodă este metoda celor mai mici pătrate. Pe acesta, pentru fiecare dintre funcții, se formează un sistem special de ecuații:

liniar -

parabolic -

hiperbolic -

În fiecare dintre sisteme:

Y - indicator eficient;

X - indicator de timp;

N este numărul de observații;

A,b,c - parametrii modelului.

Numărătoarea inversă a indicatorului de timp începe de la 1. Pe baza valorilor cunoscute ale lui x și y, toate sumele sunt determinate și înlocuite în sistem. Ca rezultat, se obține un sistem de ecuații pentru parametri necunoscuți. La rezolvarea sistemului, valorile numerice specifice ale parametrilor sunt găsite și substituite în soluția funcțiilor de modelare, care trebuie evaluate și utilizate în practică.

Exemplu: să calculăm tabelul auxiliar:

Compunem sisteme de ecuații pentru trei funcții și găsim valorile parametrilor ecuațiilor:

model liniar: 1525 = 7a + 28b

7266 = 28a + 140b

a = -5,7 b = 53,04 y = -5,7+53,04x

model parabolic: 1525 = 7a + 28b + 140c

7266 = 28a + 140b + 784c

40248 = 140a + 784b + 4676c

a = 697,62 b = -114,08 c = 68,59 y = 697,62 - 114,08x + 68,59x2

model hiperbolic: 1525 = 7a + 2.59b

432,13 = 2,59a + 1,51b

a = 237,65 b = 53,49 y = 237,65 + 53,49/x

4. Estimarea parametrilor ecuației

Adecvarea modelului economic și matematic poate fi stabilită folosind eroarea medie de aproximare (procentul mediu de discrepanță între valorile teoretice și cele practice):

unde y1 - valorile reale ale indicatorului efectiv;

y0 - valori teoretice găsite de ecuație.

La modelarea indicatorilor economici, este permisă cel mai adesea o eroare de 5%. Modelul este considerat adecvat și, prin urmare, semnificativ dacă.

Alegerea celui mai optim model se poate face pe baza abaterii standard reziduale (varianta reziduala):

unde l este numărul de parametri ai ecuației.

Cea mai bună funcție este cea cu cea mai mică varianță reziduală.

Evaluați fiabilitatea ecuației folosind criteriul Fisher, ținând cont de statisticile F:

unde este valoarea medie a indicatorului efectiv.

Cu cât valoarea calculată a criteriului F este mai mare, cu atât modelul calculat este mai semnificativ. Valoarea calculată este comparată cu valoarea critică, care se regăsește în tabelele de distribuție Fisher pentru gradele de libertate (l-1) și (n-l), stabilind un nivel de semnificație de 0,05 (eroare de 5%). Dacă, tabelul F>F, atunci ecuația este considerată fiabilă cu o probabilitate de 0,95. În caz contrar, ecuația nu este considerată fiabilă.

Calcul pentru o funcție liniară:

Apropiere

(U0 - U0med)2

F-tabel - 230.2

pentru functia parabolica:

Apropiere

(U0 - U0med)2

F-table - 19.25

pentru o funcție hiperbolică:

Apropiere

(U0 - U0med)2

F-tabel - 230.2

Astfel, niciuna dintre funcțiile prezentate nu este suficient de fiabilă și nu are nicio semnificație practică din cauza discrepanțelor mari între valorile teoretice și cele reale ale indicatorului efectiv.

Pentru a caracteriza conținutul economic al parametrilor ecuațiilor, cea mai potrivită este utilizarea coeficienților de elasticitate, care caracterizează câte procente se va modifica în medie funcția cu o modificare a argumentului cu 1% cu o valoare fixă ​​a factorilor rămași. la un anumit nivel:

unde Ei - coeficientul de elasticitate al factorului i;

Parametrii de regresie ai factorului i;

Valoarea medie a factorului i;

Valoarea medie a indicatorului efectiv.

Găzduit pe Allbest.ru

...

Documente similare

    Concepte de bază ale analizei corelație-regresie. Calculul indicatorilor forței și etanșeității conexiunii dintre fenomene și procese, specificul interpretării acestora. Evaluarea rezultatelor analizei de regresie liniară. Coeficient de determinare multiplu.

    test, adaugat 04.02.2013

    Analiza esenței profitului, rolul acestuia în activitățile întreprinderii, precum și procedura de calcul și analiză a acestuia prin metode statistice. Conceptul de rentabilitate și studiul statistic al indicatorilor săi. Utilizarea eșantionării și a metodei în probleme financiare și economice.

    lucrare de termen, adăugată 12.12.2012

    Studiu statistic al serii temporale, tipuri de indicatori. Calculul coeficientului de închidere. Indicator de lanț și bază. Nivelul mediu al intervalului dinamic. Determinarea tiparului general în desfăşurarea fenomenului. Studiu statistic al fluctuațiilor sezoniere.

    prelegere, adăugată 27.04.2013

    Principalele caracteristici, sarcini și condiții preliminare pentru utilizarea metodei corelație-regresie. Metode de corelare și analiză de regresie. Kendall, Spearman, Coeficientul de corelare a rangului Fechner. Determinarea strângerii relației dintre indicatori.

    test, adaugat 04.08.2013

    Studiu statistic și metode de calcul a indicatorilor volumului producției de produse și servicii. Analiza dependenței numărului de infracțiuni de numărul șomerilor din regiunea centrală a Rusiei folosind un pachet de programe aplicate pentru prelucrarea foilor de calcul.

    lucrare de termen, adăugată 19.03.2010

    Studiu statistic al productivității muncii. Analiza grupărilor structurale. Tipuri și sarcini de grupări, conexiuni între ele. Tehnica grupării. Formula Sturgess. Statistica raportului capital-muncă, productivitatea muncii și active fixe.

    lucrare de termen, adăugată 15.01.2009

    Studiu statistic al dinamicii indicatorilor pieţei asigurărilor. Construirea unei serii statistice de grupare a societăților de asigurări după valoarea veniturilor în numerar, calculul caracteristicilor unei serii de distribuție. Calculul erorii de eșantionare a venitului mediu.

    lucrare de termen, adăugată 01/03/2010

    Forme și sisteme de remunerare, gradul de prevalență a acestora la întreprinderea SA „OZSK”. Studiu statistic al componenței și structurii fondului de salarii al întreprinderii. Calculul și analiza dinamicii masei salariale, factori determinanți. Cuantificarea indicatorilor.

    lucrare de termen, adăugată 08.11.2011

    Analiza corelație-regresie ca obiect de studiu statistic, sistem de indicatori statistici care o caracterizează. Caracteristici și principii de aplicare a metodei analizei de corelare și regresie. Construirea unei serii statistice de distribuţie.

    lucrare de termen, adăugată 28.01.2014

    Forme și sisteme de remunerare și gradul de prevalență în întreprindere. Studiu statistic al componenței și structurii fondului de salarii al întreprinderii. Analiza și calculul indicatorilor dinamicii salarizării. Evaluarea cantitativă a factorilor care îi determină dinamica.

8.1. Concepte de bază ale analizei de corelare și regresie

Explorând natura, societatea, economia, este necesar să se țină cont de relația dintre procesele și fenomenele observate. În același timp, completitudinea descrierii este oarecum determinată de caracteristicile cantitative ale relațiilor cauză-efect dintre ele. Evaluarea celor mai semnificative dintre ele, precum și impactul unor factori asupra altora, este una dintre sarcinile principale ale statisticii.

Formele de manifestare a interrelațiilor sunt foarte diverse. Ca cele două tipuri cele mai comune alocă funcțional(complet) și corelație conexiune (incompletă). În primul caz, valoarea atributului factorului corespunde strict uneia sau mai multor valori ale funcției. Destul de des, conexiunea funcțională se manifestă în fizică, chimie. În economie, un exemplu este direct dependență proporționalăîntre productivitatea muncii și creșterea producției.

Corelația (care se mai numește și incompletă, sau statistică) apare în medie, pentru observațiile de masă, atunci când valorile date ale variabilei dependente corespund unui anumit număr de valori probabile ale variabilei independente. Explicația pentru aceasta este complexitatea relațiilor dintre factorii analizați, a căror interacțiune este influențată de variabile aleatoare neevaluate. Prin urmare, relația dintre semne se manifestă doar în medie, în masa cazurilor. Cu o corelație, fiecare valoare a argumentului corespunde unor valori distribuite aleatoriu ale funcției într-un anumit interval.

De exemplu, o anumită creștere a argumentului va presupune doar o creștere sau o scădere medie (în funcție de direcția) funcției, în timp ce valorile specifice pentru unitățile individuale de observație vor diferi de medie. Aceste dependențe sunt omniprezente. De exemplu, în agricultură, aceasta poate fi relația dintre randament și cantitatea de îngrășământ aplicată. Evident, acestea din urmă sunt implicate în formarea culturii. Dar pentru fiecare câmp, parcelă specifică, aceeași cantitate de îngrășăminte aplicate va determina o creștere diferită a randamentului, deoarece există o serie de alți factori (vtememea, condițiile solului etc.) în interacțiune care formează rezultatul final. Cu toate acestea, în medie, se observă o astfel de relație - o creștere a masei îngrășămintelor aplicate duce la o creștere a randamentului.

În direcția comunicării, există Drept, când variabila dependentă crește odată cu creșterea trăsăturii factorului și verso, la care creşterea acestuia din urmă este însoţită de o scădere a funcţiei. Astfel de relații pot fi numite și pozitive și, respectiv, negative.

În ceea ce privește forma lor analitică de comunicare, există liniarȘi neliniară.În primul caz, în medie, între semne apar relații liniare. O relație neliniară este exprimată printr-o funcție neliniară, iar variabilele sunt interconectate în medie neliniar.

Mai există o caracteristică destul de importantă a conexiunilor din punctul de vedere al factorilor de interacțiune. Dacă se caracterizează o relație între două caracteristici, atunci se numește baie de aburi. Dacă sunt studiate mai mult de două variabile − multiplu.

Caracteristicile de clasificare de mai sus se găsesc cel mai adesea în analiza statistică. Dar pe lângă cele de mai sus, există și direct indirectȘi fals conexiuni. De fapt, esența fiecăruia dintre ele este evidentă din nume. În primul caz, factorii interacționează direct între ei. O relație indirectă se caracterizează prin participarea unei a treia variabile, care mediază relația dintre trăsăturile studiate. O conexiune falsă este o legătură stabilită formal și, de regulă, confirmată doar de estimări cantitative. Nu are o bază calitativă sau este lipsită de sens.

Ele diferă ca putere slabȘi puternic conexiuni. Această caracteristică formală este exprimată prin valori specifice și este interpretată în conformitate cu criteriile general acceptate pentru puterea conexiunii pentru indicatori specifici.

În cea mai generală formă, sarcina statisticii în domeniul studierii relațiilor este de a cuantifica prezența și direcția acestora, precum și de a caracteriza puterea și forma influenței unor factori asupra altora. Pentru a o rezolva, se folosesc două grupe de metode, dintre care una include metodele de analiză a corelației, iar cealaltă - analiza de regresie. În același timp, o serie de cercetători combină aceste metode într-o analiză de corelație-regresie, care are unele temeiuri: prezența unui număr de proceduri computaționale comune, complementaritatea în interpretarea rezultatelor etc.

Prin urmare, în acest context, putem vorbi despre analiza corelației în sens larg - atunci când relația este caracterizată cuprinzător. În același timp, există analize de corelație în sens restrâns - când se studiază forța conexiunii - și analize de regresie, în cadrul cărora se evaluează forma acesteia și impactul unor factori asupra altora.

Sarcini adecvate analiza corelației sunt reduse la măsurarea gradului de apropiere a relației dintre caracteristicile variate, identificarea relațiilor cauzale necunoscute și evaluarea factorilor care au cel mai mare impact asupra caracteristicii rezultate.

Sarcini analiza regresiei se află în domeniul stabilirii formei de dependență, determinând funcția de regresie, folosind o ecuație pentru a estima valori necunoscute ale variabilei dependente.

Rezolvarea acestor probleme se bazează pe tehnici, algoritmi, indicatori corespunzători, a căror utilizare dă motiv să vorbim despre studiul statistic al relațiilor.

Trebuie remarcat faptul că metodele tradiționale de corelare și regresie sunt larg reprezentate în diverse pachete software statistice pentru calculatoare. Singurul lucru care îi mai rămâne cercetătorului este să pregătească corect informațiile, să aleagă un pachet software care să satisfacă cerințele analizei și să fie gata să interpreteze rezultatele. Există mulți algoritmi pentru calcularea parametrilor de comunicare, iar în prezent nu este recomandabil să se efectueze astfel de vedere complexă analiza manuala. Procedurile de calcul sunt de interes independent, dar cunoașterea principiilor studierii relațiilor, posibilităților și limitărilor anumitor metode de interpretare a rezultatelor este o condiție prealabilă pentru cercetare.

Metodele de evaluare a etanșeității conexiunii sunt împărțite în corelație (parametrică) și neparametrică. Metodele parametrice se bazează pe utilizarea, de regulă, a estimărilor de distribuție normală și sunt utilizate în cazurile în care populația studiată este formată din cantități care respectă legea distribuției normale. În practică, această poziție este luată cel mai adesea a priori. De fapt, aceste metode sunt parametrice și sunt denumite în mod obișnuit metode de corelare.

Metodele neparametrice nu impun restricții asupra legii de distribuție a cantităților studiate. Avantajul lor este și simplitatea calculelor.

8.2. Corelația perechilor și regresia liniară a perechilor

Cea mai simplă tehnică pentru identificarea unei relații între două caracteristici este construirea tabel de corespondență:

\Y
\
X\
Y 1 Y2 ... Yz Total Y eu
x1 f 11 12 ... f 1z
x1 f 21 22 ... f2z
... ... ... ... ... ... ...
X r f k1 k2 ... fkz
Total ... n
... -

Gruparea se bazează pe două trăsături studiate în relația - X și Y. Frecvențele f ij arată numărul de combinații corespunzătoare de X și Y. Dacă f ij sunt aranjate aleator în tabel, se poate vorbi despre absența unei relații între variabilele. În cazul formării oricărei combinații caracteristice f ij, este permisă afirmarea unei conexiuni între X și Y. În acest caz, dacă f ij este concentrată în apropierea uneia dintre cele două diagonale, există o relație liniară directă sau inversă.

O reprezentare vizuală a tabelului de corelare este câmpul de corelare. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate de-a lungul axei ordonatelor, iar combinația de X și Y este reprezentată prin puncte. Prin locația punctelor, concentrația lor într-un anumită direcție, se poate judeca prezența unei conexiuni.

În rezultatele tabelului de corelare pentru rânduri și coloane sunt date două distribuții - una pentru X, cealaltă pentru Y. Să calculăm pentru fiecare X i valoarea medie a lui Y, adică. , Cum

Secvența de puncte (X i , ) oferă un grafic care ilustrează dependența valorii medii a caracteristicii efective Y de factorul X, - linia de regresie empirică, arătând cum se schimbă Y pe măsură ce X se schimbă.

În esență, atât tabelul de corelație, cât și câmpul de corelație, cât și linia de regresie empirică caracterizează deja relația dinainte, atunci când sunt selectate trăsăturile factoriale și rezultate și se impune formularea de ipoteze despre forma și direcția relației. În același timp, o evaluare cantitativă a proximității conexiunii necesită calcule suplimentare.

În practică, pentru a cuantifica etanșeitatea conexiunii, liniarul coeficient de corelație. Uneori este denumit pur și simplu coeficientul de corelație. Dacă sunt date valorile variabilelor X și Y, atunci se calculează prin formula

Puteți utiliza alte formule, dar rezultatul ar trebui să fie același pentru toate opțiunile de calcul.

Coeficientul de corelație ia valori în intervalul de la -1 la + 1. Este general acceptat că dacă |r| < 0,30, то связь слабая; при |r| = (0,3÷0,7) – medie; la |r| > 0,70 - puternic sau aproape. Când |r| = 1 – conexiune funcțională. Dacă r ia o valoare apropiată de 0, atunci acest lucru dă motive să vorbim despre absența unei relații liniare între Y și X. Cu toate acestea, în acest caz, este posibilă o interacțiune neliniară. care necesită verificare suplimentară și alte contoare discutate mai jos.

Pentru a caracteriza influența modificărilor în X asupra variației în Y, se folosesc metode de analiză de regresie. În cazul unei dependențe liniare pereche, se construiește un model de regresie

unde n numărul de observații;
a 0 , a 1 – parametrii necunoscuți ai ecuației;
e i este eroarea variabilei aleatoare Y.

Ecuația de regresie se scrie ca

unde Y itheor este valoarea egalizată calculată a caracteristicii efective după înlocuirea în ecuația X.

Parametrii a 0 și a 1 sunt estimați folosind proceduri, dintre care cel mai utilizat este metoda celor mai mici pătrate. Esența sa constă în faptul că cele mai bune estimări pentru ag și a se obțin atunci când

acestea. suma abaterilor pătrate ale valorilor empirice ale variabilei dependente față de cele calculate folosind ecuația de regresie ar trebui să fie minimă. Suma abaterilor pătrate este o funcție a parametrilor a 0 și a 1 . Minimizarea acestuia se realizează prin rezolvarea sistemului de ecuații

Puteți folosi alte formule care decurg din metoda celor mai mici pătrate, de exemplu:

Aparatul de regresie liniară este destul de bine dezvoltat și, de regulă, este disponibil într-un set de programe standard pentru evaluarea relației pentru un computer. Semnificația parametrilor este importantă: iar 1 este un coeficient de regresie care caracterizează efectul pe care o modificare a lui X îl are asupra lui Y. Arată câte unități Y se vor schimba în medie atunci când X se schimbă cu o unitate. Dacă a este mai mare decât 0, atunci se observă o relație pozitivă. Dacă a are o valoare negativă, atunci o creștere a lui X cu unu implică o scădere a lui Y în medie cu a 1 . Parametrul a 1 are dimensiunea raportului Y la X.

Parametrul a 0 este o valoare constantă în ecuația de regresie. În opinia noastră, nu are sens economic, dar în unele cazuri este interpretat ca valoarea initiala U.

De exemplu, conform datelor privind costul echipamentului X și productivitatea muncii Y, metoda celor mai mici pătrate a obținut ecuația

Y \u003d -12,14 + 2,08X.

Coeficientul a înseamnă o creștere a costului echipamentului cu 1 milion de ruble. duce în medie la o creștere a productivității muncii cu 2,08 mii de ruble.

Valoarea funcției Y \u003d a 0 + a 1 X se numește valoarea calculată și se formează pe grafic linia de regresie teoretică.

Sensul regresiei teoretice este că este o estimare a valorii medii a variabilei Y pentru o valoare dată a lui X.

Corelația perechilor sau regresia perechilor poate fi considerată ca un caz special de reflectare a relației dintre o variabilă dependentă, pe de o parte, și una dintre numeroasele variabile independente, pe de altă parte. Când se cere să se caracterizeze relația întregului set specificat de variabile independente cu atributul rezultat, se vorbește de corelație multiplă sau regresie multiplă.

8.3. Evaluarea semnificației parametrilor de relație

După obținerea estimărilor de corelație și regresie, este necesar să le verificăm pentru conformitatea cu parametrii adevărați ai relației.

Programele de calculator existente includ, de regulă, câteva dintre cele mai comune criterii. Pentru a evalua semnificația coeficientului de corelație de pereche, se calculează eroarea standard a coeficientului de corelație:

Ca o primă aproximare, este necesar ca . Semnificația lui r xy se verifică comparând-o cu , și se obține

unde t calc este așa-numita valoare calculată a criteriului t.

Dacă t calc este mai mare decât valoarea teoretică (tabelară) a testului t Student (t tabl) pentru un anumit nivel de probabilitate și (n-2) grade de libertate, atunci se poate argumenta că rxy este semnificativ.

În mod similar, pe baza formulelor corespunzătoare, se calculează erorile standard ale parametrilor ecuației de regresie și apoi testele t pentru fiecare parametru. Este important să verificați din nou dacă starea t calc > t tab. În caz contrar, nu există niciun motiv pentru a avea încredere în estimarea parametrului obținut.

Concluzia despre alegerea corectă a tipului de relație și caracteristica semnificației întregii ecuații de regresie se obține folosind criteriul F, calculând valoarea sa calculată:

unde n este numărul de observații;
m este numărul de parametri ai ecuației de regresie.

F calc ar trebui să fie, de asemenea, mai mare decât F teor la v 1 = (m-1) și v 2 = (n-m) grade de libertate. În caz contrar, forma ecuației, lista de variabile etc., ar trebui revizuite.

8.4. Metode neparametrice pentru estimarea relațiilor

Metodele de analiză a corelației și a varianței nu sunt universale: pot fi aplicate dacă toate caracteristicile studiate sunt cantitative. Atunci când se utilizează aceste metode, nu se poate face fără calcularea principalelor parametrii de distribuție (medii, variații), deci se numesc metode parametrice.

Între timp, în practica statistică, trebuie să se confrunte cu problemele de măsurare a relației dintre caracteristicile calitative, cărora nu sunt aplicabile metodele parametrice de analiză în forma lor obișnuită. Știința statistică a dezvoltat metode care pot fi utilizate pentru a măsura relația dintre fenomene fără a utiliza valorile cantitative ale atributului și, prin urmare, parametrii de distribuție. Se numesc astfel de metode neparametric.

Dacă se studiază relația dintre două trăsături calitative, atunci distribuția combinațională a unităților populației este utilizată sub forma așa-numitei tabele de reticulare.

Să considerăm metoda de analiză a tabelelor de contingență reciprocă pe un exemplu specific de mobilitate socială ca un proces de depășire a izolării anumitor grupuri sociale și profesionale ale populației. Mai jos sunt date despre distribuția absolvenților de liceu pe sfere de ocupare cu alocarea grupurilor sociale similare ale părinților lor.

Distribuția frecvențelor în rândurile și coloanele tabelului de cuplare încrucișată face posibilă identificarea principalelor modele de mobilitate socială: 42,9% dintre copiii părinților din grupa 1 („Industrie și construcții”) sunt angajați în domeniul munca intelectuala (39 din 91); 38,9% dintre copii. ai căror părinți lucrează în agricultură, lucrează în industrie (34 din 88) etc.

Se poate observa și o ereditate clară în transferul de profesii. Astfel, dintre cei care au venit în agricultură, 29 de persoane, sau 64,4%, sunt copii ai muncitorilor agricoli; peste 50% din domeniul muncii intelectuale au parinti din acelasi grup social etc.

Cu toate acestea, este important să obțineți un indicator de generalizare care să caracterizeze proximitatea relației dintre trăsături și să vă permită să comparați manifestarea relației în diferite populații. În acest scop, de exemplu, coeficienții de conjugare Pearson (C) și Chuprov (C):

unde f 2 este indicele de contingență rădăcină-pătrată medie, determinat prin scăderea unuia din suma raporturilor pătratelor frecvențelor fiecărei celule din tabelul de corelare la produsul frecvențelor coloanei și rândului corespunzătoare:

K 1 și K 2 - numărul de grupuri pentru fiecare dintre semne. Valoarea coeficientului de contingență reciprocă, reflectând apropierea relației dintre caracteristicile calitative, fluctuează în intervalul obișnuit pentru acești indicatori de la 0 la 1.

În studiile socio-economice, există adesea situații în care o trăsătură nu este exprimată cantitativ, dar unitățile populației pot fi ordonate. Se numește o astfel de ordonare a unităților populației în funcție de valoarea atributului clasament. Exemple pot fi clasarea elevilor (elevilor) în funcție de abilitățile lor, orice set de oameni în funcție de nivelul de educație, profesie, capacitatea de a fi creativ etc.

La clasare, fiecare unitate a populației este atribuită rang, acestea. număr de serie. Dacă valoarea atributului este aceeași pentru unități diferite, li se atribuie un număr de serie mediu combinat. De exemplu, dacă unitățile a 5-a și a 6-a ale populației au aceleași valori ale caracteristicilor, ambele vor primi un rang egal cu (5 + 6) / 2 = 5,5.

Relația dintre caracteristicile clasate este măsurată folosind coeficienții de corelație de rang Spearman (r) și Kendall (t). Aceste metode sunt aplicabile nu numai pentru indicatorii calitativi, ci și cantitativi, în special cu o populație mică, deoarece metodele neparametrice de corelare a rangului nu sunt asociate cu nicio restricție privind natura distribuției unei caracteristici.

Anterior

Vizualizări