Erori de eșantionare medii și marginale. Erori medii ale eșantionării repetate și care nu se repetă

Populația statistică- o mulțime de unități cu caracter de masă, tipicitate, uniformitate calitativă și prezență a variației.

Populația statistică este formată din obiecte materiale existente (Muncitori, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație - fiecare unitate specifică a populației statistice.

Una și aceeași populație statistică poate fi omogenă într-un fel și eterogenă în alta.

Uniformitate de calitate - similaritatea tuturor unităților populației într-un fel și disensibilitatea în toate celelalte.

Într-o populație statistică, diferențele dintr-o unitate a populației față de alta au adesea o natură cantitativă. Modificările cantitative ale valorilor trăsăturii diferitelor unități ale populației se numesc variație.

Variație caracteristică - schimbarea cantitativă a unui semn (pentru un semn cantitativ) în timpul tranziției de la o unitate a populației la alta.

Semn- această proprietate, o caracteristică sau o altă caracteristică a unităților, obiectelor și fenomenelor, care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Se numește varietatea și variabilitatea valorii caracteristicilor unităților individuale ale populației variație.

Semnele atributive (calitative) nu sunt susceptibile de exprimare numerică (compoziția populației în funcție de sex). Semnele cantitative au o expresie numerică (compoziția populației după vârstă).

Index Este o caracteristică calitativă generalizantă a unei proprietăți a unităților sau agregatelor în obiective în condiții specifice de timp și loc.

Scorecard - Acesta este un set de indicatori care reflectă în mod cuprinzător fenomenul studiat.

De exemplu, salariul este studiat:
  • Semnează - plătește
  • Populația statistică - toți angajații
  • Unitatea de populație - fiecare angajat
  • Uniformitate de calitate - salariu acumulat
  • Variație caracteristică - o serie de numere

Populația și selecția din aceasta

Baza este o mulțime de date obținute prin măsurarea uneia sau mai multor caracteristici. O adevărată colecție observabilă de obiecte, reprezentată statistic de o serie de observații ale unei variabile aleatorii, este eșantionareși ipotetic existente (imaginate) - populația generală. Populația poate fi finită (număr de observații N \u003d const) sau infinit ( N \u003d ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Numărul de cazuri care compun eșantionul este apelat marime de mostra. Dacă dimensiunea eșantionului este suficient de mare ( n → ∞) eșantionul este considerat marealtfel se numește selecție volum limitat. Proba este considerată micdacă, la măsurarea unei variabile aleatorii unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ) și când măsurați mai multe ( k) semne în spațiul multidimensional nla knu depășește 10 (n / k< 10) . Formularele de selecție serie de variațiidacă membrii săi sunt statistici ordinaleadică, valorile eșantionului unei variabile aleatorii X ordonat în ordine crescătoare (clasat), valorile atributului sunt numite opțiuni.

Exemplu. Aproape același set de obiecte selectate la întâmplare - băncile comerciale ale unui district administrativ al Moscovei, pot fi considerate ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion al populației generale a tuturor băncilor comerciale din Moscova, precum și un eșantion de bănci comerciale ale țării și etc.

Principalele metode de organizare a eșantionării

Fiabilitatea concluziilor statistice și o interpretare semnificativă a rezultatelor depind reprezentativitate prelevare de probe, adică completitatea și adecvarea prezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăților statistice ale populației poate fi organizat în două moduri: folosirea solid și incomplet. Observație completăprevede o examinare a tuturor unități studiat agregat, și observare incompletă (selectivă) - numai părți din ea.

Există cinci moduri principale de organizare a observării probelor:

1. selecție aleatorie simplăîn care obiectele sunt extrase aleatoriu din populația generală de obiecte (de exemplu, folosind un tabel sau un senzor de numere aleatoare), fiecare dintre probele posibile având probabilitate egală. Astfel de probe sunt numite adecvat la întâmplare;

2. selecție simplă cu o procedură regulată se realizează folosind componenta mecanică (de exemplu, data, ziua săptămânii, numărul apartamentului, literele alfabetului etc.), iar mostrele obținute în acest mod sunt numite mecanic;

3. stratificat selecția este aceea că populația totală a volumului este împărțită în subseturi sau straturi (straturi) din volum, astfel încât. Stratele sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau apartenență socială; întreprinderi - după industrie). În acest caz, se numesc probele stratificat (in caz contrar stratificat, tipic, zonat);

4. metode serial selecția este utilizată pentru a forma serial sau probe de cuibărit. Sunt convenabile dacă trebuie să examinați imediat „blocul” sau o serie de obiecte (de exemplu, un lot de mărfuri, produse dintr-o anumită serie sau o populație din diviziunea administrativ-teritorială a țării). Selectarea seriei poate fi realizată într-un mod aleatoriu sau mecanic. În acest caz, se efectuează o examinare continuă a unei anumite loturi de bunuri sau a unei întregi unități teritoriale (o clădire rezidențială sau un bloc);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificate și aleatorii sau aleatorii și mecanice); o astfel de probă se numește combinate.

Tipuri de selecție

De minte selecția individuală, de grup și combinată se disting. La selecție individuală unități individuale ale populației generale sunt selectate în eșantion selectarea grupului - grupuri (serii) omogene calitative de unități și selecție combinată implică o combinație de primul și al doilea tip.

De metodăselectia distinge repetat și nerepetat prelevare de probe.

nerepetatăse numește selecția în care unitatea care a căzut în eșantion nu se întoarce la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unități ale populației N redus în timpul procesului de selecție. La re selecţie lovit după înregistrare, unitatea este returnată populației după înregistrare și menține astfel o șansă egală, împreună cu alte unități, pentru a fi utilizate în procedura de selecție suplimentară; în timp ce numărul de unități ale populației N rămâne neschimbată (metoda este rar folosită în studiile socio-economice). Cu toate acestea, cu un mare N (N → ∞) formule pentru nerepetată selecție apropiindu-se similar pentru re selecție și aproape mai des folosită din urmă ( N \u003d const).

Principalele caracteristici ale parametrilor populației generale și a eșantionului

Concluziile statistice ale studiului se bazează pe distribuția unei variabile aleatorii, valorile observate (x 1, x 2, ..., x n) numite realizări aleatoare variabile X (n este dimensiunea eșantionului). Distribuția unei variabile aleatorii în populația generală este teoretică, ideală, iar contrapartida sa selectivă este empiric distribuție. Unele distribuții teoretice sunt date analitic, adică. lor parametrii determinați valoarea funcției de distribuție la fiecare punct din spațiul valorilor posibile ale unei variabile aleatorii. Pentru un eșantion, funcția de distribuție este dificil de determinat și, prin urmare, uneori imposibilă parametrii evaluați în funcție de date empirice, apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, presupunerea (sau ipoteză) privind tipul de distribuție poate fi atât corect statistic, cât și eronat. În orice caz, distribuția empirică reconstruită din eșantion nu o caracterizează decât pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimata și variație.

Distribuțiile sunt inerente continuu și distinct. Cea mai cunoscută distribuție continuă este normal. Analogii selectați ai parametrilor pentru aceasta sunt: \u200b\u200bvaloarea medie și variația empirică. Printre cele discrete din studiile socio-economice, este cel mai des utilizat alternativă (dicotomă) distribuție. Parametrul de așteptare matematică al acestei distribuții exprimă o valoare relativă (sau acțiune) unități ale populației care posedă trăsătura studiată (este indicată prin scrisoare); proporția populației care nu are acest atribut este indicată prin scrisoare q (q \u003d 1 - p). Dispersia distribuției alternative are, de asemenea, un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților populației, caracteristicile parametrilor de distribuție sunt calculate diferit. Cele principale pentru distribuțiile teoretice și empirice sunt prezentate în tabel. 9.1.

Fracțiunea de eșantionare k n numit raportul dintre numărul de unități de eșantion și numărul de unități ale populației:

k n \u003d n / N.

Ponderea selectivă w Este raportul dintre unitățile care dețin trăsătura studiată x la dimensiunea eșantionului n:

w \u003d n n / n.

Exemplu. Într-un lot de mărfuri conținând 1000 de unități, cu un eșantion de 5% fracțiune probă k n în valoare absolută este de 50 de unități. (n \u003d N * 0,05); dacă în acest eșantion se găsesc 2 produse defecte, atunci rata ratei căsătoriei w va fi 0,04 (w \u003d 2/50 \u003d 0,04 sau 4%).

Întrucât eșantionul este diferit de cel general, erori de prelevare.

Tabelul 9.1 Parametrii principali ai populației generale și a eșantionului

Erori de eșantionare

Pentru orice (continuă și selectivă) pot apărea erori de două tipuri: înregistrare și reprezentativitate. Greșeli înregistrare poate avea aleatoriu și sistematic caracter. Aleatoriu erorile sunt formate din mai multe cauze incontrolabile diferite, sunt neintenționate și de obicei se echilibrează între ele (de exemplu, modificări ale performanței dispozitivului în timpul fluctuațiilor de temperatură din încăpere).

Sistematic erorile sunt părtinitoare, deoarece încalcă regulile de selectare a obiectelor dintr-un eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua starea socială a populației din oraș, 25% dintre familii sunt chestionate. Dacă în același timp alegerea fiecărui al patrulea apartament este bazată pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va asigura o eroare sistematică și va denatura rezultatele; alegerea numărului apartamentului prin lot este de preferat, deoarece eroarea va fi întâmplătoare.

Greșeli de reprezentativitate inerente numai observației selective, ele nu pot fi evitate și apar ca urmare a faptului că populația eșantionului nu o reproduce pe deplin. Valorile indicatorilor obținuți din eșantion diferă de indicatorii cu aceleași valori din populația generală (sau obținute din observarea continuă).

Eroare de eșantionare există o diferență între valoarea parametrului din populație și valoarea eșantionului său. Pentru valoarea medie a unei caracteristici cantitative, aceasta este egală cu:, și pentru o fracție (atribut alternativ) -.

Erorile de eșantionare sunt caracteristice numai observațiilor probei. Cu cât sunt mai mari aceste erori, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice sunt variabile aleatorii, de aceea, erorile de eșantionare sunt de asemenea variabile aleatorii, pot lua valori diferite pentru eșantioane diferite și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionareexistă o valoare care exprimă abaterea pătrată medie a probei medii de la așteptarea matematică. Această valoare, sub rezerva principiului selecției aleatorii, depinde în primul rând de dimensiunea eșantionului și de gradul de variație a trăsăturii: cu cât și mai mică este variația trăsăturii (de aici și valoarea), cu atât este mai mică valoarea erorii medii de eșantionare. Raportul dintre variațiile populațiilor generale și ale eșantionului este exprimat prin formula:

acestea. pentru suficient de mare putem presupune că. Eroarea medie de eșantionare arată abaterile posibile ale parametrului de eșantion de la parametrul general. In masa. Figura 9.2 prezintă expresiile pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 9.2 Eroarea medie (m) a probei medii și a cotei pentru diferite tipuri de eșantioane

Unde este media variațiilor de probă intragrup pentru o trăsătură continuă;

Media variațiilor intragrupului fracției;

- numărul de serii selectate; - numărul total de serii;

,

unde este seria de mijloc;

- media totală pentru întregul eșantion pentru un atribut continuu;

,

unde este proporția caracteristicii din seria a zece;

- ponderea totală a caracteristicii pe întregul eșantion.

Cu toate acestea, magnitudinea erorii medii poate fi judecată numai cu o anumită probabilitate P (P ≤ 1). Lyapunov A.M. a dovedit că distribuția mediilor eșantionului și, prin urmare, abaterile acestora față de media generală, cu un număr suficient de mare, respectă aproximativ legea normală de distribuție, cu condiția ca populația generală să aibă o medie finită și o dispersie limitată.

Din punct de vedere matematic, această afirmație pentru medie este exprimată astfel:

și pentru o fracțiune, expresia (1) va lua forma:

unde - există eroare de eșantionare marginalăceea ce reprezintă un multiplu din eroarea medie de eșantionare , iar coeficientul multiplicității este criteriul Studentului („coeficient de încredere”), propus de SUA Gosset (poreclă „Student”); valorile pentru diferite dimensiuni de eșantion sunt stocate într-un tabel special.

Valorile funcției Ф (t) pentru unele valori ale t sunt egale cu:

Prin urmare, expresia (3) poate fi citită după cum urmează: cu probabilitate P \u003d 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m (t \u003d 1)cu probabilitate P \u003d 0,954 (95,4%) - că nu depășește valoarea a două erori medii m (t \u003d 2), cu probabilitate P \u003d 0,997 (99,7%) - nu depășește trei valori m (t \u003d 3).Astfel, probabilitatea ca această diferență să depășească de trei ori determinarea erorii medii nivel de eroare și nu mai este 0,3% .

In masa. 9.3 sunt formulate pentru calcularea erorii de eșantionare marginală.

Tabelul 9.3 Eroarea marginală (D) a eșantionului pentru media și fracția (p) pentru diferite tipuri de observare a eșantionului

Distribuirea rezultatelor eșantionului către populație

Scopul final al observării eșantionului este caracterizarea populației generale. Pentru mărimi mici ale eșantionului, estimările empirice ale parametrilor (parametrilor) pot devia semnificativ de la valorile lor reale. Prin urmare, este necesar să se stabilească limitele în care valorile adevărate (și) se află pentru valorile de eșantion ale parametrilor (și).

Interval de încredereorice parametru θ al populației generale este denumit un interval aleatoriu de valori ale acestui parametru, care este probabil să fie aproape de 1 ( fiabilitate) conține adevărata valoare a acestui parametru.

Eroare marginală eșantionare Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încrederecare sunt egale cu:

Linia de jos interval de încredere obținute prin scăderea eroare marginală din media eșantionului (share) și din partea de sus - prin adăugarea acesteia.

Interval de încredere pentru medie se utilizează eroarea de eșantionare marginală și pentru un nivel dat de încredere este determinat de formula:

Aceasta înseamnă că, cu o probabilitate dată R, care se numește nivel de încredere și este determinat în mod unic de valoare t, se poate susține că adevărata valoare a mediei se află în intervalul de la , iar adevărata valoare a acțiunii este în intervalul de la

Când se calculează intervalul de încredere pentru trei niveluri standard de încredere P \u003d 95%, P \u003d 99% și P \u003d 99,9% valoarea este selectată de. Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t egal cu: 1,96, 2,58 și 3,29 . Astfel, eroarea de eșantionare marginală ne permite să determinăm valorile limitative ale caracteristicilor populației generale și a intervalelor de încredere ale acestora:

Distribuția rezultatelor observării eșantionului către populația generală în studiile socio-economice are propriile sale caracteristici, deoarece necesită completitatea reprezentativității tuturor tipurilor și grupurilor sale. Baza posibilității unei astfel de distribuții este calculul eroare relativă:

unde Δ % - eroare relativă de eșantionare marginală; ,.

Există două metode principale pentru distribuirea observațiilor eșantionului către populația generală: conversia directă și metoda coeficienților.

Esență relatare directăconstă în înmulțirea valorii medii a eșantionului! \\ overline (x) cu dimensiunea populației.

Exemplu. Lăsați ca numărul mediu de copii mici din oraș să fie estimat prin metoda selectivă și a însumat o persoană. Dacă în oraș există 1000 de familii tinere, atunci numărul locurilor necesare în pepiniera municipală se obține prin înmulțirea acestei medii cu numărul populației generale N \u003d 1000, adică. vor fi 1200 de locuri.

Metoda cote este recomandabil să se utilizeze în cazul în care se efectuează observația selectivă pentru a clarifica datele de observare continuă.

În acest caz, utilizați formula:

unde toate variabilele sunt mărimea populației:

Dimensiunea necesară a eșantionului

Tabelul 9.4 Mărimea obligatorie a eșantionului (n) pentru diferite tipuri de organizare a observării eșantionului

Atunci când planificați o observație de eșantion cu o valoare predeterminată a erorii de eșantionare admisibile, este necesar să evaluați corect cerințele necesare marime de mostra. Acest volum poate fi determinat pe baza erorii admise în timpul observării selective pe baza unei probabilități date, care garantează valoarea admisibilă a nivelului de eroare (ținând cont de metoda de organizare a observației). Formulele pentru determinarea dimensiunii de eșantionare cerute n pot fi obținute cu ușurință direct din formulele erorii de eșantionare marginală. Deci, din expresia pentru eroarea marginală:

mărimea probei direct determinată n:

Această formulă arată că odată cu scăderea erorii de eșantionare marginală Δ crește semnificativ dimensiunea eșantionului necesar, care este proporțional cu variația și criteriul studenților pătrați.

Pentru o metodă specifică de organizare a observației, dimensiunea eșantionului necesar este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii, o bancă a selectat la întâmplare 10 documente de plată. Valorile lor au fost egale (în zile): 10; 3; 15; 15; 22; 7; 8; 1; nouăsprezece; 20.

Necesar cu probabilitate P \u003d 0,954 determina eroarea marginala Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Decizie. Valoarea medie este calculată după formula din tabel. 9.1 pentru o probă

Dispersia este calculată după formula din tabel. 9.1.

Rădăcina medie a erorii pătrate a zilei.

Eroarea medie este calculată după formula:

acestea. valoarea medie este x ± m \u003d 12,0 ± 2,3 zile.

Fiabilitatea medie a fost

Eroarea marginală este calculată după formula din tabel. 9,3 pentru re-selecție, întrucât dimensiunea populației nu este cunoscută și pentru P \u003d 0,954 nivel de încredere.

Astfel, valoarea medie este egală cu `x ± D \u003d` x ± 2m \u003d 12,0 ± 4,6, adică. adevărata sa valoare variază între 7,4 și 16,6 zile.

Folosind masa studentului. Aplicația ne permite să concluzionăm că pentru n \u003d 10 - 1 \u003d 9 grade de libertate, valoarea obținută este fiabilă cu un nivel de semnificație de 0,001 lire sterline, adică. valoarea medie obținută diferă semnificativ de 0.

Exemplul 2. Estimarea probabilității (cota generală) p.

Prin metoda selectivă mecanică de examinare a stării sociale a 1000 de familii, s-a relevat că ponderea familiilor cu venituri mici a fost w \u003d 0,3 (30%) (proba a fost 2% , adică n / N \u003d 0,02) Obligatoriu cu nivel de încredere p \u003d 0,997 determinați indicatorul rfamilii cu venituri mici în toată regiunea.

Decizie. Conform valorilor funcției prezentate F (t) găsim pentru un anumit nivel de încredere P \u003d 0,997 valoare t \u003d 3 (vezi formula 3). Distribuție de eroare marginală w determinată de formula din tabel. 9.3 pentru eșantionarea care nu se repetă (eșantionarea mecanică este întotdeauna repetată):

Eroare relativă de eșantionare relativă în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p \u003d w ± Δ wși limitele de încredere p sunt calculate pe baza unei duble inegalități:

w - Δ w ≤ p ≤ w - Δ w, adică adevărata valoare a p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate afirma că proporția familiilor cu venituri mici între toate familiile din regiune variază între 28,6% și 31,4%.

Exemplul 3Calcularea valorii medii și a intervalului de încredere pentru o caracteristică discretă definită de o serie de intervale.

In masa. 9.5. este specificată distribuția aplicațiilor pentru fabricarea comenzilor prin momentul punerii în aplicare a acestora de către întreprindere.

Tabelul 9.5 Distribuția observațiilor după momentul apariției

Decizie. Timpul mediu de plumb este calculat după formula:

Termenul mediu este:

\u003d (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 \u003d 23,1 luni

Primim același răspuns dacă folosim datele din p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește completându-l artificial cu lățimea intervalului gradației anterioare egală cu 60 - 36 \u003d 24 luni.

Dispersia este calculată după formulă

unde x i- mijlocul seriei de intervale.

Prin urmare !! \\ sigma \u003d \\ frac (20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2) (4), iar eroarea medie pătrată.

Eroarea medie este calculată după formula lunii., I.e. valoarea medie este !! \\ overline (x) ± m \u003d 23,1 ± 13,4.

Eroarea marginală este calculată după formula din tabel. 9.3 pentru re-selecție, deoarece dimensiunea populației generale este necunoscută, pentru un nivel de încredere de 0,954:

Astfel, valoarea medie este:

acestea. adevărata sa valoare este cuprinsă între 0 și 50 de luni.

Exemplul 4 Pentru a determina viteza de decontare cu creditorii N \u003d 500 de întreprinderi ale unei corporații într-o bancă comercială, este necesar să se efectueze un studiu de probă folosind selecție aleatorie. Determinați dimensiunea eșantionului necesar n, astfel încât, cu o probabilitate de P \u003d 0.954, eroarea valorii medii a eșantionului să nu depășească 3 zile, dacă estimările de încercare au arătat că abaterea standard a fost de 10 zile.

Decizie. Pentru a determina numărul studiilor necesare n, folosim formula pentru selecția repetată din tabel. 9.4:

În ea, valoarea lui t este determinată de la un nivel de încredere de P \u003d 0,954. Este egală cu 2. Valoarea pătrată medie s \u003d 10, volumul populației N \u003d 500 și eroarea marginală a mediei Δ x \u003d 3. Substituind aceste valori în formulă, obținem:

acestea. un eșantion de 41 de întreprinderi este suficient pentru a evalua parametrul necesar - viteza de decontare cu creditori.

Teoria statisticii: note de prelegere Burkhanova Inessa Viktorovna

3. Erori de eșantionare

3. Erori de eșantionare

Fiecare unitate în timpul observației selective ar trebui să aibă aceeași oportunitate de a fi selectată ca și celelalte - aceasta este baza unui eșantion aleatoriu.

Eșantionarea aleatorie - Aceasta este selecția de unități din întreaga populație, prin tragere la sorți sau alte mijloace similare.

Principiul randomității este că orice alt factor decât cazul nu poate influența includerea sau excluderea unui obiect din eșantion.

Ponderea probeiEste raportul dintre numărul de unități de eșantion și numărul de unități ale populației:

Eșantionarea la întâmplare pură este inițială printre toate celelalte tipuri de selecție, conține și pune în aplicare principiile de bază ale observării statistice selective.

Cele două tipuri principale de indicatori generalizați care sunt folosiți în metoda selectivă sunt valoarea medie a unui atribut cantitativ și valoarea relativă a unui atribut alternativ.

Fracția eșantionului (w) sau particular este determinată de raportul dintre numărul de unități care dețin trăsătura studiată m la numărul total de unități ale eșantionului (n):

Pentru a caracteriza fiabilitatea indicatorilor de eșantion, se disting erorile de eșantionare medii și marginale.

Eroarea de eșantionare, denumită și eroare de reprezentativitate, este diferența dintre eșantionul corespunzător și caracteristicile generale:

?x \u003d | x - x |;

?w \u003d | x - p |.

Doar observațiile de eșantion au o eroare de eșantionare

Media probei și cota de eșantion - acestea sunt variabile aleatorii care iau valori diferite în funcție de unitățile populației statistice studiate care s-au încadrat în eșantion. În consecință, erorile de eșantionare sunt de asemenea variabile aleatorii și pot lua, de asemenea, valori diferite. Prin urmare, determinați media erorilor posibile - eroarea medie de eșantionare.

Eroarea medie de eșantionare este determinată de mărimea eșantionului: numărul este mai mare, toate celelalte fiind egale, cu atât este mai mică eroarea medie de eșantionare. Acoperind un sondaj de probă a unui număr tot mai mare de unități ale populației, caracterizăm din ce în ce mai precis întreaga populație.

Eroarea medie de eșantionare depinde de gradul de variație a trăsăturii studiate, la rândul său, gradul de variație este caracterizat prin variație? 2 sau w (l - w) - pentru un atribut alternativ. Cu cât este mai mică variația trăsăturii și a variației, cu atât este mai mică eroarea medie de eșantionare și invers.

În cazul re-selecției aleatorii, erorile medii sunt teoretic calculate după următoarele formule:

1) pentru trăsătura cantitativă medie:

unde? 2 - variația medie a trăsăturii cantitative.

2) pentru o acțiune (atribut alternativ):

Deci, cum este diferența unei trăsături în populație? 2 este necunoscut, în practică folosesc valoarea de dispersie S 2 calculată pentru populația eșantionului pe baza legii unui număr mare, conform căreia populația de eșantion cu o dimensiune de eșantion suficient de mare reproduce cu exactitate caracteristicile populației generale.

Formulele de eroare medie de eșantionare pentru reeșantionarea aleatorie sunt următoarele. Pentru valoarea medie a unei caracteristici cantitative: dispersia generală este exprimată prin electiv după cum urmează:

unde S2 este valoarea de dispersie.

Prelevare mecanică- aceasta este selecția de unități dintr-un eșantion de general, care este împărțit în grupuri egale pe o bază neutră; astfel încât o singură unitate este selectată din fiecare astfel de grup.

În timpul selecției mecanice, unitățile populației statistice studiate sunt plasate preliminar într-o anumită ordine, după care un anumit număr de unități este selectat mecanic la un anumit interval. În acest caz, dimensiunea intervalului în populația generală este egală cu inversul fracției eșantionului.

Cu o populație suficient de mare, selecția mecanică după exactitatea rezultatelor este aproape de auto-aleatoriu. De aceea, pentru a determina eroarea medie a eșantionării mecanice, folosim formulele de prelevare auto-aleatoare care nu se repetă.

Pentru selectarea unităților dintr-o populație eterogenă, se folosește așa-numitul eșantion tipic, este utilizat atunci când toate unitățile din populația generală pot fi împărțite în mai multe grupuri omogene calitative, similare, în funcție de caracteristicile de care depind indicatorii studiați.

Apoi, din fiecare grup tipic prin eșantionare automată sau mecanică, se face selecția individuală a unităților într-un set de eșantionare.

Un eșantion tipic este de obicei utilizat în studiul populațiilor statistice complexe.

Un eșantion tipic oferă rezultate mai precise. Tipificarea populației generale asigură reprezentativitatea unui astfel de eșantion, reprezentarea fiecărui grup tipologic din acesta, ceea ce elimină influența dispersiei intergrupului asupra erorii medii de eșantionare. Prin urmare, la determinarea erorii medii a unui eșantion tipic, media varianțelor intragrup acționează ca un indicator al variației.

Eșantionarea în serie implică o selecție aleatorie din populația generală a grupurilor de dimensiuni egale, pentru a putea observa toate unitățile, fără excepție în astfel de grupuri.

Deoarece toate unitățile, fără excepție, sunt examinate în cadrul unor grupuri (serii), eroarea medie de eșantionare (la selectarea seriei cu dimensiuni egale) depinde doar de variația intergrupului (intersecțională).

Din cartea Bugetul personal. Bani sub control autorul Makarov Sergey Vladimirovich

Erorile rezidente Erorile pot fi tratate în diferite moduri: vă puteți teme să le faceți și să vă faceți griji pentru fiecare dintre ele, vă puteți bucura de greșelile și crizele voastre, ca indicatoare pentru succes și victorii personale. Invariabil, există o singură greșeală - trebuie să plătiți pentru ele.

Din cartea Manualul de audit intern. Riscuri și procese de afaceri autor Kryshkin Oleg

Eșantionare Procedura de eșantionare este o parte integrantă a proiectului de audit intern. Este descris în detaliu în diverse surse pe tema auditului. Cu toate acestea, în multe privințe, astfel de descrieri sunt de natură academică. Îmi propun să mă concentrez pe acestea

Din cartea Psihologia investițiilor [Cum să nu mai faci lucruri stupide cu banii tăi] autorul Richards Karl

Greșelile în investiții sunt greșelile investitorilor. Acum, mai mult decât oricând, sunt convins că toate erorile din investiții sunt de fapt greșeli ale investitorilor. Investițiile nu fac greșeli. Spre deosebire de investitori, investiția este o alegere. Este vorba despre asta

autorul Shcherbina Lidia Vladimirovna

29. Determinarea mărimii eșantionului necesar Unul dintre principiile științifice din teoria metodei de eșantionare este să asigure suficiente unități chi-slab selecționate.O scădere a erorii standard de eșantionare este întotdeauna asociată cu o creștere a mărimii eșantionului. Calcul

Din cartea Teoria generală a statisticii autorul Shcherbina Lidia Vladimirovna

30. Metode de selecție și tipuri de eșantionare. Eșantionarea la întâmplare la întâmplare, în teoria metodei de eșantionare, au fost dezvoltate diferite metode de prelevare și tipuri de eșantionare pentru a asigura reprezentativitatea. Prin metoda de selecție se înțelege ordinea de selecție a unităților din totalitatea generală.

Din cartea Teoria generală a statisticii autorul Shcherbina Lidia Vladimirovna

31. Eșantionare mecanică și tipică Cu un eșantionare pur mecanic, întregul ansamblu general de unități ar trebui în primul rând prezentat sub forma unei liste de unități de selecție, aranjate într-o anumită ordine neutră în raport cu atributul studiat. Apoi lista

Din cartea Teoria generală a statisticii autorul Shcherbina Lidia Vladimirovna

32. Eșantioane seriale și combinate Prelevarea în serie (cuibărită) este un tip de eșantionare atunci când sunt selectate la întâmplare nu sunt unități care trebuie examinate, ci grupuri de unități (serie, cuiburi). În seria selectată (prize)

Din cartea Teoria generală a statisticii autorul Shcherbina Lidia Vladimirovna

33. Eșantioane multifazice, multifazice și interpenetrante. Particularitatea eșantionării în mai multe etape este că populația de eșantionare se formează treptat, conform etapelor de selecție. În prima etapă, folosind o metodă și un tip de selecție prestabilite

autorul Konik Nina Vladimirovna

3. Determinarea mărimii eșantionului necesar Unul dintre principiile științifice din teoria metodei de prelevare este să asigure un număr suficient de unități selectate. Teoretic, necesitatea respectării acestui principiu este prezentată în dovezile teoremelor limită

Din cartea Teoria generală a statisticii: note de prelegere autorul Konik Nina Vladimirovna

4. Metode de selecție și tipuri de eșantionare În teoria metodei de prelevare de probe, au fost dezvoltate diferite metode de selecție și tipuri de eșantionare pentru a asigura reprezentativitatea. Prin metoda de selecție se înțelege ordinea de selecție a unităților din populația generală. Există două metode de selecție: repetate

Din cartea Teoria statisticii autorul Burkhanova Inessa Viktorovna

36. Erorile de eșantionare O eșantionare auto-aleatorie este selecția de unități din întreaga populație prin tragerea la sorți sau o altă metodă similară. Principiul aleatoriei este că orice factor nu poate influența includerea sau excluderea unui obiect din eșantion,

Din cartea Corespondența de afaceri: un manual autorul Kirsanova Maria Vladimirovna

Erorile lexicale 1. Utilizarea greșită a cuvintelor și a termenilor. Cea mai mare parte a erorilor din literele de afaceri se referă la cele lexicale. Lipsa de alfabetizare duce nu numai la prostii curioși, ci și la absurd. Termeni separați și cuvinte profesionale de argou

Din cartea O nouă epocă - preocupări vechi: economie politică autorul Yasin Evgeny Grigorievici

5 Greșelile noastre Insistăm: cursul ales al reformelor de piață a fost corect. Și nu au greșit deloc, s-au împiedicat doar o dată. Dar au fost greșeli și omisiuni. Acestea sunt atât greșelile noastre, cât și greșelile conducerii țării, pe care nu am reușit să le prevenim. Greșeli - în multe feluri

de Curtis Face

Importanța mărimii eșantionului După cum am spus, oamenii tind să acorde prea multă atenție cazurilor rare ale unui fenomen, deși din punct de vedere statistic este imposibil să extrageți multe informații din mai multe cazuri. Acesta este motivul principal.

Din cartea Calea țestoaselor. De la amatori la comercianți legendari de Curtis Face

Eșantioane reprezentative Reprezentativitatea testelor noastre pentru a prezice viitorul este determinată de doi factori: - Numărul de piețe: testele efectuate pe piețe diferite vor include cel mai probabil piețe cu diferite grade de volatilitate de tip.

Din cartea Calea țestoaselor. De la amatori la comercianți legendari de Curtis Face

Mărimea eșantionului Conceptul de mărime a eșantionului este simplu: pentru a face concluzii valabile statistic, trebuie să aveți un eșantion suficient de mare. Cu cât eșantionul este mai mic, cu atât concluziile pot fi trase mai dure; cu cât eșantionul este mai mare, cu atât concluziile sunt mai bune. Nu este

Se numește discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale eroare de reprezentativitate. Distingeți între erorile de eșantionare sistematice și aleatorii.

Erorile aleatorii se explică prin reprezentare insuficient uniformă în eșantionul diferitelor categorii de unități ale populației generale.

Erori sistematice poate fi asociată cu o încălcare a regulilor de selecție sau a condițiilor de eșantionare.

Așadar, la examinarea bugetelor gospodăriilor, timp de peste 40 de ani, eșantionul a fost construit pe baza principiului teritorial-sectorial de selecție, care s-a datorat principalului scop al sondajului bugetar - caracterizarea nivelului de trai al lucrătorilor, angajaților și fermierilor colectivi. Eșantionul a fost distribuit între regiunile și sectoarele economiei RSFSR în proporție cu numărul total de angajați; Pentru a crea un eșantion din industrie, s-a utilizat un eșantion tipic cu selecția mecanică a unităților din grupuri.

Principalul criteriu de selecție a fost salariul mediu lunar. Principiul de selecție a asigurat o reprezentativitate proporțională în eșantionul de lucrători cu niveluri salariale diferite.

Odată cu apariția de noi grupuri sociale (antreprenori, fermieri, șomeri), reprezentativitatea eșantionului a fost încălcată nu numai din cauza diferențelor în structura populației generale, ci și din cauza unei erori sistematice apărute din cauza nepotrivirii dintre unitatea de selecție (angajat) și unitatea de observare (gospodărie) . O gospodărie cu mai mulți membri ai familiei muncitoare a fost, de asemenea, mai probabil să fie selectată decât o gospodărie cu un membru în lucru. Familiile care nu sunt angajate în sectoarele chestionate au renunțat la cercul unităților selectate (gospodării ale pensionarilor, gospodării care există din cauza activității individuale de muncă etc.). Estimarea exactității rezultatelor obținute (limitele intervalelor de încredere, erorile de eșantionare) a fost dificilă, deoarece modelele probabilistice nu au fost utilizate la construcția eșantionului.

În 1996-1997 a fost introdusă o abordare fundamental nouă pentru eșantionarea gospodăriilor. Ca bază pentru implementarea sa, am folosit date din microcensul populației din 1994. Populația generală în timpul selecției era formată din toate tipurile de gospodării, cu excepția celor colective. Un eșantion a fost început să fie organizat ținând cont de reprezentativitatea compoziției și tipurilor de gospodării din cadrul fiecărei entități constitutive a Federației Ruse.

Măsurarea erorilor de reprezentativitate ale indicatorilor de eșantion se bazează pe asumarea unei naturi aleatorii a distribuției lor cu un număr infinit de mare de eșantioane.

O evaluare cantitativă a fiabilității unui indicator de eșantion este utilizată pentru a forma o idee a caracteristicii generale. Acest lucru se realizează fie pe baza unui indicator selectiv, luând în considerare eroarea sa aleatorie, fie pe baza prezentării unor ipoteze (privind mărimea variației medii, natura distribuției, comunicarea) în raport cu proprietățile populației generale.

Pentru testarea ipotezelor, se evaluează coerența datelor empirice cu cele ipotetice.

Mărimea erorii aleatorii de reprezentativitate depinde de:

  • 1) dimensiunea eșantionului;
  • 2) gradul de variație a trăsăturii studiate la populația generală;
  • 3) metoda acceptată de formare a unei probe.

Distingeți între erorile de eșantionare medii (standard) și marginale.

Eroare medie caracterizează măsura abaterilor indicatorilor de eșantion de la indicatori similari ai populației generale.

Eroare marginală se consideră a fi discrepanța maximă posibilă între eșantion și caracteristicile generale, adică eroare maximă pentru o probabilitate dată de apariție.

În conformitate cu populația eșantion, se pot evalua diferiți indicatori (parametri) ai populației generale. Scorul cel mai des utilizat este:

  • - valoarea medie generală a trăsăturii studiate (pentru o trăsătură cantitativă cu valori multiple);
  • - cota generala (pentru un atribut alternativ).

Principiul de bază pentru aplicarea metodei de eșantionare este de a asigura oportunitatea egală pentru toate unitățile populației de a fi selectate în populația de eșantionare. Prin această abordare, se observă cerința unei selecții aleatorii, obiective, și, prin urmare, eroarea de eșantionare este determinată în principal de mărimea acesteia ( p ) Odată cu creșterea acestora din urmă, eroarea medie scade, caracteristicile populației eșantion abordează caracteristicile populației generale.

Cu același număr de populații de eșantion și alte lucruri fiind egale, eroarea de eșantionare va fi mai mică în puterea acestora, care este selectată din populația generală cu o variație mai mică a trăsăturii studiate. Reducerea variației trăsăturii înseamnă o scădere a variației (- pentru o trăsătură cantitativă sau - pentru o trăsătură alternativă).

Dependența mărimii erorii de eșantionare de metodele de formare a populației de eșantionare este determinată de formulele erorii medii de eșantionare (tabelul 5.2).

Suplimentăm indicatorii din tabel. 5.2 cu următoarele explicații.

Varianța eșantionului este puțin mai mică decât cea generală, în statistici matematice se dovedește că

Tabelul 5.2

Formule pentru calcularea erorii medii de eșantionare pentru diferite metode de selecție

Exemplu de vizualizare

sunt pentru

irepetabil pentru

De fapt

aleatoriu

(simplu)

Serial

(cu egal

Tipic (proporțional cu volumul grupurilor)

Dacă populația eșantionului este mare (adică p suficient de mare), atunci raportul se apropie de unitate, iar variația probei coincide practic cu cea generală.

Eșantionul este considerat necondiționat de mare atunci când n\u003e 100 și cu siguranță mic la p < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Acestea pot fi calculate folosind următoarele formule:

unde este media eu seria a treia; - media totală pentru întregul eșantion;

unde este fracția de unități dintr-o anumită categorie din eu seria a treia; - proporția de unități din această categorie din întregul eșantion; r - numărul de episoade selectate.

4. Pentru a determina eroarea medie a unui eșantion tipic în cazul selectării unităților proporțional cu dimensiunea fiecărui grup, media variațiilor intra-grup (ca pentru un atribut cantitativ, pentru un atribut alternativ) acționează ca un indicator al variației. Conform regulii de adăugare a dispersiei, media varianțelor intra-grup este mai mică decât variația totală. Valoarea erorii medii posibile a unui eșantion tipic este mai mică decât eroarea unui eșantion simplu corect la întâmplare.

Selecția combinată este adesea folosită: selecția individuală a unităților este combinată cu selecția de grup, selecția tipică - cu selecția seriei. Cu orice metodă de selecție, cu o anumită probabilitate, se poate susține că abaterea mediei (sau a cotei) de eșantion de la media generală (sau acțiune) nu va depăși o anumită valoare, care se numește eroare marginală prelevare de probe.

Relația dintre limita de eroare de eșantionare (∆) garantată cu o oarecare probabilitate F (t) iar eroarea medie de eșantionare are forma: sau, unde t - coeficientul de încredere determinat în funcție de nivelul probabilității F (t).

Valori ale funcției F (t) și t sunt determinate pe baza tabelelor matematice special compilate. Iată câteva dintre ele care sunt utilizate cel mai des:

t

Astfel, eroarea de eșantionare marginală răspunde la întrebarea cu privire la exactitatea eșantionării cu o anumită probabilitate, a cărei valoare depinde de valoarea coeficientului de încredere t. Deci, cu t \u003d 1 probabilitate F (t ) abaterile caracteristicilor selectate de la cele generale cu valoarea unei erori medii unice este 0,683. Prin urmare, în medie, din 1000 de eșantioane, 683 vor oferi indicatori generalizatori (media, cota), care vor diferi de cei generali cu cel mult valoarea unei singure erori medii. La t \u003d 2 probabilitate F (t) egală cu 0,954, aceasta înseamnă că din 1000 de eșantioane 954 vor oferi indicatori generalizați care vor diferi de cei generali cu cel mult două ori față de eroarea medie a eșantionului etc.

Alături de valoarea absolută a erorii de eșantionare marginală, eroare relativă care este definit ca procentul de eroare marginală a eșantionului la caracteristica corespunzătoare a populației de eșantion:

În practică, se obișnuiește să se stabilească valoarea Δ, de regulă, în 10% din nivelul mediu preconizat al trăsăturii.

Calcularea erorilor de eșantionare medii și marginale vă permite să determinați limitele în care vor fi caracteristicile populației generale:

Limitele în care, cu un anumit grad de probabilitate, se va încheia o valoare necunoscută a indicatorului studiat în populația generală interval de încredere și probabilitate F (t) probabilitate de încredere. Cu cât valoarea ∆ este mai mare, cu atât este mai mare intervalul de încredere și, prin urmare, cu atât este mai mică exactitatea estimării.

Luați în considerare următorul exemplu. Pentru a determina mărimea medie a depozitului în bancă, 200 de conturi în valută a deponenților au fost selectate prin metoda eșantionării aleatorii repetate. Drept urmare, s-a stabilit că valoarea medie a depozitului este de 60 de mii de ruble, variația a fost de 32. În același timp, 40 de conturi erau la cerere. Este necesar, cu o probabilitate de 0,954, să se determine limitele în care mărimea medie a depozitului în conturile în valută străină la bancă și cota conturilor de cerere sunt.

Calculăm eroarea medie a probei medii prin formula de re-selecție

Eroarea marginală a mediei eșantionului cu o probabilitate de 0,954 este

În consecință, mărimea medie a unui depozit în conturile în valută străină la o bancă se situează în mii de ruble:

Cu o probabilitate de 0,954, se poate susține că mărimea medie a unui depozit în conturile în valută străină la o bancă este de la 59 200 la 60 800 de ruble.

Definiți ponderea depozitelor la cerere din eșantion:

Eroare medie de partajare a mostrei

Eroarea marginală a fracției cu o probabilitate de 0,954 este

Astfel, cota conturilor de cerere din populația generală se află în interior w :

Cu o probabilitate de 0,954, se poate susține că ponderea conturilor de cerere din numărul total de conturi în valută străină la o bancă este de la 14,4 la 25,6%.

În studii specifice, este important să se stabilească raportul optim între măsura fiabilității rezultatelor obținute și valoarea erorii de eșantionare admisibile. În această privință, la organizarea unei observații a eșantionului, apare o întrebare legată de determinarea dimensiunii eșantionului necesare pentru a obține exactitatea cerută a rezultatelor cu o probabilitate dată. Calculul mărimii eșantionului necesar se realizează pe baza formulelor erorii de eșantionare marginală în conformitate cu tipul și metoda de selecție (tabelul 5.3).

Tabelul 5.3

Formule pentru calcularea numărului de eșantioane cu o metodă de eșantionare aleatorie

Haideți să continuăm cu un exemplu, care prezintă rezultatele unui sondaj de probă a conturilor personale ale deponenților banci.

Este necesar să se stabilească cât este necesar să se examineze conturile, astfel încât, cu o probabilitate de 0,977, eroarea în determinarea mărimii medii a depozitului să nu depășească 1,5 mii de ruble. Exprimăm din formula erorii marginale a eșantionului pentru re-selecție a indicatorului numărului de eșantioane:

Când se determină dimensiunea eșantionului necesar folosind formulele de mai sus, devine dificil să se găsească valorile σ2 și da, deoarece aceste valori pot fi obținute numai după un sondaj de probă. În această privință, în loc de valorile reale ale acestor indicatori se înlocuiesc aproximativ, care ar putea fi determinate pe baza oricăror observații ale eșantionului de studiu sau din sondaje analitice anterioare.

În cazurile în care statisticianul cunoaște valoarea medie a caracteristicilor studiate (de exemplu, din instrucțiuni, acte legislative etc.) sau limitele în care această caracteristică variază, următorul calcul poate fi aplicat folosind formule aproximative:

iar produsul w (1 - w) este înlocuit cu valoarea 0,25 (w \u003d 0,5).

Pentru a obține un rezultat mai precis, luați valoarea maximă posibilă a acestor indicatori. Dacă distribuția trăsăturii în populația generală se supune legii normale, atunci variația este aproximativ egală cu 6σ (valorile extreme sunt situate pe ambele direcții de la o distanță de 3σ). Prin urmare, dar dacă distribuția este în mod evident asimetrică, atunci.

Cu orice tip de eșantion, volumul său este calculat folosind formula de re-selecție

Dacă, ca urmare a calculului, cota de selecție ( n ) depășește 5%, apoi calculul se efectuează conform formulei de selecție repetată.

Pentru un eșantion tipic, este necesar să împărțiți populația totală de eșantion între tipurile de unități selectate. Calculul numărului de observații de la fiecare grup depinde de formele organizaționale menționate anterior ale unui eșantion tipic.

Într-o selecție tipică de unități disproporționat față de numărul de grupuri, numărul total de unități selectate este împărțit la numărul de grupuri, valoarea obținută dă numărul de selecție din fiecare grup tipic:

unde k - numărul de grupuri tipice selectate.

Când selectați unități în proporție cu numărul de grupuri tipice, numărul de observații pentru fiecare grup este determinat de formulă

de unde este dimensiunea eșantionului eu Primul grup; - volum eu grupa a treia.

Atunci când selectați luând în considerare variația semnului, procentul de eșantion din fiecare grup ar trebui să fie proporțional cu abaterea medie pătrată din acest grup (). Calculul numărului () se face conform formulelor

Cu selecția serialului, numărul necesar de serii selectate este determinat în același mod ca și în cazul selecției aleatorii aleatoare:

Re-selecție

Selectare repetată

În acest caz, variațiile și erorile de eșantionare pot fi calculate pentru valoarea medie sau fracția caracteristicii.

Când se utilizează observația selectivă, o caracteristică a rezultatelor sale este posibilă pe baza unei comparații a limitelor de eroare obținute ale indicatorilor de probă cu valoarea erorii admisibile.

În acest sens, apare problema determinării probabilității ca eroarea de eșantionare să nu depășească eroarea admisă. Soluția la această problemă se reduce la calcul pe baza formulei erorii marginale de prelevare a cantității t.

Continuând examinarea unui exemplu de sondaj de eșantion de conturi personale ale clienților băncilor, descoperim probabilitatea cu care se poate susține că eroarea la determinarea mărimii medii a unui depozit nu va depăși 785 de ruble:

probabilitatea de încredere corespunzătoare este 0,95.

În prezent, practica observării probelor include observații statistice făcute de:

  • - corpurile din Rosstat;
  • - alte ministere și departamente (de exemplu, monitorizarea întreprinderilor din sistemul Băncii Rusiei).

O generalizată bine cunoscută a experienței în organizarea de sondaje de probă asupra întreprinderilor mici, populației și gospodăriilor este prezentată în Dispozițiile metodologice pentru statistici. Ele dau un concept mai larg de observare a eșantionului decât este considerat mai sus (tabelul 5.4).

În practica statistică, utilizați toate cele patru tipuri de eșantioane prezentate în tabel. 5.4. Cu toate acestea, de obicei, preferă probele (aleatorii) de probe descrise mai sus, care sunt cele mai obiective, deoarece pot fi utilizate pentru a evalua exactitatea rezultatelor obținute din datele eșantionului în sine.

Tabelul 5.4

Tipuri de probe

În probe tipul aproape aleatoriu selecția probabilistică este presupusă pe baza faptului că specialistul care consideră eșantionul îl consideră acceptabil. Un exemplu de utilizare a eșantionării cvasi-aleatorii în practica statistică este „Studiul de probă al întreprinderilor mici pentru studiul proceselor sociale la întreprinderile mici”, realizat în 1996 în unele regiuni din Rusia. Unitățile de observare (întreprinderile mici) au fost selectate în mod expert, ținând cont de reprezentarea sectoarelor economice dintr-un eșantion deja format dintr-un sondaj privind activitățile financiare și economice ale întreprinderilor mici (formularul „Informații privind principalii indicatori ai activităților financiare și economice ale unei întreprinderi mici”). La rezumarea datelor eșantionului, s-a presupus că eșantionul a fost format printr-o simplă eșantionare aleatorie.

Direct judecata expertului este cea mai comună metodă de includere intenționată a unităților într-un eșantion. Un exemplu al unei astfel de metode de selecție este metoda monografică, care implică obținerea de informații de la o singură unitate de observație, care este tipică, potrivit organizatorului sondajului, un expert.

Pe baza probelor selecție direcțională implementat folosind o procedură obiectivă, dar fără a utiliza un mecanism probabilistic. Metoda principală a tabloului este cunoscută pe scară largă, în care eșantionul include cele mai mari (semnificative) unități de observație, care oferă contribuția principală la indicator, de exemplu, valoarea totală a atributului reprezentând scopul principal al sondajului.

În practica statistică, adesea folosit metoda combinată de observare statistică. Combinația dintre metodele de observare continuă și selectivă are două aspecte:

  • alternarea în timp;
  • utilizarea lor simultană (o parte a populației este observată în mod continuu, iar o parte - selectiv).

Alternanţă eșantionarea periodică cu sondaje sau recensăminte continue relativ rare este necesară pentru a clarifica compoziția populației studiate. În viitor, aceste informații sunt utilizate ca bază statistică pentru observarea eșantionului. Exemple sunt recensămintele populației și sondajele de probă ale gospodăriilor între intervale de timp.

În acest caz, este necesar să rezolvați următoarele sarcini:

  • - determinarea compoziției semnelor de observare continuă, asigurând organizarea eșantionului;
  • - justificarea perioadelor de alternanță, adică. când datele solide nu mai sunt relevante și costurile actualizării sunt necesare.

Utilizare simultană în cadrul unui sondaj de observații continue și selective, acesta este cauzat de eterogenitatea populațiilor găsite în practica statistică. Acest lucru este valabil mai ales pentru anchetele privind activitatea economică a unui set de întreprinderi, care se caracterizează prin distribuții teșite ale caracteristicilor studiate, când un anumit număr de unități au caracteristici care diferă mult de cea mai mare parte a valorilor. În acest caz, astfel de unități sunt observate în mod continuu, iar cealaltă parte a populației este selectivă.

Cu această organizare a observațiilor, principalele sarcini sunt:

  • - stabilirea proporției lor optime;
  • - dezvoltarea metodelor de evaluare a exactității rezultatelor.

Un exemplu tipic care ilustrează acest aspect al aplicării metodei combinate este principiul general al efectuării de sondaje asupra agregatului de întreprinderi, conform căruia sondajele asupra agregatului întreprinderilor mari și mijlocii sunt realizate în principal prin metoda continuă, iar cele mici prin metoda selectivă.

Dezvoltarea ulterioară a metodologiei de observare a eșantionului se realizează atât în \u200b\u200bcombinație cu organizarea monitorizării continue, cât și prin organizarea de sondaje speciale, a căror conduită este dictată de necesitatea obținerii de informații suplimentare pentru rezolvarea problemelor specifice. Astfel, organizarea de sondaje în domeniul condițiilor și nivelului de trai al populației este prevăzută în două aspecte:

  • - componente necesare;
  • - module suplimentare ca parte a unui sistem integrat de indicatori.

Componentele obligatorii pot fi sondajele anuale ale veniturilor, cheltuielilor și consumului (similar cu un sondaj bugetar pentru gospodărie), care include și indicatori de bază ai condițiilor de viață ale populației. În fiecare an, conform unui plan special, componentele necesare ar trebui să fie completate de sondaje (module) unice ale condițiilor de viață ale populației, care vizează studierea aprofundată a oricărui subiect social ales din numărul total al acestora (de exemplu, bunurile gospodăriei, sănătatea, alimentația, educația, condițiile de muncă, condițiile de viață, timp liber, mobilitate socială, securitate etc.) cu frecvență diferită, determinată de nevoia de indicatori și capacități de resurse.

După cum știm deja, reprezentativitatea este proprietatea unei populații de eșantion de a reprezenta o caracteristică generală. Dacă nu există coincidență, ei vorbesc despre o eroare de reprezentativitate - gradul în care structura statistică a eșantionului se abate de la structura populației generale corespunzătoare. Să presupunem că venitul mediu lunar al locuitorilor pensionarilor din populația generală este de 2 mii de ruble, iar în eșantion - 6 mii de ruble. Acest lucru înseamnă că sociologul a intervievat doar partea prosperă a pensionarilor și eroarea de reprezentativitate a apărut în studiul său. Cu alte cuvinte, eroarea de reprezentativitate este discrepanța dintre cele două agregate - cel general, către care este îndreptat interesul teoretic al sociologului și ideea proprietăților pe care în cele din urmă dorește să le primească și cea selectivă, către care este îndreptat interesul practic al sociologului, care servește atât ca obiect de examinare, cât și ca mijloc de obținere. informații despre populație.

Alături de termenul „eroare de reprezentativitate” din literatura rusă, se poate întâlni un altul - „eroare de eșantionare”. Uneori sunt folosite ca sinonime, iar alteori „eroare de eșantionare” este folosită în loc de „eroare reprezentativă” ca un concept cantitativ mai precis.

Eroare de eșantionare - abaterea caracteristicilor medii ale eșantionului de la caracteristicile medii ale populației generale.

În practică, eroarea de eșantionare este determinată prin compararea caracteristicilor cunoscute ale populației cu mijloacele de eșantionare. În sociologie, sondajele asupra populației adulte folosesc cel mai adesea date din recensămintele populației, statisticile actuale și rezultatele sondajelor anterioare. Ca parametri de control, de obicei sunt utilizate caracteristicile socio-demografice. Comparația mediei populației generale și a eșantionului, pe baza acestui fapt, determinarea erorii de eșantionare și reducerea acesteia se numește controlul reprezentativității. Deoarece se poate face o comparație între datele unuia și celelalte la sfârșitul studiului, această metodă de control se numește posterior efectuat după experiment.

În sondajele Institutului J. Gallup, reprezentativitatea este controlată de datele disponibile în recensămintele naționale privind distribuirea populației pe sexe, vârstă, educație, venit, profesie, rasă, loc de reședință și mărimea așezării. Centrul All-Russian pentru Studiul Opiniei Publice (VTsIOM) utilizează în acest scop indicatori precum sexul, vârsta, educația, tipul de decontare, starea civilă, ocupația, starea locului de muncă al respondentului, care sunt împrumutate de la Comitetul de Stat pentru Statisticile Federației Ruse. În ambele cazuri, populația este cunoscută. Eroarea de eșantionare nu poate fi determinată dacă valorile variabilei din eșantion și populația generală nu sunt cunoscute.

Specialiștii VTsIOM se asigură că datele sunt reparate în profunzime atunci când analizează datele, pentru a minimiza abaterile care au apărut în stadiul de lucru pe teren. Se observă prejudecăți deosebit de puternice în ceea ce privește sexul și vârsta. Acest lucru se explică prin faptul că femeile și persoanele cu studii superioare petrec mai mult timp acasă și facilitează contactarea intervievatorului, adică. sunt un grup ușor accesibil în comparație cu bărbații și persoanele fără educație 35.

Eroarea de eșantionare este cauzată de doi factori: metoda de eșantionare și mărimea eșantionului.

Erorile de prelevare se împart în două tipuri - aleatoriu și sistematic. O eroare aleatorie este probabilitatea ca media eșantionului să iasă (sau să nu iasă) peste intervalul specificat. Erorile aleatorii includ erori statistice inerente metodei de eșantionare în sine. Ele scad odată cu creșterea dimensiunii eșantionului.

Al doilea tip de eroare de eșantionare este prejudecata. Dacă un sociolog a decis să afle părerea tuturor locuitorilor orașului cu privire la politica socială urmărită de autoritățile locale și a intervievat doar cei care au telefon, atunci există o părtinire deliberată în eșantion în favoarea straturilor bogate, adică. eroare sistematică.

Astfel, erorile sistematice sunt rezultatul activităților cercetătorului însuși. Sunt cele mai periculoase, deoarece duc la prejudecăți destul de importante în rezultatele studiului. Erorile sistematice sunt considerate mai grave decât erorile aleatorii, de asemenea, deoarece nu pot fi controlate și măsurate.

Ele apar atunci când, de exemplu: 1) eșantionul nu îndeplinește obiectivele studiului (sociologul a decis să studieze doar pensionarii care lucrează și i-a intervievat pe toți la rând); 2) există o lipsă de cunoaștere a naturii populației generale (sociologul a considerat că 70% dintre pensionarii nu au lucrat, dar s-a dovedit că doar 10% nu funcționează); 3) sunt selectate doar elemente „câștigătoare” ale populației generale (de exemplu, doar pensionarii bogați).

Atenţie! Spre deosebire de erorile aleatorii, erorile sistematice nu scad odată cu creșterea dimensiunii eșantionului.

Rezumând toate cazurile când apar erori sistematice, metodologii și-au întocmit registrul. Aceștia consideră că următorii factori pot fi sursa distorsiunilor necontrolate în distribuirea observațiilor eșantionului:
♦ sunt încălcate regulile metodologice și metodologice de efectuare a unui studiu sociologic;
♦ au fost selectate metode inadecvate de eșantionare, metode de colectare a datelor și de calcul;
♦ unitățile de observație necesare au fost înlocuite cu altele, mai accesibile;
♦ A fost observată o acoperire incompletă a populației eșantion (deficiențe în chestionare, completare incompletă, inaccesibilitatea unităților de observare).

Un sociolog rareori face greșeli deliberate. Mai des, erorile apar din cauza faptului că sociologul este puțin conștient de structura populației generale: distribuția oamenilor pe vârstă, profesie, venituri etc.

Erorile sistematice sunt mai ușor de prevenit (în comparație cu cele aleatorii), dar sunt foarte greu de eliminat. Prevenirea erorilor sistematice, anticiparea cu exactitate a surselor lor, se face cel mai bine în avans - chiar la începutul studiului.

Iată câteva modalități de a evita erorile de eșantionare:
♦ fiecare unitate a populației ar trebui să aibă o probabilitate egală de a cădea în eșantion;
♦ selecția se face de preferință din populații omogene;
♦ trebuie să cunoașteți caracteristicile populației generale;
♦ erorile aleatorii și sistematice trebuie luate în considerare la compilarea unui eșantion.

Dacă populația eșantionului (sau doar eșantionul) este compusă corect, atunci sociologul obține rezultate fiabile care caracterizează întreaga populație. Dacă nu este compilat corect, atunci eroarea care a apărut în faza de compilare a eșantionului crește la fiecare etapă ulterioară a efectuării unui studiu sociologic și atinge în final o valoare care depășește valoarea studiului. Se spune că un astfel de studiu este mai nociv decât bine.

Astfel de erori pot apărea numai cu o populație de eșantion. Pentru a evita sau a reduce probabilitatea de eroare, cel mai simplu este să crești dimensiunea eșantionului (ideal la dimensiunea generală: când ambele seturi coincid, eroarea de eșantionare va dispărea cu totul). Din punct de vedere economic, o astfel de metodă este imposibilă. Există un alt mod - de a îmbunătăți metodele matematice de eșantionare. Acestea sunt apoi aplicate în practică. Acesta este primul canal de pătrundere în sociologia matematicii. Al doilea canal este procesarea matematică a datelor.

O problemă deosebit de importantă a erorilor devine în cercetarea de marketing, unde nu sunt utilizate eșantioane foarte mari. De obicei ele însumează câteva sute, mai rar o mie de respondenți. Aici, punctul de plecare pentru calcularea eșantionului este problema determinării mărimii eșantionului. Mărimea eșantionului depinde de doi factori: 1) costul colectării informațiilor și 2) dorința unui anumit grad de fiabilitate statistică a rezultatelor pe care cercetătorul speră să le obțină. Desigur, persoanele care nu sunt chiar sofisticate în statistici și sociologie înțeleg intuitiv că dimensiunea eșantionului este mai mare, adică. cu cât sunt mai apropiate de dimensiunea populației în ansamblu, cu atât datele obținute sunt mai fiabile. Cu toate acestea, mai sus am vorbit deja despre imposibilitatea practică a sondajelor continue în acele cazuri când sunt efectuate la unități al căror număr depășește zeci, sute de mii și chiar milioane. Este clar că costul de colectare a informațiilor (inclusiv plata pentru replicarea instrumentelor, activitatea chestionarelor, managerii de teren și operatorii de inputuri computerizate) depinde de suma pe care clientul este dispus să o aloce și depinde slab de cercetători. În ceea ce privește cel de-al doilea factor, vom mai rezuma la el.

Deci, cu cât este mai mare dimensiunea eșantionului, cu atât este mai mică eroarea posibilă. Deși trebuie menționat că, dacă doriți să dublați precizia, va trebui să creșteți eșantionul nu de două, ci de patru ori. De exemplu, pentru a face estimarea obținută prin sondarea a 400 de persoane de două ori mai exacte, va trebui să intervievați nu 800, ci 1600 de persoane. Cu toate acestea, este puțin probabil ca cercetarea de marketing să aibă nevoie de o acuratețe absolută. Dacă un producător de bere trebuie să știe ce parte a consumatorilor de bere preferă marca sa, mai degrabă decât a concurentului său, 60% sau 40%, planurile sale nu vor fi afectate de diferența dintre 57%, 60 sau 63%.

Eroarea de eșantionare poate depinde nu numai de dimensiunea acesteia, ci și de gradul diferențelor dintre unitățile individuale din populația pe care o investigăm. De exemplu, dacă trebuie să aflăm cât de mult se consumă bere, atunci descoperim că în cadrul populației noastre generale, procentele de consum ale diferitelor persoane variază semnificativ (populație eterogenă). În alt caz, vom studia consumul de pâine și vom stabili că în rândul diferitor oameni diferă mult mai puțin semnificativ (populație omogenă). Cu cât este mai mare diferența (sau eterogenitatea) în cadrul populației, cu atât mai mare este posibila eroare de eșantionare. Modelul indicat confirmă doar ceea ce ne spune bunul simț simplu. Astfel, după cum afirmă pe bună dreptate V. Yadov, „numărul (volumul) eșantionului depinde de nivelul de omogenitate sau eterogenitate al obiectelor studiate. Cu cât sunt mai omogene, cu atât numărul mai mic poate oferi concluzii fiabile din punct de vedere statistic. "

Determinarea mărimii eșantionului depinde și de nivelul intervalului de încredere al erorii statistice admise. Aceasta se referă la așa-numitele erori aleatorii, care sunt asociate cu natura oricăror erori statistice. IN SI. Paniotto oferă următoarele calcule pentru un eșantion reprezentativ cu o eroare de 5%:
Aceasta înseamnă că dacă, intervievând, să spunem, 400 de persoane într-un oraș raional, unde populația care plătește adulții este de 100 de mii de oameni, ați constatat că 33% dintre cumpărătorii chestionați preferă produsele unei fabrici locale de carne, atunci cu o probabilitate de 95% puteți spune că clienții obișnuiți ai acestor produse sunt 33 + 5% (adică de la 28 la 38%) din locuitorii acestui oraș.

De asemenea, puteți utiliza calculele Gallup Institute pentru a estima raportul dintre mărimile eșantionului și erorile de eșantion.

    Formula de probabilitate de încredere pentru estimarea generală nicio parte a zodiei. Eroare pătrată medie rădăcină eșantionare și graficul intervalului de încredere pentru ponderea generală a trăsăturii.

  1. Formula de probabilitate de încredere pentru evaluarea mediei generale. Eroarea rădăcină-medie-pătrată a eșantioanelor repetate și care nu se repetă și construirea intervalului de încredere pentru media generală.

Construirea unui interval de încredere pentru media generală și cota generală pentru eșantioane mari . Pentru a construi intervale de încredere pentru parametrii populațiilor generale m. 2 abordări sunt implementate pe baza cunoașterii distribuției exacte (pentru o anumită dimensiune a eșantionului n) sau asimptotice (ca n → ∞) a caracteristicilor eșantionului (sau a unor funcții ale acestora). Prima abordare este implementată în continuare atunci când se construiesc estimări ale parametrilor de interval pentru eșantioane mici. În această secțiune, considerăm a doua abordare aplicabilă pentru eșantioane mari (de ordinul a sute de observații).

teoremă . Probabilitatea ca abaterea mediei (sau a cotei) de eșantion de la media generală (sau acțiune) să nu depășească numărul Δ\u003e 0 (în valoare absolută) este egală cu:

Unde

,

Unde
.

Ф (t) este funcția Laplace (integrală de probabilitate).

Formulele sunt numite formule de încredere pentru medie și cotă .

Abaterea standard a mediei eșantionului și cota de probă se numește eșantionare aleatorie adecvată eroare medie rădăcină (standard) eșantioane (pentru eșantionare care nu este repetată, notăm respectiv și ).

Corolarul 1 . Pentru un nivel de încredere dat γ, eroarea de eșantionare marginală este egală cu valoarea de trei ori a erorii pătrate medii, unde Ф (t) \u003d γ, adică.

,

.

Corolarul 2 . Estimările de intervale (intervale de încredere) pentru media generală și acțiunile generale pot fi găsite prin formulele:

,

.

  1. Determinarea volumului necesar de probe repetate și care nu se repetă atunci când se evaluează media generală și ponderea.

Pentru a efectua o observație a eșantionului, este foarte important să se stabilească corect dimensiunea eșantionului n, care determină în mare măsură timpul necesar, costurile de muncă și costurile necesare pentru a determina n; este necesar să se stabilească fiabilitatea (încrederea) estimării γ și precizia (eroare de eșantionare marginală) Δ .

Dacă volumul de recuperare n este găsit, atunci volumul eșantionării nerepetitive corespunzătoare n "poate fi determinat prin formula:

.

pentru că
, apoi cu aceeași precizie și fiabilitate a estimărilor, dimensiunea eșantionului n "este întotdeauna mai mică decât dimensiunea eșantionului n.

  1. Ipoteză statistică și criteriu statistic. Erori de felul 1 și 2. Nivelul de semnificație și puterea criteriului. Principiul certitudinii practice.

Definiție . Ipoteză statistică orice ipoteză cu privire la forma sau parametrii unei legi de distribuție necunoscute este denumită.

Există ipoteze statistice simple și complexe. Ipoteză simplă spre deosebire de cea complexă, determină complet funcția teoretică de distribuție a CB.

Ipoteza testabilă este denumită în mod obișnuit zero (sau principal ) și se indică H 0. Alături de ipoteza nulă sunt luate în considerare alternativă , sau concurent , ipoteza H 1, care este o negație logică a lui H 0. Ipoteze zero și alternative reprezintă 2 posibilități de alegere în sarcinile de testare a ipotezelor statistice.

Esența testării ipotezei statistice este aceea că se folosește o caracteristică selectivă (statistici) special compilată
obținut din eșantion
a cărei distribuție exactă sau aproximativă este cunoscută.

Valoarea critică este apoi determinată din această distribuție a eșantionului. - astfel încât dacă ipoteza H 0 este adevărată, atunci
mic; deci în conformitate cu principiul certitudinii practice în contextul acestui studiu, un eveniment
poate (cu un anumit risc) să fie considerat aproape imposibil. Prin urmare, dacă în acest caz particular este detectată o abatere
, atunci ipoteza H 0 este respinsă, în timp ce aspectul valorii
, este considerat compatibil cu ipoteza H 0, care este apoi acceptată (mai precis, nu este respinsă). Regula prin care ipoteza H 0 este respinsă sau acceptată se numește criteriu statistic sau test statistic .

Principiul certitudinii practice:

Dacă probabilitatea evenimentului A din acest test este foarte mică, atunci cu un singur test, puteți fi sigur că evenimentul A nu se va întâmpla, iar în practica practică se comportă ca și cum evenimentul A nu este deloc posibil.

Astfel, setul de valori posibile ale statisticilor este un criteriu (statistici critice) împarte în 2 subseturi disjuncte: zona critică (zona de respingere a ipotezei) W și interval admis (zona de acceptare a ipotezei) . Dacă valoarea reală observată a statisticilor statistice se încadrează în regiunea critică W, apoi ipoteza H 0 este respinsă. Există patru cazuri posibile:

Definiție . Probabilitatea α de a comite o eroare de acest fel, adică. respinge ipoteza H 0 când este adevărat se numește nivel de semnificație , sau dimensiunea criteriului .

Probabilitatea de a face o greșeală de tipul 2, adică. acceptați ipoteza H 0 atunci când este incorectă, denotați de obicei β.

Definiție . Probabilitatea (1-β) de a preveni o greșeală de al doilea tip, adică. respinge ipoteza H 0 când este falsă este numită putere (sau funcția de putere ) criterii .

Regiunea critică ar trebui să fie preferată în care puterea criteriului este cea mai mare.