Observarea selectivă în statistici. Explicație de eroare standard de eșantionare medie medie

Conceptul și calculul erorii de eșantionare.

Sarcină observație selectivă Este ideile credincioase indicatori consolidați Întreaga totalitate bazată pe unele dintre ele, supuse observațiilor. Posibila abatere a acțiunii selective și media selectivă a acțiunii și a mediului în populația generală se numește colectarea erorilor sau eroare. Cu cât amploarea acestei erori, cu atât mai mari sunt indicatorii de observare a eșantionului diferă de indicatorii populației generale.

Diferă:

Erori de eșantionare;

Erorile de înregistrare.

Erorile de înregistrare Se întâmplă atunci când acest lucru este incorect în procesul de observare. Ele sunt caracteristice atât a observării solide, cât și selectivi, dar sunt selective mai puțin.

Prin natura, erorile sunt:

Tendința - deliberată, adică. Fie cele mai bune sau cele mai grave unități de agregate au fost selectate. În acest caz, observațiile pierd semnificația;

Random - Principalul principiu organizațional al observării selective este de a preveni selecția intenționată, adică Asigurați aderarea strictă la principiul selecției aleatorie.

Regula generala selectie aleatorie Este: Unitățile individuale ale populației generale trebuie să fie complet aceleași condiții și posibilitatea de a cădea în numărul de unități incluse în eșantion. Aceasta caracterizează independența rezultatului eșantionului din voința observatorului. Voința aceluiași observator generează erori tendențioase. Eroarea de eșantionare în timpul unei selecții aleatorii este aleatorie. Aceasta caracterizează dimensiunile abaterilor caracteristicilor generale de la selectivă.

Datorită faptului că semnele din agregatul studiat variază, compoziția unităților care au venit la eșantion nu poate coincica cu compoziția unităților întregii populații. Înseamnă că R. și nu coincid cu W. și. Posibilă discrepanță între aceste caracteristici este determinată de eroarea de eșantionare, care este determinată prin formula:

unde este dispersia generală.

unde este dispersia selectivă.

Se poate observa unde dispersia generală diferă de dispersia selectivă uneori.

Există o selecție repetată și non-primară. Esența re-selecției este că fiecare, care intră în unitatea de probă, după ce observația este returnată populației generale și poate fi reutilizată. La re-selectare, se calculează eroarea medie de eșantionare:

Pentru indicatorul caracteristica alternativă, dispersia eșantionului este determinată prin formula:

În practică, re-selecția este rar aplicată. Cu o selecție neselectivă, numărul de agregare generală N. Eșantionul scade, formula erorii medii de probă pentru o caracteristică cantitativă are forma:



, atunci

Una dintre valorile posibile în care ponderea studiului studiat poate fi egală cu:

unde - eșantionarea erorilor o caracteristică alternativă.

Exemplu.

Într-o examinare de probă de 10% din produsele de produs preparate în conformitate cu metoda fără re-selectare, s-au obținut următorul conținut de date în eșantioane.

Determinați umiditatea medie, dispersia, deviația medie patrată, cu o probabilitate de 0,954 de limite posibile în care se așteaptă căsătorit. % Umiditatea tuturor produselor finite, cu o probabilitate de 0,987 de limite posibile pentru gravitatea specifică a produselor standard, cu condiția ca lotul non-standard să includă produse cu umiditate de până la 13 și peste 19%.

Numai cu o anumită probabilitate, se poate argumenta că cota generală a acțiunii selective și media generală de la mediul de eșantionare sunt respinse în t.timp.

În statistici, aceste abateri sunt numite limitsimborki. și desemnați.

Probabilitatea de judecăți poate fi îmbunătățită sau coborâtă în t. timp. Cu probabilități de 0,683, la 0,954, la 0,987, atunci indicatorii populației generale din indicatoarele de probă sunt determinate.

Agregate statistice- multe unități cu masivitate, omogenitate tipică, de înaltă calitate și prezența variațiilor.

Agregatul statistic constă din obiecte materiale (angajați, întreprinderi, țări, regiuni), este un obiect.

Unitate de agregat - fiecare unitate specifică agregate statistice.

Același agregat statistic poate fi un semn omogen și heterogen diferit.

Omogenitate calitativă - Asemănări ale tuturor unităților de agregare pe orice semn și alăptează în toate celelalte.

În agregarea statistică a distincției unei unități a totalității, mai des are o natură cantitativă. Modificările cantitative ale valorilor semnului diferitelor unități de agregate sunt numite variații.

Variația unui semn - modificarea cantitativă a caracteristica (pentru o bază cantitativă) în timpul tranziției de la o unitate a totalității la alta.

Semn- Această proprietate, caracteristică caracteristică sau altă caracteristică a unităților, obiectelor și fenomenelor, care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Se numește varietatea și variabilitatea semnului semnului în unitățile individuale ale setului Variație.

Semnele de atribut (calitative) nu sunt supuse expresiei numerice (compoziția populației din podea). Semnele cantitative au o expresie numerică (compoziția populației după vârstă).

Indicator - Aceasta generalizează caracteristicile calificate cantitative ale oricărei proprietăți a unităților sau a unei totalități în prioritatea în condiții și spațiu specifice.

Sistem de indicatori - Aceasta este o combinație de indicatori care reflectă în mod cuprinzător fenomenul studiat.

De exemplu, salariul este studiat:
  • Semn - salariu.
  • Agregat statistic - toți angajații
  • O unitate de agregat - fiecare angajat
  • Omogenitate de calitate - salariu acumulat
  • Variația semnalului - un număr de numere

Agregate generale și eșantion de el

Baza constituie multe date obținute ca urmare a măsurării unuia sau mai multor semne. Setul de obiecte observate efectiv, numărul reprezentat statistic de observații ale unei variabile aleatorie probă, și existente ipotetic (disprețuitor) - luare generală. Populația generală poate fi finala (numărul de observații N \u003d const.) sau fără sfârșit ( N \u003d ∞.), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Numărul de observații care formează eșantionul este numit eșantionare. Dacă dimensiunea eșantionului este suficient de mare ( n → ∞.) Eșantionul este luat în considerare mareÎn caz contrar se numește eșantionare volum limitat.. Eșantionul este luat în considerare malaya.Dacă atunci când se măsoară o variabilă aleatorie unidimensională, dimensiunea eșantionului nu depășește 30 ( n.<= 30 ) și când se măsoară simultan mai multe ( k.) Semne în atitudinea spațială multidimensională n.la K.mai puțin decât 10 (n / k< 10) . Formulare de probă seria variaționalăDacă membrii ei sunt statisticile ordinale, adică valorile selective ale variabilei aleatorii H. Ordonată ascendentă (clasată), valorile semnului sunt numite opțiuni.

Exemplu. Aproape unul și același set selectat accidental de obiecte - băncile comerciale ale unui district administrativ din Moscova pot fi considerate ca un eșantion de la populația generală a tuturor băncilor comerciale ale acestui district și ca un eșantion de la populația generală a tuturor băncilor comerciale la Moscova, precum și un eșantion al băncilor comerciale ale țării și etc.

Principalele modalități de organizare a eșantionării

Precizia concluziilor statistice și interpretarea semnificativă a rezultatelor depinde de reprezentativitate mostre, adică Completitudinea și adecvarea prezentării proprietăților populației generale, cu privire la care acest eșantion poate fi considerat reprezentativ. Studiul proprietăților statistice ale setului poate fi organizat în două moduri: cu solid și neplătite. Observarea solidăoferă un sondaj al tuturor unități studiat total, dar oBLESS (selectivă) observație - Numai părțile sale.

Există cinci modalități de bază de a organiza observații selective:

1. selecție simplă aleatorieÎn ce obiecte sunt recuperate aleatoriu din setul general de obiecte (de exemplu, folosind o masă sau un senzor de numere aleatorii), fiecare dintre probele posibile au o probabilitate egală. Astfel de eșantioane sunt numite de fapt aleator;

2. selecție simplă utilizând o procedură regulată Se efectuează utilizând o componentă mecanică (de exemplu, date, zi a săptămânii, a camerelor de apartamente, a literelor alfabetului etc.) și eșantionul obținut în acest mod se numește mecanic;

3. stratificat Selecția este că setul general de volum este împărțit în volum filiale sau straturi (STRATA), deci. Straturile sunt obiecte omogene din punctul de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi în grupe de vârstă sau afiliere socială; întreprinderi - de către industrie). În acest caz, probele sunt numite stratificat (in caz contrar strat, tipic, zoned);

4. Metode serial Selecția sunt utilizate pentru a forma serial sau mostre de cuiburi. Acestea sunt convenabile dacă aveți nevoie să examinați "blocul" sau o serie de obiecte (de exemplu, un lot de bunuri, produse dintr-o anumită serie sau o populație cu diviziunea administrativă teritorială a țării). Selectarea seriei poate fi efectuată printr-o modă aleatorie sau mecanică. În același timp, o examinare continuă a unui anumit lot de bunuri sau o unitate teritorială întreagă (clădire rezidențială sau trimestru);

5. combinate (Stepped) poate combina simultan mai multe metode de selecție (de exemplu, stratificate și aleatoare sau aleatorie și mecanice); Această probă se numește combinate.

Tipuri de selecție

De vedea Selecția individuală, de grup și combinată diferă. Pentru selecție individuală În setul selectiv, sunt selectate unități separate ale agregatului general, selecție de grup - grupuri omogene calitative (serie) de unități și selecție combinată Cheltuiește o combinație de specii întâi și a doua.

De metodă.selecția distinge repetate și fără griji probă.

Capturăselecția se numește, în care unitatea care a căzut în eșantion nu se întoarce la setul inițial și în viitor alegerea nu este implicată; În același timp, numărul de unități ale populației generale N. Redus în timpul procesului de selecție. Pentru repetat selecţie prins În eșantion, unitatea după înregistrare este returnată la setul general și astfel păstrează oportunitatea egală, împreună cu alte unități care vor fi utilizate în procedura de selecție ulterioară; În același timp, numărul de unități ale populației generale N. Rămâne neschimbată (metoda în cercetarea socio-economică este rareori aplicată). Cu toate acestea, cu un mare N (n → ∞) Formule pentru primibrat selecția se apropie similar cu repetat Selecție și practic mai des utilizate ( N \u003d const.).

Principalele caracteristici ale parametrilor agregatei generale și selective

În centrul concluziilor statistice ale studiului stau la baza distribuției variabilei aleatorii, valorile observate (x 1, x 2, ..., x n) numite variabile aleatoare H. (N - eșantionare). Distribuția unei variabile aleatorie în populația generală este natura teoretică, ideală, iar analogul său selectiv este empiric Distribuție. Unele distribuții teoretice sunt specificate analitic, adică lor parametri Determinați valoarea funcției de distribuție la fiecare punct de spațiu al posibilelor valori ale variabilelor aleatorii. Pentru eșantion, funcția de distribuție este dificil de determinat și, uneori, este imposibil, prin urmare parametri Estimată în funcție de datele empirice și apoi sunt înlocuite într-o expresie analitică care descrie distribuția teoretică. În același timp, presupunerea (sau ipoteză) Tipul de distribuție poate fi statistic adevărat și eronat. Dar, în orice caz, distribuția empirică este restabilită doar caracterizează în mod rudeal adevărat. Cei mai importanți parametri ai distribuțiilor sunt valorea estimata și dispersie.

Prin natura, distribuția este continuu și discrete. Cea mai faimoasă distribuție continuă este normal. Analogii selectivi ai parametrilor IDL sunt: \u200b\u200bvaloarea medie și dispersia empirică. Printre cercetările discrete în domeniul socio-economic este cel mai adesea aplicat alternativă (dihotomă) Distribuție. Parametrul așteptării matematice a acestei distribuții exprimă valoarea relativă (sau acțiune) unități de agregat, care au un atribut studiat (este indicat de scrisoare); Ponderea agregatului care nu posedă această caracteristică este indicată de scrisoare q (Q \u003d 1 - P). Dispersia aceleiași distribuții alternative are, de asemenea, un analog empiric.

În funcție de tipul de distribuție și de metoda de selecție a unităților setului, se calculează diferit caracteristicile parametrilor de distribuție. Principalele distribuții teoretice și empirice sunt prezentate în tabelul. 9.1.

Eșantionarea K N. Se numește raportul dintre numărul de unități ale setului selectiv la numărul de unități agregate generale:

k n \u003d n / n.

Partajare selectivă din W. - Aceasta este relația unităților cu un semn studiat x. la volumul eșantionului n.:

w \u003d n n / n.

Exemplu. În lotul de bunuri care conțin 1000 de unități, cu o probă de 5% eșantionarea K N. În valoare absolută este de 50 de unități. (n \u003d n * 0,05); Dacă au fost găsite 2 produse defecte în acest eșantion, atunci căsătoria selectivă W. va fi de 0,04 (W \u003d 2/50 \u003d 0,04 sau 4%).

Deoarece setul selectiv este excelent de la general, atunci există erori de eșantionare.

Tabelul 9.1 Parametrii de bază ai seturilor generale și selective

Erori de eșantionare

Pentru orice (solid și selectiv), pot exista erori de două tipuri: înregistrarea și reprezentativitatea. Erori înregistrare poate avea aleatoriu și sistematic caracter. Aleatoriu Erorile pliate dintr-o varietate de cauze diferite necontrolabile sunt caracterul neintenționat și, de obicei, se echilibrează în totalitate (de exemplu, modificările indicatorilor de instrumente la fluctuațiile de temperatură din cameră).

Sistematic Erori sunt tendenți, pe măsură ce încalcă regulile de selectare a obiectelor la selecție (de exemplu, abaterile în măsurători atunci când instrumentul de măsurare este modificat).

Exemplu. Pentru a evalua situația socială a populației din oraș, se planifică examinarea a 25% din familii. Dacă, în același timp, alegerea fiecărui al patrulea apartament se bazează pe numărul său, atunci există un pericol de selectare a tuturor apartamentelor unui singur tip (de exemplu, cu o singură cameră), care va oferi o eroare sistematică și va distorsiona rezultatele; Alegerea numărului apartamentului în loturi este mai preferată, deoarece eroarea va fi aleatorie.

Erori reprezentative Inerente numai prin observarea selectivă, ele nu pot fi evitate și apar ca urmare a faptului că setul selectiv nu reproduce complet generalul. Valorile indicatorilor obținute de eșantion diferă de indicatorii acelorași valori din populația generală (sau obținute cu observare solidă).

Eroare selectivă de observare Există o diferență între valoarea parametrului în populația generală și valoarea sa selectivă. Pentru semnul cantitativ mediu, este egal cu:, și pentru o acțiune (caracter alternativ) -.

Eroarele de probă sunt caracterizate numai prin observații selective. Cu cât aceste erori sunt mai multe, cu atât este mai mare distribuția empirică diferă de teoretic. Parametrii distribuției empirice și sunt valori aleatorii, prin urmare, erorile de eșantionare sunt, de asemenea, valori aleatorii, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare de mijloc.

Eroare medie de probăexistă o valoare care exprimă deviația medie patrată a mediului de probă din așteptările matematice. Această valoare sub respectarea principiului selecției aleatorie depinde în primul rând de mărimea eșantionului și de gradul de variație a caracteristica: cu atât mai puțin variația funcției (în consecință, valoarea), cu atât valoarea mai mică a eroarea medie de eșantionare. Raportul dintre dispersiile agregatelor generale și selective este exprimat prin formula:

acestea. Cu destul de mare, putem presupune asta. Eroarea medie de eșantionare arată posibilele deviații ale parametrului setat selectiv din parametrul general. În fila. 9.2 prezintă expresii pentru a calcula eroarea medie de eșantionare în diferite metode de organizare a observațiilor.

Tabelul 9.2 Eroare medie (m) a mediului de probă și a acțiunilor pentru diferite tipuri de eșantionare

Unde este media dispersiei selective intragrup pentru o caracteristică continuă;

Media dispersiilor interne ale acțiunii;

- numărul seriei selectate; - numărul total de serie;

,

unde este numărul mediu al seriei;

- media totală pe tot parcursul agregării selective pentru o caracteristică continuă;

,

unde - proporția semnului seriei;

- cota totală a semnului pe întregul agregat selectiv.

Cu toate acestea, amploarea erorii medii poate fi judecată numai cu o anumită probabilitate de P (P ≤ 1). Lyapunov a.m. A demonstrat că distribuția mediilor selective și, prin urmare, abaterile lor de la media generală, cu un număr suficient de mare, aproximativ o lege normală de distribuție, cu condiția ca populația generală să aibă o dispersie medie și o dispersie limitată.

Din punct de vedere matematic, această afirmație pentru media este exprimată sub formă:

Și pentru proporția de expresie (1) ia forma:

unde - există Eroare limită de selecțiecare este multiplu magnitudinea erorii medii de eșantionare , Și raportul dintre multiplicitate - există un criteriu de student ("coeficient de încredere") propus de U.A. Gosset (Pseudonim "Student"); Valorile pentru diferite eșantionare sunt stocate într-o masă specială.

Valorile funcției F (t) la unele valori t sunt egale:

În consecință, expresia (3) poate fi citită astfel: cu probabilitate P \u003d 0,683 (68,3%) Se poate argumenta că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii M (t \u003d 1), cu probabilitate P \u003d 0,954 (95,4%) - că nu va depăși magnitudinea a două erori medii M (t \u003d 2), Cu probabilitate P \u003d 0,997 (99,7%) - nu va depăși trei valori m (t \u003d 3).Astfel, probabilitatea ca această diferență să depășească valoarea de trei ori a erorii medii determină nivel de eroare. și nu mai este 0,3% .

În fila. 9.3 Formulele sunt furnizate pentru a calcula eroarea limită de selecție.

Tabelul 9.3 Eroare limită (d) Probele pentru mediu și acțiuni (P) pentru diferite tipuri de observație selectivă

Distribuirea rezultatelor eșantionului pe setul general

Scopul final al observării selective este caracteristica populației generale. Cu volume mici de eșantionare, estimările empirice ale parametrilor sau ale parametrilor se pot abate în mod semnificativ de la valorile lor adevărate. Prin urmare, devine necesar să se stabilească limite, în cadrul căruia sunt valorile adevărate pentru valorile selective ale parametrilor (și).

Interval confidențialorice parametru θGeneral set se numește o regiune aleatorie a valorilor acestui parametru, care este probabil aproape de 1 ( fiabilitate) Conține valoarea reală a acestui parametru.

Eroare maximă Eșantioane Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încrederesunt egale:

Linia de jos. interval confidențial Primite prin scăderea limita de eroare Din mijlocul selectiv (Share) și de sus - adăugând-o.

Interval de încredere Pentru utilizarea medie a erorii limită de selecție și pentru nivelul de încredere specificat este determinat prin formula:

Aceasta înseamnă că, cu o probabilitate dată R.care se numește nivel de încredere și este determinată fără ambiguitate de valoare t., se poate argumenta că adevărata valoare a mediei se află în interior , și valoarea reală a acțiunii de la

La calcularea intervalului de încredere pentru trei niveluri de încredere standard P \u003d 95%, p \u003d 99% și p \u003d 99,9% Valoarea este selectată de. Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este destul de mare, atunci valorile corespunzătoare acestor probabilități t. egal: 1,96, 2,58 și 3,29 . Astfel, eroarea de selecție vă permite să determinați valorile limită ale caracteristicilor populației generale și ale intervalelor de încredere:

Diseminarea rezultatelor observării selective asupra populației generale în studiile socio-economice are caracteristici proprii, deoarece necesită exhaustivitatea reprezentativității tuturor tipurilor și grupurilor sale. Baza posibilității unei astfel de distribuții este calculul eroare relativă:

unde Δ % - eroare limită de selecție relativă; .

Există două metode principale de distribuire a observării selective asupra populației generale: recalcularea directă și metoda coeficienților.

Esență recalculare directăeste multiplicarea valorii medii de probă! \\ Supraline (x) cu privire la volumul populației generale.

Exemplu. Lăsați numărul mediu de copii din oraș să fie estimat prin metoda selectivă și s-au ridicat la o persoană. Dacă în oraș există 1000 de familii tinere, numărul locurilor necesare în pepinieră municipală este obținut prin înmulțirea acestei medii la numărul populației generale n \u003d 1000, adică. vor fi 1.200 de locuri.

Metoda coeficienților Este recomandabil să se utilizeze în cazul în care se efectuează o observație selectivă pentru a clarifica aceste observații solide.

În același timp, utilizați formula:

unde toate variabilele sunt numărul de agregate:

Eșantionul necesar

Tabelul 9.4 Eșantioane de volum necesare pentru diferite tipuri de organizare a observării selective

La planificarea observării selective cu o valoare predeterminată a erorii eșantionului valid, este necesar să evaluați corect dacă este necesar volumul de eșantionare. Acest volum poate fi determinat pe baza unei erori valide în observație selectivă bazată pe o probabilitate dată care să garanteze valoarea admisă a nivelului de eroare (luând în considerare metoda de organizare a observării). Formule pentru a determina numărul necesar de eșantionare n obține cu ușurință direct din formulele de eroare de selecție. Deci, de la o expresie pentru o eroare limită:

a determinat direct dimensiunea eșantionului n.:

Această formulă arată că, cu o scădere a erorii eșantionului Δ volumul necesar de eșantionare este în creștere semnificativ, care este proporțional cu dispersia și pătratul criteriului elevului.

Pentru o modalitate specifică de a organiza observarea, volumul de eșantionare necesar este calculat în conformitate cu formulele prezentate în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculați valoarea medie și intervalul de încredere pentru o caracteristică cantitativă continuă.

Pentru a estima rata de calcul cu creditorii, un eșantion aleatoriu de 10 documente de plată a fost aleator. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; cincisprezece; cincisprezece; 22; 7; opt; unu; nouăsprezece; douăzeci.

Este necesar cu o probabilitate P \u003d 0,954. Determinați eroarea limită Δ limitele selective medii și de încredere ale timpului mediu de decontare.

Decizie. Valoarea medie este calculată prin formula de la masă. 9.1 Pentru agregate selective

Dispersia este calculată prin formula de la masă. 9.1.

Eroarea medie patrată a zilei.

Eroarea medie este calculată prin formula:

acestea. Valoarea medie este x ± m \u003d 12,0 ± 2,3 zile.

Acuratețea mediei sa ridicat la

Eroarea limită este calculată prin formula din tabel. 9.3 pentru re-selecție, deoarece numărul populației generale este necunoscut și pentru P \u003d 0,954. Nivelul de fiabilitate.

Astfel, valoarea medie este `x ± d \u003d` x ± 2M \u003d 12,0 ± 4.6, adică Semnificația sa adevărată este de la 7,4 până la 16,6 zile.

Folosind masa elevului. Aplicațiile permit să se concluzioneze că pentru n \u003d 10 - 1 \u003d 9 grade de libertate, valoarea obținută este fiabil cu nivelul de semnificație A £ 0,001, adică Valoarea rezultată a medii este diferită în mod fiabil de la 0.

Exemplul 2. Evaluarea probabilității (acțiuni generale) p.

Cu o metodă selectivă mecanică de supraveghere a poziției sociale a 1000 de familii, sa arătat că ponderea familiilor cu venituri mici a fost w \u003d 0,3 (30%) (eșantion a fost 2% . n / n \u003d 0,02). Este necesar cu nivelul de fiabilitate p \u003d 0,997. Determină indicatorul r.familiile cu venituri mici din întreaga regiune.

Decizie. Conform valorilor prezentate ale funcției F (t) Găsiți pentru nivelul specificat de fiabilitate P \u003d 0,997. valoare t \u003d 3. (Consultați Formula 3). Greseala teritoriului w. Definim formula de la masă. 9.3 Pentru selecția capturării (eșantionul mecanic este întotdeauna posibil:

Limitați eroarea de eșantionare relativă în % va fi:

Probabilitatea (proporția generală) a familiilor cu venituri mici din regiune va fi p \u003d W ± Δ WȘi limitele de încredere P sunt calculate pe baza inegalității duble:

w - Δ W ≤ P ≤ W - Δ W. Valoarea reală a lui P se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate argumenta că proporția familiilor cu venituri mici între toate familiile din regiune variază de la 28,6% la 31,4%.

Exemplul 3.Calculul valorii medii și intervalul de încredere pentru un atribut discret stabilit de intervalul din apropiere.

În fila. 9.5. Este stabilită distribuirea cererilor de fabricare a comenzilor în ceea ce privește punerea lor în aplicare de către întreprindere.

Tabelul 9.5 Distribuția observațiilor în ceea ce privește aspectul

Decizie. Termenul mediu limită pentru aplicații este calculat prin formula:

Media va fi:

\u003d (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 \u003d 23,1 luni.

Obținem același răspuns dacă vom folosi datele despre P I din coloana penultimă a tabelului. 9.5, folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradă este amplasat prin adăugarea artificială a lățimii intervalului graficului anterior egal cu 60 - 36 \u003d 24 de luni.

Dispersia se calculează prin formula

unde x I.- mijlocul seriei de interval.

În consecință! \\ Sigma \u003d \\ frac (20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2) (4) și eroarea medie patrată.

Eroarea medie este calculată de luna cu formula, adică Valoarea medie este! \\ Supraline (x) ± m \u003d 23,1 ± 13,4.

Eroarea limită este calculată prin formula din tabel. 9.3 Pentru re-selecție, deoarece numărul populației generale este necunoscut, pentru 0,954 nivele de fiabilitate:

Astfel, valoarea medie este:

acestea. Adevăratul său înțeles este de la 0 la 50 de luni.

Exemplul 4. Pentru a determina rata de calcule cu creditorii n \u003d 500 de întreprinderi ale corporației într-o bancă comercială, este necesar să se efectueze un studiu de eșantion prin metoda de selecție accidentală non-laică. Determinați dimensiunea eșantionului necesar N, astfel încât, cu probabilitatea de p \u003d 0,954 o eroare medie de eșantionare nu depășește 3 zile dacă estimările studiului au arătat că deviația medie patratic a fost de 10 zile.

Decizie. Pentru a determina numărul de studii necesare, N folosim formula pentru selecția off-site de la masă. 9.4:

În aceasta, valoarea t este determinată de la nivelul de fiabilitate p \u003d 0,954. Este egal cu 2. Valoarea mediedratica medie S \u003d 10, volumul setului general N \u003d 500 și eroarea limită de valoare medie Δ X \u003d 3. Înlocuirea acestor valori în formula, obținem:

acestea. Eșantionul este suficient pentru a compensa 41 de întreprinderi pentru a estima parametrul necesar - rata calculelor cu creditorii.

De ce această prezentare? În primul rând, "eroarea medie de eșantionare mediedratic / standard" este un nume lung și complex care este adesea ales în sarcini la eroarea "mediu" sau "standard". Faptul că acesta și același lucru, la un moment dat a fost pentru mine o descoperire reală. Această eroare notoriu este diferită și este întotdeauna înregistrată în moduri diferite, ceea ce este frumos confuz. Se pare că acest lucru este mult acolo unde se întâmplă, dar se schimbă în mod constant. Din acest motiv, sculptam întreaga grămadă de formule atunci când puteți face de la o singură legătură.

Cum este desemnat? De îndată ce nu erau încurcați peste nefericit! Acestea sunt opțiuni pentru scrierea unei erori standard pentru mediu în prelegeri și manuale. Deasupra greșeala lobului a fost batjocorit în același mod sau, în general, a uitat de existența sa și înregistrată imediat cu formula care confundă foarte mult studenți nefericiți. Aici am desemnat-o prin "ε", pentru că a lăudat zeii, o scrisoare rară și nu este confundată cu o clipă sau cu o viteză selectivă.

De fapt, formula (rădăcina de la dispersie la numărul de elemente din eșantion sau viteza este împărțită în rădăcină din dimensiunea eșantionului) este principala formulă, fundație, bază de bază. Este suficient să învățați doar ea și apoi să lucrați la cap! Cum? Citeste mai mult!

Soiuri și unde au venit de la 1. pentru o parte. Ponderea dispersiei este considerată neobișnuită. Dacă ponderea atributului studiat pentru a prelua p, și ponderea "întregii restul" - pentru Q, atunci dispersia este p * q sau p * (1 p). De aici, formula a luat:

O soiuri și de unde au venit de la (2) 2. Unde să obțineți abordarea generală? Σ este, de fapt, abordarea generală, care în sarcina lui Fig va da. Există o ieșire - dispersie selectivă S 2, care, așa cum știe toată lumea, este schimbată. Prin urmare, evaluează generalul astfel: (pentru a nu fi schimbat) și înlocuim. Și puteți imediat să vă asemenea: dar există un astfel de cip. Dacă n\u003e 30, diferența dintre S și Σ este extrem de mică ©, astfel încât să puteți froma și scrie mai ușor:

O soiuri și de unde au venit de la (3) "de unde ați primit mai multe paranteze și Enki? ? ? "Există 2 metode de formare a probelor, amintiți-vă? - repetate și ofensatoare. Astfel, toate formulele anterioare sunt potrivite pentru re-eșantion sau când eșantionarea n în raport cu populația generală N este atât de mică încât raportul dintre N / N poate fi neglijat. În cazul în care este direct fundamental că eșantionul este imperial, sau când sarcina din textul deschis statează câte unități în agregate generale, asigurați-vă că utilizați.

Eroarea medie de eșantionare arată modul în care deflectează parametrul mediu al setului selectiv din parametrul corespunzător al generalului. Dacă calculați media erorilor tuturor eșantioanelor posibile ale unui anumit tip de volum specificat ( n.), extras din același agregat general, atunci obținem caracteristicile lor de generalizare - eroare de eșantionare de eșantionare ().

În teoria observării selective, formulele sunt derivate pentru definiția, care sunt individuale pentru diferite metode de selecție (redependente), tipuri de eșantioane utilizate și specii de indicatori statistici estimați.

De exemplu, dacă se aplică o probă aleatorie, este definită ca:

La evaluarea valorii caracteristice medii;

Dacă semnul este alternativ, iar cota este estimată.

Cu o selecție probabil, de fapt, în formula, se modifică (1 - n / n):

- pentru valoarea medie a semnului;

- Pentru o parte.

Probabilitatea de a obține exact o astfel de eroare este întotdeauna egală cu 0,683. În practică, este preferabil să se obțină date cu o probabilitate mai mare, dar acest lucru duce la o creștere a valorii erorii eșantionului.

Eroarea de selecție () este egală cu numărul T-multiplu de erori de eșantionare medie (în teoria eșantionului t apel pentru a apela coeficientul de încredere):

Dacă eroarea de eșantionare este dublată (t \u003d 2), vom obține o probabilitate mult mai mare decât că nu va depăși o anumită limită (în cazul nostru, o eroare dublă medie) - 0,954. Dacă luați t \u003d 3, atunci probabilitatea de încredere va fi de 0,997 - acuratețea practic.

Nivelul de eroare de selecție depinde de următorii factori:

  • gradul de variație a unităților populației generale;
  • eșantionare;
  • schemele de selecție selectate (selecția proborală oferă o valoare de eroare mai mică);
  • nivelul probabilității de încredere.

Dacă dimensiunea eșantionului este mai mare de 30, valoarea T este determinată de tabelul de distribuție normală, dacă este mai mică - în funcție de tabelul de distribuție stius.

Să dăm câteva valori ale coeficientului de încredere din tabelul de distribuție normală.

Intervalul de încredere pentru valoarea medie a caracteristicilor și pentru ponderea populației generale este stabilită după cum urmează:

Deci, definiția limitelor media generală și a cotei constă în următorii pași:

Erori de eșantionare pentru diferite tipuri de selecție

  1. De fapt, aleatorie și eșantion mecanic. Eroarea medie a probei accidentale și mecanice reale se află în conformitate cu formulele prezentate în tabel. 11.3.

Exemplul 11.2. Pentru a studia nivelul de studiouri de capital, a fost efectuat un sondaj de eșantion de 90 de întreprinderi de la 225 de către metoda de re-eșantionare aleatorie, ca rezultat al datelor prezentate în tabel.

În exemplul examinat, avem o probă de 40% (90: 225 \u003d 0,4 sau 40%). Definim eroarea sa limită și limitele pentru semnul mediu al populației generale de-a lungul pașilor algoritmului:

  1. Conform sondajelor de probă, calculează media și dispersia în setul de eșantioane:
Tabelul 11.5.
Rezultatele supravegherii Valori calculate
nivelul studiourilor de capital, frecați., x i numărul de întreprinderi, f i interval de mijloc, x I \\ xB4 x i \\ xb4 f i x i \\ xb4 2 f i
Până la 1,4. 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 și mai mare 14 2,3 32,2 74,06
TOTAL 90 - 162,6 303,62

Middle Selectiv

Dispersia selectivă a caracteristica studiată

Pentru datele noastre, definim o eroare de limită de selecție, de exemplu, cu o probabilitate de 0,954. Conform tabelului de valori ale funcției de probabilitate a distribuției normale (a se vedea viteza obturatorului, care este prezentată în apendicele 1), găsim valoarea coeficientului de încredere T corespunzător la 0,954. Cu probabilități 0.954, coeficientul t este de 2.

Astfel, în 954 de cazuri din 1000, valoarea medie a fundației nu va fi mai mare de 1,88 ruble. și nu mai mică de 1,74 ruble.

Deasupra schemei de selecție aleatorie a fost utilizată mai sus. Să vedem dacă rezultatele sondajului se vor schimba, presupunând că selecția a fost efectuată în conformitate cu schema de selecție offset. În acest caz, calculul erorii medii este efectuat prin formula

Apoi, la o probabilitate de 0,954, amploarea erorii marginale de eșantionare va fi:

Frontierele de încredere pentru valoarea medie a caracteristicilor cu o selecție aleatorie non-accidentală vor avea următoarele valori:

Prin compararea rezultatelor a două scheme de selecție, se poate concluziona că utilizarea unui eșantion aleatorilor non-accidental oferă rezultate mai precise în comparație cu utilizarea re-selecției la aceeași probabilitate de încredere. În acest caz, cu atât este mai mare dimensiunea eșantionului, cu atât limitele semnificative ale valorilor medii sunt îngustate în timpul tranziției de la o schemă de selecție la alta.

Potrivit exemplului de exemplu, definim ce frontiere există o parte a întreprinderilor cu un nivel de student de fond, care nu depășește valorile de 2,0 ruble, în populația generală:

  1. calculați partajarea selectivă.

Numărul de întreprinderi din eșantion cu un nivel de voturi de capital care nu depășește valorile de 2,0 rubles este de 60 de unități. Atunci

m \u003d 60, n \u003d 90, w \u003d m / n \u003d 60: 90 \u003d 0,667;

  1. calculați dispersia acțiunii în agregatul selectiv
  1. eroarea medie de eșantionare atunci când se utilizează o schemă de re-selectare va fi

Dacă presupuneți că a fost utilizat un circuit de eșantionare, atunci eroarea medie de eșantionare, ținând cont de corecția la membrul agregatului, va fi

  1. să cerem o probabilitate de încredere și să definim eroarea limită de selecție.

Când valoarea probabilității p \u003d 0,997 este valabilă pe tabelul de distribuție normală, obținem o valoare pentru coeficientul de încredere T \u003d 3 (vezi viteza obturatorului de mai jos în apendicele 1):

Astfel, cu o probabilitate de 0,997, se poate argumenta că în populația generală, proporția întreprinderilor cu un nivel de rapoarte de fond care nu depășește valorile de 2,0 ruble nu este mai mică de 54,7%, și nu mai mult de 78,7% .

  1. Eșantion tipic. În proba tipică, setul general de obiecte este împărțit în grupuri K, atunci

N 1 + n 2 + ... + n i + ... + n k \u003d n.

Volumul unităților extras din fiecare grup tipic depinde de metoda adoptată de selecție; Totalul lor formează dimensiunea eșantionului necesar

n 1 + n 2 + ... + n i + ... + n k \u003d n.

Există următoarele două modalități de organizare a selecției în cadrul grupului tipic: proporțional cu volumul grupurilor tipice și proporțional cu gradul de variație a semnelor semnului unităților de observare în grupuri. Luați în considerare primele dintre ele, ca cele mai frecvent utilizate.

Selecția, volumul proporțional al grupurilor tipice, sugerează că, în fiecare dintre acestea, următorul număr de unități de compatibilitate vor fi selectate:

n \u003d n i · n i / n

unde n i este numărul de unități extrase pentru eșantionul din grupul tipic I;

n - eșantionare totală;

N i este numărul de unități ale populației generale, care a fost grupul tipic i-yu;

N este numărul total de unități de agregate generale.

Selectarea unităților în interiorul grupurilor are loc într-o eșantionare aleatorie sau mecanică.

Formule pentru estimarea erorii medii de probă pentru mediu și cota sunt prezentate în tabel. 11.6.

Iată media dispersiei de grup ale grupurilor tipice.

Exemplul 11.3. Într-una dintre universitățile din Moscova, a fost efectuată o examinare selectivă a studenților pentru a determina indicatorul participării medii a bibliotecii universitare cu un student pentru semestru. Pentru aceasta, a fost utilizată o probă tipică de 5% non-tipică, ale căror grupuri tipice corespund numărului cursului. În timpul selecției, volumul proporțional al grupurilor tipice au fost obținute următoarele date:

Tabelul 11.7.
Numărul cursului Total studenți, oameni, n i Intervievate ca urmare a observării selective, pers., N i Numărul mediu de vizite la bibliotecă este un student pentru semestrul, x i Dispersie selectivă intragroup,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
TOTAL 2 550 128 8 -

Numărul de studenți care urmează să fie examinat la fiecare curs va calcula după cum urmează:

similar cu alte grupuri:

Distribuția valorilor medii de probă are întotdeauna o lege normală de distribuție (sau se apropie de aceasta) cu P\u003e 100, indiferent de natura distribuției populației generale. Cu toate acestea, în cazul mostrelor mici, există o altă lege de distribuție - distribuția studenților. În acest caz, coeficientul de încredere este situat pe tabelul de distribuție T, în funcție de valoarea probabilității de încredere P și de dimensiunea eșantionului p. Anexa 1 prezintă un fragment al tabelului de distribuție T, reprezentat ca a Relația dintre probabilitatea de încredere de la eșantionarea și coeficientul de încredere T.

Exemplul 11.4. Să presupunem că sondajul de eșantion de opt studenți ai Academiei a arătat că pregătirea pentru controlul muncii Potrivit statisticilor, au petrecut următoarele ore: 8.5; 8,0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Exemplul 11.5. Calculați cât de mult din 507 intreprinderi industriale Verifică inspecția fiscalăPentru a face o probabilitate de 0,997 pentru a determina ponderea întreprinderilor cu încălcări în plata impozitelor. Conform examinării similare din trecut, valoarea abaterii patrate medii a fost de 0,15; Dimensiunea erorii eșantionului se presupune că nu este obținută nu mai mare de 0,05.

Când utilizați selecția re-aleatorie trebuie verificată

Cu o selecție aleatorie nonsens, va fi necesar să verificați

După cum puteți vedea, utilizarea selecției principale vă permite să examinați un număr mult mai mic de obiecte.

Exemplul 11.6. Se planifică efectuarea unui sondaj salariile În întreprinderile industriei prin metoda selecției reprezentate aleatoriu. Care ar trebui să fie numărul de agregate selective, dacă în momentul anchetei din industrie numărul de angajați a fost de 100.000 de persoane? Eroarea de selecție nu trebuie să depășească 100 de ruble. Cu o probabilitate de 0,954. Conform rezultatelor studiilor salariale anterioare din industrie, se știe că deviația medie patrată este de 500 de ruble.

În consecință, pentru a rezolva sarcina, cel puțin 100 de persoane ar trebui să fie incluse în eșantion.