Selektivní pozorování ve statistice. Ukázka vysvětlení střední kvadratické chyby pro

Pojem a výpočet chyby vzorkování.

Úkol selektivní pozorování je podat správné představy o agregáty celá populace na základě některé jejich části podrobena pozorování. Je volána možná odchylka podílu vzorku a průměru vzorku od podílu a průměru v obecné populaci chyba vzorkování nebo chyba reprezentativnosti. Čím větší je hodnota této chyby, tím více se ukazatele pozorování vzorku liší od ukazatelů obecné populace.

Lišit:

Chyby vzorkování;

Chyby registrace.

Chyby registrace vznikají, když je skutečnost nesprávně zjištěna v procesu pozorování. Jsou charakteristické pro kontinuální i selektivní pozorování, ale při selektivním pozorování je jich méně.

Chyby jsou přirozeně:

Tendentious - intencionální, tj. buď byly vybrány nejlepší nebo nejhorší jednotky populace. V tomto případě jsou pozorování bezvýznamná;

Náhodně - Základním organizačním principem odběru vzorků je zabránit záměrnému výběru, tj. zajistit přísné dodržování zásady náhodného výběru.

Jako obecné pravidlo náhodný výběr je: jednotlivé jednotky obecné populace by měly mít přesně stejné podmínky a příležitosti spadat do počtu jednotek zahrnutých do vzorku. To charakterizuje nezávislost výsledku vzorku na vůli pozorovatele. Vůle pozorovatele vyvolává tendenční chyby. Chyba vzorkování při náhodném vzorkování je náhodná. Charakterizuje velikost odchylek obecných charakteristik od vzorku.

Vzhledem k tomu, že se charakteristiky studované populace liší, nemusí se složení jednotek zahrnutých do vzorku shodovat se složením jednotek celé populace. Znamená to, že R a neshodují se Ž a. Možný nesoulad mezi těmito charakteristikami je určen chybou vzorkování, která je určena vzorcem:

kde je obecná odchylka.

kde je rozptyl vzorku.

To ukazuje, kde se obecná odchylka od vzorové rozptylu liší časem.

Existuje výběr opakování a neopakování. Podstata opakovaného výběru spočívá v tom, že každá jednotka, která spadá do vzorku, se po pozorování vrátí k běžné populaci a může být znovu prozkoumána. Při opakovaném vzorkování se vypočítá průměrná chyba vzorkování:

U ukazatele podílu alternativní charakteristiky je rozptyl vzorku určen vzorcem:

V praxi se opětovný výběr používá jen zřídka. V neopakovatelném výběru velikost obecné populace N v průběhu vzorkování klesá, vzorec pro průměrnou chybu vzorkování pro kvantitativní charakteristiku je:



pak

Jednou z možných hodnot, ve kterých může být podíl studovaného znaku, je:

kde je chyba vzorkování alternativní funkce.

Příklad.

Při výběrovém šetření u 10% výrobků v dávce hotových výrobků metodou bez opětovného odběru vzorků byly získány následující údaje o obsahu vlhkosti ve vzorcích.

Určete průměrné% vlhkosti, rozptylu, směrodatné odchylky s pravděpodobností 0,954 možných limitů, ve kterých se očekává průměr. % obsahu vlhkosti u všech hotových výrobků s pravděpodobností 0,987 možných limitů měrné hmotnosti standardních produktů za předpokladu, že nestandardní šarže zahrnuje produkty s obsahem vlhkosti do 13 a nad 19%.

Pouze s určitou pravděpodobností lze tvrdit, že obecný podíl ze vzorového podílu a obecný průměr ze vzorového průměru se odchylují o tčas.

Ve statistikách se tyto odchylky nazývají mezní chyby vzorkování a jsou označeny.

Pravděpodobnost úsudků lze v roce zvýšit nebo snížit t čas. S pravděpodobností 0,683, 0,954 a 0,987 jsou pak ukazatele obecné populace určovány ukazateli vzorku.

Statistická populace- soubor jednotek s hmotností, typičností, kvalitativní homogenitou a přítomností variací.

Statistická populace se skládá z věcně existujících objektů (pracovníci, podniky, země, regiony), je objektem.

Počet obyvatel - každá konkrétní jednotka statistická populace.

Jedna a stejná statistická populace může být v jednom atributu homogenní a v jiném heterogenní.

Kvalitativní uniformita - podobnost všech jednotek agregátu z nějakého důvodu a odlišnost pro všechny ostatní.

Ve statistické populaci jsou rozdíly mezi jednou jednotkou populace a druhou častěji kvantitativní povahy. Kvantitativní změny hodnot charakteristik různých jednotek populace se nazývají variace.

Varianta funkcí - kvantitativní změna znaku (pro kvantitativní znak) během přechodu z jedné jednotky populace na druhou.

Podepsatje vlastnost, charakteristický znak nebo jiný znak jednotek, předmětů a jevů, které lze pozorovat nebo měřit. Znamení se dělí na kvantitativní a kvalitativní. Říká se rozmanitost a variabilita hodnoty znaku v jednotlivých jednotkách populace variace.

Atributivní (kvalitativní) charakteristiky se nehodí k numerickému vyjádření (složení populace podle pohlaví). Kvantitativní charakteristiky jsou numerické (složení populace podle věku).

Indikátor - jedná se o zobecňující kvantitativně kvalitativní charakteristiku jakékoli vlastnosti jednotek nebo souboru cílů v konkrétních podmínkách času a místa.

Scorecard Je soubor indikátorů, které komplexně odrážejí studovaný jev.

Například je studován plat:
  • Funkce - mzdy
  • Statistická populace - všichni zaměstnanci
  • Počet obyvatel - každý zaměstnanec
  • Kvalitativní homogenita - akumulované mzdy
  • Variace znaménka - řada čísel

Obecná populace a vzorek z ní

Základem je soubor dat získaných v důsledku měření jedné nebo více funkcí. Skutečně pozorovaná množina objektů, statisticky reprezentovaná počtem pozorování náhodné proměnné, je vzorkovánía hypoteticky existující (domnělý) - obecná populace... Obecná populace může být konečná (počet pozorování N \u003d konst) nebo nekonečný ( N \u003d ∞) a vzorek z obecné populace je vždy výsledkem omezeného počtu pozorování. Volá se počet pozorování, které tvoří vzorek velikost vzorku... Pokud je velikost vzorku dostatečně velká ( n → ∞) vzorek je považován velký, jinak se tomu říká ukázka omezený objem... Uvažuje se o vzorku malýpokud při měření jednorozměrné náhodné proměnné velikost vzorku nepřesáhne 30 ( n<= 30 ) a při měření několika ( k) funkce ve vícerozměrném prostoru, poměr nna kméně než 10 (n / k< 10) ... Ukázkové formuláře variační rozsahpokud jsou jejími členy ordinální statistika, tj. vzorové hodnoty náhodné proměnné X jsou seřazeny vzestupně (řazeny), jsou volány hodnoty prvku možnosti.

Příklad... Téměř stejný náhodně vybraný soubor objektů - komerční banky jednoho správního obvodu v Moskvě, lze považovat za vzorek z obecné populace všech komerčních bank v tomto okrese a za vzorek z obecné populace všech komerčních bank v Moskvě , stejně jako vzorek z komerčních bank v zemi atd.

Základní metody odběru vzorků

Spolehlivost statistických závěrů a smysluplná interpretace výsledků závisí na reprezentativnost vzorkování, tj. úplnost a přiměřenost zastoupení vlastností obecné populace, ve vztahu k nimž lze tento vzorek považovat za reprezentativní. Studium statistických vlastností populace lze organizovat dvěma způsoby: pomocí kontinuální a diskontinuální. Kontinuální pozorovánízahrnuje zkoumání všech jednotky studoval celek, a diskontinuální (selektivní) pozorování - pouze jeho části.

Existuje pět hlavních způsobů organizace pozorování vzorků:

1. jednoduchý náhodný výběr, ve kterém jsou objekty náhodně extrahovány z obecné populace objektů (například pomocí tabulky nebo generátoru náhodných čísel), přičemž každý z možných vzorků má stejnou pravděpodobnost. Takové vzorky se nazývají správný náhodný;

2. jednoduchý výběr běžným postupem se provádí pomocí mechanické součásti (například datum, den v týdnu, číslo bytu, písmeno abecedy atd.) a takto získané vzorky se nazývají mechanické;

3. rozvrstvené výběr spočívá v tom, že obecná populace svazku je rozdělena na podmnožiny nebo vrstvy (vrstvy) svazku tak, že. Straty jsou z hlediska statistických charakteristik homogenní objekty (například populace je rozdělena do vrstev podle věkových skupin nebo sociální příslušnosti; podniky - podle odvětví). V tomto případě jsou vzorky volány rozvrstvené (v opačném případě, stratifikovaný, typický, pásmový);

4. metody seriál výběr slouží k vytvoření seriál nebo vnořené vzorky... Jsou vhodné, pokud je nutné neprodleně prozkoumat „blok“ nebo řadu předmětů (například zásilku zboží, výrobků určité řady nebo počet obyvatel v územně-správním členění země). Výběr šarží lze provádět čistě náhodným nebo mechanickým způsobem. V tomto případě se provádí kompletní průzkum určité dávky zboží nebo celé územní jednotky (obytný dům nebo čtvrť);

5. kombinovaný (postupný) výběr může kombinovat několik metod výběru najednou (například stratifikovaný a náhodný nebo náhodný a mechanický); tento vzorek se nazývá kombinovaný.

Typy výběru

Podle mysl rozlišovat mezi individuálním, skupinovým a kombinovaným výběrem. Když individuální výběr ve vzorku jsou vybrány jednotlivé jednotky obecné populace, s výběr skupiny - kvalitativně homogenní skupiny (řady) jednotek a kombinovaný výběr předpokládá kombinaci prvního a druhého typu.

Podle metodavýběr rozlišit opakované a neopakované vzorek.

Neopakovatelnénazývá se výběr, ve kterém se jednotka, která se dostala do vzorku, nevrací k původní populaci a nepodílí se na dalším výběru; zatímco počet jednotek v běžné populaci N se v procesu výběru snižuje. Když opakoval výběr chycen ve vzorku je jednotka po registraci vrácena běžné populaci a zachovává si tak rovné příležitosti spolu s dalšími jednotkami, které mají být použity v dalším výběrovém řízení; zatímco počet jednotek v běžné populaci N zůstává nezměněn (metoda se v socioekonomickém výzkumu používá jen zřídka). Nicméně, s velkým N (N → ∞) vzorce pro neopakovatelný výběry se blíží těm pro opakoval a častěji se používá druhý ( N \u003d konst).

Hlavní charakteristiky parametrů obecné a výběrové populace

Statistické závěry studie jsou založeny na distribuci náhodné proměnné, zatímco pozorované hodnoty (x 1, x 2, ..., x n) se nazývají realizace náhodné proměnné X (n je velikost vzorku). Distribuce náhodné proměnné v obecné populaci je teoretická, ideální a její analogový vzorek je empirický rozdělení. Některá teoretická rozdělení jsou uvedena analyticky, tj. jejich možnosti určit hodnotu distribuční funkce v každém bodě v prostoru možných hodnot náhodné proměnné. U vzorku je obtížné určit distribuční funkci, a proto je to někdy nemožné možnosti vyhodnocen empirickými daty a poté nahrazen analytickým výrazem popisujícím teoretické rozdělení. V tomto případě je předpoklad (nebo hypotéza) o typu distribuce může být statisticky správná a chybná. Ale v každém případě empirická distribuce rekonstruovaná ze vzorku pouze zhruba charakterizuje tu pravou. Nejdůležitější parametry distribuce jsou očekávaná hodnota a rozptyl.

Ze své podstaty jsou distribuce kontinuální a oddělený... Nejznámější kontinuální distribuce je normální... Selektivní analogy parametrů a pro to jsou: střední hodnota a empirická odchylka. Z diskrétních v sociálně-ekonomickém výzkumu se nejčastěji používají alternativní (dichotomický) rozdělení. Parametr matematického očekávání tohoto rozdělení vyjadřuje relativní hodnotu (nebo podíl) jednotky populace, které mají sledovaný znak (je to označeno písmenem); podíl populace, která tuto vlastnost nemá, je označena písmenem q (q \u003d 1 - p)... Rozptyl alternativního rozdělení má také empirický analog.

Charakteristiky distribučních parametrů se počítají různými způsoby v závislosti na typu distribuce a na způsobu výběru jednotek populace. Hlavní pro teoretická a empirická rozdělení jsou uvedena v tabulce. 9.1.

Frakce vzorku k n je poměr počtu jednotek vzorku k počtu jednotek běžné populace:

k n \u003d n / N.

Vzorek frakce w Je poměr jednotek se studovanou funkcí x na velikost vzorku n:

w \u003d n n / n.

Příklad. V dávce zboží obsahujícího 1000 jednotek, s 5% vzorkem zlomek vzorku k n v absolutní hodnotě je 50 jednotek. (n \u003d N * 0,05); pokud jsou v tomto vzorku nalezeny 2 vadné výrobky, pak míra selektivního odpadu w bude 0,04 (w \u003d 2/50 \u003d 0,04 nebo 4%).

Protože se vzorek populace liší od obecné populace, pak chyby vzorkování.

Tabulka 9.1 Základní parametry obecné a výběrové populace

Chyby vzorkování

U jakýchkoli (průběžných a selektivních) se mohou vyskytnout chyby dvou typů: registrace a reprezentativnost. Chyby registrace může mít náhodný a systematický charakter. Náhodný chyby jsou tvořeny mnoha různými nekontrolovatelnými příčinami, jsou neúmyslné a obvykle se navzájem vyvažují v souhrnu (například změny v odečtech přístrojů při kolísání teploty v místnosti).

Systematický chyby jsou tendenční, protože porušují pravidla pro výběr objektů ve vzorku (například odchylky v měření při změně nastavení měřicího zařízení)

Příklad. K posouzení sociálního postavení obyvatel ve městě se plánuje zkoumat 25% rodin. Pokud je zároveň výběr každého čtvrtého bytu založen na jeho počtu, existuje nebezpečí výběru všech bytů pouze jednoho typu (například jednopokojových bytů), což způsobí systematickou chybu a zkreslí výsledky ; volba čísla bytu losováním je výhodnější, protože chyba bude náhodná.

Reprezentativní chyby jsou neodmyslitelnou součástí pouze selektivního pozorování, nelze se jim vyhnout a vznikají v důsledku skutečnosti, že vzorek plně nereprodukuje obecnou populaci. Hodnoty indikátorů získaných ze vzorku se liší od indikátorů stejných hodnot v obecné populaci (nebo získané kontinuálním pozorováním).

Chyba pozorování vzorku je rozdíl mezi hodnotou parametru v obecné populaci a hodnotou jeho vzorku. Pro průměrnou hodnotu kvantitativní charakteristiky se rovná :, a pro podíl (alternativní charakteristika) -.

Chyby vzorkování jsou charakteristické pouze pro pozorování vzorků. Čím větší jsou tyto chyby, tím více se liší empirické rozdělení od teoretického. Parametry empirického rozdělení jsou náhodné hodnoty, proto jsou chyby vzorkování také náhodné hodnoty, mohou pro různé vzorky nabývat různých hodnot, a proto je obvyklé počítat průměrná chyba.

Průměrná chyba vzorkováníexistuje hodnota, která vyjadřuje směrodatnou odchylku výběrového průměru od matematického očekávání. Tato hodnota, s výhradou principu náhodného výběru, závisí primárně na velikosti vzorku a na stupni variace prvku: čím větší a menší je variace prvku (a tedy i hodnota), tím menší je hodnota průměrná chyba vzorkování. Vztah mezi odchylkami obecné populace a populace vzorků je vyjádřen vzorcem:

ty. pro dostatečně velké to můžeme předpokládat. Průměrná chyba vzorkování ukazuje možné odchylky parametru populace vzorku od parametru obecné populace. Stůl 9.2 ukazuje výrazy pro výpočet průměrné chyby vzorkování pro různé metody organizace pozorování.

Tabulka 9.2 Průměrná chyba (m) průměru a podílu vzorku pro různé typy vzorku

Kde je průměr odchylek vzorku uvnitř skupiny pro spojitou vlastnost;

Průměr odchylek v rámci skupiny;

- počet vybraných sérií, - celkový počet sérií;

,

kde je průměr z té řady;

- celkový průměr za celý vzorek pro spojitý prvek;

,

kde je podíl prvku v té sérii;

- celkový podíl prvku v celém vzorku.

Hodnotu průměrné chyby však lze posoudit pouze s určitou pravděpodobností P (P ≤ 1). Lyapunov A.M. prokázal, že distribuce vzorku znamená, a tedy i jejich odchylky od obecného průměru, pro dostatečně velký počet přibližně dodržuje zákon normálního rozdělení, za předpokladu, že obecná populace má konečný průměr a omezenou odchylku.

Matematicky je toto tvrzení pro průměr vyjádřeno jako:

a pro zlomek bude mít výraz (1) tvar:

kde - tady je mezní chyba vzorkování, což je násobek střední chyby vzorkování , a faktor multiplicity je Studentův test („faktor spolehlivosti“) navržený USA. Gosset (pseudonym „Student“); hodnoty pro různé velikosti vzorků jsou uloženy ve speciální tabulce.

Hodnoty funkce Ф (t) pro některé hodnoty t jsou stejné:

Proto lze výraz (3) číst takto: s pravděpodobností P \u003d 0,683 (68,3%) lze tvrdit, že rozdíl mezi vzorkem a obecným průměrem nepřekročí jednu hodnotu střední chyby m (t \u003d 1), s pravděpodobností P \u003d 0,954 (95,4%) - že nepřekročí dvě střední chyby m (t \u003d 2), s pravděpodobností P \u003d 0,997 (99,7%) - nepřekročí tři hodnoty m (t \u003d 3).Určuje tedy pravděpodobnost, že tento rozdíl překročí trojnásobek střední chyby úroveň chyb a už není 0,3% .

Stůl 9.3 ukazuje vzorce pro výpočet mezní chyby vzorkování.

Tabulka 9.3 Mezní chyba (D) vzorku pro průměr a podíl (p) pro různé typy pozorování vzorku

Rozšíření výsledků vzorku na obecnou populaci

Konečným cílem selektivního pozorování je charakterizovat obecnou populaci. U malých velikostí vzorků se empirické odhady parametrů (a) mohou významně lišit od jejich skutečných hodnot (a). Proto je nutné stanovit hranice, ve kterých skutečné hodnoty (a) leží pro vzorové hodnoty parametrů (a).

Interval spolehlivostilibovolného parametru θ obecné populace se nazývá náhodné rozmezí hodnot tohoto parametru, které se s pravděpodobností blíží 1 ( spolehlivost) obsahuje skutečnou hodnotu tohoto parametru.

Okrajová chyba vzorkování Δ umožňuje určit mezní hodnoty charakteristik běžné populace a jejich hodnoty intervaly spolehlivostikteré jsou stejné:

Sečteno a podtrženo interval spolehlivosti získá se odečtením okrajová chyba ze střední hodnoty (zlomku) vzorku a horní přidáním.

Interval spolehlivosti pro průměr používá mezní chybu vzorkování a pro danou úroveň spolehlivosti je určen vzorcem:

To znamená, že s danou pravděpodobností R, který se nazývá úroveň spolehlivosti a je jednoznačně určen hodnotou t, lze tvrdit, že skutečná hodnota průměru leží v rozmezí od a skutečná hodnota zlomku je v rozsahu od

Při výpočtu intervalu spolehlivosti pro tři standardní úrovně spolehlivosti P \u003d 95%, P \u003d 99% a P \u003d 99,9% hodnota je vybrána pomocí. Aplikace v závislosti na počtu stupňů volnosti. Pokud je velikost vzorku dostatečně velká, pak hodnoty odpovídající těmto pravděpodobnostem t jsou rovny: 1,96, 2,58 a 3,29 ... Mezní chyba vzorkování tedy umožňuje určit mezní hodnoty charakteristik obecné populace a jejich intervaly spolehlivosti:

Distribuce výsledků selektivního pozorování do obecné populace v sociálně-ekonomickém výzkumu má své vlastní charakteristiky, protože vyžaduje úplnost reprezentativnosti všech jeho typů a skupin. Základem pro možnost takového rozdělení je výpočet relativní chyba:

kde Δ % - relativní okrajová chyba vzorkování; ,

Existují dvě hlavní metody pro rozšíření pozorování vzorku na obecnou populaci: přímá konverze a metoda koeficientů.

Vůně přímá konverzespočívá v vynásobení střední hodnoty vzorku !! \\ overline (x) velikostí běžné populace.

Příklad... Nechte průměrný počet batolat ve městě odhadnout metodou výběru a buďte osobou. Pokud je ve městě 1 000 mladých rodin, počet požadovaných míst v obecních jeslích se získá vynásobením tohoto průměru velikostí běžné populace N \u003d 1000, tj. bude 1200 míst.

Kurzová metoda je vhodné použít v případě, že se provádí selektivní pozorování, aby se vyjasnily údaje o nepřetržitém pozorování.

V tomto případě se použije vzorec:

kde všechny proměnné jsou velikost populace:

Požadovaná velikost vzorku

Tabulka 9.4 Požadovaná velikost vzorku (n) pro různé typy organizace pozorování vzorku

Při plánování pozorování vzorku s předem stanovenou hodnotou přípustné chyby vzorkování je nutné správně odhadnout požadovanou velikost vzorku... Tento objem lze určit na základě přípustné chyby v pozorování vzorku na základě dané pravděpodobnosti, která zaručuje přípustnou hodnotu úrovně chyby (s přihlédnutím ke způsobu organizace pozorování). Vzorce pro určení požadované velikosti vzorku n lze snadno získat přímo ze vzorců pro mezní chybu vzorkování. Takže z výrazu pro marginální chybu:

velikost vzorku je přímo určena n:

Tento vzorec ukazuje, že s klesající mezní chybou vzorkování Δ požadovaná velikost vzorku se významně zvyšuje, což je úměrné rozptylu a čtverci Studentova testu.

U konkrétní metody organizace pozorování se požadovaná velikost vzorku vypočítá podle vzorců uvedených v tabulce. 9.4.

Praktické příklady výpočtu

Příklad 1. Výpočet průměru a intervalu spolehlivosti pro spojitou kvantitativní charakteristiku.

Pro posouzení rychlosti vypořádání s věřiteli banka provedla náhodný vzorek 10 platebních dokumentů. Ukázalo se, že jejich hodnoty jsou stejné (ve dnech): 10; 3; 15; 15; 22; 7; 8; jeden; 19; 20.

Nezbytné s pravděpodobností P \u003d 0,954 určit mezní chybu Δ průměr vzorku a limity spolehlivosti pro střední čas výpočtů.

Rozhodnutí. Průměrná hodnota se vypočítá pomocí vzorce z tabulky. 9,1 pro vzorek

Rozptyl se vypočítá podle vzorce z tabulky. 9.1.

Střední kvadratická chyba dne.

Střední chyba se vypočítá podle vzorce:

ty. průměr je x ± m \u003d 12,0 ± 2,3 dne.

Spolehlivost průměru byla

Mezní chyba se vypočítá podle vzorce z tabulky. 9.3 pro opětovné vzorkování, protože velikost populace není známa, a pro P \u003d 0,954 úroveň spolehlivosti.

Průměrná hodnota se tedy rovná `x ± D \u003d` x x 2 m \u003d 12,0 ± 4,6, tj. jeho skutečná hodnota se pohybuje od 7,4 do 16,6 dne.

Pomocí Studentova stolu. Aplikace umožňuje dospět k závěru, že pro n \u003d 10 - 1 \u003d 9 stupňů volnosti je získaná hodnota spolehlivá s hladinou významnosti 0,001 GBP, tj. získaná střední hodnota se významně liší od 0.

Příklad 2. Odhad pravděpodobnosti (obecný podíl) str.

Metodou mechanického vzorkování průzkumu sociálního stavu 1000 rodin bylo zjištěno, že podíl rodin s nízkými příjmy byl w \u003d 0,3 (30%) (vzorek byl 2% , tj. n / N \u003d 0,02). Potřebné s jistotou p \u003d 0,997 určit indikátor rrodiny s nízkými příjmy v celém regionu.

Rozhodnutí. Podle prezentovaných hodnot funkce Ф (t) najít pro danou úroveň spolehlivosti P \u003d 0,997 hodnota t \u003d 3 (viz vzorec 3). Chyba mezního podílu w určeno vzorcem z tabulky. 9.3 pro neopakující se vzorkování (mechanické vzorkování se vždy neopakuje):

Mezní relativní chyba vzorkování v % bude:

Pravděpodobnost (obecný podíl) rodin s nízkými příjmy v regionu bude p \u003d w ± Δ wa limity spolehlivosti p se počítají na základě dvojité nerovnosti:

w - Δ w ≤ p ≤ w - Δ w, tj. skutečná hodnota p leží uvnitř:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravděpodobností 0,997 lze tedy tvrdit, že podíl rodin s nízkými příjmy mezi všemi rodinami v regionu se pohybuje od 28,6% do 31,4%.

Příklad 3.Výpočet průměrné hodnoty a intervalu spolehlivosti pro diskrétní prvek určený řadou intervalů.

Stůl 9.5. je uvedeno rozdělení objednávek na výrobu objednávek podle načasování jejich provedení ze strany podniku

Tabulka 9.5 Rozdělení pozorování podle času výskytu

Rozhodnutí. Průměrná doba realizace se vypočítá podle vzorce:

Průměrná doba bude:

\u003d (3 * 20 + 9 * 80 + 24 * 60 + 48 * 20 + 72 * 20) / 200 \u003d 23,1 měsíců.

Stejnou odpověď získáme, použijeme-li údaje o p i z předposledního sloupce tabulky. 9.5 pomocí vzorce:

Všimněte si, že střed intervalu pro poslední gradaci je nalezen umělým doplněním o šířku intervalu předchozí gradace rovnou 60 - 36 \u003d 24 měsíců.

Rozptyl se vypočítá podle vzorce

kde x i- uprostřed řady intervalů.

Proto !! \\ sigma \u003d \\ frac (20 ^ 2 + 14 ^ 2 + 1 + 25 ^ 2 + 49 ^ 2) (4) a chyba střední kvadratické hodnoty.

Průměrná chyba se vypočítá pomocí vzorce měsíce, tj. průměr je !! \\ overline (x) ± m \u003d 23,1 ± 13,4.

Mezní chyba se vypočítá podle vzorce z tabulky. 9,3 pro opakovaný výběr, protože velikost populace není známa, pro hladinu spolehlivosti 0,954:

Průměr je tedy:

ty. jeho skutečná hodnota se pohybuje od 0 do 50 měsíců.

Příklad 4. Pro stanovení rychlosti vypořádání s věřiteli N \u003d 500 podniků korporace v komerční bance je nutné provést ukázkovou studii metodou náhodného neopakovaného výběru. Určete požadovanou velikost vzorku n tak, aby s pravděpodobností P \u003d 0,954 chyba střední hodnoty vzorku nepřesáhla 3 dny, pokud odhady pokusů ukázaly, že směrodatná odchylka s byla 10 dní.

Rozhodnutí... K určení počtu potřebných studií n použijeme vzorec pro opakovaný výběr z tabulky. 9,4:

V něm je hodnota t určena z úrovně spolehlivosti P \u003d 0,954. Rovná se 2. Kořenová kvadratická mocnina s \u003d 10, velikost běžné populace je N \u003d 500 a mezní chyba průměru Δ x \u003d 3. Dosazením těchto hodnot do vzorce získáme:

ty. k odhadu požadovaného parametru - rychlosti vypořádání s věřiteli - stačí udělat vzorek 41 podniků.

Proč tato prezentace? Za prvé, „kořenová střední hodnota / standardní chyba vzorku“ je dlouhý a složitý název, který je často v problémech useknut na „střední“ nebo „standardní“ chybu. Skutečnost, že jsou jedno a totéž, byl pro mě najednou skutečným objevem. Tato notoricky známá chyba je jiná a je vždy psána různými způsoby, což je velmi matoucí. Ukazuje se, že tato věc naráží hodně, ale neustále mění své podoby. Z tohoto důvodu tlačíme celou řadu vzorců, když si vystačíte s jednou nebo dvěma.

Jak je to určeno? Jakmile se nešťastné ženě neposmívali! Jedná se o varianty zápisu standardní chyby pro střední hodnoty v přednáškách a učebnicích. Vysmívali se omylu stejným způsobem, nebo dokonce zapomněli na jeho existenci, a hned si to zapsali pomocí vzorce, který nešťastné studenty značně mate. Zde jej označím pomocí „ε“, protože, chvála bohů, je to vzácné písmeno a nelze jej zaměňovat ani s momentem, ani se selektivním systémem COEX.

Ve skutečnosti vzorec (kořen rozptylu počtem prvků ve vzorku nebo RMS je vydělen kořenem velikosti vzorku) Toto je základní vzorec, základ, základ základů. Stačí se naučit jen to a pak jen pracovat s hlavou! Jak? Číst dál!

Odrůdy a odkud pocházejí 1. O podíl. Podíl rozptylu je považován za neobvyklý. Pokud je podíl studovaného znaku považován za p a podíl „všeho ostatního“ - jako q, pak je odchylka p * q nebo p * (1 p). Odtud přišel vzorec:

Odrůdy a odkud pocházejí (2) 2. Kde získat obecný RMS? σ je ve skutečnosti obecná směrodatná odchylka, kterou získáte v úloze obr. Existuje cesta ven - vzorová varianta S 2, která, jak každý ví, je zkreslená. Odhadujeme tedy obecnou takto: (aby ji ani nenapadlo se posunout) a dosadíme. Nebo to můžete udělat hned: Ale existuje takový trik. Pokud n\u003e 30, je rozdíl mezi S a σ extrémně malý ©, takže můžete podvádět a psát to snadněji:

Odrůdy a odkud pocházejí (3) „Odkud pocházejí ostatní závorky a enki? ? ? »Existují 2 metody odběru vzorků, pamatujete? - opakované a neopakovatelné. Všechny předchozí vzorce jsou tedy vhodné pro opakovaný odběr vzorků nebo když je vzorek n ve vztahu k obecné populaci N tak malý, že poměr n / N lze zanedbávat. V případě, že je nezbytné, aby se vzorek neopakoval, nebo když problém jasně stanoví, kolik jednotek je v běžné populaci, je nutné použít.

Průměrná chyba vzorkování ukazuje, jak moc se parametr populace vzorku odchyluje od odpovídajícího parametru obecné populace. Pokud vypočítáme průměr chyb všech možných vzorků určitého typu daného objemu ( n) extrahované ze stejné obecné populace, získáme jejich zobecňující charakteristiky - střední chyba vzorkování ().

V teorii pozorování vzorků jsou odvozeny vzorce pro stanovení, které jsou individuální pro různé metody výběru (opakované a neopakované), typy použitých vzorků a typy odhadovaných statistických ukazatelů.

Pokud se například použije opakované správné náhodné vzorkování, pak je definováno jako:

Při hodnocení průměrné hodnoty prvku;

Pokud je charakteristika alternativní a podíl se vyhodnotí.

V případě neopakovatelného, \u200b\u200bvlastně náhodného výběru, je provedena změna vzorců (1 - n / N):

- pro průměrnou hodnotu prvku;

- za akcii.

Pravděpodobnost získání přesně tohoto množství chyby je vždy 0,683. V praxi upřednostňují získávání dat s větší pravděpodobností, ale to vede ke zvýšení chyby vzorkování.

Mezní chyba vzorkování () se rovná t-násobku počtu průměrných chyb vzorkování (v teorii vzorkování je obvyklé nazývat koeficient t koeficient spolehlivosti):

Pokud se chyba vzorkování zdvojnásobí (t \u003d 2), dostaneme mnohem vyšší pravděpodobnost, že nepřekročí určitou hranici (v našem případě dvojnásobná střední chyba) - 0,954. Vezmeme-li t \u003d 3, pak bude úroveň spolehlivosti 0,997 - téměř jistota.

Rozpětí chyby vzorkování závisí na následujících faktorech:

  • stupeň variace jednotek běžné populace;
  • velikost vzorku;
  • vybraná schémata výběru (opakovaný výběr dává menší množství chyb);
  • úroveň spolehlivosti.

Pokud je velikost vzorku větší než 30, pak se hodnota t určuje podle normální distribuční tabulky, pokud je menší - podle Studentovy distribuční tabulky.

Zde jsou některé hodnoty koeficientu spolehlivosti z tabulky normálního rozdělení.

Interval spolehlivosti pro průměrnou hodnotu charakteristiky a pro podíl na obecné populaci je stanoven takto:

Stanovení hranic obecného průměru a podílu tedy sestává z následujících fází:

Chyby vzorkování pro různé typy výběru

  1. Vlastně náhodné a mechanické vzorkování. Průměrná chyba skutečného náhodného a mechanického vzorkování se zjistí podle vzorců uvedených v tabulce. 11.3.

Příklad 11.2. Ke studiu úrovně produktivity kapitálu bylo provedeno výběrové šetření u 90 podniků z 225 metodou náhodného opakovaného výběru, v důsledku čehož byly získány údaje uvedené v tabulce.

V tomto příkladu máme 40% vzorek (90: 225 \u003d 0,4 nebo 40%). Určíme jeho okrajovou chybu a hranice pro průměrnou hodnotu prvku v obecné populaci podle kroků algoritmu:

  1. Na základě výsledků výběrového šetření vypočítáme průměrnou hodnotu a rozptyl v populaci vzorku:
Tabulka 11.5.
Výsledky pozorování Vypočítané hodnoty
úroveň návratnosti aktiv, rublů, x i počet podniků, f i uprostřed intervalu, x i \\ xb4 x i \\ xb4 f i x i \\ xb4 2 f i
Až 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 a vyšší 14 2,3 32,2 74,06
Celkový 90 - 162,6 303,62

Průměrný vzorek

Selektivní rozptyl studovaného znaku

Pro naše data definujeme mezní chybu vzorkování, například s pravděpodobností 0,954. Pomocí tabulky hodnot pravděpodobnosti funkce normálního rozdělení (viz výňatek z ní uvedené v příloze 1) zjistíme hodnotu koeficientu spolehlivosti t odpovídající pravděpodobnosti 0,954. S pravděpodobností 0,954 je koeficient t 2.

V 954 případech z 1000 tedy průměrná hodnota produktivity kapitálu nepřekročí 1,88 rublů. a ne méně než 1,74 rublů.

Výše bylo použito schéma opakovaného náhodného výběru. Podívejme se, zda se výsledky průzkumu změní, pokud předpokládáme, že výběr byl proveden podle schématu neopakovaného výběru. V tomto případě se průměrná chyba vypočítá pomocí vzorce

Potom s pravděpodobností rovnou 0,954 bude hodnota mezní chyby vzorkování:

Meze spolehlivosti pro střední hodnotu znaku v neopakovatelném náhodném výběru budou mít následující hodnoty:

Porovnáním výsledků dvou schémat odběru vzorků lze vyvodit závěr, že použití neopakujícího se náhodného vzorkování poskytuje přesnější výsledky ve srovnání s použitím opakovaného odběru vzorků na stejné úrovni spolehlivosti. Čím větší je velikost vzorku, tím významněji se hranice středních hodnot zužují při přechodu z jednoho výběrového schématu do druhého.

Na základě vzorových údajů určíme hranice podílu podniků s úrovní produktivity kapitálu nepřesahující 2,0 rublů v běžné populaci:

  1. vypočítat vzorkovací frekvenci.

Počet podniků ve vzorku s úrovní produktivity kapitálu nepřesahující 2,0 rublů je 60 jednotek. Pak

m \u003d 60, n \u003d 90, w \u003d m / n \u003d 60: 90 \u003d 0,667;

  1. vypočítat rozptyl podílu ve vzorku
  1. průměrná chyba vzorkování při použití návrhu opakovaného vzorkování bude

Pokud předpokládáme, že bylo použito neopakující se výběrové schéma, bude průměrná chyba vzorkování, s přihlédnutím k opravě o konečnost populace,

  1. nastavit úroveň spolehlivosti a určit mezní chybu vzorkování.

Při hodnotě pravděpodobnosti P \u003d 0,997 podle tabulky normálního rozdělení získáme hodnotu pro koeficient spolehlivosti t \u003d 3 (viz výňatek z ní, uvedený v příloze 1):

S pravděpodobností 0,997 lze tedy tvrdit, že v obecné populaci je podíl podniků s návratností aktiv nepřesahující 2,0 rublů nejméně 54,7% a nejvýše 78,7%.

  1. Typický vzorek. U typického vzorku je potom obecná populace objektů rozdělena do k skupin

N 1 + N 2 +… + N i +… + N k \u003d N.

Počet jednotek, které lze získat z každé typické skupiny, závisí na použité metodě výběru; jejich celkový počet tvoří požadovanou velikost vzorku

n 1 + n 2 +… + n i +… + n k \u003d n.

Existují následující dva způsoby organizace výběru v rámci typické skupiny: úměrné objemu typických skupin a úměrné míře variability hodnot znaku v jednotkách pozorování ve skupinách. Zvažme první z nich jako nejčastěji používaný.

Výběr úměrný velikosti typických skupin předpokládá, že z každé z nich bude vybrán následující počet populačních jednotek:

n \u003d n i N i / N

kde n i je počet obnovitelných jednotek pro vzorek z i-té typické skupiny;

n je celková velikost vzorku;

N i - počet jednotek obecné populace, které tvoří i-tu typickou skupinu;

N je celkový počet jednotek v obecné populaci.

Výběr jednotek ve skupinách probíhá formou náhodného nebo mechanického vzorkování.

Vzorce pro odhad střední chyby vzorkování pro průměr a proporce jsou uvedeny v tabulce. 11.6.

Zde je průměr skupinových odchylek typických skupin.

Příklad 11.3. Na jedné z moskevských univerzit byl proveden výběrový průzkum mezi studenty za účelem stanovení ukazatele průměrné návštěvnosti univerzitní knihovny jedním studentem za semestr. K tomu byl použit 5% neopakovatelný typický vzorek, jehož typické skupiny odpovídají číslu kurzu. Při výběru úměrném objemu typických skupin byly získány následující údaje:

Tabulka 11.7.
Číslo kurzu Celkem studenti, lidé, N i Zkoumány v důsledku selektivního pozorování, lidé, n Průměrný počet návštěv knihovny na studenta za semestr, x i Rozptyl vzorku uvnitř skupiny,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Celkový 2 550 128 8 -

Počet studentů, kteří mají být dotazováni v každém kurzu, se počítá takto:

podobně pro ostatní skupiny:

Distribuce vzorových prostředků má vždy normální zákon distribuce (nebo se k němu blíží) pro n\u003e 100, bez ohledu na povahu distribuce obecné populace. V případě malých vzorků však platí jiný distribuční zákon - distribuce Studenta. V tomto případě je koeficient spolehlivosti nalezen z Studentovy tabulky t-distribuce v závislosti na úrovni spolehlivosti P a velikosti vzorku n. Dodatek 1 poskytuje fragment Studentovy tabulky t-distribuce, prezentovaný jako závislost pravděpodobnosti spolehlivosti na velikosti vzorku a koeficientu spolehlivosti t.

Příklad 11.4. Předpokládejme, že ukázkový průzkum osmi studentů akademie ukázal tuto přípravu na testovací práce podle statistik strávili následující počet hodin: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6.6.

Příklad 11.5. Vypočítáme, kolik z 507 průmyslové podniky by měl zkontrolovat daňový úřad, aby bylo možné s pravděpodobností 0,997 určit podíl podniků s porušením daní. Podle údajů předchozího podobného průzkumu byla hodnota směrodatné odchylky 0,15; očekává se, že chyba vzorkování nebude vyšší než 0,05.

Pokud se používá opakovaný náhodný výběr,

U neopakovatelného náhodného výběru budete muset zkontrolovat

Jak vidíte, použití neopakovatelného výběru umožňuje průzkum mnohem menšího počtu objektů.

Příklad 11.6. Plánuje se průzkum mzdy v podnicích průmyslu metodou náhodného neopakovaného výběru. Jaká by měla být velikost vzorku, pokud v době průzkumu činil počet zaměstnanců v odvětví 100 000? Mezní chyba vzorkování by neměla přesáhnout 100 rublů. s pravděpodobností 0,954. Na základě výsledků předchozích průzkumů mezd v průmyslu je známo, že standardní odchylka je 500 rublů.

Proto je za účelem vyřešení tohoto problému nutné zahrnout do vzorku alespoň 100 lidí.