Chyby vzorkování. Úkoly, které je třeba vyřešit při použití selektivního pozorování

Teorie statistik: přednášky Burkhanova Inessa Viktorovna

3. Chyby vzorkování

3. Chyby vzorkování

Každá jednotka v pozorování vzorku by měla mít stejnou příležitost jako ostatní, což je základ pro náhodný výběr.

Samostatný výběr vzorků - Toto je výběr jednotek z celé obecné populace losováním nebo jiným podobným způsobem.

Princip náhodnosti je, že zařazení nebo vyloučení předmětu ze vzorku nemůže být ovlivněno žádným jiným faktorem než případem.

Ukázka sdíleníJe poměr počtu jednotek ve vzorku k počtu jednotek v obecné populaci:

Správný náhodný výběr ve své čisté formě je prvním ze všech ostatních typů výběru, obsahuje a implementuje základní principy selektivního statistického pozorování.

Dva hlavní typy zobecňujících ukazatelů, které se používají ve vzorkovací metodě, jsou průměrná hodnota kvantitativní charakteristiky a relativní hodnota alternativní charakteristiky.

Frakce vzorku (w), nebo konkrétní, je určena poměrem počtu jednotek se studovaným znakem m, k celkovému počtu jednotek vzorku (n):

Pro charakterizaci spolehlivosti indikátorů odběru vzorků se rozlišují střední a mezní chyby odběru vzorků.

Chyba vzorkování, nazývaná také chyba reprezentativnosti, je rozdílem mezi odpovídajícím vzorkem a obecnými charakteristikami:

?x \u003d | x - x |;

?w \u003d | x - p |.

Chyba vzorkování je vlastní pouze při pozorování vzorků

Průměr vzorku a podíl vzorku - jsou to náhodné proměnné, které nabývají různých hodnot v závislosti na jednotkách studované statistické populace, které byly zahrnuty do vzorku. Chyby vzorkování jsou tedy také náhodné hodnoty a mohou také nabývat různých hodnot. Proto je stanoven průměr možných chyb - průměrná chyba vzorkování.

Průměrná chyba vzorkování je určena velikostí vzorku: čím větší je počet, čím jsou stejné věci, tím menší je průměrná chyba vzorkování. Pokrývající rostoucí počet jednotek obecné populace výběrovým šetřením více a přesněji charakterizujeme celou obecnou populaci.

Průměrná chyba vzorkování závisí na stupni variace sledovaného znaku, stupeň variace je zase charakterizován rozptylem? 2 nebo w (l - w) - pro alternativní funkci. Čím menší je variace funkce a rozptyl, tím menší je střední chyba vzorkování a naopak.

Pro náhodné opakované vzorkování se průměrné chyby teoreticky vypočítají pomocí následujících vzorců:

1) pro průměrnou kvantitativní vlastnost:

kde? 2 - průměrná hodnota rozptylu kvantitativní vlastnosti.

2) pro akcii (alternativní funkce):

Jak je tedy rozptyl zvláštnosti v obecné populaci? 2 není přesně známo, v praxi používají hodnotu rozptylu S2 vypočtenou pro vzorek vzorku na základě zákona o velkých počtech, podle kterého populace vzorku s dostatečně velkou velikostí vzorku zcela přesně reprodukuje charakteristiky obecné populace.

Vzorce pro střední chybu vzorkování pro náhodný převzorkování jsou následující. Pro průměrnou hodnotu kvantitativní vlastnosti: obecný rozptyl je vyjádřen volitelným způsobem takto:

kde S2 je hodnota rozptylu.

Mechanické vzorkování- Jedná se o výběr jednotek do vzorku z obecné populace, který je rozdělen do stejných skupin podle neutrálního kritéria; se provádí tak, že z každé takové skupiny je vybrána pouze jedna jednotka.

V případě mechanického výběru jsou jednotky sledované statistické populace předběžně uspořádány v určitém pořadí, po kterém je daný počet jednotek mechanicky vybrán v určitém intervalu. Velikost intervalu v obecné populaci se navíc rovná recipročnímu podílu vzorku.

Při dostatečně velké populaci se mechanický výběr z hlediska přesnosti výsledků blíží řádnému náhodnému výběru, a proto se pro stanovení průměrné chyby mechanického vzorkování používají vzorce náhodného neopakovaného vzorkování.

Pro výběr jednotek z heterogenní populace se používá tzv. Typický výběr, používá se, když lze všechny jednotky obecné populace rozdělit do několika kvalitativně homogenních, podobných skupin podle charakteristik, na nichž sledované ukazatele závisí.

Poté se z každé typické skupiny provede individuální výběr jednotek do populace vzorků pomocí náhodného nebo mechanického vzorkování.

Typické vzorkování se obvykle používá při studiu složitých statistických populací.

Typické vzorkování poskytuje přesnější výsledky. Typizace obecné populace zajišťuje reprezentativnost takového vzorku, reprezentaci každé typologické skupiny v něm, což umožňuje vyloučit vliv meziskupinové rozptylu na střední chybu vzorkování. Proto při určování průměrné chyby typického vzorku se jako indikátor variace používá průměr rozptylů uvnitř skupiny.

Sériový odběr zahrnuje náhodný výběr z obecné populace stejně velkých skupin, aby byly všechny jednotky podrobeny pozorování v takových skupinách.

Protože všechny jednotky bez výjimky jsou zkoumány v rámci skupin (řad), průměrná chyba vzorkování (při výběru řady stejné velikosti) závisí pouze na rozptylu mezi skupinami (mezi řadami).

Z knihy Osobní rozpočet. Peníze pod kontrolou autor Sergey Makarov

Chyby obyvatele K chybám můžete přistupovat různými způsoby: můžete se bát, že se jich dopustíte a starat se o každou z nich, můžete se radovat ze svých chyb a krizí jako ukazatele na cestě k úspěchu a osobní vítězství. V chybách je vždy jen jedna věc - za ně musíte zaplatit.

Z knihy Příručka o interním auditu. Rizika a obchodní procesy autor Kryshkin Oleg

Výběr vzorků Postup výběru vzorků je nedílnou součástí projektu interního auditu. Je podrobně popsáno v různých zdrojích na téma auditu. V mnoha ohledech jsou však tyto popisy akademické. Navrhuji se na ně zaměřit

Z knihy Psychologie investování [Jak přestat dělat hlouposti svými penězi] autor Richards Karl

Investiční chyby jsou chyby investorů Jsem nyní přesvědčen více než kdy jindy, že všechny investiční chyby jsou ve skutečnosti chyby investorů. Na rozdíl od investorů: Investice je volba. Jde o to

autor Shcherbina Lidia Vladimirovna

29. Stanovení požadované velikosti vzorku Jedním z vědeckých principů v teorii odběru vzorků je zajistit dostatečný počet vybraných jednotek, přičemž snížení standardní chyby vzorku je vždy spojeno se zvětšením velikosti vzorku. Výpočet

Z knihy Obecná teorie statistiky autor Shcherbina Lidia Vladimirovna

30. Metody výběru a typy odběru vzorků. Správně náhodný odběr vzorků V teorii metody odběru vzorků byly vyvinuty různé metody odběru vzorků a typy odběru vzorků, aby byla zajištěna reprezentativnost. Metoda výběru se chápe jako pořadí výběru jednotek z obecné populace.

Z knihy Obecná teorie statistiky autor Shcherbina Lidia Vladimirovna

31. Mechanický a typický odběr vzorků V případě čistě mechanického odběru vzorků by měl být celý obecný soubor jednotek nejprve uveden ve formě seznamu jednotek odběru vzorků, sestavených v určitém pořadí, neutrálních ve vztahu ke studovanému atributu. Pak seznam

Z knihy Obecná teorie statistiky autor Shcherbina Lidia Vladimirovna

32. Sériový a kombinovaný odběr vzorků Sériový (vnořený) vzorkování je druh tvorby populace vzorků, pokud nejsou jednotky, které mají být sledovány, ale skupiny jednotek (série, hnízda) jsou vybírány náhodně. Uvnitř vybrané řady (hnízda)

Z knihy Obecná teorie statistiky autor Shcherbina Lidia Vladimirovna

33. Vícestupňové, vícestupňové a prostupové vzorkování. Zvláštností vícestupňového vzorku je to, že se vzorek vytváří postupně, podle stupňů výběru. V první fázi pomocí předem stanovené metody a typu výběru

autor Konik Nina Vladimirovna

3. Stanovení požadované velikosti vzorku Jedním z vědeckých principů v teorii odběru vzorků je zajistit dostatečný počet jednotek odběru vzorků. Teoreticky je potřeba dodržovat tuto zásadu v důkazech limitních vět

Z knihy Obecná teorie statistiky: Poznámky k přednáškám autor Konik Nina Vladimirovna

4. Metody výběru a typy odběru vzorků V teorii odběru vzorků byly vyvinuty různé metody výběru a typy odběru vzorků, aby byla zajištěna reprezentativnost. Metoda výběru se chápe jako pořadí, ve kterém jsou jednotky vybrány z běžné populace. Existují dvě metody výběru: opakování

Z knihy Teorie statistik autor Burkhanova Inessa Viktorovna

36. Chyby vzorkování Samostatný výběr vzorků je výběr jednotek z celé populace losem nebo podobnými prostředky. Princip náhodnosti je, že zařazení nebo vyloučení objektu ze vzorku nemůže být ovlivněno žádným faktorem,

Z knihy Business Correspondence: A Study Guide autor Kirsanova Maria Vladimirovna

Lexikální chyby 1. Nesprávné použití slov a termínů Většina chyb v obchodních dopisech je lexikální. Nedostatek gramotnosti vede nejen k podivným nesmyslům, ale také k absurditě.

Z knihy Nová éra - Staré úzkosti: Politická ekonomie autor Yasin Evgeny Grigorievich

5 Naše chyby Trváme na tom, že zvolený průběh tržních reforem byl správný. A nezklamali vůbec, narazili jen jednou. Byly však chyby a opomenutí. To jsou naše chyby i chyby vedení země, kterým jsme nemohli zabránit. Chyby - mnoha způsoby

od Curtis Face

Důležitost velikosti vzorku Jak jsem řekl, lidé mají tendenci se příliš soustředit na vzácné jevy, i když je statisticky nemožné extrahovat mnoho informací z několika případů. To je hlavní důvod

Z knihy Cesta želv. Od diletantů po legendární obchodníky od Curtis Face

Reprezentativní vzorky Reprezentativnost našich testů pro předpovídání budoucnosti je určována dvěma faktory: - Počet trhů: testy prováděné na různých trzích pravděpodobně zahrnují trhy s různým stupněm volatility.

Z knihy Cesta želv. Od diletantů po legendární obchodníky od Curtis Face

Velikost vzorku Koncept velikosti vzorku je jednoduchý: musíte mít dostatečně velký vzorek, abyste mohli vyvodit statisticky platné závěry. Čím menší je vzorek, tím hrubší jsou závěry, které lze vyvodit; čím větší je vzorek, tím lepší jsou závěry. Tady není žádný

Podívejme se podrobně na výše uvedené metody formování populace vzorku a výsledné chyby reprezentativnosti.

Správně náhodný výběr vzorků je založen na náhodném výběru jednotek z běžné populace bez jakýchkoli systematických prvků. Technicky je správný náhodný výběr prováděn losováním (například losováním) nebo podle tabulky náhodných čísel.

Ve skutečnosti se náhodný výběr „v jeho čisté formě“ zřídkakdy používá v praxi selektivního pozorování, ale je to první z ostatních typů výběru, implementuje základní principy selektivního pozorování. Podívejme se na některé otázky teorie metody vzorkování a vzorce chyby pro jednoduchý náhodný vzorek.

Chyba pozorování vzorku je rozdíl mezi hodnotou parametru v obecné populaci a jeho hodnotou vypočtenou z výsledků pozorování vzorku. Pro průměrnou kvantitativní charakteristiku se stanoví chyba vzorkování

Indikátor se nazývá mezní chyba vzorkování.

Průměr vzorku je náhodná proměnná, která může nabývat různých hodnot v závislosti na tom, které jednotky byly ve vzorku. Chyby vzorkování jsou proto také náhodné hodnoty a mohou nabývat různých hodnot. Proto je stanoven průměr možných chyb - průměrná chyba vzorkování, která závisí na:

  • 1) velikost vzorku: čím větší číslo, tím menší je hodnota průměrné chyby;
  • 2) stupeň změny sledovaného znaku: čím menší je rozptyl znaku a v důsledku toho rozptyl, tím menší je průměrná chyba vzorkování.

Pro náhodné opakované vzorkování se vypočte střední chyba

V praxi není obecná variance přesně známa, ale v teorii pravděpodobnosti se to prokazuje

Protože hodnota pro dostatečně velké n je blízko 1, můžeme předpokládat, že. Potom lze vypočítat střední chybu vzorkování:

Ale v případě malého vzorku (pro n30) je třeba vzít v úvahu koeficient a průměrná chyba malého vzorku by se měla vypočítat podle vzorce

V případě náhodného neopakovaného vzorkování jsou dané vzorce korigovány hodnotou. Pak je průměrná chyba opakovaného vzorkování:

Protože je vždy menší, pak multiplikátor () je vždy menší než 1. To znamená, že průměrná chyba v neopakovaném výběru je vždy menší než v opakovaném výběru.

Mechanické vzorkování se používá, je-li nějakým způsobem uspořádána obecná populace (například abecední seznamy voličů, telefonní čísla, čísla domů, čísla bytů). Výběr jednotek se provádí v určitém intervalu, který se rovná recipročnímu procentu vzorku. S 2% vzorkem je tedy vybrána každá 50 jednotek \u003d 1 / 0,02, s 5% každý 1 / 0,05 \u003d 20 jednotek obecné populace.

Referenční bod je vybrán různými způsoby: náhodně, od středu intervalu, se změnou referenčního bodu. Hlavní věcí je vyhnout se systematickým chybám. Například u vzorku 5%, pokud je první jednotka 13, pak dalších 33, 53, 73 atd.

Z hlediska přesnosti je mechanický výběr blízký náhodnému vzorkování samotnému. Proto pro stanovení průměrné chyby mechanického vzorkování se používají vzorce správného náhodného výběru.

V typickém výběru je sledovaná populace předběžně rozdělena na homogenní skupiny stejného typu. Například při zjišťování podniků to mohou být průmyslová odvětví, subsektory, při studiu populace to mohou být regiony, sociální nebo věkové skupiny. Poté je nezávislý výběr z každé skupiny proveden mechanicky nebo čistě náhodným způsobem.

Typické vzorkování poskytuje přesnější výsledky než jiné metody. Typizace obecné populace zajišťuje reprezentaci každé typologické skupiny ve vzorku, což umožňuje vyloučit vliv rozptylu mezi skupinami na průměrnou chybu vzorkování. Proto při hledání chyby typického vzorku podle pravidla pro přidání variací () je nutné vzít v úvahu pouze průměr skupinových variací. Pak průměrná chyba vzorkování:

při opětovném výběru

s opakovaným výběrem

kde je průměr rozptylů uvnitř skupiny ve vzorku.

Sériové (nebo shlukové) vzorkování se používá, když je populace rozdělena do řady nebo skupin před zahájením výběrového šetření. Těmito sériemi může být balení hotových výrobků, studentských skupin, brigád. Série pro průzkum jsou vybírány mechanicky nebo správným náhodným způsobem a v rámci série je prováděn kontinuální průzkum jednotek. Proto průměrná chyba vzorkování závisí pouze na rozptylu mezi skupinami (mezi řadami), který se vypočítá podle vzorce:

kde r je počet vybraných sérií;

Průměr i-té série.

Vypočítá se průměrná chyba sériového vzorkování:

při opětovném výběru

s opakovaným výběrem

kde R je celkový počet řad.

Kombinovaný výběr je kombinací zvažovaných metod výběru.

Průměrná chyba vzorkování u každé metody výběru závisí hlavně na absolutní velikosti vzorku av menší míře na procentu vzorku. Předpokládejme, že 225 pozorování se provádí v prvním případě z obecné populace 4500 jednotek a ve druhém - z 225 000 jednotek. Rozdíly v obou případech jsou rovny 25. Potom v prvním případě s 5% vzorkováním bude chyba vzorkování:

Ve druhém případě bude s 0,1% výběrem rovna:

Při 50násobném snížení procenta vzorku se tedy chyba vzorkování mírně zvýšila, protože velikost vzorku se nezměnila.

Předpokládejme, že se velikost vzorku zvýší na 625 pozorování. V tomto případě je vzorkovací chyba:

Zvýšení vzorku faktorem 2,8 se stejnou velikostí obecné populace snižuje velikost chyby vzorkování více než 1,6krát.

Chyba vzorkováníje objektivně se objevující rozpor mezi charakteristikami vzorku a obecnou populací. Závisí to na řadě faktorů: stupeň variace sledované vlastnosti, velikost vzorku, metoda výběru jednotek ve vzorku, akceptovaná úroveň spolehlivosti výsledku výzkumu.

Aby byl vzorek reprezentativní, je důležité zajistit, aby byl výběr náhodný, aby všechny objekty v obecné populaci měly stejnou pravděpodobnost, že budou zahrnuty do vzorku. K zajištění reprezentativního vzorku se používají následující metody výběru:

· náhodné (jednoduchý náhodný) vzorkování (první náhodný objekt je vybrán postupně);

· mechanický (systematický) odběr vzorků;

· typický (stratifikovaný, stratifikovaný) vzorkování (objekty jsou vybírány v poměru k reprezentaci různých typů objektů v obecné populaci);

· seriál (vnořené) vzorkování.

Výběr jednotek ve vzorku vzorku může být opakován nebo neopakován. Když opětovný výběrjednotka ve vzorku je sledována, tj. registrace hodnot jeho prvků, je vrácena obecné populaci a spolu s dalšími jednotkami se účastní dalšího výběrového řízení. Když neopakovatelný výběrjednotka zařazená do vzorku je prověřena a nezúčastňuje se dalšího výběrového řízení

Pozorování vzorku je vždy spojeno s chybou, protože počet vzorkovaných jednotek se nerovná počáteční (obecné) populaci. Náhodné chyby vzorkování jsou způsobeny působením náhodných faktorů, které neobsahují žádné systematické prvky ve směru ovlivňování vypočtených charakteristik vzorkování. I při přísném dodržování všech principů tvorby populace vzorků se bude vzorek a obecné charakteristiky poněkud lišit. Výsledné náhodné chyby by proto měly být statisticky odhadnuty a zohledněny při rozšiřování výsledků pozorování vzorku na celou obecnou populaci. Odhad takových chyb je hlavním problémem řešeným v teorii pozorování vzorku. Inverzní problém spočívá v určení takové minimální požadované velikosti vzorku, v níž chyba nepřekročí danou hodnotu. Materiál v této části je zaměřen na rozvoj dovedností při řešení těchto problémů.

Správně náhodný odběr vzorků... Jeho podstata spočívá ve výběru jednotek z obecné populace jako celku, aniž by byla rozdělena do skupin, podskupin nebo řady jednotlivých jednotek. V tomto případě jsou jednotky vybírány v náhodném pořadí, které nezávisí ani na posloupnosti uspořádání jednotek v populaci, ani na hodnotách jejich atributů.

Po provedení výběru pomocí jednoho z algoritmů, které implementují zásadu náhodnosti, nebo na základě tabulky náhodných čísel, se stanoví hranice obecných charakteristik. Za tímto účelem se vypočítají průměrné a mezní chyby vzorkování.

Průměrná chyba opakovaného správného náhodného vzorkování určeno vzorcem

kde σ je standardní odchylka sledované vlastnosti;

n je objem (počet jednotek) vzorku.

Mezní chyba vzorkování spojené s danou úrovní pravděpodobnosti. Při řešení níže uvedených problémů je požadovaná pravděpodobnost 0,954 (t \u003d 2) nebo 0,997 (t \u003d 3). Při zohlednění zvolené úrovně pravděpodobnosti a odpovídající hodnoty t bude mezní chyba vzorkování:

Pak lze tvrdit, že pro danou pravděpodobnost bude obecný průměr v následujících mezích:

Při definování hranic obecný podíl při výpočtu průměrné chyby vzorkování se použije rozptyl alternativního atributu, který se vypočítá pomocí následujícího vzorce:

kde w je podíl vzorku, tj. podíl jednotek, které mají určitou variantu nebo varianty sledované vlastnosti.

Při řešení jednotlivých problémů je třeba vzít v úvahu, že při neznámé variantě alternativního prvku lze použít jeho maximální možnou hodnotu rovnou 0,25.

Příklad... V důsledku výběrového šetření nezaměstnané populace hledající práci, provedené na základě náhodný převzorkováníbyla získána data uvedená v tabulce. 1.14.

Tabulka 1.14

Výsledky výběrového šetření nezaměstnané populace

S pravděpodobností 0,954 definujte hranice:

a) průměrný věk nezaměstnané populace;

b) podíl (měrná hmotnost) osob mladších 25 let na celkovém počtu nezaměstnaných.

Rozhodnutí. K určení průměrné chyby vzorkování je nejprve nutné stanovit průměr vzorku a rozptyl sledované vlastnosti. Za tímto účelem je vhodné sestavit tabulku 1.15 pomocí manuální metody výpočtu.

Tabulka 1.15

Výpočet průměrného věku nezaměstnané populace a rozptylu

Na základě údajů v tabulce se vypočítají potřebné ukazatele:

Ukázkový průměr:

;

Varianta:

Root-střední-čtvercová odchylka:

.

Průměrná chyba vzorkování bude:

roku.

Definujeme s pravděpodobností 0,954 ( t\u003d 2) mezní chyba vzorkování:

roku.

Stanovme hranice obecného průměru: (41,2 - 1,6) (41,2 + 1,6) nebo:

Na základě výběrového šetření provedeného s pravděpodobností 0,954 lze tedy dojít k závěru, že průměrný věk nezaměstnané populace hledající zaměstnání se pohybuje v rozmezí 40 až 43 let.

Abychom odpověděli na otázku položenou v bodě „b“ tohoto příkladu, určíme podíl osob mladších 25 let na základě údajů ze vzorku a vypočítáme rozptyl podílu:

Vypočítáme průměrnou chybu vzorkování:

Mezní chyba vzorkování s danou pravděpodobností bude:

Definujme hranice obecného podílu:

S pravděpodobností 0,954 lze tedy tvrdit, že podíl osob mladších 25 let na celkové nezaměstnanosti se pohybuje v rozmezí 3,9 až 1,1%.

Při výpočtu průměrné chyby náhodné neopakovatelné vzorkování, je nutné vzít v úvahu korekci pro opakování vzorkování:

kde N je objem (počet jednotek) obecné populace /

Požadovaný objem správného náhodného převzorkování podle vzorce:

Pokud se výběr neopakuje, má vzorec následující podobu:

Výsledek získaný pomocí těchto vzorců se vždy zaokrouhlí nahoru na nejbližší celou hodnotu.

Příklad.Je nutné určit, kolik studentů v prvních ročnících škol v okrese musí být vybráno v pořadí skutečně náhodných neopakujících se výběrů, aby bylo možné stanovit hranice průměrné výšky prvňáčků s mezní chybou 2 cm s pravděpodobností 0,997. podle výsledků podobného průzkumu v jiné oblasti bylo 24.

Rozhodnutí. Požadovaná velikost vzorku při pravděpodobnosti 0,997 ( t \u003d 3) bude:

K získání údajů o průměrné výšce prváků s danou přesností je tedy třeba prozkoumat 52 žáků.

Mechanické vzorkování... Tento výběr vzorků spočívá ve výběru jednotek z obecného seznamu jednotek obecné populace ve stejných intervalech v souladu se stanoveným procentem výběru. Při řešení problémů k určení průměrné chyby mechanického vzorkování, jakož i jeho požadovaného počtu, by se měly použít výše uvedené vzorce, které se používají v případě náhodného, \u200b\u200bneopakovatelného výběru.

S 2% vzorkem je tedy vybrána každá 50. jednotka (1: 0,02), s 5% vzorkem, každá 20. jednotka (1: 0,05) atd.

V souladu s přijatým podílem na výběru je tedy obecná populace mechanicky rozdělena do stejných skupin. Z každé skupiny je vybrána pouze jedna jednotka.

Důležitým znakem mechanického vzorkování je to, že vytváření populace vzorků lze provádět bez použití kompilačních seznamů. V praxi se často používá pořadí, ve kterém jsou jednotky obecné populace skutečně umístěny. Například sled výstupů hotových výrobků z dopravníku nebo výrobní linky, pořadí umístění jednotek šarže zboží během skladování, přepravy, prodeje atd.

Typický vzorek. Tento vzorek se používá v případech, kdy jsou jednotky obecné populace sloučeny do několika velkých typických skupin. Výběr jednotek ve vzorku se provádí v rámci těchto skupin v poměru k jejich objemu na základě použití správného náhodného nebo mechanického odběru vzorků (pokud jsou k dispozici potřebné informace, lze výběr provést také úměrně ke změně sledovaného znaku ve skupinách).

Typické vzorkování se obvykle používá při studiu složitých statistických populací. Například ve výběrovém šetření produktivity práce obchodních pracovníků, které se skládá ze samostatných skupin kvalifikací.

Důležitým rysem typického vzorku je to, že poskytuje přesnější výsledky ve srovnání s jinými metodami výběru jednotek v populaci vzorků.

Průměrná chyba typického vzorku je určena vzorci:

(opakovaný výběr);

(opakovaný výběr),

kde je průměr rozptylu uvnitř skupiny.

Příklad... Aby bylo možné studovat příjmy obyvatelstva ve třech okresech regionu, byl vytvořen 2% vzorek úměrný počtu obyvatel těchto okresů. Výsledky jsou uvedeny v tabulce. šestnáct.

Tabulka 16

Výsledky výběrového šetření o příjmech obyvatelstva

Je třeba stanovit hranice průměrného příjmu na obyvatele obyvatelstva v regionu jako celku s pravděpodobností 0,997.

Rozhodnutí. Vypočítáme průměr odchylek uvnitř skupiny:

kde N i - hlasitost i- a skupiny;

n, je velikost vzorku ze skupiny i.

Sériové vzorkování... Tento vzorek se používá v případech, kdy jsou jednotky studované populace sloučeny do malých skupin nebo skupin stejných velikostí. Vzorkovací jednotka je v tomto případě série. Série jsou vybírány pomocí správného náhodného nebo mechanického vzorkování a v rámci vybrané série jsou zkoumány všechny jednotky bez výjimky.

Výpočet střední chyby sériového vzorku je založen na rozptylu mezi skupinami:

(opakovaný výběr);

(opakovaný výběr),

kde x i - počet vybraných i - série;

R - celkový počet sérií.

Meziskupinová rozptyl pro skupiny stejné velikosti se vypočítá takto:

kde x i- průměrná řada i;

x - celkový průměr pro celý vzorek.

Příklad... Za účelem kontroly kvality složek ze šarže produktů balených v 50 krabicích po 20 výrobcích, byl vyroben 10% šaržový vzorek. U polí zahrnutých do vzorku byla průměrná odchylka parametrů produktu od normy 9 mm, 11, 12, 8 a 14 mm. S pravděpodobností 0,954 stanovte průměrnou odchylku parametrů pro celou dávku jako celek.

Rozhodnutí. Ukázkový průměr:

mm.

Meziskupinová odchylka:

Vzhledem k prokázané pravděpodobnosti R = 0,954 (t\u003d 2) mezní chyba vzorkování bude:

mm.

Provedené výpočty nám umožňují dospět k závěru, že průměrná odchylka parametrů všech produktů od normy je v následujících rozsazích:

Následující vzorce se používají k určení požadovaného objemu sériového vzorku pro danou mezní chybu:

(opakovaný výběr);

(opakovaný výběr).

Mezi ukazateli výběrového souboru a požadovanými ukazateli (parametry) obecné populace jsou zpravidla některé neshody, které se nazývají chyby vzorkování.Obecná chyba výběru vzorku se skládá ze dvou druhů chyb: chyby registrace a chyby reprezentativnosti.

Chyby registrace jsou spojeny s jakýmkoli statistickým pozorováním a jejich vzhled může být způsoben nepozorností zapisovače, nepřesností výpočtů, nedokonalostí měřicích přístrojů atd.

Chyby reprezentativnosti jsou spojeny pouze se selektivním pozorováním a jsou způsobeny jeho samotnou povahou, protože bez ohledu na to, jak pečlivě a správně se provádí výběr jednotek, se průměrné a relativní ukazatele vzorku budou vždy do jisté míry lišit od odpovídajících ukazatelů obecné populace.

Rozlišujte mezi systematickými a náhodnými chybami reprezentativnosti. Systematické chyby reprezentativnosti jsou nepřesnosti, které vznikají v důsledku nedodržení podmínek pro výběr jednotek ve vzorku, a neposkytují rovné příležitosti pro každou jednotku obecné populace, která má být zařazena do vzorku. Náhodné chyby reprezentativnosti jsou chyby, které vznikají v důsledku skutečnosti, že vzorek přesně nereprodukuje charakteristiky obecné populace (průměr, proporce, rozptyl atd.) V důsledku nespojité povahy průzkumu.

Je-li dodržen princip náhodného výběru, velikost chyby vzorkování závisí především na velikosti vzorku. Čím větší je velikost vzorku, za stejných okolností, tím menší je chyba vzorkování. Při velké velikosti vzorku se jasněji projevuje působení zákona o velkém počtu, podle kterého: s pravděpodobností libovolně blízkou jedné lze tvrdit, že při dostatečně velké velikosti vzorku a omezené rozptylu se charakteristiky vzorku (průměrný podíl) libovolně liší od odpovídajících obecných charakteristik ...

Velikost chyby vzorkování rovněž přímo souvisí s mírou variace studovaného znaku a stupně variace, jak je uvedeno výše, ve statistice je charakterizována velikostí rozptylu (rozptyl): čím menší je rozptyl, tím menší je chyba vzorkování, tím spolehlivější jsou statistické závěry. V praxi je tedy variance identifikována s chybou vzorkování.

Protože parametr obecné populace je požadovaná hodnota a není známa, je nutné se zaměřit nikoli na konkrétní chybu, ale na průměr všech možných vzorků.

Pokud z obecné populace vybereme několik sad vzorků, pak každý ze získaných vzorků poskytne jinou hodnotu pro konkrétní chybu.

Střední kvadratická /a vypočteno ze všech možných hodnot specifických chyb (;) bude:

kde * a - vzorek znamená; x - obecný průměr;)] - počet vzorků podle hodnoty є1 \u003d ~ si - x.

Střední čtvercová odchylka prostředku vzorku od obecného průměru se nazývá střední chyba vzorku.

Závislost velikosti chyby vzorkování na jeho velikosti a na stupni variace atributu je vyjádřena ve vzorci průměrné chyby vzorkování / a.

Druhá kvadratická chyba (rozptyl prostředků vzorku) je přímo úměrná rozptyluSto a je nepřímo úměrná velikosti vzorku n:

kde je rozptyl zvláštností v obecné populaci.

Průměrná chyba v obecné podobě je tedy určena vzorcem:

Po stanovení standardní odchylky od vzorku je tedy možné stanovit hodnotu průměrné chyby vzorkování, jejíž hodnota, jak vyplývá ze vzorce, je větší, čím větší je změna náhodné proměnné, a čím menší, tím větší je velikost vzorku.

S rostoucí velikostí vzorku se proto zmenšuje velikost střední chyby. Je-li například třeba snížit průměrnou chybu vzorkování o polovinu, pak by se velikost vzorku měla zvýšit čtyřikrát, pokud je nutné chybu vzorkování snížit třikrát, pak by se velikost vzorku měla zvýšit devětkrát atd.

V praktických výpočtech se pro střední hodnotu a poměr použijí dva vzorce pro střední chybu vzorkování.

V selektivní studii průměrných ukazatelů je vzorec průměrné chyby následující:

Při studiu relativních ukazatelů (konkrétních funkcí) je vzorec průměrné chyby:

kder - podíl prvku na obecné populaci.

Použití výše uvedených vzorců pro průměrnou chybu předpokládá, že obecný rozptyl a obecný zlomek jsou známy. Ve skutečnosti však tyto ukazatele nejsou známy a nelze je vypočítat kvůli nedostatku údajů o obecné populaci. Proto je třeba nahradit obecný rozptyl a obecný podíl jinými, blízkými hodnotami.

V matematické statistice bylo prokázáno, že takové hodnoty mohou být rozptyl vzorku (st) a podíl vzorku (co).

S ohledem na to lze vzorce pro průměrnou chybu napsat takto:

Tyto vzorce poskytují prostředky pro stanovení střední chyby převzorkování. Praktické použití jednoduchého náhodného převzorkování je omezené. Především je to prakticky nepraktické a někdy nemožné opakované zkoumání stejných jednotek. Použití opakovaného odběru vzorků místo opakovaného odběru vzorků je diktováno rovněž požadavkem na zvýšení stupně přesnosti a spolehlivosti vzorku. Proto se v praxi často používá metoda neopakovatelného náhodného výběru. Podle této metody výběru se populační jednotka vybraná pro vzorek nezúčastní dalšího výběru. Jednotky jsou vybírány z běžné populace, snížené o počet dříve vybraných jednotek. Proto se v souvislosti se změnou velikosti obecné populace po každém výběru a pravděpodobností selekce u jednotek, které zůstanou, do vzorců zavede korekční faktor pro průměrnou chybu vzorkování

kde N je velikost obecné populace; p - velikost vzorku. Pro dostatečně velkou hodnotu N lze jednotku ve jmenovateli zanedbat. Pak

V důsledku toho jsou vzorce pro střední chybu odběru vzorků pro opakující se odběry vzorků pro střední hodnotu a pro poměr, v tomto pořadí:

Pokud p je vždy menší než M, pak další faktor je vždy menší než jeden. V důsledku toho bude absolutní hodnota chyby vzorkování vždy nižší v případě neprovedení vzorkování než v případě opakovaného vzorkování.

Pokud je velikost vzorku dostatečně velká, pak je hodnota 1 ^ blízká jednotě, a proto ji lze zanedbat. Potom je průměrná chyba náhodného neopakovaného vzorkování určena vzorcem skutečného náhodného opakovaného vzorkování.

Vezměme pro náš příklad průměrnou chybu výnosu a podíl pozemků s výnosem 25 c / ha nebo více.

Průměrná chyba vzorkování

a) průměrný výnos ječmene

Průměrný výnos ječmene v obecné populaci х -G ^ \u003d 25,1 ± 0,12 c / ha, to znamená, že je v rozmezí od 24,98 do 25,22 c / ha.

Podíl pozemků s výnosem 25 kg / ha nebo více v obecné populaci

T- ^ T \u003d 0,80 ± 0,07, tj. je v rozmezí 73 až 87%.

Průměrná chyba vzorkování ukazuje možné odchylky charakteristik vzorku od charakteristik obecné populace. Současně, při provádění selektivního pozorování, vědci často čelí úkolu spočítat nejen průměrnou chybu, ale také stanovit maximální možnou chybu výběru. Známe střední chybu, je možné určit hranice, za které chyba vzorkování nepřestane. Je však možné tvrdit, že tyto odchylky nepřekročí danou hodnotu, ne s absolutní jistotou, ale pouze s určitým stupněm pravděpodobnosti. Úroveň pravděpodobnosti, která se bere při určování možných limitů, které obsahují hodnoty parametrů obecné populace, se nazývá úroveň spolehlivosti pravděpodobnosti.

Pravděpodobnost důvěry- to je poměrně vysoká, a proto je v každém konkrétním případě prakticky považována za provedenou, pravděpodobnost, která zaručuje spolehlivé statistické závěry. Označujeme to D a pravděpodobnost překročení této úrovně je a. Tak,a =1 - R Pravděpodobnosta nazval úroveň významnosti(významnost), která charakterizuje relativní počet chybných závěrů v celkovém počtu závěrů a je definována jako rozdíl mezi jedním a akceptovanou úrovní spolehlivosti.

Úroveň důvěry je stanovena výzkumným pracovníkem na základě míry odpovědnosti a povahy řešených úkolů. Ve statistických studiích v ekonomii je nejčastěji používána úroveň důvěry D \u003d 0,95; P \u003d 0,99 (respektive úroveň významnosti)a = 0,05; a \u003d 0,01) méně častoD \u003d 0,999. Například úroveň spolehlivostiГ \u003d 0,99 znamená, že chyba odhadu v 99 případech ze 100 nepřekročí stanovenou hodnotu a pouze v jednom případě ze 100 může dosáhnout vypočtené hodnoty nebo ji překročit.

Vyvolá se chyba vzorkování vypočtená s daným stupněm spolehlivé pravděpodobnostimezní chyba vzorkování Er.

Uvažujme, jak je stanovena hodnota možné mezní chyby vzorkování. Množstvíep je vztaženo k normalizované odchylce a je definováno jako poměr mezní chyby vzorkováníep k průměrné chyběa:

Pro pohodlí při výpočtech je odchylka náhodné proměnné od její střední hodnoty obvykle vyjádřena v jednotkách standardní odchylky. Výraz

volalnormalizovaná odchylka. v Ve statistické literatuřea volalkoeficient spolehlivosti, nebo násobek střední chyby vzorkování.

Normalizovanou odchylku průměru vzorku lze tedy určit vzorcem:

a _є_r_

Z výrazu1 najdete možnou mezní chybu vzorkování

ep \u003d u / l.

Nahrazování místove své hodnotě uvádíme vzorce pro mezní chyby vzorkování pro průměr a pro poměr s neopakovaným náhodným výběrem:

V důsledku toho marginální chyba vzorkování závisí na velikosti střední chyby a normalizované odchylce a je rovna ± násobku počtu průměrných chyb vzorkování.

Střední a mezní chyby vzorkování jsou pojmenované hodnoty a jsou vyjádřeny ve stejných jednotkách jako aritmetický průměr a směrodatná odchylka.

Normalizovaná odchylka je funkčně spojena s pravděpodobností. Chcete-li najít hodnotya kompilované speciální tabulky (ext. 2), podle kterých můžete najít hodnotua při dané úrovni spolehlivosti a pravděpodobnosti při známé a.

Zde jsou hodnotya a odpovídající pravděpodobnosti vzorků s velikostín\u003e 30, který se nejčastěji používá v praktických výpočtech:

Proto prou \u003d 1 je pravděpodobnost odchylky charakteristik vzorku od obecných hodnot hodnotou jediné průměrné chyby vzorkování 0,6827. To znamená, že v průměru z každých 1 000 vzorků bude 683 dávat zobecněné charakteristiky, které se budou lišit od obecných zobecněných charakteristik pouze o jednu střední chybu. Pro u \u003d 2 je pravděpodobnost 0,9545. v To znamená, že od každého1000 vzorků 954 poskytne zobecněné charakteristiky, které se budou lišit od obecných zobecněných charakteristik o ne více než dvojnásobek průměrné chyby odběru atd.

Avšak vzhledem k tomu, že se zpravidla provádí pouze jeden vzorek, říkáme, že například s pravděpodobností 0,9545 lze zaručit, že velikost mezní chyby nepřesáhne dvojnásobek průměrné chyby vzorkování.

Bylo matematicky prokázáno, že poměr chyby vzorkování k střední chybě zpravidla nepřekračuje± 3d pro dostatečně velké číslo n, přestože chyba vzorkování může získat jakékoli hodnoty. Jinými slovy, můžeme říci, že s dostatečně vysokou pravděpodobností úsudku (P \u003d 0,9973) mezní chyba vzorkování zpravidla nepřekročí tři střední chyby vzorkování. Proto lze hodnotu Ep \u003d 3d považovat za limit možné chyby vzorkování.

Určme pro náš příklad mezní chybu odběru vzorků pro průměrný výnos a podíl pozemků s výnosem 25 c / ha nebo více. Předpokládá se, že úroveň spolehlivosti se rovná P \u003d 0,9545. v Podle tabulky (app..2) zjišťujeme hodnoty u \u003d 2. Průměrné chyby vzorkování u výnosu a podílu pozemků s výtěžností 25 c / ha a více byly zjištěny dříve, a proto byly: Ts ~ \u003d ± 0,12 c / ha;MR \u003d ± 0,07.

Mezní chyba průměrného výnosu ječmene:

Rozdíl mezi průměrným výnosem vzorku a obecným průměrem tedy nebude větší než 0,24 c / ha. Mezní hodnoty průměrného výnosu v obecné populaci: x \u003d x ± je ~ \u003d 25,1 + 0,24, tj. Od 24,86 do 25,34 c / ha.

Omezující chyba podílu pozemků s výnosem 25 kg / ha nebo více:

V důsledku toho mezní chyba při určování podílu pozemků s výnosem 25 c / ha nebo více nepřesáhne 14%, tj. Podíl pozemků se specifikovaným výnosem v obecné populaci je v rámci: r \u003d a\u003e ± ep \u003d 0,80 ± 0,14, tj. od 66 do 94%.

Průměrná chyba vzorkování ukazuje, jak moc se parametr populace vzorku odchyluje od odpovídajícího parametru obecné populace. Vypočítáme-li průměr chyb všech možných vzorků určitého typu daného objemu ( n) extrahované ze stejné obecné populace, získáme jejich zobecňující vlastnosti - průměrná chyba vzorkování ().

V teorii pozorování vzorků jsou odvozeny vzorce pro stanovení, které jsou individuální pro různé metody výběru (opakované i neopakované), typy použitých vzorků a typy odhadovaných statistických ukazatelů.

Například, pokud se používá opakovaný správný náhodný výběr, pak je definován jako:

Při hodnocení průměrné hodnoty prvku;

Pokud je charakteristika alternativní a podíl je vyhodnocen.

V případě neopakovatelného, \u200b\u200bskutečně náhodného výběru, se provede změna vzorců (1 - n / N):

- pro průměrnou hodnotu prvku;

- za akcii.

Pravděpodobnost získání přesně tohoto množství chyb je vždy 0,683. V praxi preferují získávání dat s vyšší pravděpodobností, ale to vede ke zvýšení chyby vzorkování.

Mezní chyba vzorkování () se rovná tnásobku počtu průměrných chyb vzorkování (v teorii vzorkování je obvyklé volat koeficient t koeficient spolehlivosti):

Je-li chyba vzorkování zdvojnásobena (t \u003d 2), pak máme mnohem vyšší pravděpodobnost, že nepřekročí určitý limit (v našem případě dvojnásobek střední chyby) - 0,954. Pokud vezmeme t \u003d 3, bude úroveň spolehlivosti 0,997 - téměř jistota.

Rozpětí chyby vzorkování závisí na následujících faktorech:

  • stupeň variace jednotek obecné populace;
  • velikost vzorku;
  • vybraná schémata výběru (opakovaný výběr dává nižší chybovou hodnotu);
  • úroveň spolehlivosti.

Pokud je velikost vzorku větší než 30, pak se hodnota t stanoví podle normální distribuční tabulky, pokud je menší - podle distribuční tabulky studenta.

Zde jsou některé hodnoty koeficientu spolehlivosti z normální distribuční tabulky.

Interval spolehlivosti pro průměrnou hodnotu charakteristiky a pro podíl na obecné populaci je stanoven takto:

Stanovení hranic obecného průměru a podílu tedy zahrnuje následující fáze:

Chyby vzorkování pro různé typy výběru

  1. Ve skutečnosti náhodný a mechanický odběr vzorků. Průměrná chyba skutečného náhodného a mechanického vzorkování je zjištěna pomocí vzorců uvedených v tabulce. 11.3.

Příklad 11.2. Ke studiu úrovně kapitálové produktivity byl proveden výběrový průzkum 90 podniků z 225 metodou náhodného opakovaného výběru vzorků, na jejímž základě byly získány údaje uvedené v tabulce.

V tomto příkladu máme vzorek 40% (90: 225 \u003d 0,4 nebo 40%). Určíme jeho mezní chybu a hranice průměrné hodnoty prvku v obecné populaci podle kroků algoritmu:

  1. Na základě výsledků výběrového šetření vypočítáme průměr a rozptyl ve vzorku:
Tabulka 11.5.
Výsledky pozorování Vypočítané hodnoty
návratnost na úrovni aktiv, rub., x i počet podniků, f i uprostřed intervalu, x i \\ xb4 x i \\ xb4 f i x i \\ xb4 2 f i
Až do 1,4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 a vyšší 14 2,3 32,2 74,06
Celkový 90 - 162,6 303,62

Ukázkový průměr

Selektivní rozptyl studované vlastnosti

Pro naše data definujeme mezní chybu vzorkování, například s pravděpodobností 0,954. Pomocí tabulky hodnot pravděpodobnosti normální distribuční funkce (viz výňatek z ní, uvedený v dodatku 1) najdeme hodnotu koeficientu spolehlivosti t odpovídající pravděpodobnosti 0,954. S pravděpodobností 0,954 je koeficient t 2.

V 954 případech z 1000 tedy nebude průměrná hodnota produktivity kapitálu vyšší než 1,88 rublů. a ne méně než 1,74 rublů.

Výše bylo použito opakované schéma náhodného výběru. Uvidíme, zda se výsledky průzkumu změní, pokud předpokládáme, že výběr byl proveden podle schématu opakovaného výběru. V tomto případě se průměrná chyba vypočítá pomocí vzorce

Potom s pravděpodobností rovnou 0,954 bude hodnota mezní chyby vzorkování následující:

Limity spolehlivosti pro střední hodnotu znaku v neopakovatelném náhodném výběru budou mít následující hodnoty:

Porovnáním výsledků dvou schémat odběru vzorků lze dojít k závěru, že použití opakovaného náhodného odběru vzorků poskytuje přesnější výsledky ve srovnání s opakovaným odběrem vzorků na stejné úrovni spolehlivosti. Kromě toho čím větší je velikost vzorku, tím významněji se hranice průměrných hodnot zužují při přechodu z jednoho výběrového schématu do druhého.

Na základě vzorových údajů stanovíme hranice podílu podniků s úrovní produktivity kapitálu nepřevyšující 2,0 rublů v obecné populaci:

  1. vypočítat rychlost vzorkování.

Počet podniků ve vzorku s návratností aktiv nepřesahující 2,0 rublů je 60 jednotek. Pak

m \u003d 60, n \u003d 90, w \u003d m / n \u003d 60: 90 \u003d 0,667;

  1. vypočítat rozptyl podílu ve vzorku
  1. průměrná chyba vzorkování při použití návrhu opakovaného vzorkování bude

Budeme-li předpokládat, že bylo použito neopakující se výběrové schéma, bude průměrná chyba výběru vzorku, s přihlédnutím k korekci konečnosti populace,

  1. nastavte úroveň spolehlivosti a určete mezní chybu vzorkování.

S hodnotou pravděpodobnosti P \u003d 0,997 podle normální distribuční tabulky získáme hodnotu koeficientu spolehlivosti t \u003d 3 (viz výňatek z ní uvedený v dodatku 1):

S pravděpodobností 0,997 lze tedy tvrdit, že v běžné populaci není podíl podniků s návratností aktiv nepřesahujících 2,0 rublů menší než 54,7% a ne více než 78,7%.

  1. Typický vzorek. U typického vzorku je tedy obecná populace objektů rozdělena do skupin k

N 1 + N 2 +… + N i +… + N k \u003d N.

Množství jednotek, které lze získat z každé typické skupiny, závisí na použité metodě výběru; jejich celkový počet tvoří požadovanou velikost vzorku

n 1 + n 2 +… + n i +… + n k \u003d n.

V typické skupině existují dva způsoby uspořádání výběru: úměrný objemu typických skupin a úměrný stupni proměnlivosti hodnot znaku v pozorovacích jednotkách ve skupinách. Uvažujme první jako nejpoužívanější.

Výběr úměrný velikosti typických skupin předpokládá, že z každé z nich bude vybrán následující počet jednotek obyvatelstva:

n \u003d n i N i / N

kde n i je počet zpětně získatelných jednotek pro vzorek z i-té typické skupiny;

n je celková velikost vzorku;

N i - počet jednotek obecné populace, které tvoří i-tou typickou skupinu;

N je celkový počet jednotek v obecné populaci.

Výběr jednotek v rámci skupin probíhá ve formě náhodného nebo mechanického vzorkování.

Vzorce pro odhad průměrné chyby vzorkování pro průměr a poměr jsou uvedeny v tabulce. 11.6.

Zde je průměr skupinových variací typických skupin.

Příklad 11.3. Na jedné z moskevských univerzit byl proveden výběrový průzkum studentů za účelem stanovení ukazatele průměrné návštěvnosti univerzitní knihovny jedním studentem za semestr. K tomu byl použit 5% neopakovatelný typický vzorek, jehož typické skupiny odpovídají číslu kurzu. S výběrem úměrným objemu typických skupin byly získány následující údaje:

Tabulka 11.7.
Číslo kurzu Celkem studenti, lidé, N i Zkoumáno v důsledku selektivního pozorování, lidé, n i Průměrný počet návštěv knihovny na studenta za semestr, x i Rozptyl vzorků uvnitř skupiny,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Celkový 2 550 128 8 -

Počet studentů, kteří mají být dotázáni na každý kurz, se vypočítá takto:

podobně pro další skupiny:

Distribuce hodnot vzorku znamená vždy normální distribuční zákon (nebo se k němu blíží) pro n\u003e 100, bez ohledu na povahu distribuce obecné populace. V případě malých vzorků se však použije jiný zákon o distribuci - distribuce studenta. V tomto případě je koeficient spolehlivosti nalezen z Studentovy t-distribuční tabulky v závislosti na hladině spolehlivosti P a velikosti vzorku n. Dodatek 1 poskytuje fragment Studentovy t-distribuční tabulky, prezentovaný jako závislost pravděpodobnosti spolehlivosti na velikosti vzorku a koeficientu spolehlivosti t.

Příklad 11.4. Předpokládejme, že výběrové šetření osmi studentů Akademie ukázalo, že strávili následující počet hodin přípravou na test ve statistice: 8,5; 8,0; 7,8; 9,0; 7,2; 6,2; 8,4; 6.6.

Příklad 11.5. Pojďme si spočítat, kolik z 507 průmyslových podniků by mělo být zkontrolováno daňovým inspektorátem, abychom s pravděpodobností 0,997 určili podíl podniků s porušením v platbě daně. Podle minulého podobného průzkumu byla hodnota standardní odchylky 0,15; Očekává se, že chyba vzorkování nebude vyšší než 0,05.

Při použití opakovaného náhodného vzorkování zkontrolujte

Pro opakovatelný náhodný výběr je nutné zkontrolovat

Jak vidíte, použití neopakovatelného výběru umožňuje zjistit mnohem menší počet objektů.

Příklad 11.6. Plánuje se provádět průzkum mezd v podnicích v odvětví metodou náhodného neopakovaného výběru. Jaká by měla být velikost vzorku, pokud byl v době průzkumu počet zaměstnanců v tomto odvětví 100 000? Mezní chyba vzorkování by neměla přesáhnout 100 rublů. s pravděpodobností 0,954. Na základě výsledků předchozích průzkumů mezd v průmyslu je známo, že standardní odchylka je 500 rublů.

K vyřešení problému je proto nutné do vzorku zahrnout nejméně 100 osob.