Vzorce vzorců středních chyb. Střední a mezní výběrové chyby

Jak již víme, reprezentativnost je vlastnost vzorku populace reprezentovat charakteristiku obecné populace. Není-li shoda, hovoří o chybě reprezentativnosti – míra odchylky statistické struktury vzorku od struktury odpovídající obecné populace. Předpokládejme, že průměrný měsíční rodinný příjem důchodců v běžné populaci je 2 000 rublů a ve vzorku - 6 000 rublů. To znamená, že sociolog zpovídal pouze movitou část důchodců a do jeho studie se vloudila chyba reprezentativnosti. Jinými slovy, chyba reprezentativnosti je rozpor mezi dvěma množinami - obecným, ke kterému směřuje teoretický zájem sociologa a představou o vlastnostech, které chce nakonec získat, a selektivním. , k němuž směřuje praktický zájem sociologa, který působí jednak jako objekt zkoumání, jednak jako prostředek k získávání informací o běžné populaci.

Spolu s pojmem „chyba reprezentativnosti“ se v tuzemské literatuře můžete setkat i s dalším – „chybou vzorku“. Někdy se používají zaměnitelně a někdy se místo „chyby reprezentativnosti“ používá jako kvantitativně přesnější pojem „chyba vzorku“.

Výběrová chyba je odchylka průměrných charakteristik výběrové populace od průměrných charakteristik obecné populace.

V praxi se výběrová chyba určuje porovnáním známých charakteristik základního souboru s průměrem vzorku. V sociologii se při šetřeních u dospělé populace nejčastěji využívají údaje ze sčítání lidu, aktuální statistické záznamy a výsledky předchozích šetření. Jako kontrolní parametry se obvykle používají sociodemografické charakteristiky. Porovnání průměrů obecné a výběrové populace, na základě toho se stanovení výběrové chyby a její redukce nazývá kontrola reprezentativnosti. Vzhledem k tomu, že na konci studie lze provést srovnání vlastních a cizích údajů, nazývá se tento způsob kontroly a posteriori, tzn. provádí po zkušenostech.

V Gallupových průzkumech je reprezentativnost řízena údaji dostupnými v národních sčítáních lidu o rozložení populace podle pohlaví, věku, vzdělání, příjmu, profese, rasy, místa bydliště, velikosti lokalita. Všeruské centrum pro výzkum veřejného mínění (VTsIOM) pro tyto účely používá takové ukazatele, jako je pohlaví, věk, vzdělání, typ sídla, rodinný stav, oblast zaměstnání, pracovní postavení respondenta, které jsou vypůjčeny ze státní statistiky. výboru Ruské federace. V obou případech je populace známa. Chybu výběru nelze určit, pokud jsou hodnoty proměnné ve vzorku a populaci neznámé.

Během analýzy dat zajišťují specialisté VTsIOM důkladnou opravu vzorku, aby se minimalizovaly odchylky, ke kterým došlo během terénních prací. Zvláště silné posuny jsou pozorovány z hlediska pohlaví a věku. Vysvětluje to skutečnost, že ženy a lidé s vyšším vzděláním tráví více času doma a snáze navazují kontakt s tazatelem; jsou snadno dostupnou skupinou ve srovnání s muži a lidmi, kteří jsou „nevzdělaní“35.

Chyba vzorkování je způsobena dvěma faktory: metodou vzorkování a velikostí vzorku.

Výběrové chyby se dělí na dva typy – náhodné a systematické. Náhodná chyba je pravděpodobnost, že průměr vzorku bude (nebo nebude) spadat mimo daný interval. Náhodné chyby zahrnují statistické chyby vlastní samotné metodě vzorkování. S rostoucí velikostí vzorku se snižují.

Druhým typem výběrové chyby je systematická chyba. Pokud se sociolog rozhodne zjistit názor všech obyvatel města na sociální politika, a zpovídali pouze ty, kteří mají telefon, pak je ve vzorku záměrná zaujatost ve prospěch bohatých vrstev, tzn. systematická chyba.

Systematické chyby jsou tedy výsledkem činnosti samotného výzkumníka. Jsou nejnebezpečnější, protože vedou k poměrně významným zkreslením výsledků studie. Systematické chyby jsou považovány za horší než náhodné také proto, že je nelze kontrolovat a měřit.

Vznikají, když např.: 1) vzorek nesplňuje cíle studie (sociolog se rozhodl zkoumat pouze pracující důchodce, ale vyzpovídal všechny v řadě); 2) je zde neznalost povahy běžné populace (sociolog se domníval, že 70 % všech důchodců nepracuje, ale ukázalo se, že pouze 10 % nepracuje); 3) jsou vybírány pouze „vítězné“ složky běžné populace (například pouze bohatí důchodci).

Pozornost! Na rozdíl od náhodných chyb se systematické chyby s rostoucí velikostí vzorku nesnižují.

Metodici shrnuli všechny případy, kdy dochází k systematickým chybám, zpracovali jejich registr. Domnívají se, že zdrojem nekontrolovaných zkreslení v distribuci pozorování vzorku mohou být následující faktory:
♦ byla porušena metodická a metodická pravidla pro provádění sociologického výzkumu;
♦ byly zvoleny nevhodné metody vzorkování, sběru dat a metody výpočtu;
♦ došlo k nahrazení požadovaných jednotek pozorování jinými, dostupnějšími;
♦ Bylo zjištěno neúplné pokrytí výběrové populace (nedostatek dotazníků, neúplné vyplnění dotazníků, nedostupnost jednotek sledování).

Sociologové zřídka dělají úmyslné chyby. Častěji dochází k chybám, protože sociolog si není dobře vědom struktury běžné populace: rozdělení lidí podle věku, profese, příjmu a podobně.

Systematickým chybám se snadněji předchází (ve srovnání s náhodnými), ale jen velmi obtížně se odstraňují. Systematickým chybám je nejlepší předcházet tím, že jejich zdroje přesně předvídáte předem – na samém začátku studia.

Zde je několik způsobů, jak se vyhnout chybám při vzorkování:
♦ každá jednotka obecné populace musí mít stejnou pravděpodobnost, že bude zahrnuta do vzorku;
♦ je žádoucí vybírat z homogenních populací;
♦ potřeba znát charakteristiky běžné populace;
♦ Při sestavování vzorku je třeba vzít v úvahu náhodné a systematické chyby.

Pokud je vzorek (nebo jednoduše vzorek) správně navržen, pak sociolog získá spolehlivé výsledky, které charakterizují celou populaci. Pokud je sestaven chybně, pak se chyba, která se vyskytla ve fázi výběru, násobí v každé další fázi sociologického výzkumu a nakonec dosáhne hodnoty, která převáží hodnotu studie. Říká se, že z takové studie více škody než užitek.

K takovým chybám může dojít pouze u vzorku populace. Abychom se vyhnuli nebo snížili pravděpodobnost chyby, nejjednodušším způsobem je zvětšit velikost vzorku (ideálně až do velikosti populace: když se obě populace shodují, výběrová chyba úplně zmizí). Ekonomicky je tato metoda nemožná. Existuje další způsob - zlepšit se matematické metody vzorkování. Jsou aplikovány v praxi. Jde o první průnik do sociologie matematiky. Druhým kanálem je matematické zpracování dat.

Problém chyb se stává zvláště důležitým v marketingovém výzkumu, kde se používají nepříliš velké vzorky. Obvykle tvoří několik set, méně často - tisíc respondentů. Zde je výchozím bodem pro výpočet výběrového souboru otázka stanovení velikosti výběrového souboru. Velikost vzorku závisí na dvou faktorech: 1) nákladech na shromažďování informací a 2) snaze o určitý stupeň statistické spolehlivosti výsledků, které výzkumník doufá získat. Samozřejmě i lidé nezkušení ve statistice a sociologii intuitivně chápou, že čím větší velikost vzorku, tzn. čím jsou blíže velikosti běžné populace jako celku, tím jsou získané údaje spolehlivější a spolehlivější. Již výše jsme však hovořili o praktické nemožnosti kompletních průzkumů v případech, kdy se provádějí u objektů, jejichž počet přesahuje desítky, statisíce i miliony. Je jasné, že náklady na sběr informací (včetně plateb za replikaci nástrojů, práce dotazníků, terénních manažerů a operátorů počítačových vstupů) závisí na částce, kterou je zákazník připraven přidělit, a málo závisí na výzkumnících. Pokud jde o druhý faktor, budeme se mu věnovat trochu podrobněji.

Takže čím větší je velikost vzorku, tím menší je možná chyba. I když je třeba poznamenat, že pokud chcete zdvojnásobit přesnost, budete muset vzorek zvýšit ne dvakrát, ale čtyřikrát. Chcete-li například zdvojnásobit přesnost údajů získaných z průzkumu mezi 400 lidmi, museli byste místo 800 vyzpovídat 1 600 lidí. Je však nepravděpodobné, že marketingový výzkum potřebuje 100% přesnost. Potřebuje-li sládek zjistit, jaký podíl konzumentů piva preferuje jeho značku před značkou konkurence – 60 % nebo 40 %, pak rozdíl mezi 57 %, 60 nebo 63 % jeho plány neovlivní.

Výběrová chyba může záviset nejen na její velikosti, ale také na míře rozdílů mezi jednotlivými jednotkami v rámci obecné populace, kterou studujeme. Například, pokud chceme vědět, kolik piva se spotřebuje, pak zjistíme, že v naší populaci je míra spotřeby pro různých lidí se výrazně liší (heterogenní obecná populace). V jiném případě budeme studovat spotřebu chleba a zjistíme to odlišní lidé liší se mnohem méně výrazně (homogenní populace). Čím větší je rozdíl (nebo heterogenita) v rámci obecné populace, tím větší je hodnota možná chyba Vzorky. Tento vzorec jen potvrzuje to, co nám říká prostý zdravý rozum. Jak tedy správně uvádí V. Yadov, „velikost (objem) vzorku závisí na míře homogenity či heterogenity zkoumaných objektů. Čím jsou homogennější, tím menší počet může poskytnout statisticky spolehlivé závěry.

Určení velikosti výběrového souboru závisí také na úrovni intervalu spolehlivosti dovolené statistické chyby. Zde máme na mysli tzv. náhodné chyby, které jsou spojeny s povahou jakýchkoli statistických chyb. V A. Paniotto uvádí následující výpočty pro reprezentativní vzorek s 5% chybou:
To znamená, že pokud jste po rozhovoru řekněme se 400 lidmi v okresním městě, kde je dospělá solventní populace 100 tisíc lidí, zjistili, že 33 % dotázaných kupujících preferuje produkty místního masokombinátu, pak s 95 % pravděpodobnosti lze říci, že 33+5 % (tedy od 28 do 38 %) obyvatel tohoto města pravidelně nakupuje tyto produkty.

Můžete také použít Gallupovy výpočty k odhadu poměru velikostí vzorků a vzorkovací chyby.

Chyba vzorku- jedná se o objektivně vznikající rozpor mezi charakteristikami výběrového souboru a obecné populace. Závisí na řadě faktorů: na míře variace studovaného znaku, velikosti vzorku, způsobu výběru jednotek ve vzorku, přijímané míře spolehlivosti výsledku výzkumu.

Pro reprezentativnost vzorku je důležité zajistit náhodnost výběru, aby všechny objekty v obecné populaci měly stejnou pravděpodobnost zařazení do vzorku. Pro zajištění reprezentativnosti vzorku se používají následující metody výběru:

· správná náhoda(jednoduché náhodné) vzorkování (první náhodný objekt je vybrán postupně);

· mechanické(systematický) odběr vzorků;

· typický(stratifikovaný, stratifikovaný) vzorek (objekty jsou vybírány v poměru k zastoupení různých typů objektů v běžné populaci);

· seriál(vnořený) vzorek.

Výběr jednotek ve vzorkovací sadě může být opakovaný nebo neopakovaný. V opětovný výběr vzorkovaná jednotka je podrobena zkoumání, tzn. registruje hodnoty svých vlastností, vrací se do běžné populace a spolu s dalšími jednotkami se účastní dalšího výběrového řízení. V žádný opětovný výběr vzorkovaná jednotka podléhá přezkoušení a dalšího výběrového řízení se neúčastní

Selektivní pozorování je vždy spojeno s chybou, protože počet vybraných jednotek není roven původní (obecné) populaci. Chyby náhodného výběru jsou způsobeny působením náhodných faktorů, které neobsahují žádné prvky konzistence ve směru dopadu na vypočítané charakteristiky vzorku. I při přísném dodržení všech zásad tvorby výběrového souboru se výběrové a obecné charakteristiky budou poněkud lišit. Výsledné náhodné chyby by proto měly být statisticky vyhodnoceny a zohledněny při šíření výsledků. selektivní pozorování pro celou populaci. Odhad těchto chyb je hlavním problémem řešeným v teorii selektivního pozorování. Inverzní problém je stanovit takový minimální požadovaný počet vzorků, u kterého chyba nepřesáhne danou hodnotu. Materiál této části je zaměřen na rozvoj dovedností při řešení těchto problémů.

Vlastní náhodné vzorkování. Její podstata spočívá ve výběru jednotek z obecné populace jako celku, bez jejího rozdělování do skupin, podskupin nebo řad jednotlivých jednotek. V tomto případě jsou jednotky vybírány v náhodném pořadí, které nezávisí ani na pořadí jednotek v agregaci, ani na hodnotách jejich atributů.

Po výběru pomocí některého z algoritmů, které implementují princip náhodnosti, nebo na základě tabulky náhodných čísel, jsou určeny hranice obecných charakteristik. Za tímto účelem se vypočítají střední a mezní výběrové chyby.

Průměrná chyba opakovaného náhodného výběru je určeno vzorcem

kde σ je směrodatná odchylka studovaného znaku;

n je objem (počet jednotek) výběrového souboru.

Mezní výběrová chyba spojené s danou úrovní pravděpodobnosti. Při řešení níže uvedených problémů je požadovaná pravděpodobnost 0,954 (t = 2) nebo 0,997 (t = 3). Při zohlednění zvolené úrovně pravděpodobnosti a odpovídající hodnoty t mezní chyba vzorek bude:

Pak lze tvrdit, že pro danou pravděpodobnost bude obecný průměr v následujících mezích:

Při definování hranic obecný podíl při výpočtu průměrná chyba vzorkování, použije se rozptyl alternativního prvku, který se vypočítá podle následujícího vzorce:

kde w je podíl vzorku, tj. podíl jednotek, které mají určitou variantu nebo varianty studovaného znaku.

Při řešení jednotlivých úloh je třeba vzít v úvahu, že při neznámém rozptylu alternativního znaku můžete použít jeho maximální možnou hodnotu rovnou 0,25.

Příklad. Výsledkem výběrového šetření nezaměstnané populace hledající zaměstnání, provedeného na zákl samonáhodné převzorkování obdržel data uvedená v tabulce. 1.14.

Tabulka 1.14

Výsledky výběrového šetření nezaměstnané populace

S pravděpodobností 0,954 určete hranice:

a) průměrný věk nezaměstnané populace;

b) podíl (podíl) osob mladších 25 let na celkovém počtu nezaměstnaných osob.

Řešení. Pro stanovení průměrné výběrové chyby je nutné především určit výběrový průměr a rozptyl studovaného znaku. Za tímto účelem v ručním způsobem výpočtu je vhodné sestrojit tabulku 1.15.

Tabulka 1.15

Výpočet průměrného věku nezaměstnané populace a rozptylu

Na základě údajů v tabulce se vypočítají potřebné ukazatele:

selektivní průměrná hodnota:

;

rozptyl:

standardní odchylka:

.

Průměrná vzorkovací chyba bude:

roku.

Určujeme s pravděpodobností 0,954 ( t= 2) mezní výběrová chyba:

roku.

Nastavte hranice obecného průměru: (41,2 - 1,6) (41,2 + 1,6) nebo:

Na základě provedeného výběrového šetření tedy s pravděpodobností 0,954 můžeme usuzovat, že průměrný věk nezaměstnané populace hledající práci se pohybuje v rozmezí 40 až 43 let.

Abychom odpověděli na otázku položenou v odstavci „b“ tohoto příkladu, pomocí vzorových dat určíme podíl lidí mladších 25 let a vypočítáme rozptyl podílu:

Vypočítejte průměrnou vzorkovací chybu:

Mezní výběrová chyba s danou pravděpodobností je:

Pojďme definovat hranice obecného podílu:

S pravděpodobností 0,954 lze tedy tvrdit, že podíl osob mladších 25 let na celkovém počtu nezaměstnaných obyvatel se pohybuje v rozmezí od 3,9 do 1,9 %.

Při výpočtu střední chyby vlastně náhodné neopakující se vzorkování, je nutné počítat s korekcí pro neopakování selekce:

kde N je objem (počet jednotek) běžné populace /

Požadované množství samonáhodného převzorkování se určuje podle vzorce:

Pokud se výběr neopakuje, vzorec má následující podobu:

Výsledek získaný pomocí těchto vzorců se vždy zaokrouhlí nahoru na nejbližší celé číslo.

Příklad. Je třeba určit, kolik žáků prvních tříd škol v okrese musí být vybráno v pořadí náhodného neopakovaného vzorku, aby se určily hranice průměrné výšky prvňáčků s mezní chybou 2 cm. s pravděpodobností 0,997 podle výsledků obdobného průzkumu v jiném okrese to bylo 24.

Řešení. Požadovaná velikost vzorku na úrovni pravděpodobnosti 0,997 ( t= 3) bude:

Pro získání údajů o průměrné výšce prvňáčků s danou přesností je tedy potřeba vyšetřit 52 školáků.

Mechanický odběr vzorků. Tento vzorek spočívá ve výběru jednotek z obecného seznamu jednotek běžné populace v pravidelných intervalech v souladu se stanoveným procentem výběru. Při řešení problémů k určení průměrné chyby mechanického vzorku, stejně jako jeho požadovaného počtu, je třeba použít výše uvedené vzorce používané při správném náhodném neopakujícím se výběru.

Takže u 2% vzorku je vybrána každá 50. jednotka (1:0,02), u 5% vzorku každá 20. jednotka (1:0,05) atd.

Obecná populace je tedy v souladu s přijatým podílem selekce jakoby mechanicky rozdělena do stejných skupin. Z každé skupiny ve vzorku je vybrána pouze jedna jednotka.

Důležitá vlastnost mechanické vzorkování spočívá v tom, že vytvoření populace vzorků může být provedeno bez použití výpisu. V praxi se často používá pořadí, ve kterém jsou jednotky populace skutečně umístěny. Například posloupnost výstupu hotových výrobků z dopravníku nebo výrobní linky, pořadí, ve kterém jsou jednotky dávky zboží umístěny během skladování, přepravy, prodeje atd.

Typický vzorek. Tento vzorek se používá, když jsou jednotky obecné populace sloučeny do několika velkých typických skupin. Výběr jednotek ve vzorku se provádí v rámci těchto skupin v poměru k jejich velikosti na základě použití správného náhodného nebo mechanického výběru vzorků (pokud jsou k dispozici potřebné informace, lze výběr provést také v poměru k variaci znaku ve skupinách).

Typické vzorkování se obvykle používá při studiu komplexních statistických populací. Například ve výběrovém šetření produktivity práce pracovníků obchodu, složeného z jednotlivých skupin podle kvalifikace.

Důležitou vlastností typického vzorku je, že poskytuje přesnější výsledky ve srovnání s jinými metodami výběru jednotek ve vzorku.

Průměrná chyba typického vzorku je určena vzorcem:

(znovuvýběr);

(neopakující se výběr),

kde je průměr vnitroskupinových rozptylů.

Příklad. Pro studium příjmů obyvatelstva ve třech okresech kraje byl vytvořen 2% vzorek úměrný počtu obyvatel těchto okresů. Získané výsledky jsou uvedeny v tabulce. 16.

Tabulka 16

Výsledky výběrového šetření příjmů domácností

Je třeba stanovit hranice průměrného příjmu na obyvatele v kraji jako celku na úrovni pravděpodobnosti 0,997.

Řešení. Vypočítejte průměr vnitroskupinových disperzí:

kde N i- objem i-a skupiny;

n, - velikost vzorku z /-skupiny.

sériové vzorkování. Tento vzorek se používá, když jsou jednotky studované populace seskupeny do malých stejně velkých skupin nebo sérií. Jednotkou výběru je v tomto případě série. Série jsou vybírány pomocí správného náhodného nebo mechanického vzorkování a v rámci vybrané série jsou zkoumány všechny jednotky bez výjimky.

Výpočet střední chyby sériového vzorku je založen na meziskupinovém rozptylu:

(znovuvýběr);

(neopakující se výběr),

kde x i- počet vybraných i- série;

R je celkový počet epizod.

Meziskupinový rozptyl pro stejné skupiny se vypočítá takto:

kde x i- průměrný i-série;

X je celkový průměr za celý vzorek.

Příklad. Za účelem kontroly kvality komponentů ze šarže produktů balených v 50 krabicích po 20 produktech v každé byl vyroben 10% sériový vzorek. U krabic zařazených do vzorku byla průměrná odchylka parametrů produktu od normy 9 mm, 11, 12, 8 a 14 mm. S pravděpodobností 0,954 určete průměrnou odchylku parametrů pro celou dávku jako celek.

Řešení. Ukázkový průměr:

mm.

Hodnota meziskupinového rozptylu:

Vzhledem ke stanovené pravděpodobnosti R = 0,954 (t= 2) mezní výběrová chyba bude:

mm.

Provedené výpočty nám umožňují dospět k závěru, že průměrná odchylka parametrů všech produktů od normy je v následujících mezích:

Pro stanovení požadovaného objemu sériového vzorku pro danou mezní chybu se používají následující vzorce:

(znovuvýběr);

(neopakující se výběr).

Mezi ukazateli výběrové populace a žádoucími ukazateli (parametry) obecné populace zpravidla panují určité neshody, tzv. vzorkovací chyby. Celková výběrová chyba se skládá z chyb dvou druhů: registračních chyb a chyb reprezentativnosti.

Registrační chyby jsou vlastní každému statistickému pozorování a jejich výskyt může být způsoben nepozorností zapisovatele, nepřesnými výpočty, nedokonalostí měřicích přístrojů atd.

Chyby reprezentativnosti jsou vlastní pouze pozorování vzorku a jsou způsobeny jeho samotnou povahou, protože bez ohledu na to, jak pečlivě a správně je výběr jednotek prováděn, průměrné a relativní ukazatele výběrového souboru se budou vždy do určité míry lišit od odpovídajících ukazatelů. běžné populace.

Rozlišujte mezi systematickými a náhodnými chybami reprezentativnosti. Systematické chyby reprezentativnosti jsou nepřesnosti, které vznikají jako důsledek nedodržení podmínek pro výběr jednotek ve výběrovém souboru, neposkytnutí rovné příležitosti pro každou jednotku obecné populace dostat se do vzorku. Náhodné chyby reprezentativnosti jsou chyby, které vznikají v důsledku skutečnosti, že výběrový soubor přesně nereprodukuje charakteristiky obecné populace (průměr, podíl, rozptyl atd.) kvůli nespojitému charakteru šetření.

Při dodržení principu náhodného výběru závisí velikost výběrové chyby především na velikosti vzorku. Čím větší je velikost vzorku, ceteris paribus, tím menší je výběrová chyba. Při velké velikosti vzorku se zřetelněji projevuje vliv zákona velkých čísel, podle kterého: s pravděpodobností libovolně blízkou jedné lze tvrdit, že při dostatečně velké velikosti vzorku a omezeném rozptylu jsou charakteristiky výběrového souboru ( průměrný podíl) se bude libovolně lišit od odpovídajících obecných charakteristik.

Velikost výběrové chyby také přímo souvisí s mírou variace studovaného znaku a míra variace, jak bylo uvedeno výše, ve statistice je charakterizována velikostí rozptylu (rozptyl): čím menší je rozptyl, čím menší je výběrová chyba, tím spolehlivější jsou statistické závěry. Proto je v praxi rozptyl identifikován s chybou výběru.

Vzhledem k tomu, že parametrem obecné populace je požadovaná hodnota a není známa, je nutné se zaměřit nikoli na konkrétní chybu, ale na průměr všech možných vzorků.

Pokud je z obecné populace vybráno několik souborů vzorků, pak každý ze získaných vzorků poskytne jinou hodnotu specifické chyby.

RMS /A vypočítané ze všech možných hodnot konkrétních chyb (;) budou:

kde * a - znamená vzorek; x - obecný průměr;)] - počet vzorků z hlediska є1 \u003d ~ si - x.

Standardní odchylka výběrového průměru od obecného průměru se nazývá střední výběrová chyba.

Závislost velikosti výběrové chyby na jejím počtu a na míře variace znaku vyjadřuje vzorec pro průměrnou výběrovou chybu /u.

Druhá mocnina střední chyby (rozptyl výběrových průměrů) je přímo úměrná rozptylu Sto a nepřímo úměrné velikosti vzorku n:

kde je rozptyl tohoto rysu v obecné populaci.

Proto průměrná chyba v obecný pohled určeno vzorcem:

Po určení směrodatné odchylky od vzorku tedy můžeme nastavit hodnotu průměrné výběrové chyby, jejíž hodnota, jak vyplývá ze vzorce, je tím větší, čím větší je variace náhodné veličiny a čím menší je větší velikost vzorku.

S rostoucí velikostí vzorku se tedy velikost střední chyby zmenšuje. Pokud je například nutné snížit průměrnou výběrovou chybu na polovinu, pak by se velikost vzorku měla zvětšit čtyřikrát; pokud je nutné snížit chybu výběru faktorem tři, pak by se měla velikost vzorku zvětšit devětkrát atd.

V praktických výpočtech se pro průměr a pro podíl používají dva vzorce pro průměrnou výběrovou chybu.

Při selektivní studii průměrů je vzorec pro průměrnou chybu:

Při studiu relativní ukazatele(dílčí znaménka) vzorec průměrné chyby má tvar:

kdeG - podíl znaku v běžné populaci.

Aplikace výše uvedených vzorců pro střední chyby předpokládá, že obecný rozptyl a obecný zlomek jsou známy. Ve skutečnosti jsou však tyto ukazatele neznámé a není možné je vypočítat kvůli nedostatku údajů o obecné populaci. Proto je potřeba nahradit obecný rozptyl a obecný podíl jinými hodnotami, které jsou jim blízké.

V matematické statistice je dokázáno, že takovými hodnotami může být výběrový rozptyl (st) a výběrový zlomek (co).

S ohledem na to lze vzorce středních chyb zapsat takto:

Tyto vzorce umožňují určit průměrnou chybu převzorkování. Použití jednoduchého náhodného převzorkování v praxi je omezené. Za prvé je nepraktické a někdy nemožné znovu změřit stejné jednotky. Použití neopakovaného výběru místo opakovaného výběru je také diktováno požadavkem na zvýšení míry přesnosti a spolehlivosti vzorku. Proto se v praxi častěji používá metoda neopakovaného náhodného výběru. Podle tohoto způsobu výběru se jednotka populace vybraná ve vzorku neúčastní dalšího výběru. Jednotky se vybírají z populace snížené o počet jednotek, které byly vybrány dříve. Proto se v souvislosti se změnou velikosti obecné populace po každém výběru a pravděpodobností výběru pro jednotky, které zbývají, zavádí do vzorců pro průměrnou výběrovou chybu korekční faktor.

kde N je velikost obecné populace; P- velikost vzorku. Pro dostatečně velkou hodnotu N lze jedničku ve jmenovateli zanedbat. Pak

Proto vzorce pro střední výběrovou chybu pro neopakující se výběr pro průměr a pro podíl jsou:

Pokud P je vždy menší než M, pak je dodatečný faktor vždy menší než jedna. Proto bude absolutní hodnota výběrové chyby při neopakovaném výběru vždy menší než při opakovaném výběru.

Pokud je velikost vzorku dostatečně velká, pak se hodnota 1 ^ blíží jednotce, a proto ji lze zanedbat. Pak je průměrná chyba náhodného neopakovaného výběru určena vzorcem samonáhodného převzorkování.

Pro náš příklad vypočítáme průměrnou chybu výnosu a podíl pozemků s výnosem 25 centů na hektar nebo více.

Průměrná výběrová chyba

a) průměrný výnos ječmene

Průměrný výnos ječmene v běžné populaci x -G^\u003d 25,1 ± 0,12 c / ha, to znamená, že je v rozmezí od 24,98 do 25,22 c / ha.

Podíl ploch s výnosem 25 c/ha a více v běžné populaci р

T-^T = 0,80 ± 0,07, tzn. je v rozmezí od 73 do 87 %.

Průměrná výběrová chyba ukazuje možné odchylky charakteristik výběrové populace od charakteristik obecné populace. Při provádění pozorování vzorků přitom výzkumníci často stojí před úkolem vypočítat nejen průměrnou chybu, ale také určit maximální možnou výběrovou chybu. Při znalosti průměrné chyby je možné určit hranice, za které už hodnota vzorkovací chyby nepůjde. Je však možné tvrdit, že tyto odchylky nepřekročí danou hodnotu, a to ne s absolutní jistotou, ale pouze s určitou mírou pravděpodobnosti. Úroveň pravděpodobnosti, která je přijímána při určování možných limitů, které obsahují hodnoty parametrů obecné populace, se nazývá hladina spolehlivosti pravděpodobnosti.

Pravděpodobnost spolehlivosti- jde o poměrně vysokou pravděpodobnost, která zaručuje spolehlivé statistické závěry, takže se prakticky považuje za uskutečněnou v každém konkrétním případě. Označme to podle G a pravděpodobnost překročení této úrovně je ale. Tak,ale =1 - R Pravděpodobnostale nazývaná hladina významnosti(významnost), která charakterizuje relativní počet chybných závěrů na celkovém počtu závěrů a je definována jako rozdíl mezi jednou a pravděpodobností spolehlivosti, která je akceptována.

Míru důvěry nastavuje výzkumník na základě míry odpovědnosti a charakteru řešených úkolů. Ve statistických studiích v ekonomii se nejčastěji používá úroveň spolehlivosti G = 0,95; P = 0,99 (respektive hladina významnosti ale = 0,05; ale = 0,01) méně často G = 0,999. Například úroveň důvěry G = 0,99 znamená, že chyba odhadu v 99 případech ze 100 nepřekročí stanovenou hodnotu a pouze v jednom případě ze 100 může dosáhnout vypočtené hodnoty nebo ji překročit.

Volá se výběrová chyba vypočítaná s daným stupněm spolehlivé pravděpodobnosti mezní výběrová chyba Er.

Uvažujme, jak se stanoví hodnota možné mezní výběrové chyby. Hodnota ep souvisí s normalizovanou odchylkou u, která je definována jako poměr mezní výběrové chyby ep na střední chybu A:

Pro usnadnění výpočtů se odchylka náhodné veličiny od její střední hodnoty obvykle vyjadřuje v jednotkách směrodatné odchylky. Výraz

volala standardní odchylka. v Ve statistické literatuře A volala faktor důvěry, nebo násobek střední výběrové chyby.

Takže normalizovanou odchylku průměru vzorku lze určit podle vzorce:

a _є_r_

Z výrazu 1 lze najít možnou mezní výběrovou chybu

ep = i/l.

Nahrazuje místo d. do jeho hodnoty uvádíme vzorce pro mezní výběrové chyby pro průměr a pro podíl pro neopakovaný náhodný výběr:

Mezní výběrová chyba tedy závisí na hodnotě střední chyby a normalizované odchylky a je rovna ± násobku počtu středních výběrových chyb.

Střední a mezní výběrové chyby jsou pojmenované veličiny a jsou vyjádřeny ve stejných jednotkách jako aritmetický průměr a směrodatná odchylka.

Normalizovaná odchylka funkčně souvisí s pravděpodobností. Abychom našli hodnotyA byly sestaveny speciální tabulky (add. 2), pomocí kterých můžete zjistit hodnotuA na dané úrovni pravděpodobnosti spolehlivosti a hodnotu pravděpodobnosti při známé a.

Hodnoty uvádíme A a jejich odpovídající pravděpodobnosti pro vzorky s velikostín> 30, který se nejčastěji používá v praktických výpočtech:

Proto při a = 1, pravděpodobnost odchylky charakteristik vzorku od obecných o hodnotu jedné průměrné výběrové chyby je 0,6827. To znamená, že v průměru z každých 1000 vzorků poskytne 683 zobecněné charakteristiky, které se budou lišit od zobecněných charakteristik maximálně o jednu střední chybu. Pro u = 2 je pravděpodobnost 0,9545. v To znamená, že od každého 1000 vzorků 954 poskytne zobecněné charakteristiky, které se budou lišit od obecných zobecněných charakteristik maximálně o dvojnásobek průměrné výběrové chyby a tak dále.

Vzhledem k tomu, že se odebírá zpravidla pouze jeden vzorek, říkáme však, že např. s pravděpodobností 0,9545 lze zaručit, že velikost mezní chyby nepřesáhne dvojnásobek průměrného vzorku. chyba.

Bylo matematicky prokázáno, že poměr výběrové chyby ke střední chybě zpravidla nepřekračuje± 3d pro dostatečně velký počet n, navzdory skutečnosti, že výběrová chyba může nabývat libovolných hodnot. Jinými slovy, můžeme říci, že při dostatečně vysoké pravděpodobnosti úsudku (P = 0,9973) mezní výběrová chyba zpravidla nepřesahuje tři průměrné výběrové chyby. Proto lze hodnotu Ep = 3d brát jako hranici možné výběrové chyby.

Pro náš příklad stanovme mezní výběrovou chybu pro průměrný výnos a podíl ploch s výnosem 25 q/ha a více. Vezmeme úroveň spolehlivosti pravděpodobnosti rovnou Р = 0,9545. v Podle tabulky (app..2) zjistěte hodnoty a = 2. Průměrné výběrové chyby pro výnos a podíl ploch s výnosem 25 c/ha a více byly zjištěny dříve a byly: C~= ±0,12 q/ha; MR = ± 0,07.

Mezní chyba průměrného výnosu ječmene:

Rozdíl mezi průměrným výnosem vzorku a obecným průměrem tedy nepřekročí 0,24 c/ha. Hranice průměrného výnosu v běžné populaci: x = x ± ano ~ = 25,1 + 0,24, tedy od 24,86 do 25,34 q/ha.

Mezní chyba podílu pozemků s výnosem 25 centů na hektar nebo více:

Mezní chyba při stanovení podílu pozemků s výnosem 25 c/ha již nepřesahuje 14 %, to znamená, že podíl pozemků s uvedeným výnosem na celkové populaci je v rozmezí: G= a> ± ep = 0,80 ± 0,14, tj. od 66 do 94 %.

Počet obyvatel- soubor jednotek, které mají masový charakter, typičnost, kvalitativní jednotnost a přítomnost variace.

Statistický soubor se skládá z věcně existujících objektů (Zaměstnanci, podniky, země, regiony), je objektem.

Populační jednotka- každá konkrétní jednotka statistická populace.

Jedna a tatáž statistická populace může být v jednom znaku homogenní a v jiném heterogenní.

Kvalitativní uniformita- podobnost všech jednotek populace pro jakýkoli rys a nepodobnost pro všechny ostatní.

Ve statistické populaci jsou rozdíly mezi jednou a druhou jednotkou populace častěji kvantitativní povahy. Kvantitativní změny hodnot atributu různých jednotek populace se nazývají variace.

Variace funkcí- kvantitativní změna znaku (u kvantitativního znaku) při přechodu z jedné jednotky populace do druhé.

podepsat- jde o vlastnost, charakteristický znak nebo jiný znak jednotek, předmětů a jevů, který lze pozorovat nebo měřit. Znaky se dělí na kvantitativní a kvalitativní. Různorodost a variabilita hodnoty znaku v jednotlivých jednotkách populace se nazývá variace.

Atributivní (kvalitativní) znaky nejsou kvantifikovatelné (složení populace podle pohlaví). Kvantitativní charakteristiky mají číselné vyjádření (složení obyvatelstva podle věku).

Indikátor- jedná se o zobecňující kvantitativní a kvalitativní charakteristiku jakékoli vlastnosti jednotek nebo agregátů pro daný účel v konkrétních podmínkách času a místa.

Scorecard je soubor indikátorů, které komplexně odrážejí zkoumaný jev.

Zvažte například plat:
  • Znamení - mzdy
  • Statistická populace - všichni zaměstnanci
  • Jednotkou populace je každý dělník
  • Kvalitativní homogenita - časově rozlišená mzda
  • Variace funkce – řada čísel

Obecná populace a vzorek z ní

Základem je soubor dat získaných jako výsledek měření jednoho nebo více znaků. Skutečně pozorovaný soubor objektů, statisticky reprezentovaný množstvím pozorování náhodné veličiny, je vzorkování a hypoteticky existující (promyšlené) - obecná populace. Obecná populace může být konečná (počet pozorování N = konst) nebo nekonečno ( N = ∞) a vzorek z obecné populace je vždy výsledkem omezeného počtu pozorování. Počet pozorování tvořících vzorek se nazývá velikost vzorku. Pokud je velikost vzorku dostatečně velká n→∞) vzorek se bere v úvahu velký, jinak se tomu říká vzorek omezený objem. Vzorek je zvažován malý, pokud při měření jednorozměrné náhodné veličiny velikost vzorku nepřesáhne 30 ( n<= 30 ), a při současném měření několika ( k) rysy ve vztahu vícerozměrného prostoru n na k méně než 10 (n/k< 10) . Vzorové formuláře variační série jsou-li jejími členy statistiky objednávek, tedy výběrové hodnoty náhodné veličiny X jsou seřazeny vzestupně (řazeny), jsou volány hodnoty atributu možnosti.

Příklad. Téměř stejný náhodně vybraný soubor objektů - komerční banky jednoho správního obvodu Moskvy, lze považovat za vzorek z obecné populace všech komerčních bank v tomto okrese a za vzorek z obecné populace všech komerčních bank v Moskvě. , stejně jako vzorek komerčních bank v zemi atd.

Základní metody vzorkování

Spolehlivost statistických závěrů a smysluplná interpretace výsledků závisí na reprezentativnost vzorky, tzn. úplnost a přiměřenost prezentace vlastností běžné populace, ve vztahu k níž lze tento vzorek považovat za reprezentativní. Studium statistických vlastností populace lze organizovat dvěma způsoby: pomocí kontinuální A nespojitý. Průběžné pozorování zahrnuje vyšetření všech Jednotky studoval agregáty, ale nekontinuální (selektivní) pozorování- jen jeho části.

Existuje pět hlavních způsobů, jak organizovat odběr vzorků:

1. jednoduchý náhodný výběr, ve kterém jsou objekty náhodně extrahovány z obecné populace objektů (například pomocí tabulky nebo generátoru náhodných čísel) a každý z možných vzorků má stejnou pravděpodobnost. Takové vzorky se nazývají vlastně náhodné;

2. jednoduchý výběr běžným postupem se provádí pomocí mechanické součásti (například data, dny v týdnu, čísla bytů, písmena abecedy atd.) a takto získané vzorky se nazývají mechanické;

3. stratifikované selekce spočívá v tom, že obecná populace objemu je rozdělena na podmnožiny nebo vrstvy (vrstvy) objemu tak, že . Vrstvy jsou z hlediska statistických charakteristik homogenní objekty (obyvatelstvo je například rozděleno do vrstev podle věkové skupiny nebo sociální třídy, podniky podle odvětví). V tomto případě jsou volány vzorky stratifikované(v opačném případě, vrstevnatý, typický, zónový);

4. metody seriál selekce se používají k vytvoření seriál nebo vnořené vzorky. Jsou vhodné, pokud je potřeba zkoumat „blok“ nebo sérii předmětů najednou (například zásilku zboží, výrobky určité série nebo obyvatelstvo v územně-správním členění země). Výběr sérií může být proveden náhodným nebo mechanickým způsobem. Současně se provádí průběžný průzkum určité šarže zboží, případně celého územního celku (bytový dům nebo čtvrť);

5. kombinovaný(stupňovitý) výběr může kombinovat několik metod výběru najednou (například stratifikovaný a náhodný nebo náhodný a mechanický); takový vzorek se nazývá kombinovaný.

Typy výběru

Podle mysl existuje individuální, skupinový a kombinovaný výběr. V individuální výběr ve výběrovém souboru jsou vybrány jednotlivé jednotky běžné populace, s skupinový výběr jsou kvalitativně homogenní skupiny (řady) jednotek, a kombinovaný výběr zahrnuje kombinaci prvního a druhého typu.

Podle metoda výběr rozlišit opakované a neopakující se vzorek.

Neopakovatelný tzv. selekce, kdy se jednotka, která spadla do vzorku, nevrací do původní populace a neúčastní se dalšího výběru; zatímco počet jednotek běžné populace N během výběrového řízení snížena. V opakoval výběr chycen ve vzorku je jednotka po registraci vrácena obecné populaci a zachovává si tak stejnou příležitost, spolu s ostatními jednotkami, být využita v dalším výběrovém řízení; zatímco počet jednotek běžné populace N zůstává nezměněn (metoda se v socioekonomických studiích používá jen zřídka). Nicméně s velkým N (N → ∞) vzorce pro neopakované výběr se blíží těm pro opakoval výběr a druhé se používají téměř častěji ( N = konst).

Hlavní charakteristiky parametrů obecné a výběrové populace

Základem statistických závěrů studie je rozdělení náhodné veličiny a zároveň pozorované hodnoty (x 1, x 2, ..., x n) se nazývají realizace náhodné veličiny X(n je velikost vzorku). Rozdělení náhodné veličiny v obecné populaci je teoretické, ideální povahy a její analogie vzorku ano empirický rozdělení. Některá teoretická rozdělení jsou uvedena analyticky, tzn. jim parametry určit hodnotu distribuční funkce v každém bodě v prostoru možných hodnot náhodné veličiny. U vzorku je proto obtížné a někdy nemožné určit distribuční funkci parametry jsou odhadnuty z empirických dat a poté jsou nahrazeny analytickým výrazem popisujícím teoretické rozdělení. V tomto případě je předpoklad (resp hypotéza) o typu rozdělení může být jak statisticky správné, tak i chybné. Ale v každém případě empirická distribuce rekonstruovaná ze vzorku pouze zhruba charakterizuje to pravé. Nejdůležitější distribuční parametry jsou očekávaná hodnota a disperze.

Distribuce jsou ze své podstaty kontinuální A oddělený. Nejznámější spojité rozdělení je normální. Selektivní analogy parametrů a pro ně jsou: střední hodnota a empirický rozptyl. Mezi diskrétními v socioekonomických studiích se nejčastěji používá alternativní (dichotomický) rozdělení. Parametr očekávání tohoto rozdělení vyjadřuje relativní hodnotu (příp podíl) jednotky populace, které mají sledovanou charakteristiku (je označena písmenem ); část populace, která tuto vlastnost nemá, je označena písmenem q (q = 1 – p). Rozptyl alternativního rozdělení má také empirickou analogii.

V závislosti na typu rozdělení a na způsobu výběru populačních jednotek se charakteristiky distribučních parametrů počítají odlišně. Hlavní pro teoretické a empirické rozdělení jsou uvedeny v tabulce. 9.1.

Vzorový podíl k n je poměr počtu jednotek výběrové populace k počtu jednotek obecné populace:

kn = n/N.

Vzorový podíl w je poměr jednotek, které mají studovaný znak X na velikost vzorku n:

w = n n / n.

Příklad. V dávce zboží obsahující 1000 jednotek s 5% vzorkem frakce vzorku k n v absolutní hodnotě je 50 jednotek. (n = N*0,05); pokud jsou v tomto vzorku nalezeny 2 vadné výrobky, pak frakce vzorku w bude 0,04 (w = 2/50 = 0,04 nebo 4 %).

Vzhledem k tomu, že výběrová populace se liší od obecné populace, existují vzorkovací chyby.

Tabulka 9.1 Hlavní parametry obecné a výběrové populace

Chyby při vzorkování

U jakýchkoli (solidních a selektivních) mohou nastat chyby dvou typů: registrace a reprezentativnost. Chyby Registrace může mít náhodný A systematický charakter. Náhodný chyby jsou tvořeny mnoha různými nekontrolovatelnými příčinami, jsou svou povahou neúmyslné a obvykle se vzájemně vyvažují v kombinaci (například změny údajů přístrojů v důsledku kolísání teploty v místnosti).

Systematický chyby jsou neobjektivní, neboť porušují pravidla pro výběr objektů ve vzorku (např. odchylky v měření při změně nastavení měřicího zařízení).

Příklad. Pro posouzení sociálního postavení obyvatel ve městě se plánuje vyšetření 25 % rodin. Pokud se však vybírá každý čtvrtý byt podle jeho čísla, pak hrozí nebezpečí výběru všech bytů pouze jednoho typu (např. jednopokojové), což povede k systematické chybě a zkreslení výsledků; výhodnější je výběr čísla bytu podle lotu, protože chyba bude náhodná.

Chyby v reprezentativnosti jsou vlastní pouze selektivnímu pozorování, nelze se jim vyhnout a vznikají v důsledku skutečnosti, že vzorek plně nereprodukuje obecný. Hodnoty ukazatelů získané ze vzorku se liší od ukazatelů stejných hodnot v běžné populaci (nebo získaných při průběžném pozorování).

Chyba vzorku je rozdíl mezi hodnotou parametru v obecné populaci a jeho výběrovou hodnotou. Pro průměrnou hodnotu kvantitativního atributu se rovná: , a pro podíl (alternativní atribut) - .

Výběrové chyby jsou vlastní pouze pozorování vzorků. Čím větší jsou tyto chyby, tím více se empirické rozdělení liší od teoretického. Parametry empirického rozdělení a jsou náhodné veličiny, proto jsou výběrové chyby také náhodné veličiny, mohou nabývat různých hodnot pro různé vzorky, a proto je obvyklé počítat průměrná chyba.

Průměrná výběrová chyba je hodnota vyjadřující směrodatnou odchylku výběrového průměru od matematického očekávání. Tato hodnota, podléhající principu náhodného výběru, závisí především na velikosti vzorku a na stupni variace vlastnosti: čím větší a čím menší je variace vlastnosti (tedy hodnota ), tím menší je hodnota průměrná výběrová chyba. Poměr mezi rozptyly obecné a výběrové populace je vyjádřen vzorcem:

ty. pro dostatečně velké, můžeme předpokládat, že . Průměrná výběrová chyba ukazuje možné odchylky parametru výběrové populace od parametru obecné populace. V tabulce. 9.2 ukazuje výrazy pro výpočet průměrné výběrové chyby pro různé metody organizace pozorování.

Tabulka 9.2 Střední chyba (m) průměru vzorku a podílu pro různé typy vzorků

Kde je průměr rozptylů vnitroskupinového vzorku pro spojitý znak;

Průměr vnitroskupinových rozptylů podílu;

— počet vybraných sérií, — celkový počet sérií;

,

kde je průměr tý řady;

- obecný průměr za celý vzorek pro spojitý prvek;

,

kde je podíl znaku v tý řadě;

— celkový podíl znaku v celém vzorku.

Velikost průměrné chyby však lze posoudit pouze s určitou pravděpodobností Р (Р ≤ 1). Ljapunov A.M. prokázali, že rozdělení výběrových průměrů a tím i jejich odchylky od obecného průměru při dostatečně velkém počtu přibližně dodržují zákon normálního rozdělení za předpokladu, že obecná populace má konečný průměr a omezený rozptyl.

Matematicky je toto tvrzení pro průměr vyjádřeno jako:

a pro zlomek bude mít výraz (1) tvar:

kde - jíst mezní výběrová chyba, což je násobek průměrné výběrové chyby , a multiplicitní faktor je Studentovo kritérium ("faktor spolehlivosti"), navržené W.S. Gosset (pseudonym "Student"); hodnoty pro různé velikosti vzorků jsou uloženy ve speciální tabulce.

Hodnoty funkce Ф(t) pro některé hodnoty t jsou:

Proto výraz (3) lze číst následovně: s pravděpodobností P = 0,683 (68,3 %) lze tvrdit, že rozdíl mezi výběrovým souborem a obecným průměrem nepřesáhne jednu hodnotu střední chyby m(t=1), s pravděpodobností P = 0,954 (95,4 %)— že nepřesahuje hodnotu dvou středních chyb m (t = 2), s pravděpodobností P = 0,997 (99,7 %)- nepřekročí tři hodnoty m (t = 3). Určuje tedy pravděpodobnost, že tento rozdíl překročí trojnásobek hodnoty střední chyby chybová úroveň a není více než 0,3% .

V tabulce. 9.3 jsou uvedeny vzorce pro výpočet mezní výběrové chyby.

Tabulka 9.3 Mezní výběrová chyba (D) pro průměr a podíl (p) pro různé typy vzorkování

Rozšíření výsledků vzorku na populaci

Konečným cílem pozorování vzorku je charakterizovat obecnou populaci. U malých velikostí vzorků se mohou empirické odhady parametrů ( a ) výrazně lišit od jejich skutečných hodnot ( a ). Proto je nutné stanovit hranice, ve kterých pro vzorové hodnoty parametrů ( a ) leží skutečné hodnoty ( a ).

Interval spolehlivosti libovolného parametru θ obecné populace se nazývá náhodný rozsah hodnot tohoto parametru, který s pravděpodobností blízkou 1 ( spolehlivost) obsahuje skutečnou hodnotu tohoto parametru.

mezní chyba Vzorky Δ umožňuje určit mezní hodnoty charakteristik běžné populace a jejich intervaly spolehlivosti, které se rovnají:

Sečteno a podtrženo interval spolehlivosti získané odečtením mezní chyba z průměru vzorku (podíl) a horního přidáním.

Interval spolehlivosti pro průměr používá mezní výběrovou chybu a pro danou úroveň spolehlivosti je určena vzorcem:

To znamená, že s danou pravděpodobností R, která se nazývá hladina spolehlivosti a je jednoznačně určena hodnotou t, lze tvrdit, že skutečná hodnota průměru leží v rozmezí od , a skutečná hodnota akcie je v rozmezí od

Při výpočtu intervalu spolehlivosti pro tři standardní úrovně spolehlivosti P=95 %, P=99 % a P=99,9 % hodnota je vybrána pomocí . Aplikace v závislosti na počtu stupňů volnosti. Pokud je velikost vzorku dostatečně velká, pak hodnoty odpovídající těmto pravděpodobnostem t jsou si rovni: 1,96, 2,58 A 3,29 . Mezní výběrová chyba nám tedy umožňuje určit mezní hodnoty charakteristik obecné populace a jejich intervaly spolehlivosti:

Distribuce výsledků selektivního pozorování k obecné populaci v socioekonomických studiích má své vlastní charakteristiky, protože vyžaduje úplnost reprezentativnosti všech jeho typů a skupin. Základem pro možnost takového rozdělení je kalkulace relativní chyba:

kde Δ % - relativní mezní výběrová chyba; ,

Existují dvě hlavní metody pro rozšíření pozorování vzorku na populaci: přímý převod a metoda koeficientů.

Podstata přímou konverzi je vynásobit průměr vzorku!!\overline(x) velikostí populace .

Příklad. Nechte průměrný počet batolat ve městě odhadnout metodou odběru vzorků na osobu. Je-li ve městě 1000 mladých rodin, pak počet požadovaných míst v městské školce získáme vynásobením tohoto průměru velikostí běžné populace N = 1000, tzn. bude 1200 míst.

Metoda koeficientů je vhodné použít v případě, kdy se provádí selektivní pozorování, aby se vyjasnily údaje kontinuálního pozorování.

Přitom se používá vzorec:

kde všechny proměnné jsou velikost populace:

Požadovaná velikost vzorku

Tabulka 9.4 Požadovaná velikost vzorku (n) pro různé typy organizace odběru vzorků

Při plánování výběrového průzkumu s předem stanovenou hodnotou dovolené výběrové chyby je nutné správně odhadnout požadovanou velikost vzorku. Toto množství lze určit na základě dovolené chyby během selektivního pozorování na základě dané pravděpodobnosti, která zaručuje přijatelnou úroveň chyb (s přihlédnutím ke způsobu organizace pozorování). Vzorce pro stanovení požadované velikosti vzorku n lze snadno získat přímo ze vzorců pro mezní výběrovou chybu. Takže z výrazu pro okrajovou chybu:

velikost vzorku je určena přímo n:

Tento vzorec ukazuje, že s klesající mezní chybou výběru Δ výrazně zvyšuje požadovanou velikost vzorku, která je úměrná rozptylu a druhé mocnině Studentova t-testu.

Pro konkrétní metodu organizace pozorování se požadovaná velikost vzorku vypočítá podle vzorců uvedených v tabulce. 9.4.

Praktické příklady výpočtů

Příklad 1. Výpočet střední hodnoty a intervalu spolehlivosti pro spojitou kvantitativní charakteristiku.

Pro posouzení rychlosti vypořádání s věřiteli v bance byl proveden náhodný vzorek 10 platebních dokladů. Jejich hodnoty se ukázaly být stejné (ve dnech): 10; 3; 15; 15; 22; 7; 8; jeden; 19; dvacet.

Vyžadováno s pravděpodobností P = 0,954 určit mezní chybu Δ průměr vzorku a meze spolehlivosti průměrné doby výpočtu.

Řešení. Průměrná hodnota se vypočítá podle vzorce z tabulky. 9.1 pro vzorovou populaci

Disperze se vypočítá podle vzorce z tabulky. 9.1.

Střední kvadratická chyba dne.

Chyba průměru se vypočítá podle vzorce:

ty. střední hodnota je x ± m = 12,0 ± 2,3 dne.

Spolehlivost průměru byla

Mezní chyba se vypočítá podle vzorce z tabulky. 9.3 pro reselekci, protože velikost populace není známa, a pro P = 0,954úroveň důvěry.

Střední hodnota je tedy `x ± D = `x ± 2m = 12,0 ± 4,6, tzn. jeho skutečná hodnota leží v rozmezí od 7,4 do 16,6 dne.

Použití studentské tabulky. Aplikace nám umožňuje dojít k závěru, že pro n = 10 - 1 = 9 stupňů volnosti je získaná hodnota spolehlivá s hladinou významnosti a £ 0,001, tzn. výsledná střední hodnota se výrazně liší od 0.

Příklad 2. Odhad pravděpodobnosti (obecný podíl) r.

Mechanickou metodou výběrového šetření sociálního postavení 1000 rodin bylo zjištěno, že podíl rodin s nízkými příjmy byl w = 0,3 (30 %)(vzorek byl 2% , tj. n/N = 0,02). Vyžadováno s úrovní spolehlivosti p = 0,997 definovat indikátor R nízkopříjmové rodiny v celém regionu.

Řešení. Podle prezentovaných funkčních hodnot Ф(t) najít pro danou úroveň spolehlivosti P = 0,997 význam t=3(viz vzorec 3). Chyba mezního podílu w určit podle vzorce z tabulky. 9.3 pro neopakující se vzorkování (mechanické vzorkování je vždy neopakující se):

Omezení relativní vzorkovací chyby v % bude:

Pravděpodobnost (obecný podíl) nízkopříjmových rodin v kraji bude p=w±Δw a meze spolehlivosti p jsou vypočteny na základě dvojité nerovnosti:

w — Δw ≤ p ≤ w — Δw, tj. skutečná hodnota p leží v:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravděpodobností 0,997 lze tedy tvrdit, že podíl nízkopříjmových rodin mezi všemi rodinami v kraji se pohybuje od 28,6 % do 31,4 %.

Příklad 3 Výpočet střední hodnoty a intervalu spolehlivosti pro diskrétní prvek určený intervalovou řadou.

V tabulce. 9.5. je stanovena distribuce aplikací pro výrobu zakázek podle načasování jejich realizace podnikem.

Tabulka 9.5 Rozdělení pozorování podle doby výskytu

Řešení. Průměrná doba dokončení objednávky se vypočítá podle vzorce:

Průměrná doba bude:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 měsíce

Stejnou odpověď dostaneme, pokud použijeme údaje o p i z předposledního sloupce tabulky. 9.5 pomocí vzorce:

Všimněte si, že střed intervalu pro poslední gradaci se zjistí umělým doplněním o šířku intervalu předchozí gradace rovnající se 60 - 36 = 24 měsícům.

Rozptyl se vypočítá podle vzorce

kde x i- střed intervalové řady.

Proto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) a standardní chyba je .

Chyba průměru se vypočítá podle vzorce pro měsíce, tzn. průměr je!!\overline(x) ± m = 23,1 ± 13,4.

Mezní chyba se vypočítá podle vzorce z tabulky. 9.3 pro opakovaný výběr, protože velikost populace není známa, pro úroveň spolehlivosti 0,954:

Průměr je tedy:

ty. jeho skutečná hodnota leží v rozmezí od 0 do 50 měsíců.

Příklad 4 Pro zjištění rychlosti vypořádání s věřiteli N = 500 podniků korporace v komerční bance je nutné provést výběrovou studii metodou náhodného neopakovatelného výběru. Určete požadovanou velikost vzorku n tak, aby s pravděpodobností P = 0,954 chyba výběrového průměru nepřesáhla 3 dny, pokud zkušební odhady ukázaly, že směrodatná odchylka s byla 10 dnů.

Řešení. Pro stanovení počtu potřebných studií n použijeme vzorec pro neopakující se výběr z tabulky. 9.4:

V něm je hodnota t určena z pro hladinu spolehlivosti Р = 0,954. Je rovna 2. Střední kvadratická hodnota s = 10, velikost populace N = 500 a mezní chyba průměru Δ x = 3. Dosazením těchto hodnot do vzorce dostaneme:

ty. pro odhad požadovaného parametru - rychlosti vyrovnání s věřiteli stačí udělat vzorek 41 podniků.

Selektivní pozorování

Koncept selektivního pozorování

Metoda vzorkování se používá, když je použití kontinuálního pozorování fyzicky nemožné kvůli obrovskému množství dat nebo není ekonomicky proveditelné. Fyzická nemožnost nastává například při studiu toků cestujících, tržních cen, rodinných rozpočtů. Ekonomická neúčelnost nastává při posuzování kvality zboží spojené s jeho zničením. Například degustace, testování pevnosti cihel atd. Selektivní pozorování se také používá k testování výsledků kontinuálního.

Statistické jednotky vybrané pro pozorování jsou selektivní agregát popř vzorek, a celé pole - Všeobecné sada (GS). Označuje se počet jednotek ve vzorku P, v celém HS N. přístup n/n tzv. relativní velikost resp ukázkový podíl.

Kvalita výsledků vzorkování závisí na reprezentativnost vzorky, tzn. o tom, jak je reprezentativní v HS. Pro zajištění reprezentativnosti vzorku je nutné dodržet zásadu náhodného výběru jednotek, která předpokládá, že zařazení jednotky HS do vzorku nemůže ovlivnit jiný faktor než náhoda.

Metody odběru vzorků

1. Vlastně náhodné výběr: všechny jednotky HS jsou očíslovány a vylosovaná čísla odpovídají jednotkám ve vzorku, přičemž počet čísel se rovná plánované velikosti vzorku. V praxi se místo losování používají generátory náhodných čísel. Tato metoda výběru může být opakoval(když se každá jednotka vybraná ve vzorku po pozorování vrátí do HS a může být znovu prozkoumána) a neopakované(když zkoumané jednotky v HS nejsou vráceny a nelze je znovu změřit). Při opakovaném výběru zůstává pravděpodobnost vstupu do vzorku pro každou jednotku HS nezměněna a při neopakovaném výběru se mění (zvyšuje), ale u zbývajících v HS po výběru několika jednotek z něj pravděpodobnost dostat se do vzorku je stejné.



2. Mechanické výběr: jednotky populace jsou vybírány s konstantním krokem N/A. Pokud tedy obsahuje obecnou populaci 100 tisíc jednotek a je nutné vybrat 1 tisíc jednotek, bude do vzorku spadat každá setá jednotka.

3. stratifikované(stratifikovaná) selekce se provádí z heterogenní obecné populace, kdy je nejprve rozdělena do homogenních skupin, poté jsou jednotky z každé skupiny vybírány do výběrové populace náhodně nebo mechanicky v poměru k jejich počtu v obecné populaci.

4. Seriál(vnořený) výběr: náhodně nebo mechanicky se nevybírají jednotlivé jednotky, ale určité série (hnízda), v rámci kterých se provádí průběžné pozorování.

Průměrná výběrová chyba

Po dokončení výběru požadovaného počtu jednotek ve výběrovém souboru a registraci charakteristik těchto jednotek stanovených programem pozorování přistoupí k výpočtu zobecňujících ukazatelů. Patří mezi ně průměrná hodnota studovaného znaku a podíl jednotek, které mají nějakou hodnotu tohoto znaku. Pokud však HS udělá několik vzorků, při určování jejich zobecňujících charakteristik, pak lze stanovit, že jejich hodnoty se budou lišit, navíc se budou lišit od jejich skutečné hodnoty v HS, pokud je to stanoveno pomocí nepřetržitého pozorování . Jinými slovy, zobecňující charakteristiky vypočítané ze vzorových dat se budou lišit od jejich skutečných hodnot v HS, proto zavádíme následující konvence (tabulka 8).

Tabulka 8. Konvence

Rozdíl mezi hodnotou zobecňujících charakteristik výběrového souboru a obecné populace se nazývá vzorkovací chyba, která se dělí na chybu Registrace a chyba reprezentativnost. První vzniká nesprávnými nebo nepřesnými informacemi z nepochopení podstaty problematiky, neopatrností matrikářky při vyplňování dotazníků, formulářů atp. Je poměrně snadné jej odhalit a opravit. Druhý vzniká nedodržením principu náhodného výběru jednotek ve vzorku. Je obtížnější jej detekovat a eliminovat, je mnohem větší než první, a proto je jeho měření hlavním úkolem selektivního pozorování.

Pro měření výběrové chyby je její průměrná chyba určena vzorcem (39) pro opakovaný výběr a vzorcem (40) pro neopakující se výběr:

= ;(39) = . (40)

Ze vzorců (39) a (40) je vidět, že průměrná chyba je u neopakujícího se vzorku menší, což určuje jeho širší uplatnění.