In medie. Determinarea mediei, varianței și formei distribuției

Salariu mediu... Speranța medie de viață... Aproape în fiecare zi auzim aceste expresii folosite pentru a descrie un set cu un singur număr. Dar, în mod ciudat, „valoarea medie” este un concept destul de insidios, care adesea induce în eroare omul obișnuit, fără experiență în statistici matematice.

Care este problema?

Valoarea medie înseamnă cel mai adesea media aritmetică, care variază foarte mult sub influența faptelor sau evenimentelor individuale. Și nu veți avea o idee reală despre cum sunt distribuite valorile pe care le studiați.

Să ne uităm la exemplul clasic al salariului mediu.

O companie abstractă are zece angajați. Nouă dintre ei primesc un salariu de aproximativ 50.000 de ruble, iar unul primește un salariu de 1.500.000 de ruble (printr-o ciudată coincidență, el este și directorul general al acestei companii).

Valoarea medie în acest caz va fi de 195.150 de ruble, ceea ce veți fi de acord că este incorect.

Ce metode de calculare a mediei există?

Prima modalitate este de a calcula cele deja menționate medie aritmetică, care este suma tuturor valorilor împărțită la numărul lor.

  • x – medie aritmetică;
  • x n – sens specific;
  • n – numărul de valori.
  • Funcționează bine cu distribuția normală a valorilor în eșantion;
  • Ușor de calculat;
  • Intuitiv clar.
  • Nu oferă o idee reală despre distribuția valorilor;
  • O cantitate instabilă care este ușor supusă unor valori aberante (ca în cazul CEO-ului).

A doua modalitate este de a calcula Modă, adică valoarea care apare cel mai frecvent.

  • M 0 – mod;
  • x 0 – limita inferioară a intervalului care conține modul;
  • n – valoarea intervalului;
  • f m – frecvență (de câte ori apare o anumită valoare într-o serie);
  • f m-1 – frecvența intervalului premergător celui modal;
  • f m+1 – frecvența intervalului următor celui modal.
  • Excelent pentru a obține un simț al opiniei publice;
  • Bun pentru date non-numerice (culori de sezon, cele mai vândute, evaluări);
  • Ușor de înțeles.
  • Moda poate pur și simplu să nu existe (fără repetări);
  • Pot exista mai multe moduri (distribuție multimodală).

A treia modalitate este de a calcula mediane, adică valoarea care împarte proba comandată în două jumătăți și se află între ele. Și dacă nu există o astfel de valoare, atunci media aritmetică dintre limitele jumătăților eșantionului este luată ca mediană.

  • M e – mediană;
  • x 0 – limita inferioară a intervalului care conține mediana;
  • h – valoarea intervalului;
  • f i – frecvența (de câte ori apare o anumită valoare într-o serie);
  • S m-1 – suma frecvențelor intervalelor care preced mediana;
  • f m – numărul de valori în intervalul median (frecvența acestuia).
  • Oferă cea mai realistă și reprezentativă estimare;
  • Rezistent la emisii.
  • Mai greu de calculat, deoarece proba trebuie comandată înainte de calcul.

Ne-am uitat la principalele metode de găsire a valorii medii, numite măsuri de tendinţă centrală(de fapt sunt mai multe, dar acestea sunt cele mai populare).

Acum să revenim la exemplul nostru și să calculăm toate cele trei opțiuni pentru medie folosind funcții speciale Excel:

  • MEDIE(număr1;[număr2];…) – funcție pentru determinarea mediei aritmetice;
  • MODE.ONE(număr1;[număr2];...) - funcția mod (în versiunile mai vechi de Excel a fost folosită MODE(număr1;[număr2];...));
  • MEDIAN(numar1;[numar2];...) – functie de gasire a medianei.

Și iată care sunt valorile pe care le avem:

În acest caz, modul și mediana caracterizează mult mai bine salariul mediu în companie.

Dar ce să faci când eșantionul conține nu 10 valori, ca în exemplu, ci milioane? Acest lucru nu poate fi calculat în Excel, dar în baza de date în care sunt stocate datele dvs., nicio problemă.

Calcularea mediei aritmetice în SQL

Totul aici este destul de simplu, deoarece SQL oferă o funcție de agregare specială AVG.

Și pentru a-l folosi, trebuie doar să scrieți următoarea interogare:

Calculul modei în SQL

Nu există o funcție separată în SQL pentru găsirea unui mod, dar puteți scrie unul rapid și ușor. Pentru a face acest lucru, trebuie să aflăm care salariu se repetă cel mai des și să-l alegem pe cel mai popular.

Să scriem o cerere:

/* WITH TIES trebuie adăugat la TOP() dacă setul este multimodal, adică setul are mai multe moduri */ SELECT TOP(1) WITH TIES salariu CA „Modul salariu” FROM angajații GROUP BY salari ORDER BY COUNT(* ) DESC

Calcularea mediei în SQL

Ca și în cazul modului, SQL nu are o funcție încorporată pentru calcularea mediei, dar are o funcție generică pentru calcularea percentilelor, PERCENTILE_CONT .

Totul arată așa:

/* În acest caz, percentila este 0,5 și va fi mediana */ SELECTARE TOP(1) PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY salary) OVER() AS "Salariu mediu" FROM angajați

Este mai bine să citiți mai multe despre funcționarea funcției PERCENTILE_CONT în ajutorul Microsoft și Google BigQuery.

Ce metodă ar trebui să folosesc?

Din cele de mai sus, rezultă că mediana este cea mai bună modalitate de a calcula media.

Dar nu este întotdeauna cazul. Dacă lucrați cu o medie, atunci aveți grijă la o distribuție multimodală:

Graficul prezintă o distribuție bimodală cu două vârfuri. Această situație poate apărea, de exemplu, la votul la alegeri.

În acest caz, media aritmetică și mediana sunt valori care sunt undeva la mijloc și nu vor spune nimic despre ceea ce se întâmplă de fapt și este mai bine să recunoașteți imediat că aveți de-a face cu o distribuție bimodală raportând două moduri.

Mai bine, împărțiți eșantionul în două grupuri și colectați date statistice pentru fiecare.

Concluzie:

Atunci când alegeți o metodă de găsire a mediei, trebuie să țineți cont de prezența valorilor aberante, precum și de normalitatea distribuției valorilor în eșantion.

Alegerea finală a măsurii tendinței centrale revine întotdeauna analistului.

Media aritmetică este un indicator statistic care demonstrează valoarea medie a unui anumit tablou de date. Acest indicator este calculat ca o fracție, al cărei numărător este suma tuturor valorilor din matrice, iar numitorul este numărul lor. Media aritmetică este un coeficient important care este utilizat în calculele de zi cu zi.

Sensul coeficientului

Media aritmetică este un indicator elementar pentru compararea datelor și calcularea unei valori acceptabile. De exemplu, diferite magazine vând o cutie de bere de la un anumit producător. Dar într-un magazin costă 67 de ruble, în altul - 70 de ruble, într-o treime - 65 de ruble, iar în ultimul - 62 de ruble. Există o gamă destul de largă de prețuri, așa că cumpărătorul va fi interesat de costul mediu al cutiei pentru ca la achiziționarea unui produs să-și compare costurile. Prețul mediu pentru o cutie de bere în oraș este:

Prețul mediu = (67 + 70 + 65 + 62) / 4 = 66 de ruble.

Cunoscând prețul mediu, este ușor să determinați unde este profitabil să cumpărați un produs și unde va trebui să plătiți în exces.

Media aritmetică este utilizată constant în calculele statistice în cazurile în care se analizează un set omogen de date. În exemplul de mai sus, acesta este prețul unei cutii de bere de aceeași marcă. Cu toate acestea, nu putem compara prețul berii de la diferiți producători sau prețurile berii și limonadei, deoarece în acest caz răspândirea valorilor va fi mai mare, prețul mediu va fi neclar și nesigur și însuși sensul calculelor. va fi distorsionat într-o caricatură a „temperaturii medii din spital”. Pentru a calcula seturi de date eterogene, se folosește o medie aritmetică ponderată, când fiecare valoare primește propriul coeficient de ponderare.

Calcularea mediei aritmetice

Formula de calcul este extrem de simplă:

P = (a1 + a2 + … an) / n,

unde an este valoarea cantității, n este numărul total de valori.

La ce poate fi folosit acest indicator? Prima și evidentă utilizare a acestuia este în statistică. Aproape fiecare studiu statistic folosește media aritmetică. Aceasta ar putea fi vârsta medie a căsătoriei în Rusia, nota medie la o materie pentru un școlar sau cheltuielile medii pentru alimente pe zi. După cum am menționat mai sus, fără a ține cont de ponderi, calcularea mediilor poate produce valori ciudate sau absurde.

De exemplu, președintele Federației Ruse a făcut o declarație că, conform statisticilor, salariul mediu al unui rus este de 27.000 de ruble. Pentru majoritatea locuitorilor Rusiei, acest nivel de salariu părea absurd. Nu este surprinzător dacă, la calcul, luăm în considerare veniturile oligarhilor, conducătorilor de întreprinderi industriale, marilor bancheri, pe de o parte, și salariile profesorilor, curățătorilor și vânzătorilor, pe de altă parte. Chiar și salariile medii într-o specialitate, de exemplu, contabil, vor avea diferențe serioase la Moscova, Kostroma și Ekaterinburg.

Cum se calculează mediile pentru date eterogene

În situațiile de salarizare, este important să se ia în considerare ponderea fiecărei valori. Aceasta înseamnă că salariile oligarhilor și bancherilor ar primi o pondere de, de exemplu, 0,00001, iar salariile vânzătorilor - 0,12. Acestea sunt numere din senin, dar ele ilustrează aproximativ prevalența oligarhilor și a vânzătorilor în societatea rusă.

Astfel, pentru a calcula media mediilor sau valorilor medii într-un set de date eterogen, este necesară utilizarea mediei ponderate aritmetice. În caz contrar, veți primi un salariu mediu în Rusia de 27.000 de ruble. Dacă doriți să aflați nota medie la matematică sau numărul mediu de goluri marcate de un jucător de hochei selectat, atunci calculatorul de medie aritmetică este potrivit pentru dvs.

Programul nostru este un calculator simplu și convenabil pentru calcularea mediei aritmetice. Pentru a efectua calculele, trebuie doar să introduceți valorile parametrilor.

Să ne uităm la câteva exemple

Calculul scorului mediu

Mulți profesori folosesc metoda mediei aritmetice pentru a determina nota anuală pentru o materie. Să ne imaginăm că copilul a primit următoarele note sferturi la matematică: 3, 3, 5, 4. Ce notă anuală îi va acorda profesorul? Să folosim un calculator și să calculăm media aritmetică. Pentru a începe, selectați numărul corespunzător de câmpuri și introduceți valorile de evaluare în celulele care apar:

(3 + 3 + 5 + 4) / 4 = 3,75

Profesorul va rotunji valoarea în favoarea elevului, iar elevul va primi un B solid pentru anul.

Calculul bomboanelor consumate

Să ilustrăm câte ceva din absurditatea mediei aritmetice. Să ne imaginăm că Masha și Vova au avut 10 bomboane. Masha a mâncat 8 bomboane, iar Vova doar 2. Câte bomboane a mâncat în medie fiecare copil? Folosind un calculator, este ușor de calculat că, în medie, copiii au mâncat 5 bomboane, ceea ce este complet neconform cu realitatea și bunul simț. Acest exemplu arată că media aritmetică este importantă pentru seturi de date semnificative.

Concluzie

Calculul mediei aritmetice este utilizat pe scară largă în multe domenii științifice. Acest indicator este popular nu numai în calculele statistice, ci și în fizică, mecanică, economie, medicină sau finanțe. Utilizați calculatoarele noastre ca asistent pentru a rezolva probleme care implică calcularea mediei aritmetice.

Tine minte!

La găsiți media aritmetică, trebuie să adunați toate numerele și să împărțiți suma lor la numărul lor.


Aflați media aritmetică a lui 2, 3 și 4.

Să notăm media aritmetică cu litera „m”. Prin definiția de mai sus, găsim suma tuturor numerelor.


Împărțiți suma rezultată la numărul de numere luate. Prin convenție, avem trei numere.

Ca rezultat obținem formula mediei aritmetice:


La ce se folosește media aritmetică?

Pe lângă faptul că se sugerează în mod constant să fie găsit în lecții, găsirea mediei aritmetice este foarte utilă în viață.

De exemplu, să presupunem că decizi să vinzi mingi de fotbal. Dar, din moment ce sunteți nou în această afacere, nu este complet clar la ce preț ar trebui să vindeți bilele.

Atunci te hotărăști să afli la ce preț concurenții vând deja mingi de fotbal în zona ta. Să aflăm prețurile în magazine și să facem o masă.

Prețurile pentru mingi din magazine s-au dovedit a fi complet diferite. Ce preț ar trebui să alegem pentru a vinde o minge de fotbal?

Dacă alegem cel mai mic preț (290 de ruble), atunci vom vinde mărfurile în pierdere. Dacă îl alegeți pe cel mai mare (360 de ruble), atunci cumpărătorii nu vor cumpăra mingi de fotbal de la noi.

Avem nevoie de un preț mediu. Aici vine vorba de salvare in medie.

Să calculăm media aritmetică a prețurilor pentru mingi de fotbal:

prețul mediu =

290 + 360 + 310
3
=
960
3
= 320 freca.

Astfel, am primit un preț mediu (320 de ruble), la care putem vinde o minge de fotbal nu prea ieftină și nici prea scumpă.

Viteza medie de conducere

Strâns legat de media aritmetică este conceptul viteza medie.

Observând mișcarea traficului în oraș, puteți observa că mașinile fie accelerează și circulă cu viteză mare, fie încetinesc și circulă cu viteză mică.

Există multe astfel de secțiuni de-a lungul traseului vehiculelor. Prin urmare, pentru comoditatea calculelor, este utilizat conceptul de viteză medie.

Tine minte!

Viteza medie de mișcare este întreaga distanță parcursă împărțită la întreg timpul de mișcare.

Să luăm în considerare o problemă la viteză medie.

Problema nr. 1503 din manualul „Vilenkin clasa a V-a”

Mașina s-a deplasat timp de 3,2 ore pe o autostradă cu o viteză de 90 km/h, apoi 1,5 ore pe un drum de pământ cu viteza de 45 km/h, iar în final 0,3 ore pe un drum de țară cu viteza de 30 km/h . Găsiți viteza medie a mașinii de-a lungul întregului traseu.

Pentru a calcula viteza medie, trebuie să cunoașteți întreaga distanță parcursă de mașină și tot timpul în care mașina s-a deplasat.

S 1 = V 1 t 1

S 1 = 90 3,2 = 288 (km)

- autostrada.

S2 = V2t2

S 2 = 45 · 1,5 = 67,5 (km) - drum de pământ.

S 3 = V 3 t 3

S 3 = 30 · 0,3 = 9 (km) - drum de țară.

S = S 1 + S 2 + S 3

S = 288 + 67,5 + 9 = 364,5 (km) - întreaga distanță parcursă de mașină.

T = t 1 + t 2 + t 3

T = 3,2 + 1,5 + 0,3 = 5 (h) - tot timpul.

V av = S: t

V av = 364,5: 5 = 72,9 (km/h) - viteza medie a vehiculului.

Răspuns: V av = 72,9 (km/h) - viteza medie a mașinii.

În matematică, media aritmetică a numerelor (sau pur și simplu media) este suma tuturor numerelor dintr-o mulțime dată împărțită la numărul de numere. Acesta este cel mai generalizat și răspândit concept de valoare medie. După cum ați înțeles deja, pentru a găsi media, trebuie să însumați toate numerele date și să împărțiți rezultatul rezultat la numărul de termeni.

Care este media aritmetică?

Să ne uităm la un exemplu.

Exemplul 1. Numerele date: 6, 7, 11. Trebuie să găsiți valoarea lor medie.

Soluţie.

Mai întâi, să găsim suma tuturor acestor numere.

Acum împărțiți suma rezultată la numărul de termeni. Deoarece avem trei termeni, vom împărți la trei.

Prin urmare, media numerelor 6, 7 și 11 este 8. De ce 8? Da, pentru că suma 6, 7 și 11 va fi aceeași cu trei opturi. Acest lucru se vede clar în ilustrație.

Media seamănă un pic la „ieșirea în seară” a unei serii de numere. După cum puteți vedea, mormanele de creioane au devenit la același nivel.

Să ne uităm la un alt exemplu pentru a consolida cunoștințele acumulate.

Exemplul 2. Numerele date: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Trebuie să găsiți media lor aritmetică.

Soluţie.

Găsiți suma.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Împărțiți la numărul de termeni (în acest caz - 15).

Prin urmare, valoarea medie a acestei serii de numere este 22.

Acum să ne uităm la numerele negative. Să ne amintim cum să le rezumăm. De exemplu, aveți două numere 1 și -4. Să le găsim suma.

1 + (-4) = 1 – 4 = -3

Știind acest lucru, să ne uităm la un alt exemplu.

Exemplul 3. Aflați valoarea medie a unei serii de numere: 3, -7, 5, 13, -2.

Soluţie.

Aflați suma numerelor.

3 + (-7) + 5 + 13 + (-2) = 12

Deoarece există 5 termeni, împărțiți suma rezultată la 5.

Prin urmare, media aritmetică a numerelor 3, -7, 5, 13, -2 este 2,4.

În timpul nostru de progres tehnologic, este mult mai convenabil să folosim programe de calculator pentru a găsi valoarea medie. Microsoft Office Excel este unul dintre ele. Găsirea mediei în Excel este rapidă și ușoară. Mai mult, acest program este inclus în pachetul software Microsoft Office. Să ne uităm la o scurtă instrucțiune despre cum să găsiți media aritmetică folosind acest program.

Pentru a calcula valoarea medie a unei serii de numere, trebuie să utilizați funcția MEDIE. Sintaxa pentru această funcție este:
= Medie(argument1, argument2, ... argument255)
unde argument1, argument2, ... argument255 sunt fie numere, fie referințe de celule (prin celule înțelegem intervale și matrice).

Pentru a fi mai clar, haideți să încercăm cunoștințele pe care le-am dobândit.

  1. Introduceți numerele 11, 12, 13, 14, 15, 16 în celulele C1 – C6.
  2. Selectați celula C7 făcând clic pe ea. În această celulă vom afișa valoarea medie.
  3. Faceți clic pe fila Formule.
  4. Selectați Mai multe funcții > Statistică pentru a deschide lista derulantă.
  5. Selectați MEDIE. După aceasta, ar trebui să se deschidă o casetă de dialog.
  6. Selectați și trageți acolo celulele de la C1 la C6 pentru a seta intervalul în caseta de dialog.
  7. Confirmați acțiunile dvs. cu butonul „OK”.
  8. Dacă ați făcut totul corect, ar trebui să aveți răspunsul în celula C7 - 13.7. Când faceți clic pe celula C7, funcția (=Medie(C1:C6)) va apărea în bara de formule.

Această caracteristică este foarte utilă pentru contabilitate, facturi sau atunci când trebuie doar să găsiți media unei serii foarte lungi de numere. Prin urmare, este adesea folosit în birouri și companii mari. Acest lucru vă permite să vă păstrați evidențele în ordine și vă permite să calculați rapid ceva (de exemplu, venitul mediu lunar). De asemenea, puteți utiliza Excel pentru a găsi valoarea medie a unei funcții.

In medie

Acest termen are alte semnificații, vezi sensul mediu.

In medie(în matematică și statistică) seturi de numere - suma tuturor numerelor împărțită la numărul lor. Este una dintre cele mai comune măsurători ale tendinței centrale.

A fost propusă (împreună cu media geometrică și media armonică) de către pitagoreici.

Cazuri speciale ale mediei aritmetice sunt media (populația generală) și media eșantionului (eșantionul).

Introducere

Să notăm setul de date X = (X 1 , X 2 , …, X n), atunci media eșantionului este de obicei indicată printr-o bară orizontală deasupra variabilei (x ¯ (\displaystyle (\bar (x))), pronunțată „ X cu o linie").

Litera greacă μ este folosită pentru a desemna media aritmetică a întregii populații. Pentru o variabilă aleatoare pentru care se determină valoarea medie, μ este medie probabilistica sau așteptarea matematică a unei variabile aleatoare. Dacă setul X este o colecție de numere aleatoare cu o medie probabilistă μ, apoi pentru orice eșantion X i din această mulțime μ = E( X i) este așteptarea matematică a acestui eșantion.

În practică, diferența dintre μ și x ¯ (\displaystyle (\bar (x))) este că μ este o variabilă tipică, deoarece puteți vedea un eșantion mai degrabă decât întreaga populație. Prin urmare, dacă eșantionul este reprezentat aleatoriu (în termeni de teoria probabilității), atunci x ¯ (\displaystyle (\bar (x))) (dar nu μ) poate fi tratată ca o variabilă aleatoare având o distribuție de probabilitate pe eșantion ( distribuția de probabilitate a mediei).

Ambele cantități sunt calculate în același mod:

X ¯ = 1 n ∑ i = 1 n x i = 1 n (x 1 + ⋯ + x n) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cdots +x_(n)).)

Dacă X este o variabilă aleatorie, apoi așteptarea matematică X poate fi considerată ca medie aritmetică a valorilor în măsurători repetate ale unei mărimi X. Aceasta este o manifestare a legii numerelor mari. Prin urmare, media eșantionului este utilizată pentru a estima valoarea așteptată necunoscută.

S-a dovedit în algebra elementară că media n+ 1 numere peste medie n numere dacă și numai dacă noul număr este mai mare decât vechea medie, mai puțin dacă și numai dacă noul număr este mai mic decât media și nu se modifică dacă și numai dacă noul număr este egal cu media. Cu atât mai mult n, cu atât este mai mică diferența dintre mediile noi și cele vechi.

Rețineți că există câteva alte „medii” disponibile, inclusiv media puterii, media Kolmogorov, media armonică, media aritmetică-geometrică și diferite medii ponderate (de exemplu, medie aritmetică ponderată, medie geometrică ponderată, medie armonică ponderată).

Exemple

  • Pentru trei numere, trebuie să le adunați și să le împărțiți la 3:
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • Pentru patru numere, trebuie să le adunați și să împărțiți la 4:
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2))+x_(3)+x_(4))(4)).)

Sau mai simplu 5+5=10, 10:2. Pentru că adunam 2 numere, ceea ce înseamnă câte numere adunăm, împărțim la atâtea.

Variabilă aleatoare continuă

Pentru o mărime distribuită continuu f (x) (\displaystyle f(x)), media aritmetică pe intervalul [ a ; b ] (\displaystyle ) este determinată printr-o integrală definită:

F (x) ¯ [ a ; b ] = 1 b - a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) f(x)dx)

Câteva probleme de utilizare a mediei

Lipsa robusteței

Articolul principal: Robustețe în statistică

Deși mediile aritmetice sunt adesea folosite ca medii sau tendințe centrale, acest concept nu este o statistică robustă, ceea ce înseamnă că media aritmetică este puternic influențată de „abateri mari”. Este de remarcat faptul că, pentru distribuțiile cu un coeficient mare de asimetrie, media aritmetică poate să nu corespundă conceptului de „medie”, iar valorile mediei din statistici robuste (de exemplu, mediana) pot descrie mai bine media centrală. tendinţă.

Un exemplu clasic este calcularea venitului mediu. Media aritmetică poate fi interpretată greșit ca o mediană, ceea ce poate duce la concluzia că există mai mulți oameni cu venituri mai mari decât există de fapt. Venitul „mediu” este interpretat ca însemnând că majoritatea oamenilor au venituri în jurul acestui număr. Acest venit „mediu” (în sensul mediei aritmetice) este mai mare decât veniturile majorității oamenilor, deoarece un venit mare cu o abatere mare de la medie face ca media aritmetică să fie foarte denaturată (dimpotrivă, venitul mediu la mediană). „rezistă” la o astfel de înclinare). Cu toate acestea, acest venit „mediu” nu spune nimic despre numărul de persoane aflate în apropierea venitului mediu (și nu spune nimic despre numărul de persoane din apropierea venitului modal). Cu toate acestea, dacă iei cu ușurință conceptele de „medie” și „majoritatea oamenilor”, poți trage concluzia incorectă că majoritatea oamenilor au venituri mai mari decât sunt în realitate. De exemplu, un raport al venitului net „mediu” din Medina, Washington, calculat ca media aritmetică a tuturor veniturilor nete anuale ale rezidenților, ar produce un număr surprinzător de mare datorită lui Bill Gates. Luați în considerare eșantionul (1, 2, 2, 2, 3, 9). Media aritmetică este 3,17, dar cinci din șase valori sunt sub această medie.

Interes compus

Articolul principal: Randamentul investițiilor

Dacă numerele multiplica, dar nu pliază, trebuie să utilizați media geometrică, nu media aritmetică. Cel mai adesea, acest incident apare atunci când se calculează rentabilitatea investiției în finanțe.

De exemplu, dacă un stoc a scăzut cu 10% în primul an și a crescut cu 30% în al doilea, atunci este incorect să se calculeze creșterea „medie” în acești doi ani ca medie aritmetică (−10% + 30%) / 2 = 10%; media corectă în acest caz este dată de rata de creștere anuală compusă, care dă o rată de creștere anuală de numai aproximativ 8,16653826392% ≈ 8,2%.

Motivul pentru aceasta este că procentele au un nou punct de plecare de fiecare dată: 30% este 30% dintr-un număr mai mic decât prețul de la începutul primului an: dacă un stoc a început de la 30 USD și a scăzut cu 10%, valorează 27 USD la începutul celui de-al doilea an. Dacă stocul a crescut cu 30%, ar valora 35,1 USD la sfârșitul celui de-al doilea an. Media aritmetică a acestei creșteri este de 10%, dar din moment ce stocul a crescut doar cu 5,1 USD în 2 ani, creșterea medie de 8,2% dă un rezultat final de 35,1 USD:

[30 USD (1 - 0,1) (1 + 0,3) = 30 USD (1 + 0,082) (1 + 0,082) = 35,1 USD]. Dacă folosim media aritmetică de 10% în același mod, nu vom obține valoarea reală: [$30 (1 + 0.1) (1 + 0.1) = $36.3].

Dobânda compusă la sfârșitul a 2 ani: 90% * 130% = 117%, adică creșterea totală este de 17%, iar dobânda compusă medie anuală este de 117% ≈ 108,2% (\displaystyle (\sqrt (117\% ))\aproximativ 108,2\%) , adică o creștere medie anuală de 8,2%.

Directii

Articolul principal: Statistici despre destinație

Când se calculează media aritmetică a unei variabile care se modifică ciclic (cum ar fi faza sau unghiul), trebuie avută o atenție deosebită. De exemplu, media 1° și 359° ar fi 1 ∘ + 359 ∘ 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°. Acest număr este incorect din două motive.

  • În primul rând, măsurile unghiulare sunt definite numai pentru intervalul de la 0° la 360° (sau de la 0 la 2π când sunt măsurate în radiani). Deci aceeași pereche de numere ar putea fi scrisă ca (1° și -1°) sau ca (1° și 719°). Valorile medii ale fiecărei perechi vor fi diferite: 1 ∘ + (− 1 ∘) 2 = 0 ∘ (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2 ))=0 ^(\circ )) , 1 ∘ + 719 ∘ 2 = 360 ∘ (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\ circ )) .
  • În al doilea rând, în acest caz, o valoare de 0° (echivalent cu 360°) va fi o valoare medie mai bună din punct de vedere geometric, deoarece numerele se abat mai puțin de la 0° decât de la orice altă valoare (valoarea 0° are cea mai mică variație). Comparaţie:
    • numărul 1° se abate de la 0° cu doar 1°;
    • numărul 1° se abate de la media calculată de 180° cu 179°.

Valoarea medie pentru o variabilă ciclică calculată folosind formula de mai sus va fi deplasată artificial în raport cu media reală spre mijlocul intervalului numeric. Din acest motiv, media este calculată într-un mod diferit, și anume, numărul cu cea mai mică variație (punctul central) este selectat ca valoare medie. De asemenea, în loc de scădere, se folosește distanța modulară (adică distanța circumferențială). De exemplu, distanța modulară între 1° și 359° este 2°, nu 358° (pe cercul dintre 359° și 360°==0° - un grad, între 0° și 1° - tot 1°, în total - 2 °).

Media ponderată - ce este și cum se calculează?

În procesul de studiere a matematicii, școlarii se familiarizează cu conceptul de medie aritmetică. Mai târziu, în statistică și în alte științe, studenții se confruntă cu calcularea altor valori medii. Ce pot fi și în ce se deosebesc unul de celălalt?

Medii: sens și diferențe

Indicatorii precisi nu oferă întotdeauna o înțelegere a situației. Pentru a evalua o anumită situație, uneori este necesar să se analizeze un număr mare de cifre. Și apoi mediile vin în ajutor. Ele ne permit să evaluăm situația în ansamblu.


Încă din timpul școlii, mulți adulți își amintesc existența mediei aritmetice. Este foarte simplu de calculat - suma unei secvențe de n termeni este împărțită la n. Adică, dacă trebuie să calculați media aritmetică în succesiunea valorilor 27, 22, 34 și 37, atunci trebuie să rezolvați expresia (27+22+34+37)/4, deoarece 4 valori sunt utilizate în calcule. În acest caz, valoarea necesară va fi 30.

Media geometrică este adesea studiată ca parte a unui curs școlar. Calculul acestei valori se bazează pe extragerea rădăcinii a n-a a produsului din n termeni. Dacă luăm aceleași numere: 27, 22, 34 și 37, atunci rezultatul calculelor va fi egal cu 29,4.

Media armonică nu este de obicei un subiect de studiu în școlile secundare. Cu toate acestea, este folosit destul de des. Această valoare este inversul mediei aritmetice și se calculează ca coeficientul lui n - numărul de valori și suma 1/a 1 +1/a 2 +...+1/a n. Dacă luăm din nou aceeași serie de numere pentru calcul, atunci armonica va fi 29,6.

Media ponderată: caracteristici

Cu toate acestea, este posibil ca toate valorile de mai sus să nu fie folosite peste tot. De exemplu, în statistici, atunci când se calculează anumite medii, „greutatea” fiecărui număr folosit în calcule joacă un rol important. Rezultatele sunt mai orientative și mai corecte deoarece țin cont de mai multe informații. Acest grup de cantități este denumit în general „medie ponderată”. Ele nu sunt predate la școală, așa că merită să le privim mai detaliat.

În primul rând, merită să spuneți ce se înțelege prin „greutatea” unei anumite valori. Cel mai simplu mod de a explica acest lucru este cu un exemplu specific. De două ori pe zi în spital se măsoară temperatura corpului fiecărui pacient. Din 100 de pacienți din diferite secții ale spitalului, 44 vor avea o temperatură normală - 36,6 grade. Alte 30 vor avea o valoare crescută - 37,2, 14 - 38, 7 - 38,5, 3 - 39, iar restul de două - 40. Și dacă luăm media aritmetică, atunci această valoare în general pentru spital va fi mai mare de 38. grade! Dar aproape jumătate dintre pacienți au o temperatură complet normală. Și aici ar fi mai corect să folosiți o medie ponderată, iar „greutatea” fiecărei valori ar fi numărul de persoane. În acest caz, rezultatul calculului va fi de 37,25 grade. Diferența este evidentă.

În cazul calculelor medii ponderate, „greutatea” poate fi luată ca fiind numărul de expedieri, numărul de persoane care lucrează într-o anumită zi, în general, orice poate fi măsurat și poate afecta rezultatul final.

Soiuri

Media ponderată este legată de media aritmetică discutată la începutul articolului. Cu toate acestea, prima valoare, așa cum sa menționat deja, ia în considerare și ponderea fiecărui număr utilizat în calcule. În plus, există și valori geometrice și armonice ponderate.

Există o altă variație interesantă folosită în seria de numere. Aceasta este o medie mobilă ponderată. Pe această bază sunt calculate tendințele. Pe lângă valorile în sine și greutatea lor, acolo se utilizează și periodicitatea. Și atunci când se calculează valoarea medie la un moment dat, se iau în considerare și valorile pentru perioadele de timp anterioare.

Calcularea tuturor acestor valori nu este atât de dificilă, dar în practică se folosește de obicei doar media ponderată obișnuită.

Metode de calcul

În era informatizării larg răspândite, nu este nevoie să se calculeze manual media ponderată. Cu toate acestea, ar fi util să cunoașteți formula de calcul pentru a putea verifica și, dacă este cazul, ajusta rezultatele obținute.

Cel mai simplu mod este să luați în considerare calculul folosind un exemplu specific.

Este necesar să aflați care este salariul mediu la această întreprindere, ținând cont de numărul de lucrători care primesc unul sau altul salariu.

Deci, media ponderată se calculează folosind următoarea formulă:

x = (a 1 *w 1 +a 2 *w 2 +...+a n *w n)/(w 1 +w 2 +...+w n)

De exemplu, calculul ar fi astfel:

x = (32*20+33*35+34*14+40*6)/(20+35+14+6) = (640+1155+476+240)/75 = 33,48

Evident, nu există nicio dificultate deosebită în calcularea manuală a mediei ponderate. Formula de calcul a acestei valori într-una dintre cele mai populare aplicații cu formule - Excel - arată ca funcția SUMPRODUCT (serie de numere; serie de greutăți) / SUM (serie de greutăți).

Cum să găsești media în excel?

cum să găsesc media aritmetică în excel?

Vladimir09854

La fel de ușor ca o plăcintă. Pentru a găsi media în Excel, aveți nevoie doar de 3 celule. În primul vom scrie un număr, în al doilea - altul. Și în a treia celulă vom introduce o formulă care ne va oferi valoarea medie dintre aceste două numere din prima și a doua celulă. Dacă celula nr. 1 se numește A1, celula nr. 2 se numește B1, atunci în celula cu formula trebuie să scrieți acest lucru:

Această formulă calculează media aritmetică a două numere.

Pentru a ne face calculele mai frumoase, putem evidenția celulele cu linii, sub formă de plăcuță.

În Excel în sine există și o funcție pentru determinarea valorii medii, dar folosesc metoda de modă veche și introdu formula de care am nevoie. Astfel, sunt sigur că Excel va calcula exact așa cum am nevoie și nu va veni cu un fel de rotunjire proprie.

M3sergey

Acest lucru este foarte simplu dacă datele sunt deja introduse în celule. Dacă sunteți interesat doar de un număr, trebuie doar să selectați intervalul/intervalele dorite, iar valoarea sumei acestor numere, media lor aritmetică și numărul lor vor apărea în dreapta jos în bara de stare.

Puteți selecta o celulă goală, faceți clic pe triunghiul (lista derulantă) „Suma automată” și selectați „Medie” acolo, după care veți fi de acord cu intervalul propus pentru calcul sau selectați-l pe al dvs.

În cele din urmă, puteți utiliza formulele direct făcând clic pe „Inserare funcție” de lângă bara de formule și adresa celulei. Funcția MEDIE este situată în categoria „Statistică” și ia drept argumente atât numere, cât și referințe de celule etc. Acolo puteți selecta și opțiuni mai complexe, de exemplu, MEDIEIF - calculând media în funcție de condiție.

Găsiți valoarea medie în excel este o sarcină destul de simplă. Aici trebuie să înțelegeți dacă doriți să utilizați această valoare medie în unele formule sau nu.

Dacă trebuie doar să obțineți valoarea, atunci selectați doar intervalul necesar de numere, după care Excel va calcula automat valoarea medie - va fi afișată în bara de stare, rubrica „Medie”.

În cazul în care doriți să utilizați rezultatul în formule, puteți face acest lucru:

1) Însumați celulele folosind funcția SUM și împărțiți totul la numărul de numere.

2) O opțiune mai corectă este să folosiți o funcție specială numită MEDIE. Argumentele acestei funcții pot fi numere specificate secvenţial sau un interval de numere.

Vladimir Tihonov

Încercuiți valorile care vor participa la calcul, faceți clic pe fila „Formule”, acolo veți vedea în stânga „AutoSum” și lângă ea un triunghi îndreptat în jos. Faceți clic pe acest triunghi și selectați „Medium”. Voila, gata) în partea de jos a coloanei vei vedea valoarea medie :)

Ekaterina Mutalapova

Să începem de la început și în ordine. Ce înseamnă medie?

Media este o valoare care este media aritmetică, adică se calculează adunând un set de numere și apoi împărțind întreaga sumă de numere la numărul lor. De exemplu, pentru numerele 2, 3, 6, 7, 2 vor fi 4 (suma numerelor 20 se împarte la numărul lor 5)

Într-o foaie de calcul Excel, pentru mine personal, cel mai simplu mod a fost să folosesc formula = MEDIE. Pentru a calcula valoarea medie, trebuie să introduceți date în tabel, să scrieți funcția =AVERAGE() sub coloana de date și să indicați intervalul de numere din celulele dintre paranteze, evidențiind coloana cu datele. După aceea, apăsați ENTER sau pur și simplu faceți clic stânga pe orice celulă. Rezultatul apare în celula de sub coloană. Pare descris de neînțeles, dar de fapt este o chestiune de câteva minute.

Aventurier 2000

Excel este un program variat, deci există mai multe opțiuni care vă vor permite să găsiți medii:

Prima varianta. Pur și simplu însumați toate celulele și împărțiți la numărul lor;

A doua varianta. Utilizați o comandă specială, scrieți formula „= MEDIE (și aici indicați intervalul de celule)” în celula necesară;

A treia opțiune. Dacă selectați intervalul necesar, vă rugăm să rețineți că în pagina de mai jos este afișată și valoarea medie din aceste celule.

Astfel, există o mulțime de modalități de a găsi media, trebuie doar să o alegi pe cea mai bună pentru tine și să o folosești constant.

În Excel, puteți utiliza funcția MEDIE pentru a calcula media aritmetică simplă. Pentru a face acest lucru, trebuie să introduceți un număr de valori. Apăsați egal și selectați Statistic în Categorie, dintre care selectați funcția MEDIE



De asemenea, folosind formule statistice, puteți calcula media aritmetică ponderată, care este considerată mai precisă. Pentru a-l calcula, avem nevoie de valori și frecvență indicatoare.

Cum să găsiți media în Excel?

Aceasta este situația. Există următorul tabel:

Coloanele umbrite în roșu conțin valorile numerice ale notelor la materii. În coloana „Scor mediu”, trebuie să calculați media acestora.
Problema este aceasta: sunt 60-70 de articole în total și unele dintre ele sunt pe altă foaie.
M-am uitat într-un alt document și media a fost deja calculată, iar în celulă există o formulă de genul
="numele foii"!|E12
dar asta a fost făcut de un programator care a fost concediat.
Te rog spune-mi cine înțelege asta.

Hector

În linia de funcții, inserați „MEDIA” din funcțiile propuse și selectați de unde trebuie calculate (B6:N6) pentru Ivanov, de exemplu. Nu știu sigur despre foile adiacente, dar probabil este conținut în ajutorul standard Windows

Spune-mi cum să calculez valoarea medie în Word

Vă rog să-mi spuneți cum să calculez valoarea medie în Word. Și anume, valoarea medie a evaluărilor, și nu numărul de persoane care au primit evaluările.


Iulia Pavlova

Word poate face multe cu macrocomenzi. Apăsați ALT+F11 și scrieți un program macro..
În plus, Insert-Object... vă va permite să utilizați alte programe, chiar și Excel, pentru a crea o foaie cu un tabel în interiorul unui document Word.
Dar, în acest caz, trebuie să vă scrieți numerele într-o coloană a tabelului și să introduceți media în celula de jos a aceleiași coloane, nu?
Pentru a face acest lucru, introduceți un câmp în celula de jos.
Insert-Field... -Formulă
Conținutul câmpului
[=MEDIA(SAI)]
dă media sumei celulelor de mai sus.
Dacă selectați un câmp și faceți clic pe butonul din dreapta al mouse-ului, îl puteți actualiza dacă numerele s-au schimbat,
vizualizați codul sau valoarea unui câmp, modificați codul direct în câmp.
Dacă ceva nu merge bine, ștergeți întregul câmp din celulă și creați-l din nou.
MEDIE înseamnă medie, SUS - aproximativ, adică un număr de celule situate deasupra.
Nu știam eu însumi toate acestea, dar le-am descoperit cu ușurință în HELP, desigur, cu puțină gândire.

În cele mai multe cazuri, datele sunt concentrate în jurul unui punct central. Astfel, pentru a descrie orice set de date, este suficient să indicați valoarea medie. Să luăm în considerare secvenţial trei caracteristici numerice care sunt utilizate pentru estimarea valorii medii a distribuţiei: media aritmetică, mediana şi modul.

In medie

Media aritmetică (deseori numită pur și simplu medie) este cea mai comună estimare a mediei unei distribuții. Este rezultatul împărțirii sumei tuturor valorilor numerice observate la numărul lor. Pentru un eșantion format din numere X 1, X 2, …, Xn, medie eșantionului (notat cu ) egal = (X 1 + X 2 + … + Xn) / n, sau

unde este media eșantionului, n- marime de mostra, Xi– al-lea element al probei.

Descărcați nota în sau format, exemple în format

Luați în considerare calcularea mediei aritmetice a randamentelor medii anuale pe cinci ani a 15 fonduri mutuale cu risc foarte ridicat (Figura 1).

Orez. 1. Rentabilitatea medie anuală a 15 fonduri mutuale cu risc foarte ridicat

Media eșantionului se calculează după cum urmează:

Acesta este un randament bun, mai ales în comparație cu randamentul de 3-4% pe care l-au primit deponenții băncilor sau uniunii de credit în aceeași perioadă de timp. Dacă sortăm randamentele, este ușor de observat că opt fonduri au randamente peste medie și șapte - sub medie. Media aritmetică acționează ca punct de echilibru, astfel încât fondurile cu randamente scăzute echilibrează fondurile cu randamente ridicate. Toate elementele eșantionului sunt implicate în calcularea mediei. Niciuna dintre celelalte estimări ale mediei unei distribuții nu are această proprietate.

Când ar trebui să calculezi media aritmetică? Deoarece media aritmetică depinde de toate elementele din eșantion, prezența valorilor extreme afectează în mod semnificativ rezultatul. În astfel de situații, media aritmetică poate distorsiona sensul datelor numerice. Prin urmare, atunci când se descrie un set de date care conține valori extreme, este necesar să se indice mediana sau media aritmetică și mediana. De exemplu, dacă eliminăm randamentele fondului RS Emerging Growth din eșantion, media eșantionului a randamentelor celor 14 fonduri scade cu aproape 1% până la 5,19%.

Median

Mediana reprezintă valoarea de mijloc a unui tablou ordonat de numere. Dacă matricea nu conține numere care se repetă, atunci jumătate dintre elementele sale vor fi mai mici decât mediana și jumătate va fi mai mare decât mediana. Dacă eșantionul conține valori extreme, este mai bine să folosiți mediana mai degrabă decât media aritmetică pentru a estima media. Pentru a calcula mediana unui eșantion, acesta trebuie mai întâi comandat.

Această formulă este ambiguă. Rezultatul depinde dacă numărul este par sau impar n:

  • Dacă eșantionul conține un număr impar de elemente, mediana este (n+1)/2- al-lea element.
  • Dacă eșantionul conține un număr par de elemente, mediana se află între cele două elemente din mijloc ale eșantionului și este egală cu media aritmetică calculată pentru aceste două elemente.

Pentru a calcula mediana unui eșantion care conține randamentele a 15 fonduri mutuale cu risc foarte ridicat, mai întâi trebuie să sortați datele brute (Figura 2). Atunci mediana va fi opusă numărului elementului mijlociu al probei; în exemplul nostru nr. 8. Excel are o funcție specială =MEDIAN() care funcționează și cu tablouri neordonate.

Orez. 2. Median 15 fonduri

Astfel, mediana este 6,5. Aceasta înseamnă că randamentul unei jumătăți din fondurile cu risc foarte mare nu depășește 6,5, iar randamentul celeilalte jumătate îl depășește. Rețineți că mediana de 6,5 nu este cu mult mai mare decât media de 6,08.

Dacă eliminăm randamentul fondului RS Emerging Growth din eșantion, atunci mediana celor 14 fonduri rămase scade la 6,2%, adică nu la fel de semnificativ ca media aritmetică (Figura 3).

Orez. 3. Median 14 fonduri

Modă

Termenul a fost inventat pentru prima dată de Pearson în 1894. Moda este numărul care apare cel mai des într-un eșantion (cel mai la modă). Moda descrie bine, de exemplu, reacția tipică a șoferilor la un semnal de semafor de a se opri din mișcare. Un exemplu clasic de utilizare a modei este alegerea mărimii pantofilor sau a culorii tapetului. Dacă o distribuție are mai multe moduri, atunci se spune că este multimodală sau multimodală (are două sau mai multe „vârfuri”). Multimodalitatea distribuției oferă informații importante despre natura variabilei studiate. De exemplu, în anchetele sociologice, dacă o variabilă reprezintă o preferință sau atitudine față de ceva, atunci multimodalitatea poate însemna că există mai multe opinii distinct diferite. Multimodalitatea servește, de asemenea, ca un indicator că eșantionul nu este omogen și că observațiile pot fi generate de două sau mai multe distribuții „suprapuse”. Spre deosebire de media aritmetică, valorile aberante nu afectează modul. Pentru variabile aleatoare distribuite continuu, cum ar fi randamentul mediu anual al fondurilor mutuale, modul uneori nu există (sau nu are sens) deloc. Deoarece acești indicatori pot lua valori foarte diferite, valorile repetate sunt extrem de rare.

Quartiles

Quartilele sunt metricile cel mai des folosite pentru a evalua distribuția datelor atunci când se descriu proprietățile eșantioanelor numerice mari. În timp ce mediana împarte matricea ordonată în jumătate (50% din elementele matricei sunt mai mici decât mediana și 50% sunt mai mari), quartilele împart setul de date ordonat în patru părți. Valorile Q 1 , mediana și Q 3 sunt percentilele 25, 50 și, respectiv, 75. Prima cuartilă Q 1 este un număr care împarte eșantionul în două părți: 25% dintre elemente sunt mai mici decât prima cuartilă și 75% sunt mai mari decât prima.

A treia cuartilă Q 3 este un număr care împarte eșantionul în două părți: 75% dintre elemente sunt mai mici decât, iar 25% sunt mai mari decât, a treia cuartilă.

Pentru a calcula quartile în versiunile de Excel înainte de 2007, utilizați funcția =QUARTILE(array,part) . Începând cu Excel 2010, sunt utilizate două funcții:

  • =QUARTILE.ON(matrice,parte)
  • =QUARTILE.EXC(matrice,parte)

Aceste două funcții dau valori ușor diferite (Figura 4). De exemplu, atunci când se calculează quartilele unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat, Q 1 = 1,8 sau –0,7 pentru QUARTILE.IN și, respectiv, QUARTILE.EX. Apropo, funcția QUARTILE, folosită anterior, corespunde funcției moderne QUARTILE.ON. Pentru a calcula quartile în Excel folosind formulele de mai sus, matricea de date nu trebuie să fie ordonată.

Orez. 4. Calcularea quartilelor în Excel

Să subliniem din nou. Excel poate calcula cuartile pentru un univariat serie discretă, care conține valorile unei variabile aleatoare. Calculul quartilelor pentru o distribuție bazată pe frecvență este prezentat mai jos în secțiune.

Medie geometrică

Spre deosebire de media aritmetică, media geometrică vă permite să estimați gradul de modificare a unei variabile în timp. Media geometrică este rădăcina n gradul de la lucrare n cantități (în Excel se folosește funcția =SRGEOM):

G= (X 1 * X 2 * … * X n) 1/n

Un parametru similar - valoarea medie geometrică a ratei profitului - este determinat de formula:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

Unde R i– rata profitului pt i a-a perioadă de timp.

De exemplu, să presupunem că investiția inițială este de 100 000 USD. Până la sfârșitul primului an, aceasta scade la 50 000 USD, iar la sfârșitul celui de-al doilea an revine la nivelul inițial de 100 000 USD. Rata de rentabilitate a acestei investiții peste un -perioada anului este egală cu 0, deoarece sumele inițiale și finale ale fondurilor sunt egale între ele. Cu toate acestea, media aritmetică a ratelor anuale de rentabilitate este = (–0,5 + 1) / 2 = 0,25 sau 25%, întrucât rata rentabilității în primul an R 1 = (50.000 – 100.000) / 100.000 = –0,5 , iar în al doilea R 2 = (100.000 – 50.000) / 50.000 = 1. În același timp, valoarea medie geometrică a ratei profitului pe doi ani este egală cu: G = [(1–0,5) * (1+). 1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Astfel, media geometrică reflectă mai exact modificarea (mai precis, absența modificărilor) a volumului investiției pe o perioadă de doi ani decât media aritmetică.

Fapte interesante.În primul rând, media geometrică va fi întotdeauna mai mică decât media aritmetică a acelorași numere. Cu excepția cazului în care toate numerele luate sunt egale între ele. În al doilea rând, luând în considerare proprietățile unui triunghi dreptunghic, puteți înțelege de ce media se numește geometrică. Înălțimea unui triunghi dreptunghic, coborât la ipotenuză, este media proporțională dintre proiecțiile catetelor pe ipotenuză, iar fiecare catete este media proporțională dintre ipotenuză și proiecția acesteia pe ipotenuză (Fig. 5). Aceasta oferă o modalitate geometrică de a construi media geometrică a două (lungimi) segmente: trebuie să construiți un cerc pe suma acestor două segmente ca diametru, apoi înălțimea restabilită de la punctul de conectare la intersecția cu cercul. va da valoarea dorită:

Orez. 5. Natura geometrică a mediei geometrice (figura de pe Wikipedia)

A doua proprietate importantă a datelor numerice este lor variație, care caracterizează gradul de dispersie a datelor. Două eșantioane diferite pot diferi atât în ​​ceea ce privește mediile, cât și variațiile. Totuși, așa cum se arată în fig. 6 și 7, două mostre pot avea aceleași variații, dar mijloace diferite, sau aceleași mijloace și variații complet diferite. Datele care corespund poligonului B din Fig. 7, se modifică mult mai puțin decât datele pe care a fost construit poligonul A.

Orez. 6. Două distribuții simetrice în formă de clopot cu aceeași răspândire și valori medii diferite

Orez. 7. Două distribuții simetrice în formă de clopot cu aceleași valori medii și spread diferite

Există cinci estimări ale variației datelor:

  • domeniul de aplicare,
  • intervalul intercuartil,
  • dispersie,
  • deviație standard,
  • coeficientul de variație.

Domeniul de aplicare

Intervalul este diferența dintre cele mai mari și cele mai mici elemente ale eșantionului:

Interval = XMax - XMin

Intervalul unui eșantion care conține randamentele anuale medii a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind matricea ordonată (vezi Figura 4): Interval = 18,5 – (–6,1) = 24,6. Aceasta înseamnă că diferența dintre randamentul mediu anual cel mai mare și cel mai scăzut al fondurilor cu risc foarte ridicat este de 24,6%.

Intervalul măsoară răspândirea globală a datelor. Deși intervalul de eșantionare este o estimare foarte simplă a răspândirii generale a datelor, slăbiciunea sa este că nu ia în considerare exact modul în care datele sunt distribuite între elementele minime și maxime. Acest efect este clar vizibil în fig. 8, care ilustrează mostre având același interval. Scala B demonstrează că, dacă un eșantion conține cel puțin o valoare extremă, intervalul eșantionului este o estimare foarte imprecisă a răspândirii datelor.

Orez. 8. Comparația a trei probe cu același interval; triunghiul simbolizează suportul scalei, iar locația acesteia corespunde mediei eșantionului

Intervalul intercuartil

Intervalul intercuartil, sau media, este diferența dintre a treia și prima cuartilă a eșantionului:

Interval interquartil = Q 3 – Q 1

Această valoare ne permite să estimăm împrăștierea a 50% din elemente și să nu ținem cont de influența elementelor extreme. Intervalul intercuartil al unui eșantion care conține randamentele medii anuale a 15 fonduri mutuale cu risc foarte ridicat poate fi calculat folosind datele din Fig. 4 (de exemplu, pentru funcția QUARTILE.EXC): Interval interquartile = 9,8 – (–0,7) = 10,5. Intervalul delimitat de numerele 9,8 și -0,7 este adesea numit jumătatea mijlocie.

Trebuie remarcat faptul că valorile Q 1 și Q 3 și, prin urmare, intervalul intercuartil, nu depind de prezența valorilor aberante, deoarece calculul lor nu ia în considerare nicio valoare care ar fi mai mică decât Q 1 sau mai mare. decât Q 3 . Măsurile rezumative, cum ar fi mediana, primul și al treilea quartile și intervalul intercuartil care nu sunt afectate de valori aberante, se numesc măsuri robuste.

Deși intervalul și intervalul intercuartil oferă estimări ale răspândirii generale și, respectiv, medii a unui eșantion, niciuna dintre aceste estimări nu ia în considerare exact modul în care sunt distribuite datele. Varianta si abaterea standard sunt lipsite de acest dezavantaj. Acești indicatori vă permit să evaluați gradul în care datele fluctuează în jurul valorii medii. Varianta eșantionului este o aproximare a mediei aritmetice calculată din pătratele diferențelor dintre fiecare element eșantion și media eșantionului. Pentru un eșantion X 1, X 2, ... X n, varianța eșantionului (notat cu simbolul S 2 este dată de următoarea formulă:

În general, varianța eșantionului este suma pătratelor diferențelor dintre elementele eșantionului și media eșantionului, împărțită la o valoare egală cu dimensiunea eșantionului minus unu:

Unde - medie aritmetică, n- marime de mostra, X i - i al-lea element de selecție X. În Excel înainte de versiunea 2007, funcția =VARIN() a fost utilizată pentru a calcula varianța eșantionului; din versiunea 2010, este utilizată funcția =VARIAN().

Cea mai practică și larg acceptată estimare a răspândirii datelor este abaterea standard a probei. Acest indicator este notat cu simbolul S și este egal cu rădăcina pătrată a varianței eșantionului:

În Excel înainte de versiunea 2007, funcția =STDEV.() a fost utilizată pentru a calcula abaterea standard a eșantionului; începând cu versiunea 2010, este utilizată funcția =STDEV.V(). Pentru a calcula aceste funcții, matricea de date poate fi neordonată.

Nici varianța eșantionului și nici abaterea standard a eșantionului nu pot fi negative. Singura situație în care indicatorii S 2 și S pot fi zero este dacă toate elementele eșantionului sunt egale între ele. În acest caz complet improbabil, intervalul și intervalul intercuartil sunt, de asemenea, zero.

Datele numerice sunt în mod inerent volatile. Orice variabilă poate lua multe valori diferite. De exemplu, diferite fonduri mutuale au rate diferite de rentabilitate și pierdere. Datorită variabilității datelor numerice, este foarte important să se studieze nu numai estimări ale mediei, care sunt de natură rezumată, ci și estimări ale varianței, care caracterizează răspândirea datelor.

Dispersia și abaterea standard vă permit să evaluați răspândirea datelor în jurul valorii medii, cu alte cuvinte, să determinați câte elemente de eșantion sunt mai mici decât media și câte sunt mai mari. Dispersia are unele proprietăți matematice valoroase. Cu toate acestea, valoarea sa este pătratul unității de măsură - procent pătrat, dolar pătrat, inch pătrat etc. Prin urmare, o măsură naturală a dispersiei este abaterea standard, care este exprimată în unități comune de procent de venit, dolari sau inci.

Abaterea standard vă permite să estimați cantitatea de variație a elementelor eșantionului în jurul valorii medii. În aproape toate situațiile, majoritatea valorilor observate se află în intervalul de plus sau minus o abatere standard de la medie. În consecință, cunoscând media aritmetică a elementelor eșantionului și abaterea standard a eșantionului, este posibil să se determine intervalul căruia îi aparține cea mai mare parte a datelor.

Abaterea standard a randamentelor pentru cele 15 fonduri mutuale cu risc foarte ridicat este de 6,6 (Figura 9). Aceasta înseamnă că profitabilitatea majorității fondurilor diferă de valoarea medie cu cel mult 6,6% (adică fluctuează în intervalul de la – S= 6,2 – 6,6 = –0,4 până la +S= 12,8). De fapt, randamentul mediu anual pe cinci ani de 53,3% (8 din 15) din fonduri se află în acest interval.

Orez. 9. Eșantion de abatere standard

Rețineți că atunci când însumăm diferențele pătrate, elementele eșantionului care sunt mai departe de medie sunt ponderate mai mult decât elementele care sunt mai aproape de medie. Această proprietate este principalul motiv pentru care media aritmetică este folosită cel mai adesea pentru a estima media unei distribuții.

Coeficientul de variație

Spre deosebire de estimările anterioare ale dispersiei, coeficientul de variație este o estimare relativă. Este întotdeauna măsurată ca procent și nu în unitățile datelor originale. Coeficientul de variație, notat cu simbolurile CV, măsoară dispersia datelor în jurul mediei. Coeficientul de variație este egal cu abaterea standard împărțită la media aritmetică și înmulțită cu 100%:

Unde S- abaterea standard a probei, - media eșantionului.

Coeficientul de variație vă permite să comparați două eșantioane ale căror elemente sunt exprimate în unități de măsură diferite. De exemplu, managerul unui serviciu de livrare poștă intenționează să-și reînnoiască flota de camioane. La încărcarea pachetelor, există două restricții de luat în considerare: greutatea (în lire sterline) și volumul (în picioare cubi) ale fiecărui pachet. Să presupunem că într-o probă care conține 200 de saci, greutatea medie este de 26,0 lire sterline, abaterea standard a greutății este de 3,9 lire sterline, volumul mediu al sacului este de 8,8 picioare cubi și abaterea standard a volumului este de 2,2 picioare cubi. Cum se compară variația de greutate și volum a pachetelor?

Deoarece unitățile de măsură pentru greutate și volum diferă între ele, managerul trebuie să compare răspândirea relativă a acestor cantități. Coeficientul de variație al greutății este CV W = 3,9 / 26,0 * 100% = 15%, iar coeficientul de variație al volumului este CV V = 2,2 / 8,8 * 100% = 25%. Astfel, variația relativă a volumului pachetelor este mult mai mare decât variația relativă a greutății acestora.

Formular de distribuire

A treia proprietate importantă a unui eșantion este forma distribuției sale. Această distribuție poate fi simetrică sau asimetrică. Pentru a descrie forma unei distribuții, este necesar să se calculeze media și mediana acesteia. Dacă cele două sunt la fel, variabila este considerată distribuită simetric. Dacă valoarea medie a unei variabile este mai mare decât mediana, distribuția ei are o asimetrie pozitivă (Fig. 10). Dacă mediana este mai mare decât media, distribuția variabilei este denaturată negativ. Deformarea pozitivă apare atunci când media crește la valori neobișnuit de ridicate. Deformarea negativă apare atunci când media scade la valori neobișnuit de mici. O variabilă este distribuită simetric dacă nu ia valori extreme în nicio direcție, astfel încât valorile mari și mici ale variabilei se anulează reciproc.

Orez. 10. Trei tipuri de distribuții

Datele afișate pe scara A sunt denaturate negativ. Această figură arată o coadă lungă și o înclinare spre stânga cauzată de prezența unor valori neobișnuit de mici. Aceste valori extrem de mici deplasează valoarea medie spre stânga, făcând-o mai mică decât mediana. Datele prezentate pe scara B sunt distribuite simetric. Jumătățile stânga și dreapta ale distribuției sunt imagini în oglindă ale lor. Valorile mari și mici se echilibrează reciproc, iar media și mediana sunt egale. Datele afișate pe scara B sunt denaturate pozitiv. Această figură arată o coadă lungă și o înclinare spre dreapta cauzată de prezența unor valori neobișnuit de ridicate. Aceste valori prea mari deplasează media spre dreapta, făcând-o mai mare decât mediana.

În Excel, statisticile descriptive pot fi obținute folosind un add-in Pachet de analize. Treceți prin meniu DateAnaliza datelor, în fereastra care se deschide, selectați linia Statisticile descriptiveși faceți clic Bine. La fereastră Statisticile descriptive asigurați-vă că indicați Interval de intrare(Fig. 11). Dacă doriți să vedeți statistici descriptive pe aceeași foaie cu datele originale, selectați butonul radio Interval de ieșireși specificați celula în care ar trebui să fie plasat colțul din stânga sus al statisticilor afișate (în exemplul nostru, $C$1). Dacă doriți să scoateți date într-o foaie nouă sau într-un registru de lucru nou, trebuie doar să selectați butonul radio corespunzător. Bifați caseta de lângă Rezumat statistici. Dacă doriți, puteți alege și Nivel de dificultate,al k-lea cel mai mic șial k-lea cel mai mare.

Dacă în depozit Dateîn zonă Analiză nu vezi pictograma Analiza datelor, mai întâi trebuie să instalați suplimentul Pachet de analize(vezi, de exemplu,).

Orez. 11. Statistici descriptive ale randamentelor medii anuale pe cinci ani ale fondurilor cu niveluri foarte ridicate de risc, calculate folosind programul de completare Analiza datelor programe Excel

Excel calculează un număr de statistici discutate mai sus: medie, mediană, mod, abatere standard, varianță, interval ( interval), minim, maxim și dimensiunea eșantionului ( Verifica). Excel calculează, de asemenea, unele statistici care sunt noi pentru noi: eroare standard, curtosis și asimetrie. Eroare standard egală cu abaterea standard împărțită la rădăcina pătrată a dimensiunii eșantionului. Asimetrie caracterizează abaterea de la simetria distribuţiei şi este o funcţie care depinde de cubul diferenţelor dintre elementele eşantionului şi de valoarea medie. Kurtosis este o măsură a concentrației relative a datelor în jurul mediei în comparație cu cozile distribuției și depinde de diferențele dintre elementele eșantionului și media ridicată la a patra putere.

Calcularea statisticilor descriptive pentru o populație

Media, răspândirea și forma distribuției discutate mai sus sunt caracteristici determinate din eșantion. Cu toate acestea, dacă setul de date conține măsurători numerice ale întregii populații, parametrii acesteia pot fi calculați. Astfel de parametri includ valoarea așteptată, dispersia și abaterea standard a populației.

Valorea estimata egal cu suma tuturor valorilor din populație împărțită la dimensiunea populației:

Unde µ - valorea estimata, Xi- i a-a observație a unei variabile X, N- volumul populaţiei generale. În Excel, pentru a calcula așteptările matematice, se folosește aceeași funcție ca pentru media aritmetică: =AVERAGE().

Varianta populatiei egală cu suma pătratelor diferenţelor dintre elementele populaţiei generale şi mat. așteptări împărțite la dimensiunea populației:

Unde σ 2– dispersarea populaţiei generale. În Excel înainte de versiunea 2007, funcția =VARP() este utilizată pentru a calcula varianța unei populații, începând cu versiunea 2010 =VARP().

Abaterea standard a populației egal cu rădăcina pătrată a varianței populației:

În Excel înainte de versiunea 2007, funcția =STDEV() este utilizată pentru a calcula abaterea standard a unei populații, începând cu versiunea 2010 =STDEV.Y(). Rețineți că formulele pentru varianța populației și abaterea standard sunt diferite de formulele pentru calcularea varianței eșantionului și a abaterii standard. La calcularea statisticilor eșantionului S 2Și S numitorul fracției este n – 1, și la calcularea parametrilor σ 2Și σ - volumul populaţiei generale N.

Regula generală

În majoritatea situațiilor, o mare parte a observațiilor sunt concentrate în jurul mediei, formând un cluster. În seturile de date cu asimetrie pozitivă, acest cluster este situat la stânga (adică, dedesubt) așteptării matematice, iar în seturile cu asimetrie negativă, acest cluster este situat la dreapta (adică, deasupra) așteptării matematice. Pentru datele simetrice, media și mediana sunt aceleași, iar observațiile se grupează în jurul mediei, formând o distribuție în formă de clopot. Dacă distribuția nu este în mod clar denaturată și datele sunt concentrate în jurul unui centru de greutate, o regulă generală care poate fi utilizată pentru a estima variabilitatea este că, dacă datele au o distribuție în formă de clopot, atunci aproximativ 68% dintre observații sunt în o abatere standard a valorii așteptate.aproximativ 95% dintre observații sunt la cel mult două abateri standard de așteptările matematice și 99,7% dintre observații sunt la cel mult trei abateri standard de așteptările matematice.

Astfel, abaterea standard, care este o estimare a variației medii în jurul valorii așteptate, ajută la înțelegerea modului în care sunt distribuite observațiile și la identificarea valorii aberante. Regula generală este că, pentru distribuțiile în formă de clopot, doar o valoare din douăzeci diferă de așteptarea matematică cu mai mult de două abateri standard. Prin urmare, valori în afara intervalului µ ± 2σ, pot fi considerate valori aberante. În plus, doar trei din 1000 de observații diferă de așteptările matematice cu mai mult de trei abateri standard. Astfel, valori în afara intervalului µ ± 3σ sunt aproape întotdeauna valori aberante. Pentru distribuțiile care sunt foarte denaturate sau nu au formă de clopot, se poate aplica regula generală Bienamay-Chebyshev.

În urmă cu peste o sută de ani, matematicienii Bienamay și Chebyshev au descoperit în mod independent proprietatea utilă a deviației standard. Ei au descoperit că pentru orice set de date, indiferent de forma distribuției, procentul de observații care se află la o distanță de k abateri standard de la așteptările matematice, nu mai puțin (1 – 1/ k 2)*100%.

De exemplu, dacă k= 2, regula Bienname-Chebyshev prevede că cel puțin (1 – (1/2) 2) x 100% = 75% din observații trebuie să se afle în interval µ ± 2σ. Această regulă este valabilă pentru orice k, depășind unu. Regula Bienamay-Chebyshev este foarte generală și valabilă pentru distribuțiile de orice tip. Specifică numărul minim de observații, distanța de la care până la așteptarea matematică nu depășește o valoare specificată. Cu toate acestea, dacă distribuția este în formă de clopot, regula generală estimează mai precis concentrația datelor în jurul valorii așteptate.

Calcularea statisticilor descriptive pentru o distribuție bazată pe frecvență

Dacă datele originale nu sunt disponibile, distribuția frecvenței devine singura sursă de informații. În astfel de situații, este posibil să se calculeze valori aproximative ale indicatorilor cantitativi ai distribuției, cum ar fi media aritmetică, abaterea standard și quartilele.

Dacă datele eșantionului sunt reprezentate ca o distribuție de frecvență, o aproximare a mediei aritmetice poate fi calculată presupunând că toate valorile din fiecare clasă sunt concentrate la mijlocul clasei:

Unde - media eșantionului, n- numărul de observații sau dimensiunea eșantionului, Cu- numărul de clase în distribuția de frecvență, m j- punct de mijloc j clasa a-a, fj- frecventa corespunzatoare j- clasa a-a.

Pentru a calcula abaterea standard de la o distribuție de frecvență, se presupune, de asemenea, că toate valorile din cadrul fiecărei clase sunt concentrate la mijlocul clasei.

Pentru a înțelege cum sunt determinate quartilele unei serii pe baza frecvențelor, luați în considerare calculul quartilei inferioare pe baza datelor pentru 2013 privind distribuția populației ruse în funcție de venitul monetar mediu pe cap de locuitor (Fig. 12).

Orez. 12. Ponderea populației ruse cu venit mediu pe cap de locuitor pe lună, ruble

Pentru a calcula primul quartil al unei serii de variații de interval, puteți folosi formula:

unde Q1 este valoarea primului cuartil, xQ1 este limita inferioară a intervalului care conține primul cuartil (intervalul este determinat de frecvența acumulată care depășește mai întâi 25%); i – valoarea intervalului; Σf – suma frecvențelor întregului eșantion; probabil întotdeauna egal cu 100%; SQ1–1 – frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară; fQ1 – frecvența intervalului care conține quartila inferioară. Formula pentru a treia cuartilă diferă prin aceea că, în toate locurile, trebuie să utilizați Q3 în loc de Q1 și să înlocuiți ¾ în loc de ¼.

În exemplul nostru (Fig. 12), quartila inferioară se află în intervalul 7000,1 – 10.000, a cărei frecvență acumulată este de 26,4%. Limita inferioară a acestui interval este de 7000 de ruble, valoarea intervalului este de 3000 de ruble, frecvența acumulată a intervalului care precede intervalul care conține quartila inferioară este de 13,4%, frecvența intervalului care conține quartila inferioară este de 13,0%. Astfel: Q1 = 7000 + 3000 * (¼ * 100 – 13,4) / 13 = 9677 rub.

Capcane asociate cu statisticile descriptive

În această postare, am analizat cum să descriem un set de date folosind diverse statistici care evaluează media, răspândirea și distribuția acestuia. Următorul pas este analiza și interpretarea datelor. Până acum, am studiat proprietățile obiective ale datelor, iar acum trecem la interpretarea subiectivă a acestora. Cercetătorul se confruntă cu două greșeli: un subiect de analiză ales incorect și o interpretare incorectă a rezultatelor.

Analiza randamentelor a 15 fonduri mutuale cu risc foarte ridicat este destul de imparțială. El a condus la concluzii complet obiective: toate fondurile mutuale au randamente diferite, spread-ul randamentelor fondurilor variază de la -6,1 la 18,5, iar randamentul mediu este de 6,08. Obiectivitatea analizei datelor este asigurată de alegerea corectă a indicatorilor cantitativi sumari de distribuție. Au fost luate în considerare mai multe metode de estimare a mediei și dispersării datelor și au fost indicate avantajele și dezavantajele acestora. Cum alegi statisticile potrivite pentru a oferi o analiză obiectivă și imparțială? Dacă distribuția datelor este ușor denaturată, ar trebui să alegeți mediana mai degrabă decât media? Care indicator caracterizează mai exact răspândirea datelor: abaterea standard sau intervalul? Ar trebui să subliniem că distribuția este denaturată pozitiv?

Pe de altă parte, interpretarea datelor este un proces subiectiv. Oameni diferiți ajung la concluzii diferite atunci când interpretează aceleași rezultate. Fiecare are punctul lui de vedere. Cineva consideră că randamentele totale medii anuale a 15 fonduri cu un nivel de risc foarte ridicat sunt bune și este destul de mulțumit de veniturile primite. Alții pot considera că aceste fonduri au randamente prea mici. Astfel, subiectivitatea ar trebui compensată de onestitate, neutralitate și claritatea concluziilor.

Probleme etice

Analiza datelor este indisolubil legată de problemele etice. Ar trebui să criticați informațiile difuzate de ziare, radio, televiziune și internet. De-a lungul timpului, vei învăța să fii sceptic nu numai cu privire la rezultate, ci și cu privire la obiectivele, subiectul și obiectivitatea cercetării. Celebrul politician britanic Benjamin Disraeli a spus-o cel mai bine: „Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici”.

După cum se menționează în notă, la alegerea rezultatelor care ar trebui prezentate în raport apar probleme etice. Ar trebui publicate atât rezultatele pozitive, cât și cele negative. În plus, la realizarea unui raport sau raport scris, rezultatele trebuie prezentate onest, neutru și obiectiv. Trebuie făcută o distincție între prezentările nereușite și cele necinstite. Pentru a face acest lucru, este necesar să se determine care au fost intențiile vorbitorului. Uneori, vorbitorul omite informații importante din ignoranță, iar uneori este deliberat (de exemplu, dacă folosește media aritmetică pentru a estima media datelor clar denaturate pentru a obține rezultatul dorit). De asemenea, este necinstit să suprimi rezultate care nu corespund punctului de vedere al cercetătorului.

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 178–209

Funcția QUARTILE a fost păstrată pentru compatibilitate cu versiunile anterioare de Excel.