Metoda celor mai mici pătrate în cazul aproximării liniare. Pătratele minime Aproximarea funcției

LUCRU CURS

disciplină: Informatică

Subiect: Pătrate cele mai mici Aproximare a funcției

introducere

1. Declarația problemei

2. Formule de calcul

Calcularea folosind tabele executate de Microsoft Excel

Proiectarea algoritmului

Calcul în programul MathCad

Rezultate obținute folosind funcția Lanein

Prezentarea rezultatelor sub formă de grafice


introducere

Obiectivul cursului este de a aprofunda cunoștințele de informatică, dezvoltarea și consolidarea abilităților pentru a lucra cu procesorul de calcul Microsoft Excel și produsul software MathCAD și aplicația lor pentru rezolvarea problemelor folosind calculatoare din domeniul de cercetare.

Apropierea (din latinescul „aproximare” - „aproximativ”) este expresia aproximativă a oricăror obiecte matematice (de exemplu, numere sau funcții) prin intermediul altor mai simple, mai convenabile de utilizat sau pur și simplu mai bine cunoscute. În cercetarea științifică, aproximarea este utilizată pentru a descrie, analiza, generaliza și utiliza în continuare rezultatele empirice.

După cum știți, între valori poate exista o relație exactă (funcțională) când o anumită valoare corespunde unei anumite valori și o relație mai puțin exactă (de corelație) atunci când o valoare specifică a unui argument corespunde unei valori aproximative sau a unui set de valori de funcții care sunt apropiate de un grad sau altul unul altuia. Atunci când efectuează cercetări științifice, prelucrează rezultatele unei observații sau experimente, de obicei trebuie să se ocupe de a doua opțiune.

Când studiem dependențele cantitative ale diferitor indicatori, ale căror valori sunt determinate empiric, de regulă, există o parte din variabilitatea lor. În parte, este determinată de eterogenitatea obiectelor studiate ele însele neînsuflețite și, mai ales, a animalelor sălbatice, în parte - datorită erorii de observare și procesării cantitative a materialelor. Ultima componentă nu este întotdeauna posibilă eliminarea completă, o puteți minimiza doar prin selectarea atentă a unei metode de cercetare adecvate și acuratețe a lucrării. Prin urmare, la efectuarea oricărei lucrări de cercetare, apare problema dezvăluirii naturii adevărate a dependenței indicatorilor studiați, acesta sau acel grad mascat de necunoașterea variabilității: valori. Pentru a face acest lucru, se utilizează aproximarea - o descriere aproximativă a dependenței de corelație a variabilelor cu o ecuație de dependență funcțională adecvată care transmite tendința principală a dependenței (sau „tendința” sa).

Atunci când alegeți o aproximare, trebuie să plecați de la sarcina de cercetare specifică. De obicei, cu cât este mai simplă ecuația este utilizată pentru aproximare, cu atât este mai aproximativă descrierea rezultantă a dependenței. Prin urmare, este important să citiți cât de semnificativ și care determină abaterile valorilor specifice de la tendința rezultată. În descrierea dependenței valorilor determinate empiric, este posibil să se obțină o precizie mult mai mare folosind o ecuație mult mai complexă, multimetrică. Cu toate acestea, nu are rost să ne străduim să transmitem cu exactitate maximă abaterile aleatoare ale cantităților din seriile specifice de date empirice. Este mult mai important să surprindem modelul general, care în acest caz este cel mai logic și cu o precizie acceptabilă exprimată tocmai prin ecuația cu doi parametri a funcției de putere. Astfel, alegând o metodă de aproximare, cercetătorul face întotdeauna un compromis: decide în ce măsură este oportun și oportun să „sacrificăm” detaliile și, în consecință, cât de general trebuie exprimată dependența variabilelor comparate. Alături de identificarea tiparelor mascate de abateri aleatorii ale datelor empirice de la modelul general, aproximarea vă permite, de asemenea, să rezolvați multe alte probleme importante: formalizați dependența găsită; găsiți valorile necunoscute ale variabilei dependente prin interpolare sau, dacă este cazul, prin extrapolare.

În fiecare sarcină, sunt formulate condițiile problemei, datele inițiale, forma rezultatelor, sunt indicate dependențele matematice de bază pentru rezolvarea problemei. În conformitate cu metoda de soluționare a problemei, este dezvoltat un algoritm de soluție, care este prezentat în formă grafică.

1. Declarația problemei

1. Folosind metoda celor mai mici pătrate, funcția dată în tabel este aproximată:

a) un polinom de gradul I;

b) un polinom de gradul doi;

c) dependență exponențială.

Pentru fiecare dependență, calculați coeficientul de determinare.

Calculați coeficientul de corelație (numai în cazul a).

Pentru fiecare dependență, construiți o linie de tendință.

Folosind funcția LINEST, calculați caracteristicile numerice ale dependenței.

Comparați calculele cu rezultatele obținute folosind funcția LINEST.

Pentru a încheia care dintre formulele obținute se apropie cel mai bine de funcție.

Scrieți un program într-unul dintre limbajele de programare și comparați rezultatele numărării cu cele obținute mai sus.

Opțiunea 3. Funcția este set table. 1.

Tabelul 1

xyxyxyxyxy0.281.052.349.113.3329.434.2386.445.55187.540.872.872.6516.863.4137.454.8390.856.32200.451.656.432.7717.973.5542.444.9299.066.66212.971.998.962.8318.993.8556.945.14120.457.13275.742.088.083.0623.754.0175.085.23139.657. 25321.43

2. Formule de calcul

Adesea, atunci când analizăm datele empirice, este necesar să găsim o relație funcțională între valorile x și y obținute din experiență sau măsurători.

Xi (valoarea independentă) este stabilită de experimentator, iar yi, numită valori empirice sau experimentale, este obținută ca rezultat al experienței.

Forma analitică a dependenței funcționale existente între valorile x și y este de obicei necunoscută, prin urmare, apare o sarcină aproape importantă - de a găsi formula empirică

(unde sunt parametrii), ale căror valori, dacă este posibil, ar diferi puțin de valorile experimentale.

Conform metodei celor mai mici pătrate, cei mai buni coeficienți sunt aceia pentru care suma pătratelor deviațiilor funcției empirice găsite de la valorile date ale funcției va fi minimă.

Folosind condiția necesară pentru extremitatea funcției mai multor variabile - derivatele parțiale fiind egale cu zero, găsim un set de coeficienți care furnizează minimul funcției definite de formula (2) și obțin un sistem normal pentru determinarea coeficienților:

Astfel, găsirea coeficienților se reduce la sistemul de rezolvare (3).

Forma sistemului (3) depinde de ce clasă de formule empirice căutăm dependență (1). În cazul unei relații liniare, sistemul (3) ia forma:

În cazul unei dependențe patratice, sistemul (3) ia forma:

În unele cazuri, o funcție este luată ca o formulă empirică în care coeficienții nedefiniți intră neliniar. Mai mult, uneori problema poate fi liniarizată adică. se reduce la liniar. Printre aceste dependențe se numără dependența exponențială

unde a1 și a2 sunt coeficienți incerti.

Linearizarea se realizează prin logaritmul egalității (6), după care obținem relația

Notăm și, respectiv, prin și, apoi dependența (6) poate fi scrisă sub forma, ceea ce ne permite să aplicăm formule (4) cu înlocuirea a1 cu și prin.

Graficul dependenței funcționale restaurate y (x) în funcție de rezultatele măsurării (xi, yi), i \u003d 1,2, ..., n se numește curbă de regresie. Pentru a verifica acordul curbei de regresie construită cu rezultatele experimentale, de obicei sunt introduse următoarele caracteristici numerice: coeficientul de corelație (dependență liniară), raportul de corelație și coeficientul de determinare.

Coeficientul de corelație este o măsură a relației liniare între variabilele aleatoare dependente: arată cât de bine, în medie, una dintre cantități poate fi reprezentată ca o funcție liniară a celeilalte.

Coeficientul de corelație este calculat după formula:

unde este media aritmetică a x, y, respectiv.

Coeficientul de corelație absolută între variabilele aleatorii nu depășește 1. Cu cât este mai aproape de 1, cu atât relația liniară între x și y este mai strânsă.

În cazul unei corelații neliniare, valorile medii condiționale sunt situate în apropierea curbei liniei. În acest caz, se recomandă utilizarea unei relații de corelație ca o caracteristică a puterii legăturii, a cărei interpretare nu depinde de tipul dependenței studiate.

Raportul de corelație este calculat după formula:

unde un numărător caracterizează împrăștierea mijloacelor condiționale în jurul unei medii necondiționate.

Întotdeauna. Egalitatea \u003d corespunde valorilor necorelate aleatoare; \u003d dacă și numai dacă există o relație funcțională exactă între x și y. În cazul unei dependențe liniare de y de x, raportul de corelație coincide cu pătratul coeficientului de corelație. Valoarea este utilizată ca indicator al devierii regresiei de la cea liniară.

Relația de corelație este o măsură a corelației lui y c x sub nicio formă, dar nu poate da o idee despre gradul în care datele empirice sunt apropiate de o formă specială. Pentru a afla cât de exact reflectă curba construită date empirice, este introdusă o caracteristică mai mare - coeficientul de determinare.


unde Sost \u003d este suma reziduală a pătratelor, care caracterizează abaterea datelor experimentale de la datele teoretice; completă este suma totală a pătratelor, unde valoarea medie este yi.

Suma de regresie a pătratelor care caracterizează răspândirea datelor.

Cu cât suma reziduală a pătratelor este mai mică comparativ cu suma totală a pătratelor, cu atât este mai mare valoarea coeficientului de determinare r2, care arată cât de bine explică ecuația obținută prin analiza de regresie a relației dintre variabile. Dacă este 1, atunci există o corelație completă cu modelul, adică. Nu există nicio diferență între y real și estimat. În cazul opus, dacă coeficientul de determinare este 0, atunci ecuația de regresie nu are succes pentru a prezice valorile lui y.

Coeficientul de determinare nu depășește întotdeauna raportul de corelație. În cazul în care egalitatea este îndeplinită, putem presupune că formula empirică construită reflectă cel mai precis datele empirice.

3. Calcularea folosind tabele realizate de Microsoft Excel

Pentru calcule, este recomandabil să aranjați datele sub forma tabelului 2, folosind mijloacele procesorului de calcul Microsoft Excel.

Tabelul 2

ABCDEFGHI10,281,050,07840,2940,0219520,0061470,082320,048790,01366120,872,870,75692,49690,6585030,5728982,1723031,0543120,91725131,656,432,722510,60954,4921257,41200617,505681,8609753,07060841, 998,963,960117,83047,88059915,6823935,48252,192774,36361352,088,084,326416,80648,99891218,7177434,957312,0893924,34593562,349,115,475621,317412,812929,982249,882722,2093735,16993272,6516, 867,022544,67918,6096349,31551118,39942,8249447,48610182,7717,977,672949,776921,2539358,87339137,8822,8887048,00170992,8318,998,008953,741722,6651964,14248152,0892,9439138, 331272103,0623,759,363672,67528,6526287,677222,38553,1675839,692803113,3329,4311,088998,001936,92604122,9637326,34633,38201511,26211123,4137,4511,6281127,704539,65182135,2127435, 47233,62300712,35445133,5542,4412,6025150,66244,73888158,823534,85013,74809113,30572143,8556,9414,8225219,21957,06663219,7065843,99324,04199815,56169154,0175,0816,0801301,070864, 4812258,56961207,2944,31855417,3174164,2386,4417,8929365,641275,68697320,15591546,6624,45945 118,86348174,8390,8523,3289438,8055112,6786544,23762119,4314,5092121,77948184,9299,0624,2064487,3752119,0955585,94982397,8864,59572622,61097195,14120,4526,4196619,113135,7967697, 99533182,2414,79123524,62695205,23139,6527,3529730,3695143,0557748,18113819,8324,93913925,8317215,55187,5430,80251040,847170,9539948,7945776,7015,23399229,04866226,32200,4539,94241266, 844252,4361595,3958006,4545,30056533,49957236,66212,9744,35561418,38295,40831967,4199446,4125,36115135,70527247,13275,7450,83691966,026362,46712584,3914017,775,61945840,06674257,25321, 4352.56252330.368381.07812762.81616895.165.7727841.852652695.932089.99453.310511850.652417.56813982.9971327.3490.97713415.0797С U M M S Să explicăm cum este compilat tabelul 2.

Pasul 1. În celula A1: A25 introducem valorile xi.

Pasul 2. În celula B1: B25 introducem valorile yi.

Pasul 3. În celula C1 introducem formula \u003d A1 ^ 2.

Etapa 4. În celula C1: C25, această formulă este copiată.

Pasul 5. În celula D1 introducem formula \u003d A1 * B1.

Pasul 6. În celula D1: D25, această formulă este copiată.

Pasul 7. În celula F1 introducem formula \u003d A1 ^ 4.

Pasul 8. În celula F1: F25, această formulă este copiată.

Pasul 9. În celula G1 introducem formula \u003d A1 ^ 2 * B1.

Pasul 10. În celula G1: G25, această formulă este copiată.

Etapa 11. În celula H1 introducem formula \u003d LN (B1).

Etapa 12. În celula H1: H25, această formulă este copiată.

Etapa 13. În celula I1 introducem formula \u003d A1 * LN (B1).

Etapa 14. În celula I1: I25, această formulă este copiată.

Următorii pași sunt făcuți folosind însumarea automată. S .

Etapa 15. În celula A26 introducem formula \u003d SUM (A1: A25).

Etapa 16. În celula B26 introducem formula \u003d SUM (B1: B25).

Etapa 17. În celula C26 introducem formula \u003d SUM (C1: C25).

Etapa 18. În celula D26 introducem formula \u003d SUM (D1: D25).

Etapa 19. În celula E26 introducem formula \u003d SUM (E1: E25).

Pasul 20. În celula F26 introducem formula \u003d SUM (F1: F25).

Etapa 21. În celula G26 introducem formula \u003d SUM (G1: G25).

Etapa 22. În celula H26 introducem formula \u003d SUM (H1: H25).

Etapa 23. În celula I26 introducem formula \u003d SUM (I1: I25).

Aproximăm funcția printr-o funcție liniară. Pentru a determina coeficienții și utilizați sistemul (4). Utilizând totalul tabelului 2 localizat în celulele A26, B26, C26 și D26, scriem sistemul (4) în formular

după ce am decis ce, primim și.

Sistemul a fost rezolvat prin metoda Cramer. Esența acestora este următoarea. Luați în considerare un sistem de n ecuații liniare algebrice cu n necunoscute:

Determinantul sistemului este determinantul matricei sistemului:

Notă prin determinant, care este obținut din determinantul sistemului Δ prin înlocuirea coloanei j-a cu o coloană

Astfel, aproximarea liniară are forma

Rezolvăm sistemul (11) folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în tabelul 3.

Tabelul 3

ABCDE282595.932089.992995.93453.310511850.653031 Matrice inversă 320.212802-0.04503a1 \u003d -88.9208133-0.045030.011736a2 \u003d 44.95997

În tabelul 3, în celulele A32: B33, formula este scrisă (\u003d MOBR (A28: B29)).

În celulele E32: E33 formula este scrisă (\u003d MUMNOZH (A32: B33), (C28: C29)).

În continuare, aproximăm funcția printr-o funcție cvadratică. Pentru a determina coeficienții a1, a2 și a3, folosim sistemul (5). Folosind totalul tabelului 2 localizat în celulele A26, B26, C26, D26, E26, F26, G26, scriem sistemul (5) în formular

hotărând care, obținem a1 \u003d 10.663624 și

Astfel, aproximarea cvadratică are forma

Rezolvăm sistemul (16) folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în tabelul 4.

Tabelul 4

ABCDEF362595.93453.31052089.993795.93453.31052417.56811850.65538453.31052417.56813982.9971327.3453940 Matrice inversă 410.632687-0.314390.033846a1 \u003d 10.66362442-0.314390.184534-0217 924512430.033846-0.021710.002728a3 \u003d 8.0272305

În tabelul 4 din celulele A41: C43 se scrie formula (\u003d MOBR (A36: C38)).

În celulele F41: F43, formula este scrisă (\u003d MULTIPLE (A41: C43), (D36: D38)).

Acum aproximăm funcția printr-o funcție exponențială. Pentru a determina coeficienții și prologaritmul valorilor și, folosind totalul tabelului 2, localizat în celulele A26, C26, H26 și I26, obținem sistemul

După rezolvarea sistemului (18), obținem și.

După potențare obținem.

Astfel, aproximarea exponențială are forma

Rezolvăm sistemul (18) folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în tabelul 5.

Tabelul 5

BCDEF462595.9390.977134795.93453.3105415.07974849 Matrice inversă \u003d 0.667679 500.212802-0.04503a2 \u003d 0.774368 51-0.045030.011736a1 \u003d 1.949707

În celulele A50: B51, formula este scrisă (\u003d MOBR (A46: B47)).

În celula E51, formula \u003d EXP (E49) este scrisă.

Calculăm media aritmetică și după formulele:

Rezultatele calculului și Microsoft Excel sunt prezentate în tabelul 6.

Tabelul 6

BC54Xav \u003d 3.837255Yav \u003d 83.5996

În celula B54, formula \u003d A26 / 25 este scrisă.

În celula B55, formula \u003d B26 / 25 este scrisă

Tabelul 7

ABJKLMNO10,281,05293,645412,653676814,4365987,97624,444081,88177520,872,87239,54098,8042766517,2682774,7226,7334610,91071731,656,43168,78534,7838445955,147448,035726,395820,32073741, 998,96137,87433,4121485571,0770,7358817,368220,02062652,088,08132,7033,0877525703,2112,138714,2039422,82478262,349,11111,52582,2416085548,70151,488211,4985887,99584272,6516, 8679,233251,4094444454,174178,5730,000622,83382582,7717,9770,039911,1389164307,244311,46313,4777091,73059692,8318,9965,074791,0144524174,4373,4915,7914362,382273103,0623,7546, 515110,604043581,975620,344117,375498,423061113,3329,4327,474820,2572522934,346983,819852,2462113,94466123,4137,4519,715110,18252129,786725,90914,090409102,2541133,5542,4411,821040, 0824841694,113797,89844,861044143,3219143,8556,94-0,341240,000164710,7343741,750,023142342,3946154,0175,08-1,472190,0298672,58358265,3212126,0007996,9257164,2386,441, 1157090,1542928,067872219,6288148,75781214,778174,8390,857,1981970,98565252,56831397,703245,695876,64891184,9299,0616,74052 1,172456239,0241103,718163,9776121,868195,14120,4548,00871,6972881357,952471,908425,17881258,6007205,23139,6578,0671,9398923141,64743,1629470,45155769,9408215,55187,54178,02912, 93368410803,61725,38421200,5291951,06226,32200,45290,11626,16429613654,0227,28786126,28273577,409236,66212,97365,18687,968216736,76,038755767,788515795,87247,13275,74632,679910,8425336917, 931944,47565,1469344766,92257,25321,43838,667611,647256563,37121,842677,966445516,82695,932089,93830,94585,207919964427404,823786,286115678,1C m m Reziduuri XY exponent liniar quad

Să explicăm cum este compus.

Celulele A1: A26 și B1: B26 sunt deja completate.

Pasul 1. În celula J1 introducem formula \u003d (A1- $ B $ 54) * (B1- $ B $ 55).

Pasul 2. În celula J2: J25, această formulă este copiată.

Pasul 3. În celula K1 introducem formula \u003d (A1- $ B $ 54) ^ 2.

Pasul 4. În celula k2: K25 această formulă este copiată.

Pasul 5. În celula L1 introducem formula \u003d (B1- $ B $ 55) ^ 2.

Pasul 6. În celula L2: L25, această formulă este copiată.

Pasul 7. În celula M1 introducem formula \u003d ($ E $ 32 + $ E $ 33 * A1-B1) ^ 2.

Pasul 8. În celula M2: M25, această formulă este copiată.

Pasul 9. În celula N1 introducem formula \u003d ($ F $ 41 + $ F $ 42 * A1 + $ F $ 43 * A1 ^ 2-B1) ^ 2.

Pasul 10. În celula N2: N25, această formulă este copiată.

Pasul 11. În celula O1 introducem formula \u003d ($ E $ 51 * EXP ($ E $ 50 * A1) -B1) ^ 2.

Etapa 12. În celula O2: O25, această formulă este copiată.

Următorii pași se fac folosind însumarea automată. S .

Etapa 13. În celula J26 introducem formula \u003d SUM (J1: J25).

Pasul 14. În celula K26, introduceți formula \u003d SUM (K1: K25).

Etapa 15. În celula L26 introducem formula \u003d SUM (L1: L25).

Etapa 16. În celula M26, introduceți formula \u003d SUM (M1: M25).

Etapa 17. În celula N26 introducem formula \u003d SUM (N1: N25).

Etapa 18. În celula O26 introducem formula \u003d SUM (O1: O25).

Acum vom calcula coeficientul de corelație după formula (8) (numai pentru aproximare liniară) și coeficientul de determinare cu formula (10). Rezultatele calculelor folosind Microsoft Excel sunt prezentate în tabelul 8.

Tabelul 8

AB57 Coeficient de corelație 0,92883358 Coeficient de determinare (aproximare liniară) 0,8627325960 Coeficient de determinare (aproximare cuadratică) 0,9810356162 Coeficient de determinare (aproximare exponențială) 0,42057863 În celula E57, se scrie formula \u003d J26 / (K26 * L26) ^ (1/2).

În celula E59, se scrie formula \u003d 1-M26 / L26.

În celula E61, se scrie formula \u003d 1-N26 / L26.

În celula E63, formula \u003d 1-O26 / L26 este scrisă.

O analiză a rezultatelor calculului arată că aproximarea cvadratică descrie cel mai bine datele experimentale.

Proiectarea algoritmului

Fig. 1. Schema algoritmului pentru programul de calcul.

5. Calcul în programul MathCad

Regresie liniară

· linia (x, y) - un vector cu două elemente (b, a) de coeficienți de regresie liniară b + ax;

· x este vectorul datelor argumentelor valabile;

· y este un vector cu date reale cu valori de aceeași dimensiune.

Figura 2

Regresia polinomială înseamnă aproximarea datelor (x1, y1) de un polinom de grad k Pentru k \u003d i, polinomul este o linie dreaptă, pentru k \u003d 2 este o parabolă, pentru k \u003d 3 este o parabolă cubică etc. În practică, k<5.

· regres (x, y, k) - vectorul coeficienților pentru construirea regresiei datelor polinomiale;

· interp (s, x, y, t) este rezultatul regresiei polinomiale;

· s \u003d regres (x, y, k);

· x este vectorul datelor argumentelor reale, ale căror elemente sunt aranjate în ordine crescătoare;

· y este vectorul datelor reale cu valori de aceeași dimensiune;

· k este gradul polinomului de regresie (un număr întreg pozitiv);

· t este valoarea argumentului polinomului de regresie.

Figura 3

Pe lângă cele considerate, mai multe tipuri de regresie cu trei parametri sunt, de asemenea, încorporate în Mathcad, implementarea lor diferă oarecum de opțiunile de regresie date mai sus, prin faptul că, pe lângă tabloul de date, trebuie setate anumite valori inițiale ale coeficienților a, b, c. Utilizați tipul de regresie adecvat dacă aveți o idee bună despre modul în care tabloul dvs. de date este descris de dependență. Atunci când tipul de regresie nu reflectă bine secvența de date, rezultatul acesteia este adesea nesatisfăcător și chiar foarte diferit în funcție de alegerea valorilor inițiale. Fiecare dintre funcții produce un vector de parametri rafinați a, b, c.

Rezultate obținute folosind funcția LINEST

Luați în considerare scopul funcției LINEST.

Această funcție folosește metoda celor mai puțin pătrate pentru a calcula o linie dreaptă care să aproxima cel mai bine datele disponibile.

Funcția returnează un tablou care descrie linia rezultată. Ecuația pentru o linie dreaptă are următoarea formă:

M1x1 + m2x2 + ... + b sau y \u003d mx + b,

algoritmul de masă microsoft

Pentru a obține rezultatele, trebuie să creați o formulă de tabel care să ocupe 5 rânduri și 2 coloane. Acest interval poate fi localizat în orice loc al foii de lucru. Trebuie să introduceți funcția LINE în acest interval.

Drept urmare, toate celulele intervalului A65: B69 trebuie completate (așa cum se arată în tabelul 9).

Tabelul 9.

AV6544,95997-88,9208663,73946615,92346670,86273234,5183168144,55492369172239,227404,82

Să explicăm scopul unora dintre valorile situate în tabelul 9.

Valorile localizate în celulele A65 și B65 caracterizează panta și deplasarea, respectiv, este coeficientul de determinare. Este valoarea observată F. Este numărul de grade de libertate. Este suma de regresie a pătratelor. Este suma reziduală a pătratelor.

Prezentarea rezultatelor sub formă de grafice

Fig. 4. Grafic de aproximare liniară

Fig. 5. Graficul aproximării cvadratice

Fig. 6. Graficul aproximării exponențiale

constatări

Trag concluzii cu privire la rezultatele datelor.

O analiză a rezultatelor calculului arată că aproximarea cvadratică descrie cel mai bine datele experimentale, deoarece linia de tendințe pentru aceasta reflectă cel mai precis comportamentul funcției din acest domeniu.

Comparând rezultatele obținute folosind funcția LINEST, vedem că acestea coincid complet cu calculele efectuate mai sus. Aceasta indică faptul că calculul este corect.

Rezultatele obținute folosind programul MathCad coincid complet cu valorile date mai sus. Aceasta indică exactitatea calculelor.

Lista literaturii folosite

  1. BP Demidovici, I.A. Maron. Bazele matematicii computationale. M: Editura de stat a literaturii fizice și matematice.
  2. Computer Science: Textbook, ed. prof. NV Makarova. M: Finanțe și statistici, 2007.
  3. Informatică: Atelier de tehnologie pe calculator, ed. prof. NV Makarova. M: Finanțe și statistici, 2010.
  4. B. B. Komyagin. Programare în Excel în Visual Basic. M: Radio și comunicații, 2007.
  5. N. Nicole, R. Albrecht. Excel. Spreadsheets. M: Publ. ECOM, 2008.
  6. Linii directoare pentru implementarea cursurilor în informatică (pentru studenții corespondenți de toate specialitățile), ed. Zhurova G.N., SPbGGI (TU), 2011.

LUCRU CURS

Pătratele minime Aproximarea funcției


introducere

aproximare empirică a matematicii

Obiectivul cursului este de a aprofunda cunoștințele de informatică, dezvoltarea și consolidarea abilităților cu procesorul de masă Microsoft Excel și MathCAD. Aplicația lor pentru rezolvarea problemelor folosind calculatoare din zona de subiect legate de cercetare.

În fiecare sarcină, sunt formulate condițiile de sarcină, datele inițiale, forma rezultatelor, sunt indicate dependențele matematice de bază pentru rezolvarea problemei. Calculul controlului vă permite să verificați funcționarea corectă a programului.

Conceptul de aproximare este o expresie aproximativă a oricăror obiecte matematice (de exemplu, numere sau funcții) în termeni de alte elemente mai simple, mai convenabile de utilizat sau pur și simplu mai cunoscute. În cercetarea științifică, aproximarea este utilizată pentru a descrie, analiza, generaliza și utiliza în continuare rezultatele empirice.

După cum știți, între valori poate exista o relație exactă (funcțională) când o anumită valoare corespunde unei anumite valori și o relație mai puțin exactă (de corelație) atunci când o valoare specifică a unui argument corespunde unei valori aproximative sau a unui set de valori de funcții care sunt apropiate de un grad sau altul unul altuia. Atunci când efectuează cercetări științifice, prelucrează rezultatele unei observații sau experimente, de obicei trebuie să se ocupe de a doua opțiune. Când studiem dependențele cantitative ale diferitor indicatori, ale căror valori sunt determinate empiric, de regulă, există o parte din variabilitatea lor. Parțial, este determinată de eterogenitatea obiectelor studiate de neînsuflețite și, mai ales, de animale sălbatice, datorită parțial erorii de observare și procesării cantitative a materialelor. Ultima componentă nu este întotdeauna posibilă eliminarea completă, o puteți minimiza doar prin selectarea atentă a unei metode de cercetare adecvate și acuratețe a lucrării.

Specialiștii în domeniul automatizării proceselor și industriilor tehnologice se ocupă cu o cantitate mare de date experimentale pentru procesarea cărora este folosit un computer. Datele inițiale și rezultatele de calcul obținute pot fi prezentate sub formă de tabel folosind procesoare tabulare (foi de calcul) și, în special, Excel. Studiile în informatică permit studenților să consolideze și să dezvolte abilități de lucru folosind tehnologii informatice de bază în rezolvarea problemelor în domeniul activității profesionale - Un sistem de algebră computerizată din clasa sistemelor de proiectare asistată de computer, axat pe pregătirea documentelor interactive cu calcule și însoțire vizuală, este ușor de utilizat și de utilizat. pentru munca în echipă.


1. Informații generale


Foarte des, mai ales atunci când analizăm datele empirice, este necesar să găsim explicit relația funcțională între cantități x   și lacare sunt obținute ca urmare a măsurătorilor.

Într-un studiu analitic al relației dintre cele două valori ale lui x și y, se fac o serie de observații și, ca urmare, se obține un tabel de valori:


xx1 x1 xeuXnuY1 y1 yeuYn

Acest tabel este obținut de obicei ca rezultat al oricăror experimente în care x,   (valoarea independentă) este stabilită de experimentator și y,   obținut ca rezultat al experienței. Prin urmare, aceste valori y,vom numi valori empirice sau experimentale.

Există o dependență funcțională între x și y, dar forma sa analitică este de obicei necunoscută, prin urmare, apare o sarcină aproape importantă - de a găsi formula empirică


y \u003df (x; a 1, a 2, ..., sunt ), (1)


(în cazul în care o1 , a2 , ..., am   - parametri), ale căror valori pentru x \u003d x   poate un pic diferit de valorile experimentale y, (i \u003d 1,2,…, n).

Indicați de obicei clasa de funcții (de exemplu, setul de linii, putere, exponențial etc.) din care este selectată funcția f (x)și apoi sunt determinate cele mai bune valori ale parametrilor.

Dacă în formula empirică (1) se înlocuiește originalul x,   obținem valorile teoretice

YTeu   \u003d f (xeu; o 1, a 2……om) unde i \u003d 1,2,…, n.


diferență yeuT   - laeu,   numite abateri și reprezintă distanțele verticale de la puncte Meu   până la un grafic al funcției empirice.

În conformitate cu metoda celor mai mici pătrate, cei mai buni coeficienți o1 , a2 , ..., am   acestea sunt considerate pentru care suma abaterilor pătrate ale funcției empirice găsite de la valorile date ale funcției



va fi minim.

Să explicăm semnificația geometrică a metodei celor mai mici pătrate.

Fiecare pereche de numere ( xeu, yeu) din tabelul sursă definește un punct   Meu   în avion   XOY.   Folosind formula (1) pentru diverse valori ale coeficienților   o1 , a2 , ..., am   este posibil să se construiască o serie de curbe care sunt grafice ale funcției (1). Sarcina este de a determina coeficienții   o1 , a2 , ..., amastfel încât suma pătratelor distanțelor verticale de la puncte   Meu (xeu, yeu) înaintea graficului funcției (1) era cea mai mică (Fig. 1).



Construcția unei formule empirice constă în două etape: clarificarea formei generale a acestei formule și determinarea celor mai buni parametri ai acesteia.

Dacă natura relației dintre aceste x și   y, atunci forma dependenței empirice este arbitrară. Sunt preferate formulele simple cu o precizie bună. O bună alegere a unei formule empirice depinde în mare măsură de cunoștințele cercetătorului în domeniul subiectului, folosindu-l pe care el poate indica clasa de funcții din motive teoretice. O importanță deosebită este imaginea datelor obținute în cartezian sau în sisteme speciale de coordonate (semi-logaritmice, logaritmice etc.). În funcție de poziția punctelor, puteți ghici aproximativ forma generală a dependenței prin stabilirea asemănărilor dintre graficul construit și mostrele de curbe cunoscute.

Determinarea celor mai bune cote   o1 , a2,…, om   intrarea în formula empirică este produsă prin metode analitice bine cunoscute.

Pentru a găsi un set de coeficienți o1 , a2 ... ..am, care furnizează minimul funcției S definit de formula (2), folosim condiția necesară pentru extremitatea funcției mai multor variabile - derivatele parțiale fiind egale cu zero.

Drept urmare, obținem un sistem normal pentru determinarea coeficienților   oeu   (i \u003d 1,2,…, m):



Astfel, găsirea coeficienților   oeu   se reduce la sistemul de rezolvare (3). Acest sistem este simplificat dacă formula empirică (1) este liniară în raport cu parametrii   oeuatunci sistemul (3) va fi liniar.


1.1 Dependență liniară


Forma specifică a sistemului (3) depinde de ce clasă de formule empirice căutăm dependență (1). În cazul unei relații liniare   y \u003d a1   + a2 x   sistemul (3) va lua forma:


Acest sistem liniar poate fi rezolvat prin orice metodă cunoscută (metoda Gauss, iterații simple, formule Cramer).


1.2 Dependență quadratică


În cazul unei dependențe patratice   y \u003d a1   + a2 x + a3x 2   sistemul (3) va lua forma:



1.3 Dependență exponențială


În unele cazuri, o funcție este luată ca o formulă empirică în care coeficienții nedefiniți intră neliniar. Mai mult, uneori problema poate fi liniarizată adică. se reduce la liniar. Printre aceste dependențe se numără dependența exponențială


y \u003d a1 * ea2X (6)


unde a 1   și o 2coeficienți nedefiniți.

Linearizarea se realizează prin logaritmul egalității (6), după care obținem relația

ln y \u003d ln a 1 + a 2x (7)


Notează ln   la   și eu   ox   respectiv prin   T   și   c, apoi dependența (6) poate fi scrisă ca   t \u003d a1   + a2 x, care ne permite să aplicăm formule (4) odată cu înlocuirea   o1   pe   c   și   laeu   pe   Teu


1.4 Elemente ale teoriei corelației


Graficul dependenței funcționale restaurate   y (x)   în funcție de rezultatele măsurătorilor (x eu, laeu),   i \u003d 1,2, K, n   numită curbă de regresie. Pentru a verifica acordul curbei de regresie construită cu rezultatele experimentale, sunt introduse de obicei următoarele caracteristici numerice: coeficientul de corelație (dependență liniară), raportul de corelație și coeficientul de determinare. Mai mult, rezultatele sunt de obicei grupate și prezentate sub forma unui tabel de corelație. În fiecare celulă a acestui tabel numerele   niJ -   acele perechi (x, y)ale căror componente se încadrează în intervalele de grupare corespunzătoare pentru fiecare variabilă. Presupunând că lungimile intervalelor de grupare (pentru fiecare variabilă) sunt egale, alegeți centrii x eu   (respectiv   laeu) a acestor intervale și numere   niJ-   ca bază pentru calcule.

Coeficientul de corelație este o măsură a relației liniare între variabilele aleatoare dependente: arată cât de bine, în medie, una dintre cantități poate fi reprezentată ca o funcție liniară a celeilalte.

Coeficientul de corelație este calculat după formula:


unde și, respectiv, valoarea medie aritmetică x   și la.

Coeficientul de corelație între variabilele aleatorii în valoare absolută nu depășește 1. Cu cât este mai aproape | p | la 1, cu cât este mai strânsă relația liniară între x și   y.

În cazul unei corelații neliniare, valorile medii condiționale sunt situate în apropierea curbei liniei. În acest caz, se recomandă utilizarea unei relații de corelație ca o caracteristică a puterii legăturii, a cărei interpretare nu depinde de tipul dependenței studiate.

Raportul de corelație este calculat după formula:



unde neu = , nf   \u003d, iar numărătorul caracterizează împrăștierea mijloacelor condiționale   y,   aproape de media necondiționată   y.

Întotdeauna. egalitate =   0 corespunde variabilelor aleatorii necorelate; = 1   dacă și numai dacă există o relație funcțională exactă între y   și x. În cazul unei relații liniare   y   de la x, raportul de corelație coincide cu pătratul coeficientului de corelație. valoare - ? 2 este utilizat ca indicator al devierii regresiei de la liniar.

Corelația este o măsură a corelației   y   cu   x   sub orice formă, dar nu poate da o idee despre gradul de aproximare a datelor empirice la o formă specială. Pentru a afla cât de exact reflectă curba construită date empirice, este introdusă o caracteristică mai mare - coeficientul de determinare.

Pentru a o descrie, luați în considerare următoarele cantități. - suma totală a pătratelor, unde valoarea medie.

Putem dovedi următoarea egalitate

Primul termen este Sost \u003d și se numește suma reziduală a pătratelor. Caracterizează abaterea experimentală de la cea teoretică.

Al doilea termen este Sregr \u003d 2 și se numește suma de regresie a pătratelor și caracterizează răspândirea datelor.

Evident, se menține următoarea egalitate: S plin \u003d S ost + S rEGR.

Coeficientul de determinare este determinat de formula:



Cu cât suma reziduală a pătratelor este mai mică comparativ cu suma totală a pătratelor, cu atât este mai mare valoarea coeficientului de determinare   r2 , care arată cât de bine explică ecuația obținută folosind analiza de regresie relația dintre variabile. Dacă este 1, atunci există o corelație completă cu modelul, adică. Nu există nicio diferență între y real și estimat. În cazul opus, dacă coeficientul de determinare este 0, atunci ecuația de regresie nu are succes pentru a prezice valorile lui y

Coeficientul de determinare nu depășește întotdeauna raportul de corelație. În cazul în care egalitatea   r2 \u003d atunci putem presupune că formula empirică construită reflectă cel mai precis datele empirice.


2. Declarația problemei


1. Folosind metoda celor mai mici pătrate, funcția dată în tabel este aproximată

a) un polinom de gradul I;

b) un polinom de gradul doi;

c) dependență exponențială.

Pentru fiecare dependență, calculați coeficientul de determinare.

Calculați coeficientul de corelație (numai în cazul a).

Pentru fiecare dependență, construiți o linie de tendință.

Folosind funcția LINEST, calculați caracteristicile numerice ale dependenței.

Comparați calculele cu rezultatele obținute folosind funcția LINEST.

Pentru a încheia care dintre formulele obținute se apropie cel mai bine de funcție.

Scrieți un program într-unul dintre limbajele de programare și comparați rezultatele numărării cu cele obținute mai sus.


3. Datele sursă


Funcția este definită în figura 1.



4. Calculul aproximărilor în procesorul de foi Excel


Pentru calcule, este recomandabil să utilizați un procesor de masă Microsoft Excel. Și aranjați datele așa cum se arată în figura 2.



Pentru a face acest lucru, introduceți:

· în celulele A6: A30 introduceți valorile xi .

· în celulele B6: B30 introducem valorile yi .

· în celula C6 introducem formula \u003d A6 ^ 2.

· în celulele C7: C30 această formulă este copiată.

· în celula D6 introducem formula \u003d A6 * B6.

· în celulele D7: D30 această formulă este copiată.

· în celula F6 introducem formula \u003d A6 ^ 4.

· în celulele F7: F30 această formulă este copiată.

· în celula G6 introducem formula \u003d A6 ^ 2 * B6.

· în celulele G7: G30 această formulă este copiată.

· în celula H6 introducem formula \u003d LN (B6).

· în celulele H7: H30 această formulă este copiată.

· în celula I6 introducem formula \u003d A6 * LN (B6).

· în celulele I7: I30 această formulă este copiată. Următorii pași sunt făcuți folosind însumarea automată.

· în celula A33 introducem formula \u003d SUM (A6: A30).

· în celula B33 introduceți formula \u003d SUM (B6: B30).

· în celula C33 introduceți formula \u003d SUM (C6: C30).

· în celula D33 introducem formula \u003d SUM (D6: D30).

· în celula E33 introducem formula \u003d SUM (E6: E30).

· în celula F33 introducem formula \u003d SUM (F6: F30).

· în celula G33, introduceți formula \u003d SUM (G6: G30).

· în celula H33 introduceți formula \u003d SUM (H6: H30).

· în celula I33 introducem formula \u003d SUM (I6: I30).

Aproximăm funcția   y \u003d f   (x) o funcție liniară   y \u003d a1   + a2x. Pentru a determina coeficienții a 1   și a 2   folosim sistemul (4). Folosind totalul tabelului 2 localizat în celulele A33, B33, C33 și D33, scriem sistemul (4) în formular



hotărând care, obținem un 1   \u003d -24.7164 și a2 = 11,63183

Astfel, aproximarea liniară are forma y \u003d -24.7164 + 11.63183x (12)

Soluția sistemului (11) a fost realizată folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în figura 3:



Formula (\u003d MOBR (A35: B36)) este scrisă în tabelul din celulele A38: B39. În celulele E38: E39 se scrie formula (\u003d MULTIPLE (A38: B39, C35: C36)).


În continuare, aproximăm funcția   y \u003d f   (x) funcția cvadratică   y \u003d a1   + a2 x + a3 x2. Pentru a determina coeficienții a 1, a 2   și a 3   folosim sistemul (5). Folosind totalul tabelului 2 localizat în celulele A33, B33, C33, D33, E33, F33 și G33, scriem sistemul (5) sub forma:



După ce am decis care, vom primi un 1   \u003d 1.580946, a 2   \u003d -0.60819 și a3 = 0,954171 (14)

Astfel, aproximarea cvadratică are forma:

y \u003d 1.580946 -0.600819x + 0,954171 x2

Soluția sistemului (13) a fost realizată folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în figura 4.



Formula (\u003d MOBR (A41: C43)) este scrisă în tabel în celulele A46: C48. În celulele F46: F48, formula este scrisă (\u003d MULTIPLE (A41: C43, D46: D48)).

Acum aproximăm funcția   y \u003d f   (x) funcția exponențială   y \u003d a1 ea2X.   Pentru a determina coeficienții   o1   și   o2   valorile logaritmului   yeu și folosind totalul tabelului 2 localizat în celulele A26, C26, H26 și I26 obținem sistemul:



unde c \u003d ln (a1 ).

După rezolvarea sistemului (10) găsim   c \u003d   0,506435, a2 = 0.409819.

După potențare, obținem a1 = 1,659365.

Astfel, aproximarea exponențială are forma y \u003d 1.659365 * e0,4098194x

Soluția sistemului (15) a fost realizată folosind instrumente Microsoft Excel. Rezultatele sunt prezentate în figura 5.


Formula (\u003d MOBR (A51: B52)) este scrisă în tabelul din celulele A55: B56. În celulele E54: E56, formula este scrisă (\u003d MULTIPLE (A51: B52, C51: C52)). În celula E56, formula \u003d EXP (E54) este scrisă.

Calculăm media aritmetică a lui x și y după formulele:



Rezultatele calculului x și   y   Instrumentele Microsoft Excel sunt prezentate în figura 6.



În celula B58, formula \u003d A33 / 25 este scrisă. În celula B59, formula \u003d B33 / 25 este scrisă.

Tabelul 2


Să explicăm cum este compilat tabelul din figura 7.

Celulele A6: A33 și B6: B33 sunt deja umplute (vezi Fig. 2).

· în celula J6 introducem formula \u003d (A6- $ B $ 58) * (B6- $ B 59 USD).

· în celulele J7: J30 această formulă este copiată.

· în celula K6 introducem formula \u003d (A6- $ B $ 58) ^ 2.

· în celulele K7: K30 această formulă este copiată.

· în celula L6 introducem formula \u003d (B1- $ B 59 USD) ^ 2.

· în celulele L7: L30 această formulă este copiată.

· în celula M6 introducem formula \u003d ($ E $ 38 + $ E $ 39 * A6-B6) ^ 2.

· în celulele M7: M30 această formulă este copiată.

· în celula N6 introducem formula \u003d ($ F $ 46 + $ F $ 47 * A6 + $ F $ 48 * A6 L6-B6) ^ 2.

· în celulele N7: N30 această formulă este copiată.

· în celula O6 introducem formula \u003d ($ E $ 56 * EXP ($ 55 USD * A6) - B6) ^ 2.

· în celulele O7: O30 această formulă este copiată.

Următorii pași sunt făcuți folosind însumarea automată.

· în celula J33, introduceți formula \u003d CYMM (J6: J30).

· în celula K33 introduceți formula \u003d SUM (K6: K30).

· în celula L33 introducem formula \u003d CYMM (L6: L30).

· în celula M33 introduceți formula \u003d SUM (M6: M30).

· în celula N33 introducem formula \u003d SUM (N6: N30).

· în celula O33 introducem formula \u003d SUM (06: 030).

Acum vom calcula coeficientul de corelație după formula (8) (numai pentru aproximare liniară) și coeficientul de determinare cu formula (10). Rezultatele calculelor folosind Microsoft Excel sunt prezentate în figura 7.



În formula 8, formula \u003d J33 / (K33 * L33 ^ (1/2) este scrisă în celula B61. Formula \u003d 1 - M33 / L33 este scrisă în celula B62. Formula \u003d 1 - N33 / L33 este scrisă în celula B63. formula \u003d 1 - O33 / L33.

O analiză a rezultatelor calculului arată că aproximarea cvadratică descrie cel mai bine datele experimentale.


4.1 Grafic în Excel


Selectați celulele A1: A25, apoi apelați la asistentul grafic. Alegeți un complot de împrăștiere. După ce graficul este creat, faceți clic dreapta pe linia grafică și alegeți să adăugați o linie de tendință (respectiv liniar, exponențial, putere și gradul al doilea polinom).

Grafic de aproximare liniară


Grafic de aproximare quadratică


Graficul de aproximare exponențială.


5. Apropierea funcțiilor folosind MathCAD


Apropierea datelor luând în considerare parametrii lor statistici este legată de probleme de regresie. Ele apar de obicei atunci când prelucrează date experimentale obținute ca urmare a măsurătorilor proceselor sau fenomenelor fizice care sunt de natură statistică (cum ar fi măsurători în radiometrie și geofizică nucleară) sau la un nivel ridicat de interferențe (zgomot). Sarcina analizei de regresie este selectarea formulelor matematice care descriu cel mai bine datele experimentale.


.1 Regresie liniară


Regresia liniară în sistemul Mathcad este efectuată de către vectori argument   X   și contează   Y   Caracteristici:

interceptarea (x, y)   - calculează parametrul   și1 ,   deplasarea verticală a liniei de regresie (vezi fig.)

pantă (x, y)   - calculează parametrul   o2 ,   coeficient unghiular al liniei de regresie (vezi fig.)

y (x) \u003d a1 + a2 * x


funcție   corr (y, y (x))   calculeaza   Coeficientul de corelație Pearson.   Mai aproape de 1,   cu atât mai precis datele prelucrate corespund unei dependențe liniare (a se vedea fig.)

.2 Regresie polinomială


Regresia polinomială unidimensională cu un grad n arbitrar al unui polinom și cu coordonate arbitrare ale eșantioanelor din Mathcad se realizează prin funcțiile:

regres (x, y, n)   - calculează un vector   S,   care include coeficienții   aipolinomul   nGradul I;

Valori de coeficient   ai   poate fi extras din vector   S   funcție submatricea (S, 3, lungime (S) - 1, 0, 0).

Valorile obținute ale coeficienților sunt utilizate în ecuația de regresie


y (x) \u003d a1 + a2 * x + a3 * x2 (vezi fig.)

.3 Regresie neliniară


Pentru formule de aproximare tipice simple, sunt furnizate o serie de funcții de regresie neliniară în care parametrii funcțiilor sunt selectați de programul Mathcad.

Acestea includ funcția   îmbrăcăminte (x, y, s),   care returnează un vector care conține coeficienți   a1, a2și   a3   funcție exponențială

y (x) \u003d a1 ^ exp (a2x) + a3.   În vector   S   se introduc valori inițiale ale coeficienților   a1, a2și   a3   prima abordare.


concluzie


O analiză a rezultatelor calculului arată că aproximarea liniară descrie cel mai bine datele experimentale.

Rezultatele obținute folosind programul MathCAD coincid complet cu valorile obținute cu Excel. Aceasta indică exactitatea calculelor.


Lista literaturii folosite

  1. Informatică: manual / ed. prof. NV Makarova. M .: Finanțe și statistici 2007
  2. Informatică: Atelier de tehnologie pe calculator / Ed. Ed. prof. NV Makarova. M Finanțe și statistici, 2011.
  3. NS Piskunov. Calcul diferențial și integral, 2010.
  4. Calculatoare, Aproximarea pătratelor, Ghiduri, Sankt Petersburg, 2009.
tutorat

Aveți nevoie de ajutor pentru învățarea unui subiect?

  Experții noștri vă vor consilia sau oferi servicii de îndrumare pe teme care vă interesează.
Trimiteți o solicitare   indicând subiectul în acest moment pentru a afla despre posibilitatea de a obține sfaturi.

Ceea ce este utilizat pe scară largă în diverse domenii ale științei și practicii. Aceasta poate fi fizică, chimie, biologie, economie, sociologie, psihologie și așa mai departe. De soartă, de multe ori trebuie să mă ocup de economie, așa că astăzi îți voi elibera un bilet către o țară uimitoare numită Econometrie   \u003d) ... Cum nu vrei asta ?! Este foarte bine acolo - trebuie doar să te gândești! ... Dar ceea ce probabil îți dorești cu siguranță este să înveți cum să rezolvi problemele metoda cel puțin pătrate. Și mai ales cititorii harnici vor învăța să le rezolve nu doar cu exactitate, ci și FOARTE RAPID ;-) Dar mai întâi declarație generală a problemei   + exemplu de însoțire:

Să fie studiați indicatorii care au o expresie cantitativă într-un anumit domeniu. Mai mult, există toate motivele pentru a crede că indicatorul depinde de acesta. Această presupunere poate fi atât o ipoteză științifică, cât și bazată pe bunul simț elementar. Cu toate acestea, să lăsăm știința deoparte și să explorăm mai multe zone apetisante - și anume magazinele alimentare. Notă prin:

  - zona comercială a magazinului alimentar, mp;
  - cifra de afaceri anuală a magazinului alimentar, milioane de ruble

Este clar că, cu cât suprafața magazinului este mai mare, cu atât cifra de afaceri va fi mai mare în majoritatea cazurilor.

Să presupunem că după efectuarea observațiilor / experimentelor / calculelor / dansurilor cu o tamburină, avem la dispoziție date numerice:

În cazul magazinelor alimentare, cred că totul este clar: - aceasta este zona primului magazin, - cifra de afaceri anuală, - zona celui de-al doilea magazin, - cifra de afaceri anuală etc. Apropo, nu este necesar să aveți acces la materiale clasificate - se poate obține o estimare destul de exactă a cifrei de afaceri statistici matematice. Cu toate acestea, nu suntem distrași, cursul spionajului comercial - este deja plătit \u003d)

Datele tabulare pot fi, de asemenea, scrise ca puncte și afișate în mod obișnuit pentru noi sistem cartezian .

Vom răspunde la o întrebare importantă: de câte puncte ai nevoie pentru un studiu de calitate?

Cu cât mai mult, cu atât mai bine. Setul minim admis constă din 5-6 puncte. În plus, cu o cantitate mică de date, rezultatele „anormale” nu pot fi incluse în eșantion. Astfel, de exemplu, un magazin mic de elită poate ajuta ordinele de mărime mai mult decât „colegii” lor, distorsionând astfel modelul general care trebuie găsit!

Dacă este foarte simplă, trebuie să găsim o funcție, orar   care circulă cât mai aproape de puncte . Această funcție se numește aproximându (aproximare - aproximare)   sau funcția teoretică . În general, aici apare imediat un „solicitant” evident - un polinom de înalt grad al cărui grafic trece prin TOATE punctele. Dar această opțiune este complexă și adesea pur și simplu incorectă (deoarece graficul se va „bucla” tot timpul și va reflecta slab tendința principală).

Astfel, funcția dorită ar trebui să fie destul de simplă și, în același timp, să reflecte în mod adecvat dependența. După cum vă puteți imagina, una dintre metodele pentru găsirea unor astfel de funcții este numită metoda cel puțin pătrate. În primul rând, îi vom analiza esența într-un mod general. Fie unele funcții să aproximeze datele experimentale:


   Cum să evaluați exactitatea acestei aproximări? De asemenea, calculăm diferențele (abaterile) dintre valorile experimentale și cele funcționale (studiem desenul). Primul gând care îmi vine în minte este să evaluezi cât de mare este suma, dar problema este că diferențele pot fi negative (De exemplu, )   iar abaterile rezultate din această însumare vor fi distruse reciproc. Prin urmare, ca o estimare a exactității aproximării, roagă să ia module   abateri:

  sau minimizat: (brusc, cine nu știe: - aceasta este pictograma sumei și - variabila auxiliară este „contorul”, care ia valori de la 1 la).

Apropierea punctelor experimentale prin diferite funcții, vom obține valori diferite și este evident în cazul în care această sumă este mai mică - această funcție și mai precis.

O astfel de metodă există și se numește cel puțin modul de modul. Cu toate acestea, în practică era mult mai răspândit. metoda cel puțin pătrate, în care valorile posibile negative nu sunt eliminate de modul, ci prin pătratul abaterilor:

, după care eforturile vizează selectarea unei astfel de funcții încât suma abaterilor pătrate   era cât se poate de mic. De fapt, de aici provine numele metodei.

Și acum revenim la un alt punct important: așa cum s-a menționat mai sus, funcția selectată ar trebui să fie destul de simplă - dar există și o mulțime de astfel de funcții: liniar , hiperbolic, exponențială, logaritmică, pătratic   etc. Și, bineînțeles, aici aș dori imediat să „reduc domeniul de activitate”. Ce clasă de funcții să aleagă pentru cercetare? Tehnica primitivă, dar eficientă:

- Cel mai simplu mod de a desena puncte   în desen și analizați locația lor. Dacă tind să fie în linie dreaptă, atunci ar trebui să arătați ecuație de linie dreaptă   cu valori optime și. Cu alte cuvinte, sarcina este de a găsi SUFERI coeficienți - astfel încât suma abaterilor pătrate să fie cea mai mică.

Dacă punctele sunt localizate, de exemplu, de-a lungul hiperbolă, este clar clar că o funcție liniară va oferi o aproximare slabă. În acest caz, căutăm cei mai „rentabili” coeficienți pentru ecuația de hiperbolă   - cele care dau suma minimă a pătratelor .

Și acum rețineți că în ambele cazuri vorbim funcțiile a două variabileale căror argumente sunt parametrii de dependență căutați:

În esență, trebuie să rezolvăm problema standard - să găsim funcția minimă a două variabile.

Să reamintim exemplul nostru: să presupunem că punctele „magazin” tind să fie în linie dreaptă și există toate motivele pentru care să credem relație liniară   cifra de afaceri din spațiul de vânzare cu amănuntul. Vom găsi astfel de coeficienți „a” și „a fi” astfel încât suma abaterilor pătrate   era cel mai mic. Totul este ca de obicei - mai întâi derivate parțiale de ordinul I. Potrivit regula liniarității   Puteți diferenția direct sub pictograma sumei:

Dacă doriți să utilizați aceste informații pentru un rezumat sau un student, vă sunt foarte recunoscător pentru linkul din lista surselor, veți găsi astfel de calcule detaliate în câteva locuri:

Compunem un sistem standard:

Reducem fiecare ecuație la un „efect” și, în plus, „despartim” suma:

remarcă : Analizați-vă de ce „a” și „a fi” pot fi scoase din pictograma sumei. Apropo, formal acest lucru se poate face cu suma

Rescriem sistemul în forma „aplicată”:

după care începe să se tragă algoritmul de rezolvare a problemei noastre:

Cunoaștem coordonatele punctelor? Știm. sume   putem găsi? Cu ușurință. Facem cel mai simplu   un sistem de două ecuații liniare cu două necunoscute(„A” și „fi”). Rezolvăm sistemul, de exemplu, metoda Cramerrezultând un punct staționar. verificarea condiție suficientă pentru extrem, putem verifica dacă în acest moment funcția   ajunge exact minim. Verificarea este plină de calcule suplimentare și, prin urmare, o vom lăsa în spatele scenei (dacă este necesar, cadrul lipsă poate fi vizualizat). Facem concluzia finală:

funcție   în cel mai bun mod (cel puțin în comparație cu orice altă funcție liniară)   aduce punctele experimentale mai aproape . Aproape vorbind, programul ei se desfășoară cât mai aproape de aceste puncte. În tradiție econometrie   funcția de aproximare obținută se mai numește ecuație de regresie liniară pereche .

Problema analizată are o importanță practică deosebită. În situația cu exemplul nostru, ecuația   vă permite să prezice ce cifră de afaceri ( "Y")   va fi la magazin pentru una sau alta valoare a zonei de vânzare (una sau alta valoare a „X”). Da, prognoza obținută va fi doar o prognoză, dar în multe cazuri va fi destul de exactă.

Voi analiza o singură problemă cu numere „reale”, deoarece nu există dificultăți în ea - toate calculele sunt la nivelul curriculumului școlar din clasele 7-8. În 95 la sută din cazuri, vi se va cere să găsiți doar o funcție liniară, dar la sfârșitul articolului voi arăta că nu este mai greu să găsiți ecuațiile hiperbolei, exponentului și a altor funcții optime.

De fapt, rămâne să distribuiți chiflele promise - astfel încât să înveți să rezolvați astfel de exemple nu numai cu exactitate, ci și rapid. Studiem cu atenție standardul:

sarcină

În urma studiului relației dintre cei doi indicatori, au fost obținute următoarele perechi de numere:

   Folosind metoda celor mai mici pătrate, găsiți funcția liniară care se apropie cel mai bine de empiric (Experimental)   date. Realizați un desen pe care să construiți puncte experimentale și un grafic al funcției aproximative într-un sistem de coordonate dreptunghiulare carteziene . Găsiți suma abaterilor pătrate între valorile empirice și cele teoretice. Aflați dacă o caracteristică va fi mai bună (în ceea ce privește metoda celor mai mici pătrate)   apropiați punctele experimentale.

Rețineți că sensurile „x” sunt naturale, iar acesta are un sens semnificativ caracteristic, despre care voi discuta mai târziu; dar ele, desigur, pot fi fracționate. În plus, în funcție de conținutul unei anumite sarcini, atât valorile „x” cât și „jocul” pot fi negative sau parțiale negative. Ei bine, ni s-a dat o sarcină „fără chip” și o începem decizia:

Găsim coeficienții funcției optime ca soluție a sistemului:

Pentru o înregistrare mai compactă, variabila „contor” poate fi omisă, deoarece este deja clar că însumarea este de la 1 la.

Calculul sumelor necesare este mai convenabil de emis într-un formular de tabel:


   Calculele pot fi efectuate pe un microcalculator, dar este mult mai bine să folosiți Excel - mai rapid și fără erori; vizionați un scurt videoclip:

Astfel, obținem următoarele sistemul:

Aici puteți multiplica a doua ecuație cu 3 și scade al doilea termen din prima ecuație. Dar acest lucru este noroc - în practică, sistemele nu sunt adesea prezente, iar în astfel de cazuri se economisesc metoda Cramer:
, deci sistemul are o soluție unică.

Executați o verificare. Am înțeles că nu vreau, dar de ce săriți erorile unde nu pot fi complet ratate? Înlocuiți soluția găsită în partea stângă a fiecărei ecuații a sistemului:

   Se obțin părțile din dreapta ale ecuațiilor corespunzătoare, ceea ce înseamnă că sistemul este rezolvat corect.

Astfel, funcția de aproximare dorită: - de la toate funcțiile liniare   Ea este cea care aproximează cel mai bine datele experimentale.

spre deosebire de drept   dependența cifrei de afaceri a magazinului de zona sa, dependența constatată este feedback-ul (principiul „cu atât mai mult - cu atât mai puțin”), iar acest fapt este dezvăluit imediat de un negativ coeficient unghiular. funcție   ne informează că, odată cu creșterea unui anumit indicator cu 1 unitate, valoarea indicatorului dependent scade în mediecu 0,65 unități. După cum se spune, cu cât este mai mare prețul hrișcă, cu atât mai puțin se vinde.

Pentru a trasa funcția aproximativă, găsim cele două valori ale acesteia:

și executați desenul:


   Linia dreaptă construită se numește linie de tendințe (și anume, o linie a unei tendințe liniare, adică, în cazul general, o tendință nu este neapărat o linie dreaptă). Toată lumea știe expresia „a fi în trend” și cred că acest termen nu are nevoie de comentarii suplimentare.

Calculăm suma abaterilor pătrate   între semnificații empirice și teoretice. Geometric - aceasta este suma pătratelor lungimilor segmentelor de „zmeură” (dintre care două sunt atât de mici încât nici măcar nu sunt vizibile).

Calculele sunt rezumate în tabel:


Pot fi făcute manual din nou, doar în caz, voi da un exemplu pentru primul punct:

   dar este mult mai eficient să acționezi într-un mod cunoscut:

Încă o dată repetăm: care este sensul rezultatului?   din toate funcțiile liniare   funcția   indicatorul este cel mai mic, adică în familia sa este cea mai bună aproximație. Și aici, apropo, întrebarea finală a problemei nu este întâmplătoare: ce se întâmplă dacă funcția exponențială propusă   va fi mai bine să apropiem punctele experimentale?

Găsiți suma corespunzătoare a abaterilor pătrate - pentru a distinge, le voi desemna cu litera „epsilon”. Tehnica este exact aceeași:


   Și din nou, pentru fiecare pompier, calcule pentru primul punct:

   În Excel, folosim funcția standard EXP (puteți vedea sintaxa în Ajutor Excel).

concluzie:, atunci funcția exponențială aproximează punctele experimentale mai rele decât linia dreaptă .

Dar aici trebuie menționat că „cel mai rău” este nu înseamnă încăasta este rău. Acum am construit un grafic al acestei funcții exponențiale - și trece, de asemenea, aproape de puncte   - Da, astfel încât, fără cercetare analitică, este dificil să spunem care funcție este mai exactă.

Acesta este sfârșitul deciziei și revin la întrebarea valorilor naturale ale argumentului. În diferite studii, de obicei economice sau sociologice, „X” naturale numără luni, ani sau alte intervale de timp egale. Luați în considerare, de exemplu, o astfel de problemă.

aproximație, sau aproximație   - metoda științifică, care constă în înlocuirea unui obiect cu altul, într-un sens sau altul, apropiat de original, dar mai simplu.

Apropierea permite studierea caracteristicilor numerice și a proprietăților calitative ale unui obiect, reducând problema la studiul unor obiecte mai simple sau mai convenabile (de exemplu, ale căror caracteristici sunt ușor calculate sau ale căror proprietăți sunt deja cunoscute). În teoria numerelor, sunt studiate aproximările diofantine, în special, aproximările numerelor iraționale de cele raționale. În geometrie, sunt luate în considerare aproximările curbelor prin linii rupte. Unele secțiuni ale matematicii sunt dedicate, în esență, în întregime aproximărilor, de exemplu, teoria apropierii funcțiilor, metodelor numerice de analiză.

În sens figurat este folosit în filozofie ca metoda de aproximare, indicativ pentru un caracter aproximativ, non-final. De exemplu, în acest sens, termenul „aproximare” a fost folosit în mod activ de Søren Kierkegaard (1813-1855) în „Cuvântul de cuvânt final nescunoscut ...”

Dacă funcția va fi utilizată doar pentru interpolare, atunci este suficient să se apropie punctele cu un polinom, să zicem, de gradul al cincilea:

Situația este mult mai complicată dacă datele din câmpul de mai sus servesc ca puncte de referință pentru dezvăluirea legii schimbării cu condițiile de graniță cunoscute. De exemplu: și . Aici calitatea rezultatului depinde de profesionalismul cercetătorului. În acest caz, legea cea mai acceptabilă ar fi:

Pentru selectarea optimă a parametrilor ecuațiilor, se folosește de obicei metoda celor mai mici pătrate.

Metoda celor mai mici pătrate (OLS,eng.ordinar cel mai puțin pătrate , OLS )   - o metodă matematică folosită pentru rezolvarea diverselor probleme, bazată pe reducerea sumei pătratelor unor funcții ale variabilelor dorite. Poate fi folosit pentru „rezolvarea” sistemelor supradeterminate de ecuații (atunci când numărul de ecuații depășește numărul de necunoscute), pentru a găsi o soluție în cazul sistemelor obișnuite (nu redefinite) de ecuații, pentru a aproxima valorile punctuale prin anumite funcții. OLS este una dintre metodele de analiză de regresie de bază pentru estimarea parametrilor necunoscuți ai modelelor de regresie din datele de eșantion.

Dacă o anumită cantitate fizică depinde de o altă cantitate, atunci această dependență poate fi investigată prin măsurarea y la diferite valori ale lui x. În urma măsurătorilor, se obțin un număr de valori:

x 1, x 2, ..., x i, ..., x n;

y 1, y 2, ..., y i, ..., y n.

Conform datelor unui astfel de experiment, putem trasa dependența y \u003d ƒ (x). Curba rezultată face posibilă aprecierea formei funcției ƒ (x). Cu toate acestea, coeficienții constanți care intră în această funcție rămân necunoscuți. Metoda cu cele mai mici pătrate le permite să fie determinate. Punctele experimentale, de regulă, nu se încadrează exact pe curbă. Metoda celor mai puțin pătrate necesită ca suma abaterilor pătrate ale punctelor experimentale de la curbă, adică. 2 era cel mai mic.

În practică, această metodă este folosită cel mai adesea (și cel mai simplu) în cazul unei relații liniare, adică. când

y \u003d kx   sau y \u003d a + bx.

Dependența liniară este foarte răspândită în fizică. Și chiar și atunci când dependența este neliniară, ei încearcă, de obicei, să comploteze astfel încât să obțină o linie dreaptă. De exemplu, dacă se presupune că indicele de refracție al sticlei n este legat de lungimea de undă λ a undei de lumină cu raportul n \u003d a + b / λ 2, atunci dependența de n de λ -2 este reprezentată de grafic.

Să luăm în considerare dependența y \u003d kx(o linie care trece prin origine). Compunem valoarea φ - suma pătratelor abaterilor punctelor noastre de la linie

.

Valoarea lui φ este întotdeauna pozitivă și se dovedește a fi mai mică, cu atât mai aproape de linie se află punctele noastre. Metoda celor mai mici pătrate afirmă că pentru k trebuie să se aleagă o valoare astfel încât φ să aibă un minim

  sau (19)

Calculul arată că eroarea medie pătrată în determinarea valorii k este egală cu

, (20) unde - n este numărul de măsurători.

Considerăm acum un caz ceva mai dificil atunci când punctele trebuie să satisfacă formula y \u003d a + bx   (o linie care nu trece prin origine).

Sarcina este de a găsi cele mai bune valori ale a și b din setul disponibil de valori x i, y i.

Din nou, compunem o formă patratică φ egală cu suma pătratelor abaterilor punctelor x i, y i de la linie

și găsiți valorile a și b pentru care φ are un minim

;

.

Soluția comună a acestor ecuații dă

(21)

Erorile pătrate medii rădăcină ale determinării a și b sunt egale

(23)

. (24)

Atunci când prelucrăm rezultatele măsurătorilor prin această metodă, este convenabil să rezumăm toate datele dintr-un tabel în care sunt calculate preliminar toate sumele incluse în formulele (19) - (24). Formele acestor tabele sunt prezentate în exemplele de mai jos.

Exemplul 1 Am studiat ecuația de bază a dinamicii mișcării de rotație ε \u003d M / J (o linie care trece prin origine). Pentru diferite valori ale momentului M, a fost măsurată accelerația unghiulară a unui anumit corp. Este necesar să se determine momentul de inerție a acestui corp. Rezultatele măsurătorilor momentului forței și accelerației unghiulare sunt enumerate în coloanele a doua și a treia tabelul 5.

Tabelul 5

Prin formula (19) determinăm:

.

Pentru a determina eroarea medie pătrată, folosim formula (20)

0.005775 kg   -1 m -2 .

După formula (18) avem

S J \u003d (2.996 · 0.005775) /0.3337 \u003d 0.05185 kg · m 2 .

Având în vedere fiabilitatea P \u003d 0,95, conform tabelului coeficienților studenților pentru n \u003d 5, găsim t \u003d 2,78 și determinăm eroarea absolută ΔJ \u003d 2,78 · 0,05185 \u003d 0,1441 ≈ 0,2 kg · m 2 .

Scriem rezultatele sub forma:

J \u003d (3,0 ± 0,2) kg · m 2 ;

Exemplul 2   Calculăm coeficientul de temperatură de rezistență al metalului prin metoda celor mai mici pătrate. Rezistența depinde de temperatură liniar

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

Termenul liber determină rezistența R 0 la o temperatură de 0 ° C, iar coeficientul unghiular determină produsul coeficientului de temperatură α și al rezistenței R 0.

Rezultatele măsurătorilor și calculelor sunt prezentate în tabel ( vezi tabelul 6).

Tabelul 6

(r - bt - a) 2, 10 -6

Prin formulele (21), (22) determinăm

R 0 \u003d ¯R- α R 0 ¯ t \u003d 1.4005 - 0.00264585.83333 \u003d 1.1735 ohm .

Găsiți eroarea în definiția α. Deoarece, prin formula (18) avem:

.

Folosind formule (23), (24) avem

;

0.014126 ohm.

Având în vedere fiabilitatea P \u003d 0,95, conform tabelului coeficienților studenților pentru n \u003d 6, găsim t \u003d 2,57 și determinăm eroarea absolută Δα \u003d 2,57 · 0,000132 \u003d 0,000338 grindină -1 .

α \u003d (23 ± 4) · 10 -4 grindină   -1 la P \u003d 0,95.

Exemplul 3   Este necesar să se determine raza de curbură a lentilei prin inelele lui Newton. Razele inelelor lui Newton r m au fost măsurate și au fost determinate numărul acestor inele m. Raza inelelor lui Newton este legată de raza de curbură a lentilei R și de numărul inelului prin ecuație

r 2 m \u003d mλR - 2d 0 R,

unde d 0 este grosimea spațiului dintre obiectiv și placa plan-paralelă (sau deformarea obiectivului),

λ este lungimea de undă a luminii incidente.

λ \u003d (600 ± 6) nm; r 2 m \u003d y; m este x; λR \u003d b; -2d 0 R \u003d a,

atunci ecuația va lua forma y \u003d a + bx.

Rezultatele măsurătorilor și calculelor sunt înregistrate în tabelul 7.

Tabelul 7

y \u003d r 2, 10 -2 mm 2

y - bx - a, 10 -4

(y - bx - a) 2, 10 -6

Așteptăm:

1. a și b prin formulele (21), (22).

a \u003d ¯ r 2 - b¯m \u003d (0.208548333 - 0.0594957.3.5) \u003d 0,0003133 mm 2 .

2. Calculăm erorile pătrate medii rădăcinoase pentru cantitățile b și a după formulele (23), (24)

3. Cu fiabilitatea P \u003d 0.95, conform tabelului coeficienților studenților pentru n \u003d 6, găsim t \u003d 2.57 și determinăm erorile absolute

Δb \u003d 2,57 · 0,000211179 \u003d 6 · 10 -4 mm 2 ;

Δa \u003d 2,57 · 0,000822424 \u003d 3 · 10 -3 mm 2 .

4. Înregistrați rezultatele

b \u003d (595 ± 6) · 10 -4 mm 2   la P \u003d 0,95;

a \u003d (0,3 ± 3) · 10 -3 mm 2   la P \u003d 0,95;

Din rezultatele obținute ale experimentului rezultă că, în eroarea acestui experiment, linia dreaptă r 2 m \u003d ƒ (m) trece prin origine, deoarece dacă eroarea din valoarea oricărui parametru se dovedește a fi comparabilă sau depășește valoarea parametrului, atunci aceasta înseamnă că cel mai probabil valoarea reală a acestui parametru este zero.

În condițiile acestui experiment, valoarea unei nu este de interes. Prin urmare, nu vom mai face față cu asta.

5. Calculați raza de curbură a obiectivului:

R \u003d b / λ \u003d 594,5 / 6 \u003d 99,1 mm.

6. Deoarece este dată o eroare sistematică pentru lungimea de undă, de asemenea, calculăm pentru R o eroare sistematică conform formulei (16), luând ca eroare sistematică cantitatea b eroarea ei aleatoare Δb.

Scriem rezultatul final R \u003d (99 ± 2) mm   ε ≈ 3% la P \u003d 0,95.

Un exemplu.

Date experimentale privind valorile variabile xși lasunt date în tabel.

Ca urmare a alinierii lor, se obține o funcție

utilizând metoda cel puțin pătrateaproximează aceste date printr-o relație liniară y \u003d ax + b   (găsiți parametrii și   și b). Aflați care dintre cele două linii este mai bună (în sensul metodei celor mai mici pătrate) aliniază datele experimentale. Faceți un desen.

Esența metodei celor mai mici pătrate (cfm).

Sarcina este de a găsi coeficienții de dependență liniară pentru care funcția a două variabile și   și b ia cea mai mică valoare. Adică cu date și   și b   suma abaterilor pătrate ale datelor experimentale de la linia găsită va fi cea mai mică. Acesta este întregul punct al metodei celor mai puțin pătrate.

Astfel, soluția exemplului se reduce la găsirea extremității funcției a două variabile.

Derivarea formulelor pentru găsirea coeficienților.

Un sistem de două ecuații cu două necunoscute este compilat și rezolvat. Găsiți derivatele parțiale ale funcției după variabile și   și b, echivalează aceste derivate la zero.

Rezolvăm sistemul de ecuații rezultat prin orice metodă (de exemplu metoda de substituție   sau metoda Cramer) și obținem formule pentru găsirea coeficienților prin metoda celor mai mici pătrate (OLS).

Cu date șiși bfuncție ia cea mai mică valoare. Dovada acestui fapt este dată. sub textul de la sfârșitul paginii.

Aceasta este metoda cu cel mai mic pătrat. Formula pentru găsirea unui parametru o   conține suma ,,, și parametrul n   - cantitatea de date experimentale. Valorile acestor sume se recomandă să fie calculate separat. factor b   situat după calcul o.

Este timpul să ne amintim exemplul inițial.

Decizie.

În exemplul nostru n \u003d 5. Completăm tabelul pentru comoditatea calculării sumelor care sunt incluse în formulele coeficienților doriți.

Valorile din al patrulea rând al tabelului se obțin prin înmulțirea valorilor celui de-al doilea rând cu valorile celui de-al treilea rând pentru fiecare număr eu.

Valorile din al cincilea rând al tabelului se obțin prin pătratul valorilor celui de-al doilea rând pentru fiecare număr eu.

Valorile din ultima coloană a tabelului sunt sumele valorilor din rânduri.

Pentru a găsi coeficienții, folosim formulele cu cel puțin pătrat și   și b. Înlocuim valorile corespunzătoare din ultima coloană a tabelului:

Prin urmare, y \u003d 0,165x + 2,184   - linia dreaptă aproximativă căutată.

Rămâne să aflăm care dintre rânduri y \u003d 0,165x + 2,184   sau se apropie mai bine datele sursă, adică se face o estimare folosind metoda celor mai puțin pătrate.

Estimarea de eroare a metodei celor mai puțin pătrate.

Pentru a face acest lucru, trebuie să calculați suma pătratelor deviațiilor datelor sursă de la aceste linii și , valoarea mai mică corespunde liniei, care este mai bună în sensul că metoda celor mai mici pătrate se apropie de datele originale.

De atunci, direct y \u003d 0,165x + 2,184   aproximează mai bine datele sursă.

Ilustrație grafică a metodei celor mai mici pătrate (LSMS).

Pe grafice, totul este perfect vizibil. Linia roșie este linia găsită y \u003d 0,165x + 2,184, linia albastră este , punctele roz sunt datele sursă.

În practică, atunci când se modelează diverse procese - în special cele economice, fizice, tehnice și sociale - sunt utilizate pe scară largă diverse metode de calculare a valorilor aproximative ale funcțiilor din valorile cunoscute ale acestora în anumite puncte fixe.

Astfel de probleme de aproximare a funcțiilor apar adesea:

    atunci când se construiesc formule aproximative pentru calcularea valorilor valorilor caracteristice ale procesului studiat din date tabulare obținute ca rezultat al experimentului;

    cu integrare numerică, diferențiere, soluție de ecuații diferențiale, etc .;

    dacă este necesar, calculați valorile funcțiilor în punctele intermediare ale intervalului considerat;

    la determinarea valorilor caracteristicilor procesului în afara intervalului considerat, în special la prognoză.

Dacă, pentru a simula un anumit proces specificat de tabel, construim o funcție care descrie aproximativ acest proces pe baza metodei celor mai mici pătrate, acesta va fi numit funcție de aproximare (regresie), iar sarcina de a construi funcții de aproximare va fi numită problemă de aproximare.

Acest articol discută capacitățile pachetului MS Excel pentru rezolvarea unor astfel de probleme, în plus, sunt prezentate metode și tehnici de construire (creare) de regresii pentru funcții definite în tabel (care este baza analizei de regresie).

Excel are două opțiuni pentru crearea regresiilor.

    Adăugarea regresiunilor selectate (linii de tendință - linii de tendință) la un grafic construit pe baza unui tabel de date pentru caracteristicile procesului studiat (disponibil numai dacă este construit un grafic);

    Folosind funcțiile statistice încorporate ale foii de lucru Excel, permițându-vă să obțineți regresie (linii de tendințe) direct din tabelul de date sursă.

Adăugarea liniilor de tendință la un grafic

Pentru un tabel de date care descrie un anumit proces și reprezentat de o diagramă, Excel are un instrument eficient de analiză a regresiei care vă permite:

    construiți pe baza metodei celor mai mici pătrate și adăugați în diagrama cinci tipuri de regresii care, cu diferite grade de precizie, simulează procesul studiat;

    se adaugă ecuația regresiei construite;

    determinați gradul de corespondență al regresiei selectate cu datele afișate în diagramă.

Pe baza datelor graficului, Excel vă permite să obțineți tipuri de regresie liniară, polinomială, logaritmică, de putere, exponențială, care sunt date de ecuația:

y \u003d y (x)

unde x este o variabilă independentă, care ia adesea valori ale secvenței unei serii naturale de numere (1; 2; 3; ...) și produce, de exemplu, o numărătoare inversă a timpului procesului studiat (caracteristici).

1 . Regresia liniară este bună pentru modelarea caracteristicilor ale căror valori cresc sau scad la o viteză constantă. Acesta este cel mai simplu model al procesului studiat de construit. Este construit în conformitate cu ecuația:

y \u003d mx + b

unde m este panta regresiei liniare către abscisă; b - coordonata punctului de intersecție a regresiei liniare cu axa ordonată.

2 . O linie de tendințe polinomiale este utilă pentru descrierea caracteristicilor care au mai multe extreme pronunțate (maxime și valori minime). Alegerea gradului polinomului este determinată de numărul extremei caracteristicii studiate. Deci, un polinom de gradul doi poate descrie bine un proces care are doar un maxim sau un minim; polinomul de gradul al treilea - nu mai mult de două extreme; un polinom de gradul al patrulea - nu mai mult de trei extreme etc.

În acest caz, linia de tendință este construită în conformitate cu ecuația:

y \u003d c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

unde coeficienții c0, c1, c2, ... c6 sunt constante ale căror valori sunt determinate în timpul construcției.

3 . Linia de tendință logaritmică este folosită cu succes în caracteristicile de modelare ale căror valori se schimbă mai întâi rapid și apoi se stabilizează treptat.

y \u003d c ln (x) + b

4 . O linie de tendință legată de puteri dă rezultate bune dacă valorile dependenței studiate sunt caracterizate printr-o schimbare constantă a ritmului de creștere. Un exemplu de astfel de dependență este un grafic al mișcării accelerate uniform a vehiculului. Dacă există valori zero sau negative între date, nu puteți utiliza o linie de tendință de putere.

Construit în conformitate cu ecuația:

y \u003d c xb

unde coeficienții b, c sunt constante.

5 . Ar trebui utilizată o linie de tendință exponențială dacă rata schimbării datelor crește continuu. Pentru datele care conțin valori zero sau negative, acest tip de aproximare nu este de asemenea aplicabil.

Construit în conformitate cu ecuația:

y \u003d c ebx

unde coeficienții b, c sunt constante.

Atunci când selectați o linie de tendințe, Excel calculează automat valoarea lui R2, care caracterizează exactitatea aproximării: cu cât valoarea R2 este mai aproape de unitate, cu atât mai fiabilă linia de tendință se apropie de procesul studiat. Dacă este necesar, valoarea R2 poate fi afișată întotdeauna pe grafic.

Este determinat de formula:

Pentru a adăuga o linie de tendințe la o serie de date:

    activați diagrama construită pe baza unei serii de date, adică faceți clic în zona diagramei. Elementul Diagrama va apărea în meniul principal;

    după ce faceți clic pe acest element, va apărea pe ecran un meniu, în care ar trebui să selectați comanda Adăugați linia de tendință.

Aceleași acțiuni pot fi implementate cu ușurință dacă treceți peste graficul corespunzător uneia dintre seriile de date și faceți clic dreapta; în meniul contextual care apare, selectați comanda Adăugare linie tendință. Caseta de dialog Trend Line apare cu fila Type deschis (Fig. 1).

După aceea este necesar:

În fila Tip, selectați tipul dorit de linie de tendință (tipul Linear este selectat implicit). Pentru tipul polinomial, în câmpul Grad, specificați gradul polinomului selectat.

1 . Câmpul Construit pe rând listează toate seriile de date din graficul respectiv. Pentru a adăuga o linie de tendință la o serie de date specifică, selectați numele acesteia în câmpul Built on series.

Dacă este necesar, accesând fila Parametri (Fig. 2), puteți seta următorii parametri pentru linia de tendințe:

    schimbați numele liniei de trend în câmpul Nume al curbei aproximative (netezite).

    setați numărul de perioade (înainte sau înapoi) pentru prognoză în câmpul Prognoză;

    afișați ecuația liniei de tendințe în zona graficului, pentru care ar trebui să activați ecuația de afișare în caseta de selectare a graficului;

    afișați valoarea de încredere de aproximare R2 în zona diagramei, pentru care ar trebui să activați caseta de selectare pentru a plasa valoarea de încredere de aproximare (R ^ 2) pe diagramă;

    setați punctul de intersecție al liniei de tendință cu axa Y, pentru care ar trebui să activați intersecția curbei cu axa Y în punctul respectiv;

    faceți clic pe butonul OK pentru a închide caseta de dialog.

Pentru a începe editarea unei linii de tendințe deja construite, există trei moduri:

    utilizați comanda Linie de tendință selectată din meniul Format, după selectarea unei linii de tendințe;

    selectați comanda Trend line format din meniul contextual, care este apelat printr-un clic dreapta pe linia de tendințe;

    faceți dublu clic pe linia de tendințe.

Pe ecran apare caseta de dialog Formatare linie de tendință (Fig. 3), care conține trei file: Vizualizare, tip, parametri și conținutul ultimelor două coincid complet cu aceleași file din caseta de dialog Trend Line (Fig. 1-2). În fila Vizualizare, puteți specifica tipul de linie, culoarea și grosimea acesteia.

Pentru a șterge o linie de trend deja desenată, selectați linia de tendințe șterse și apăsați tasta Ștergere.

Avantajele instrumentului de analiză a regresiei considerate sunt:

    relativă ușurință de a planifica linii de tendință pe diagrame fără a crea un tabel de date pentru acesta;

    o listă destul de largă de tipuri de linii de tendință propuse, iar această listă include cele mai utilizate tipuri de regresie;

    capacitatea de a prezice comportamentul procesului studiat pentru un număr arbitrar (în sensul comun) de pași înainte și înapoi;

    posibilitatea obținerii ecuației liniei de tendință într-o formă analitică;

    capacitatea, dacă este necesar, de a obține o estimare a fiabilității aproximării.

Dezavantajele includ următoarele puncte:

    construirea unei linii de tendințe se realizează numai dacă există un grafic construit pe o serie de date;

    procesul de generare a seriilor de date pentru caracteristica studiată pe baza ecuațiilor de linii de tendință obținute pentru aceasta este oarecum înfundat: ecuațiile de regresie dorite sunt actualizate cu fiecare modificare a valorilor seriei de date originale, dar numai în zona graficului, în timp ce seria de date formată pe baza ecuației de linie veche. tendința rămâne neschimbată;

    în rapoartele diagramelor pivot, atunci când schimbați prezentarea unui grafic sau a unui raport legat al tabelului pivot, liniile de tendințe existente nu sunt salvate, adică înainte de a trasa linii de tendințe sau alte formatări ale raportului diagramelor pivot, asigurați-vă că aspectul raportului îndeplinește cerințele necesare.

Liniile de tendință pot fi completate de serii de date prezentate pe diagrame, cum ar fi grafic, histogramă, diagrame plane neregulate cu zone, linie, punct, bule și stoc.

Nu puteți suplimenta liniile de tendințe cu serii de date pe diagramele volumetrice, normalizate, petale, plăcintă și inel.

Utilizarea funcțiilor Excel încorporate

Excel are, de asemenea, un instrument de analiză a regresiei pentru a trasa linii de tendințe în afara zonei graficului. În acest scop, puteți utiliza o serie de funcții statistice ale foii de lucru, dar toate acestea vă permit să construiți doar regresii liniare sau exponențiale.

Excel are mai multe funcții pentru construirea regresiei liniare, în special:

    tendințe;

  • TILT și CUT.

De asemenea, mai multe funcții pentru construirea unei linii de tendințe exponențiale, în special:

    LOGEST.

Trebuie menționat că tehnicile de construire a regresiilor folosind funcțiile TREND și GROWTH aproape coincid. Același lucru se poate spune despre perechea de funcții LINEST și LGRFPPRIB. Pentru aceste patru funcții, atunci când se creează un tabel de valori, se folosesc funcții Excel, cum ar fi formulele matrice, care înghesuie oarecum procesul de construire a regresiilor. De asemenea, remarcăm că, după părerea noastră, construcția regresiei liniare se realizează cel mai ușor folosind funcțiile TILT și CUT, unde primul determină coeficientul unghiular de regresie liniară, iar cel de-al doilea determină segmentul tăiat de regresie pe axa ordonată.

Avantajele instrumentului de funcții încorporat pentru analiza regresiei sunt:

    un proces omogen destul de simplu de formare a seriilor de date ale caracteristicii studiate pentru toate funcțiile statistice încorporate care specifică liniile de tendință;

    tehnica standard pentru construirea liniilor de tendință bazate pe serii de date generate;

    capacitatea de a prezice comportamentul procesului investigat pentru numărul necesar de pași înainte sau înapoi.

Și dezavantajele includ faptul că Excel nu are funcții încorporate pentru a crea alte tipuri de linii de tendință (cu excepția celor liniare și exponențiale). Această circumstanță nu permite adesea să selecteze un model suficient de precis al procesului studiat, precum și să obțină prognoze apropiate de realitate. În plus, atunci când se utilizează funcțiile TREND și GROWTH, ecuațiile liniilor de tendință nu sunt cunoscute.

Trebuie menționat că autorii nu și-au stabilit obiectivul de a prezenta un curs de analiză de regresie cu diferite grade de completare. Sarcina sa principală este de a arăta, cu exemple specifice, capacitățile pachetului Excel pentru rezolvarea problemelor de aproximare; Demonstrați ce instrumente eficiente pentru construirea regresiunilor și prognozei Excel are; ilustrează cât de ușor pot fi rezolvate astfel de probleme chiar și de către un utilizator care nu are cunoștințe profunde despre analiza regresiei.

Exemple de rezolvare a problemelor specifice

Luați în considerare rezolvarea problemelor specifice folosind instrumentele enumerate în pachetul Excel.

Sarcina 1

Cu un tabel de date privind profiturile companiei de transport auto pentru anii 1995-2002. Trebuie să parcurgeți pașii următori.

    Construiți un grafic.

    Adăugați în grafic o linie de tendință liniară și polinomială (cvadratică și cubică).

    Folosind ecuațiile liniilor de tendință, obțineți date tabulare cu privire la profitul întreprinderii pentru fiecare linie de tendințe pentru 1995-2004.

    Pentru a face o previziune a profitului companiei pentru 2003 și 2004

Rezolvarea problemelor

    În gama de celule A4: C11 din fișa Excel, introduceți fișa de lucru prezentată în Fig. 4.

    După ce am selectat gama de celule B4: C11, am construit o diagramă.

    Activăm graficul construit și în conformitate cu metoda descrisă mai sus, după ce am selectat tipul liniei de tendințe în caseta de dialog Linie de tendință (a se vedea figura 1), adăugăm linii de tendințe liniare, pătratice și cubice una pe rând. În aceeași casetă de dialog, deschideți fila Parametri (a se vedea Fig. 2), în câmpul Nume al curbei aproximative (netezite), introduceți numele tendinței adăugate, iar în câmpul Prognoză înainte de: perioade, setați valoarea la 2, deoarece este planificat să faceți o prognoză a profitului pentru două cu ani înainte. Pentru a afișa ecuația de regresie și valoarea fiabilității de aproximare R2 în zona diagramei, permiteți casetele de selectare să afișeze ecuația pe ecran și să plasați valoarea de încredere de aproximare (R ^ 2) pe diagramă. Pentru o percepție vizuală mai bună, schimbăm tipul, culoarea și grosimea liniilor de tendință grafică, pentru care folosim fila Vizualizare a casetei de dialog Formatul liniei de tendință (vezi figura 3). Graficul rezultat cu linii de tendință adăugate este prezentat în Fig. 5.

    Obținerea de date tabulare privind profiturile întreprinderii pentru fiecare linie de tendințe pentru anii 1995-2004. utilizăm ecuațiile liniilor de tendință prezentate în Fig. 5. Pentru aceasta, în celulele gamei D3: F3 introducem informații text despre tipul liniei de tendințe selectate: Tendință liniară, Tendință cuadratică, Tendință cubică. În continuare, introducem o formulă de regresie liniară în celula D4 și, folosind markerul de umplere, copiem această formulă cu legături relative în intervalul de celule D5: D13. Trebuie menționat că pentru fiecare celulă cu o formulă de regresie liniară din gama de celule D4: D13, celula corespunzătoare din intervalul A4: A13 este utilizată ca argument. În mod similar, pentru regresia cuadratică, gama de celule E4: E13 este completată, iar pentru regresia cubică, gama de celule F4: F13 este completată. Astfel, se face o prognoză asupra profitului întreprinderii pentru 2003 și 2004. folosind trei tendințe. Tabelul de valori rezultat este prezentat în Fig. 6.

Sarcina 2

    Construiți un grafic.

    Adăugați în grafic linii de tendință logaritmice, de putere și lege exponențiale.

    Derivați ecuațiile liniilor de tendință obținute, precum și valorile de fiabilitate ale aproximării R2 pentru fiecare dintre ele.

    Folosind ecuațiile liniilor de tendință, obțineți date tabulare cu privire la profitul întreprinderii pentru fiecare linie de tendințe pentru 1995-2002.

    Pentru a face o previziune a profitului companiei pentru 2003 și 2004 folosind aceste linii de tendință.

Rezolvarea problemelor

Urmând metodologia oferită în rezolvarea Problemei 1, obținem un grafic cu linii de tendință logaritmice, de putere și exponențiale adăugate la acesta (Fig. 7). În plus, folosind ecuațiile obținute ale liniilor de tendință, completăm tabelul de valori pentru profitul întreprinderii, inclusiv valorile preconizate pentru 2003 și 2004. (fig. 8).

În fig. 5 și fig. se poate observa că modelele cu o tendință logaritmică corespund celei mai mici valori a fiabilității aproximative

{!LANG-bc76ac1e43b77c5a78e285e89e2074bf!}

{!LANG-04a3f881ad65169af33c05bb395fc25a!}

{!LANG-837efb14d627d5edd9f174e178ac5903!}

{!LANG-377ec7e91e334640e55c3b545383f46b!}

    {!LANG-605d0ffdc0c99c1a68422fb0633a9f93!}

    {!LANG-73268fb5ef24c1553cce0706c28d1537!}

    {!LANG-56d0a649accf453d9e7ec57bb50de810!}

Rezolvarea problemelor

{!LANG-162b67c65b91a4bdec3fd722079fbf0a!}

    {!LANG-71850e64c646fa6b98d4ebb90390bccb!}

    {!LANG-674471ae48eadfcb27a248951a4daa64!}

    {!LANG-60fe969e56698e54201205200f2c269c!}

    {!LANG-4cf9dd14a55a9ab279330bf9939f745c!}

{!LANG-d74f0bd9d2f66a9d6fb425b97e234ec0!}

{!LANG-d878e96c74997c13b7d9a1f8d669cc45!}

{!LANG-5a0d6d5cd0c4f59fe975b538b460fcf5!}

    {!LANG-2cfe042359519ad4a814354f4cddac5c!}

    {!LANG-3b7aac6284aad5253b1bd22bfc015f01!}

    {!LANG-3de3f18e84177ce06cca397522bf3104!}

    {!LANG-3e29d9916794e2bee406f1e739da84a8!}

{!LANG-c16b82f96e9de8cbdf50c470dc61cdbd!}

{!LANG-f2fc8e9336e3367beb294dfdaa115618!}

{!LANG-bc0fada1d0398a9480f33f43a8459511!}

{!LANG-2fe7f15bf209053dcfe08b9e3231a60a!}

{!LANG-87a34f0848eead51300dd72581d04a5f!}

    {!LANG-63b1abb1b2fe2c8817fd525317ea1277!}

    {!LANG-62b486408ae6926e318f8264cf17e5ca!}

    {!LANG-aa16c67e71af8b66f7c6984d05119757!}

    {!LANG-ec1bf1395a6b6b7add0f1c570e83f291!}

Rezolvarea problemelor

{!LANG-c079b01ece528871eb657882dd6eaf1c!}

{!LANG-132ec544802b3867c0bab6731391417c!}

1 {!LANG-59ecaa9f1a55f7f79b1958b67f227663!}

{!LANG-b152e6bc8ae57054208e431d09477369!}

{!LANG-eaae5217fabbb7811302501740e86f47!}

{!LANG-1a192ff06b5e5cd2ab2b0b1acb76ebb6!}

    {!LANG-62cb7764cd123e04d0650675d0f07371!}

    {!LANG-abaf58d53e00dda0720e07a6051bb12e!}

    {!LANG-8beb6034c98212c0b53e9986ea603a59!}

    {!LANG-b5e44f51375f18dc438c622e6bcb5343!}

2 {!LANG-1d59e34878850af61216c1ba480de266!}

{!LANG-b152e6bc8ae57054208e431d09477369!}

{!LANG-0619712f2d81e1cd0a667f47e6ebfd8b!}

{!LANG-6d10761cdf47a8f0238b6c8ea221c142!}

    {!LANG-48aab3ec35157645a317ebfdc08fdd0a!}

    {!LANG-2a38aa8abf3b8fc4ad71be6ec8f1b0ac!}

    {!LANG-3720c49ba482665513911c2c7ee04a76!}

3 {!LANG-a063e877556b9d58e817b0dd0b008d6f!}

{!LANG-ca09f4cc34e68be336351299e3af73ac!}

    {!LANG-6dff8daba33dfca434374b3595dd4265!}

    {!LANG-77e49de9e3e1c974c5ed22c7de6ef12e!}

    {!LANG-01d3e5542e756050cc20b08774320496!}

{!LANG-678386ce0920e1e03fcb45bc354ec97f!}

{!LANG-365eed52e77d448b2421bc0c96dec0bb!} {!LANG-485bdbacefe22344f6e78ca58a669242!} 2 {!LANG-9892644303881c2fbba4c86aae976b7c!} {!LANG-69e5293081270bc15bb0742b6a29b219!}.

{!LANG-a4113da35ba59b94c19de1344fd4867f!}

{!LANG-b987cb94b74d55101668e97073edb713!}

unde n{!LANG-906a21f1a75c8a6eaf9a70e00a8eb899!}

{!LANG-3c8f727bf6e871531c56c9d3b086463a!}

{!LANG-5ba8a002ab08de5039c68ebc61d6a541!} n   și {!LANG-ccc87e7257869ad33a6a0bd9e28a4ae4!}{!LANG-178659cd47f7ab5d50d2e668deecc105!}

{!LANG-282a68f9e4302c467f08aa2c3b8731e1!}

{!LANG-58f2d703269721e9f98c3f71ad0ede15!}

{!LANG-73669093ef63420c2e6d2ec2544946ce!} Y{!LANG-ae4212d16b89a83e052dd544a2203b5f!} {!LANG-1a50f56c1cb183beffb60597d8779183!})

{!LANG-1818616b1bac81b97f4c54077eaafa38!}

{!LANG-3d4bad9addb903f248e6dbe2b4f6e34e!}

{!LANG-e59cee277d7c3d54f15a04284e282a00!}

{!LANG-76d29e188b5ead52e4350b13d5687753!}

{!LANG-40658adebfa9d07d4233dd7d4afe7be4!}

{!LANG-34a9d0206b20f1889cf8d208c168b201!}

{!LANG-b99990d419aff632958b06625a2fb40b!}