ANALIZA REGRESJI WIELOKROTNEJ

Strona Główna · Prace · Dodaj Prace

Maj 12 2024 21:19:07

Mapa Serwisu

Nawigacja

Strona Główna

Prace

Dodaj Prace

Kontakt

Szukaj

Jezyk Polski

WYPRACOWANIA
STRESZCZENIA
OPRACOWANIA
OMÓWIENIE LEKTUR
GRAMATYKA
BAJKI
PIEŁNI
MOTYW
INNE

Antyk
Łredniowiecze
Renesans
Barok
Oświecenie
Romantyzm
Pozytywizm
Młoda Polska
XX Lecie
Współczesność

Przedmioty ścisłe

Matematyka
Chemia
Fizyka
Informatyka

Pozostałe

Geografia
Biologia
Historia
JęZYK ANGIELSKI

Opracowania


Szukaj w serwisie Szukaj:

ANALIZA REGRESJI WIELOKROTNEJ

Admin1 dnia marzec 15 2007 17:11:58

ANALIZA REGRESJI WIELOKROTNEJ

Charakterystyka próby
Analizowana przeze mnie próbka zawiera trzy zmienne, gdzie:
Zmienną zależną Y jest oporność elektryczna w nawęglaczu wyrażona w mikroomometrach [ m ] a zmiennymi niezależnymi (opisującymi) są odpowiednio:
X 1 – gęstość [g/cm3]
X 2 – przewodność cieplna [W/K*m]
Lp. X 1-d - Gęstość X 2- TC - Przewodność Y - SER -Oporność
1 1,61 11,0 27,8
2 1,61 10,5 28,5
3 1,65 9,1 29,3
4 1,67 13 26,0
5 1,67 11,8 28,2
6 1,69 11,8 27,5
7 1,70 11,0 28,4
8 1,70 9,7 29,4
9 1,70 7,4 31,9
10 1,71 13,1 28,0
11 1,71 9,7 29,6
12 1,71 9,6 30,8
13 1,72 7,6 30,5
14 1,72 11,0 29,2
15 1,73 8,7 30,4
16 1,73 8,6 30,8
17 1,73 7,5 32,8
18 1,74 13 27,8
19 1,75 10 30,5
20 1,76 8,7 32,8
21 1,77 7,4 32,6
22 1,78 11,5 29,3
23 1,78 11,9 29,3
24 1,78 9,9 31,0
25 1,79 8,1 32,4
26 1,79 10,8 31,3
27 1,80 11,1 29,9
28 1,80 10,9 32,7
29 1,83 9,9 29,0
30 1,84 7,5 33,9
31 1,85 9,9 31,5
32 1,86 7,5 33,5
33 1,89 9,5 34,3
34 1,90 8,9 34,2

Celem niniejszego opracowania jest przeprowadzenie analizy ekonometrycznej i zbadanie zależności jak gęstość i przewodność cieplna wpływa na oporność elektryczną w nawęglaczu. w losowo wybranej próbie z badań laboratoryjnych jednej z firm.

Zadaniem moim będzie wnioskowanie jak parametry objaśniające wpływają na zmienną objaśnianą.

Ze względu na swoje zastosowanie materiał nawęglający standardowo nie musi spełniać wymogów pod względem takich własności jak d (gęstość), TC (przewodność) oraz SER (oporność). Normowana jest w nim zawartość węgla pierwiastkowego (limit dolny), oraz zawartość pierwiastków mających niedobry wpływ na proces produkcji stali (takich np. jak siarka). Badania więc przeprowadzone były w celach czysto poznawczych.

Analiza zmiennych niezależnych X 1, X 2 , oraz zmiennej zależnej Y

Analizę zmiennych niezależnych o raz zmiennej zależnej przeprowadziłam na zasadzie porównania ich statystyk opisowych.

Statystyki opisowe

Y – SER - oporność

Łrednia 30,44412
Błąd standardowy 0,366225
Mediana 30,45
Odchylenie standardowe 2,135443
Wariancja próbki 4,560116
Kurtoza -0,75953
Skośność 0,122412
Zakres 8,3
Minimum 26
Maksimum 34,3
Suma
1035,1
Licznik 34

X 1 d - gęstość X 2 TC przewodność

Łrednia 1,749118 Łrednia 9,929412
Błąd standardowy 0,012348 Błąd standardowy 0,291457
Mediana 1,735 Mediana 9,9
Tryb 1,7 Tryb 11
Odchylenie standardowe 0,072 Odchylenie standardowe 1,69947
Wariancja próbki 0,005184 Wariancja próbki 2,8882
Kurtoza -0,23306 Kurtoza -0,81707
Skośność 0,193039 Skośność 0,127435
Zakres 0,29 Zakres 5,7
Minimum 1,61 Minimum 7,4
Maksimum 1,9 Maksimum 13,1
Suma 59,47 Suma 337,6
Licznik 34 Licznik 34

Analizując statystyki opisowe zmiennych niezależnych X 1, X 2 i Y można zauważyć, że wartości średniej i mediany we wszystkich trzech przypadkach są prawie identyczne co wskazywałoby na to, że rozkłady tych zmiennych są normalne. Jednak kurtozy będące miarą spłaszczenia, dla wszystkich zmiennych są ujemne więc rozkłady ich są bardziej spłaszczone niż przy rozkładzie normalnym.
Współczynnik skośności przy wszystkich zmiennych jest dodatni co świadczy o prawostronności rozkładu.
Przyglądając się kurtozom analizowanych zmiennych obserwujemy, że co do wartości bezwzględnej kurtoza zmiennej X 1 jest wyra¼nie mniejsza niż X2 i Y więc rozkład tej zmiennej jest najbardziej zbliżony do rozkładu normalnego a zmienna X 2 wykazuje największe spłaszczenie. Z kolei skośność zmiennej X 1 jest większa niż X 2 i Y i pod tym względem X 1 najbardziej różni się od rozkładu normalnego. Skośności X 2 i Y kształtują się na tym samym poziomie.
Ponieważ na podstawie samych odchyleń standardowych nie można porównywać rozproszenia poszczególnych zmiennych, obliczyłam współczynniki zmienności będące stosunkiem odchylenia standardowego do średniej arytmetycznej poszczególnych zmiennych:

Vs = s/x * 100(%)

s- odchylenie standardowe
x- średnia arytmetyczna
i tak dla :
X 1. Vs = 0,072/1,749 * 100 = 4,11%
dla
X 2. Vs = 1,699/9,929 * 100 = 17,11%
i dla
Y. Vs = 2,135/30,444 * 100 = 7,01%
wynika z tego, że zmienna X 1 jest najbardziej skupiona, a X 2 charakteryzuje się stosunkowo dużym rozproszeniem.

Histogramy wszystkich trzech zmiennych potwierdzają prawostronność rozkładów, ponieważ więcej zmiennych przyjmuje wartość powyżej średniej.

Analiza korelacji

Głównym celem niniejszej analizy jest wykazanie wpływu zmiennych niezależnych (objaśniających) X 1 i X 2 , na zmienną zależną (objaśnianą Y. Temu celowi służy analiza regresji liniowej. Regresja stanowi zależność pomiędzy kilkoma zmiennymi i może być wykorzystywana w procesie podejmowania decyzji.
Do analizy mojego przykładu wykorzystałam dodatek programowy Excele’a o nazwie „Regresja”, który umożliwił mi uproszczenie obliczeń dotyczących analizy regresji.
Analizę zależności rozpoczęłam od określenia wpływu zmiennych objaśniających na kształtowanie się zmiennej objaśnianej.
Podstawą wyboru zmiennych objaśniających do modelu ekonometrycznego jest analiza korelacji. W wyniku przeprowadzonej analizy korelacji otrzymałam następujące wyniki:

X1/X2 -0,29
X1/Y 0,72
X2/Y -0,75

Do określenia korelacji – czyli zależności pomiędzy zmiennymi służy współczynnik korelacji.
Współczynnik korelacji liniowej może przyjąć wartości dodatnie i ujemne z przedziału (-1;+1). Wartości dodatnie przyjmuje wówczas, gdy występuje zależność dodatnia (wraz ze wzrostem wartości zmiennej niezależnej rosną wartości zmiennej zależnej), natomiast wartość ujemną – w przypadku ujemnej zależności między zmiennymi (wraz ze wzrostem wartości zmiennej niezależnej wartości zmiennej zależnej maleją). Współczynnik korelacji „0” oznacza brak liniowego związku korelacyjnego między dwiema zmiennymi.
W związku z powyższym analizując współczynniki korelacji pomiędzy badanymi przeze mnie zmiennymi doszłam do wniosku, że pomiędzy zmiennymi niezależnymi X1/X2 występuje słaba ujemna korelacja, natomiast w stosunku do zmiennej zależnej obie niezależne są dość mocno skorelowane, z tym że zmienna X 1 wykazuje zależność dodatnią a X2 zależność ujemną.

Analiza statystyk regresji
Po przeanalizowaniu współczynników korelacji pomiędzy zmiennymi X1, X2, i Y przystąpię do analizy statystyk regresji.

Statystyki regresji
Wielokrotność R 0,916617
R kwadrat 0,840187
Dopasowany R kwadrat 0,829876
Błąd standardowy 0,880786
Obserwacje 34

Przede wszystkim należy zbadać zależność pomiędzy zmiennymi tzn. stopień ich korelacji. Z tabeli statystyk regresji odczytałam wielokrotność R określającą zależność pomiędzy zmiennymi objaśniającymi czyli X 1 – gęstością, X 2 – przewodnością a zmienną objaśnianą Y – opornością. W analizowanej próbce wielokrotność R wynosi 0,91 co wskazuje na silną zależność pomiędzy zmiennymi niezależnymi a zależną.
Miarą dopasowania służącą do określenia jaka część całkowitej zmienności zależnej Y jest wyjaśniona regresją liniową względem zmiennych niezależnych jest współczynnik determinacji R2. Wynik otrzymany w badanej próbce to 0,84 co oznacza, że 84% danych zmiennej zależnej wchodzi w linię trendu i jest to wynik w miarę dobry bo tylko 16% zróżnicowania Y nie jest wyjaśnione regresją liniową.
Dopasowany R2 jest miarą bardziej dokładną i staje się bardziej wiarygodny jeżeli zwiększamy ilość próbek. W analizowanym przypadku dopasowany R2 jest nieznacznie niższy od współczynnika determinacji i wynosi prawie 83%.
Błąd standardowy informuje nas o tym, jak wartości doświadczalne odchylają się od średniej przewidywanej wielkości. W tym przypadku wynosi on 0,88 i jest raczej niski.
Obserwacje 34 oznaczają liczebność badanej próby.

Współczynniki Błąd standardowy t Stat Wartość-p Dolne 95% Górne 95%
Przecięcie 9,739415486 4,256594039 2,28807713 0,02911043 1,05802987 18,4208011
X 1-CTE - Gęstość 16,10637131 2,223584653 7,24342619 0,00000003 11,571338 20,6414046
X 2- TC - Przewodność -0,752032074 0,094205119 -7,9829216 0,00000000 -0,9441648 -0,5598994

Z powyższej tabelki wynika, iż współczynnik przy X1 czyli a1= 16,11, współczynnik przy X2 czyli a2= -0,75, natomiast współczynnik b= 9,74 (wyraz wolny- przecięcie , mówi nam o przesunięciu wykresu ).

Równanie regresji liniowej dla populacji ma postać
EY = X X

Po rozpatrzeniu współczynników korelacji oraz statystyk regresji mogę zapisać równanie regresji dla badanej próby.

Y = a1X1 + a2X2 + b

Z Metody najmniejszych kwadratów wynika, że w omawianym przeze mnie przypadku:
Y = 16,11x1 – 0,75x2 + 9,74

Z równania regresji wynika:
1. Jeżeli gęstość wzrośnie o 1 g/cm3 to oporność wzrośnie o 16,11 mikroomometrów
2. Jeżeli przewodność cieplna wzrośnie o 1 W/k*m. to oporność spadnie o 0,75 mikroomometra.
3. Jeżeli gęstość i przewodność cieplna nie zmienią się , to oporność wzrośnie o 9,74

Ważnym czynnikiem umożliwiającym weryfikację hipotez statystycznych, określającym czy dana wartość jest istotna statystycznie jest graniczny poziom istotności p.-value, jest to taka wartość prawdopodobieństwa , że na każdym poziomie istotności  nie mniejszym od niej ( większym lub równym ) hipotezę zerową możemy odrzucić.
Jak widać z załączonej powyżej tabeli wynika, że w analizowanym przypadku wartości p-value są znacznie mniejsze od  na poziomie istotności 5%, świadczy o tym, że zależność pomiędzy zmiennymi jest istotna statystycznie.
Przedziały ufności - przedział powstały na podstawie opracowania danych z próbki, taki, że z określonym prawdopodobieństwem pokrywa prawdziwą nieznaną wartość parametru. Długość tego przedziału jest związana z podanym prawdopodobieństwem; Dolne 95% określa nam dolną granicę przedziału ufności , a górny 95% mówi o górnej granicy przedziału ufności do którego wpada nasza wartość . Tak więc dla poszczególnych zmiennych wygląda to następująco: a1= 16,11 mieści się w przedziale ( 11,57 ; 20,64 ) , a2= -0,75 mieści się w przedziale ( -0,94 ; -0,550,14 ), dla b= 9,74 przedział ( 1,06 ; 18,42 ). Takie szacowanie jest tym lepsze , im krótszy jest przedział ufności przy wyższym poziomie ufności.

Błędy standardowe estymatora są małe i wynoszą odpowiednio:
Sa1 = 2,223;
Sa2 = 0,094
Sb = 4,256
Tak małe błędy standardowe zmiennych niezależnych świadczą o tym , iż zmienne istotnie wpływają na zmienną zależną.

Regułą postępowania umożliwiającą podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy na podstawie dowolnie ustalonej próby losowej jest test statystyczny.
Założenie : poziom istotności  5%.
H0: 
 0
Wartość p-value dla jest mniejsza od poziomu istotności i H0 odrzucamy. Oznacza to , iż nie ma podstaw do odrzucenia H1 i wartość współczynnika przy X1 jest istotna statystycznie .

H0: 
 0
Wartość p- value dla - jest mniejsza od poziomu istotności i H0 odrzucamy . Natomiast nie podstaw do odrzucenia H1 , tak więc przyjmujemy i wartość współczynnika przy X2 jest istotna statystycznie .

Można jeszcze przeprowadzić analizę hipotezy dla wyrazu wolnego 
= 0
 0
Wartość dla = 0,02 i jest mniejsza od poziomu istotności H0 odrzucamy i przyjmujemy jako wyraz wolny równania regresji liniowej dla naszego modelu. Oznacza to , iż na poziomie istotności 5% punkt przecięcia z osią OY jest istotny statystycznie.

Analiza wariancji

ANALIZA WARIANCJI
df SS MS F Istotność F
Regresja 2 126,4345081 63,21725405 81,48817715 4,52898E-13
Resztkowy 31 24,04931542 0,775784369
Razem 33 150,4838235

Dla weryfikacji założenia o istotności statystycznej z uwagi fakt, iż zmienne mogą być niezależne nawet przy dużym Dopasowanym R ( 90% ) należy przeprowadzić Test Fischera.

Hipotezy:
H0 ; 1 = 2 = 0 – przyjęcie tej hipotezy świadczy o braku zależności
H1 ; 1 ≠ 0 lub 2 ≠ 0 – przyjęcie tej hipotezy świadczy o istnieniu zależności.
Założony poziom istotności  = 5%
Odczytując wynik z tabeli- istotność F = 0,0000000000004, stwierdziłam, że jest on znacznie mniejszy od założonego , w związku z tym odrzucam hipotezę H0 a przyjmuję hipotezę H1.
Stwierdziłam zatem, że na poziomie istotności 5% zależność pomiędzy gęstością X1, przewodnością X2 a zależną od nich opornością Y jest istotna statystycznie, (to znaczy nie jest zerowa) i model jest wiarygodny.
Z dalszej analizy wariancji można odczytać:
df – poziomy istotności swobody
SS – całkowitą sumę kwadratów odchyleń od średniej arytmetycznej z wszystkich obserwacji
MS – średni kwadrat odchyleń wyjaśnionych regresją liniową (63,217), oraz niewyjaśnioną regresją (0,775)
F – rozkład Fischera Snodekera
Istotność F – określa czy wszystkie zmienne niezależne razem wpływają na zmienną zależną jeżeli jest ona mniejsza od F to hipotezę H0 odrzucamy.

Rozkład linii dopasowanej X1

Z analizy powyższego wykresu obrazującego rozmieszczenie poszczególnych składników próbki względem linii trendu można wnioskować, iż wartości zmiennej objaśniającej X1 są skumulowane wokół linii trendu, co świadczy o normalności rozkładu.

Rozkład linii dopasowanej X2

Rozmieszczenie poszczególnych składników próbki względem linii trendu dla zmiennej objaśniającej X 2 świadczy tak jak w przypadku X1 o normalności rozkładu, z tym, że linia trendu wykazuje nachylenie ujemne co wskazuje na ujemną korelację przewodności w stosunku do oporności.

Analiza reszt
W dalszej kolejności na podstawie wykresów rozkładu reszt, przeprowadzę analizę rozkładu reszt, jako elementu realizacji czynnika losowego.
SK£ADNIKI RESZTOWE - WYJŁCIE

Obserwacja Przewidywane Y - SER -Oporność Składniki resztowe Std. składniki resztowe
1 27,398320 0,401680 0,470528
2 27,774337 0,725663 0,850043
3 29,471436 -0,171436 -0,200821
4 26,860639 -0,860639 -1,008153
5 27,763077 0,436923 0,511812
6 28,085205 -0,585205 -0,685509
7 28,847894 -0,447894 -0,524663
8 29,825536 -0,425536 -0,498473
9 31,555209 0,344791 0,403888
10 27,429690 0,570310 0,668061
11 29,986599 -0,386599 -0,452863
12 30,061803 0,738197 0,864725
13 31,726930 -1,226930 -1,437228
14 29,170021 0,029979 0,035117
15 31,060759 -0,660759 -0,774014
16 31,135962 -0,335962 -0,393546
17 31,963197 0,836803 0,980232
18 27,988085 -0,188085 -0,220322
19 30,405245 0,094755 0,110997
20 31,543950 1,256050 1,471338
21 32,682655 -0,082655 -0,096823
22 29,760388 -0,460388 -0,539298
23 29,459575 -0,159575 -0,186926
24 30,963639 0,036361 0,042593
25 32,478360 -0,078360 -0,091791
26 30,447874 0,852126 0,998182
27 30,383328 -0,483328 -0,566171
28 30,533734 2,166266 2,537566
29 31,768957 -2,768957 -3,243560
30 33,734898 0,165102 0,193400
31 32,091085 -0,591085 -0,692397
32 34,057026 -0,557026 -0,652500
33 33,036153 1,263847 1,480472
34 33,648436 0,551564 0,646103

Rozkład reszt zmiennej X1

Z obserwacji rozkładu reszt na powyższym wykresie wynika, że skoro wartości reszt rozkładają się po obu stronach w miarę symetrycznie to trend jest liniowy i nie wykazuje cech świadczących o nie – Gausowości rozkładu np.: smug (heteroscedastyczność), zbyt długich serii o stałym znaku (brak liniowości modelu), czy też występowania wijącej się wstęgi reszt o stałej szerokości (autokorelacja).

Rozkład reszt zmiennej X2

Rozkład reszt zmiennej niezależnej X2 jest analogiczny jak w przypadku zmiennej niezależnej X1 co świadczy o liniowości tego rozkładu.

Wnioski końcowe:

Analizując otrzymane wyniki doszłam do przekonania, że pierwotne założenie o wpływie gęstości i przewodności cieplnej na oporność elektryczną w nawęglaczu okazało się słuszne. Wielkości te są mocno ze sobą skorelowane i nie można dokonać zmiany żadnej z badanych zmiennych niezależnych w ten sposób aby nie wywołało to zmiany w zmiennej zależnej.

0Komentarzy · 1565Czytań

Komentarze

Brak komentarzy.

Dodaj komentarz

Zaloguj się, żeby móc dodawać komentarze.

Oceny

Dodawanie ocen dostępne tylko dla zalogowanych Użytkowników.

Proszę się zalogować lub zarejestrować, żeby móc dodawać oceny.

Brak ocen.

Student

Analiza finansowa i           strategiczna
Bankowość
Ekonometria
Ekonomia - definicje
Filozofia
Finanse
Handel Zagraniczny
Historia gospodarcza
Historia myśli
          ekonomicznej
Integracja europejska
Logistyka
Makroekonomia
Marketing
Mikroekonomia
Ochrona środowiska
Podatki
Polityka
Prawo
Psychologia
Rachununkowość
Rynek kapitałowy
Socjologia
Statystyka
Stosunki
          międzynarodowe
Ubezpieczenia i ryzyko
Zarządzanie

Strona Główna · Prace · Dodaj Prace

5914382 Unikalnych wizyt
Powered by Php-Fusion 2003-2005 and opracowania
Opracowania1 Opracowania2 Opracowania3 Opracowania4 Opracowania5 Opracowania6 Opracowania7 Opracowania8 Opracowania9 Opracowania10 Opracowania11 Opracowania12 Opracowania13 Opracowania14 Opracowania15 Opracowania16 Opracowania17 Opracowania18 Opracowania19 Opracowania20 Opracowania21 Opracowania22 Opracowania23 Opracowania24 Opracowania25 Opracowania26 Opracowania27 Opracowania28 Opracowania29 Opracowania30 Opracowania31 Opracowania32 Opracowania33 Opracowania34 Opracowania35 Opracowania36 Opracowania37 Opracowania38 Opracowania39