1) Carolina Bartoletti (Apresent. Mestrado)
2) Eduardo Sotware R
3) Regressão Multipla
Seminários
Os alunos que quiserem podem apresentar os seus trabalhos de pesquisa para começarmos a interagir.Já analisamos dados e publicamos com alunos desta turma (2016, também 2015 e 2014), estamos analisando dados de outros, não é indispensável apresentar os trabalhos de pesquisa nesta disciplina.
Se fizerem a próxima disciplina Residencia em Analises Estatistificas, no próximo semestre a apresentação será mandatória.
Essa disciplina é a unica de nossa pós-graduado que não tem programa definido, os assuntos abordados nessa disciplina são os problemas de pesquisa dos alunos, logicamente os aspectos estatísticos.
Essa disciplina é interessante por que tem três professores na sala de aulas: a Prof. Sonia especialista em Amostragem e Estatística Experimental, o Prof. Tadeu, especialista em Estatistifica Multivariada e Estatística Experimental e eu, Estatística Robusta para Pesquisa e Gestão. Alem dos professores participam alunos de mestrado, doutorado e pós-doutorado em estatistifica da ESALQ.
Os trabalhos são conduzidos através do LAE/ESALQ (Laboratório de Analises Estatísticas da ESALQ).
Regressão Múltipla
Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):
data multipl;
Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e antidiarreico, as 3 variáveis anteriores no Índice de Massa Corporal (IMC). Veja o comando SAS para testar esse modelo:
model IMC = Kcal_d Corr_s Cha_Sol;
O Modelo Estatístico é:
IMC = Bo + B1 * Kcal + B2 * Corr_s + B3 * Cha_Sol + Erro do Modelo
IMC é a:
Kcal_d Corr_s Cha_Sol:
variável dependente (efeito)
Kcal_d Corr_s Cha_Sol:
são as variáveis independentes (causa)
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29 2780 0.5 28
31 2890 1 27
20 2000 10 25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;
Resultados:
The SAS System |
The GLM Procedure
Number of Observations Read | 9 |
---|---|
Number of Observations Used | 9 |
The SAS System |
The GLM Procedure
Dependent Variable: IMC
Source | DF | Sum of Squares | Mean Square | F Value | Pr > F |
---|---|---|---|---|---|
Model | 3 | 205.9795169 | 68.6598390 | 57.02 | 0.0003 |
Error | 5 | 6.0204831 | 1.2040966 | ||
Corrected Total | 8 | 212.0000000 |
Aqui podemos ver que se rejeita a Hipótese:
Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa --> efeito) com (1-0,0003) * 100 = 99,97 % de confiança. Então existe alguma relação causas efeito.
Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.
Cola analise com dado perdido @@@@@@@@@@@@@@
R-Square | Coeff Var | Root MSE | IMC Mean |
---|---|---|---|
0.972057 | 4.848561 | 1.133351 | 23.37500 |
Source | DF | Type I SS | Mean Square | F Value | Pr > F |
---|---|---|---|---|---|
Kcal_d | 1 | 169.2880791 | 169.2880791 | 131.79 | 0.0003 |
Corr_s | 1 | 8.4790347 | 8.4790347 | 6.60 | 0.0620 |
Cha_Sol | 1 | 0.9699462 | 0.9699462 | 0.76 | 0.4339 |
Source | DF | Type III SS | Mean Square | F Value | Pr > F |
---|---|---|---|---|---|
Kcal_d | 1 | 43.68364463 | 43.68364463 | 34.01 | 0.0043 |
Corr_s | 1 | 8.65365842 | 8.65365842 | 6.74 | 0.0603 |
Cha_Sol | 1 | 0.96994618 | 0.96994618 | 0.76 | 0.4339 |
Parameter | Estimate | Standard Error | t Value | Pr > |t| |
---|---|---|---|---|
Intercept | 0.1169092515 | 5.30174186 | 0.02 | 0.9835 |
Kcal_d | 0.0116183745 | 0.00199228 | 5.83 | 0.0043 |
Corr_s | -.1229135600 | 0.04735485 | -2.60 | 0.0603 |
Cha_Sol | -.1067422116 | 0.12283635 | -0.87 | 0.4339 |
Podemos ver que a estimativa dos parâmetros
Bo, B1, B2 e B3 foi:
Podemos observar que:
B1 > 0
B2 <0
B3 <0
assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma:
B1 positivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC,
B2 negativamente ou seja quando aumenta corrida diminuí o IMC
B3 negativamente ou seja quando aumentam as xícaras de chá por sema diminui o IMC
Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:
Bo, B1, B2 e B3 foi:
Parameter
|
Estimate
|
Bo = Intercept
|
0.1169092515
|
B1 = Kcal_d
|
0.0116183745
|
B2 = Corr_s
|
-.1229135600
|
B3 = Cha_Sol
|
-.1067422116
|
B1 > 0
B2 <0
B3 <0
assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma:
B1 positivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC,
B2 negativamente ou seja quando aumenta corrida diminuí o IMC
B3 negativamente ou seja quando aumentam as xícaras de chá por sema diminui o IMC
Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:
Parameter
|
Estimate
|
Pr > |t|
|
Bo = Intercept
|
0.1169092515
|
0.9835
|
B1 = Kcal_d
|
0.0116183745
|
0.0043
|
B2 = Corr_s
|
-.1229135600
|
0.0603
|
B3 = Cha_Sol
|
-.1067422116
|
0.4339
|
Assim:
O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d) foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_s) não foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significância, rejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
- Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
- Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais,
- Recomendação das normas ISO, minimo 9 graus de liberdade do resíduo, deveríamos ter 13 pontos amostrais.
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.
O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.
O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d) foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_s) não foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significância, rejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
- Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
- Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais,
- Recomendação das normas ISO, minimo 9 graus de liberdade do resíduo, deveríamos ter 13 pontos amostrais.
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.
O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.
Nenhum comentário:
Postar um comentário