quarta-feira, 22 de junho de 2016

Aula 15 - Semifinal - Cronograma e Regressão Multipla

Acerar Agendas - Cronograma (Diagrama de Gant)
- Disciplina Residencia em Analises Estatistificas: foco total nos projetos dos alunos. Tem, na sala de aulas 3 professores (Sonia, Tadeu e Gabriel) e alunos da PG de Estatistifica (mestrado, doutorado e pós-doutorado);
- Quem tem intenção de fazer a disciplina:
Foto e postar


Alunos Residencia Ano 2016:



Aluno
Etapa
D Lines
Trabalho
Carolina Bartol.
Defesa
16/jun
Verificar todas as analises
Carolina Bartol.
Defesa
24/jun
Banca
Nicolle Arruda
Planej.
15/jun
Elaborar cronograma detalhado, porque temos somente 30 dias
Nicolle Arruda
Análise
15/jun
Dados de análise em Google drive
Nicolle Arruda
Condu.
22/jun
Conseguir Aluno (MS, DR, PD)
Nicolle Arruda
Condu.
22/jun
Fechar Parceria até 22/06/16 (Conversar com a Nicollena aula - 22/06)
Andre Machi
Análise
19/ago
Verificação de todas as analises
Andre Machi
Qualif.
19/ago
Banca
Andre Machi
Paper
29/out
Verificar todas as analises do Paper
Mariano Bragion
Planej.
04/jul
Planejamento do projeto de pesquisa
Melina cruzado
Análise
30/jun
Verificar todas as analises do Paper
Melina cruzado
Análise
05/jul
Verificar todas as analises do Paper
Helen Krystine da Silva
Planej.
30/set
Planejamento do projeto de pesquisa
Erick Saldaña
Planej.
05/ago
Planejamento do projeto de pesquisa
Erick Saldaña
Análise
05/out
Análise de dados
Marcos Busanello
Análise
30/jul
Análise de dados
Marcos Busanello
Paper
30/set
Paper
Rafael Popin
Análise
01/nov
Verificar todas as analises do Paper
Rafael Popin
Paper
01/jan
Paper
Marcel Camargo
Planej.
30/jun
Planejamento do pré-projeto
Ivan Balcão
Planej.
01/jul
Plano de Dissertação





 Regressão Múltipla - Seminários


Seminários
            Os alunos que quiserem podem apresentar os seus trabalhos de pesquisa para começarmos a interagir.
            Já analisamos dados e publicamos com alunos desta turma (2016), estamos analisando dados de outros, não é indispensável apresentar os trabalhos de pesquisa nesta disciplina. 
           Se fizerem a próxima disciplina Residencia em Analises Estatistificas, no próximo semestre a apresentação será mandatória. 
           Essa disciplina é a unica de nossa pós-graduado que não tem programa definido, os assuntos abordados nessa disciplina são os problemas de pesquisa dos alunos, logicamente os aspectos estatísticos. 
           Essa disciplina é interessante por que tem três professores na sala de aulas: a Prof. Sonia especialista em Amostragem e Estatística Experimental, o Prof. Tadeu, especialista em Estatistifica Multivariada e Estatística Experimental e eu, Estatística Robusta para Pesquisa e Gestão.                 Alem dos professores participam alunos de mestrado, doutorado e pós-doutorado em estatistifica da ESALQ.



Regressão Múltipla

Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):


Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e antidiarreico, as 3 variáveis anteriores as relacionaremos com a variável de resposta: Índice de Massa Corporal (IMC). 
Veja o comando SAS para testar esse modelo:

model IMC = Kcal_d Corr_s Cha_Sol;


O Modelo Estatístico é:
Assim voces o acharao na literatura (Douglas Montgomery Introduction to Linear Regression Analysis)


IMC = Bo + B1 * Kcal + B2 * Corr_s  +  B* Cha_Sol  +                        Erro do Modelo


IMC é a: 
 variável dependente (efeito)

Kcal_d Corr_s Cha_Sol:    
                          são as variáveis independentes (causa)


data multipl;
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29  2780    0.5 28
31  2890    1   27
20  2000    10  25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;



Resultados:


The SAS System


The GLM Procedure
Number of Observations Read9
Number of Observations Used9




The SAS System


The GLM Procedure
Dependent Variable: IMC

SourceDFSum of SquaresMean SquareF ValuePr > F
Model3205.979516968.659839057.020.0003
Error56.02048311.2040966
Corrected Total8212.0000000


Aqui podemos ver que se rejeita a Hipótese:

Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa  -->  efeito) com (1-0,0003) * 100 =  99,97 % de confiança rejeita-se Ho. Então existe alguma relação causas efeito.

Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.



R-SquareCoeff VarRoot MSEIMC Mean
0.9720574.8485611.13335123.37500


SourceDFType I SSMean SquareF ValuePr > F
Kcal_d1169.2880791169.2880791131.790.0003
Corr_s18.47903478.47903476.600.0620
Cha_Sol10.96994620.96994620.760.4339


SourceDFType III SSMean SquareF ValuePr > F
Kcal_d143.6836446343.6836446334.010.0043
Corr_s18.653658428.653658426.740.0603
Cha_Sol10.969946180.969946180.760.4339

Sempre na Regressão Múltipla Temos que utilizar Soma de Quadrados Tipo III. Também quando tivermos parcela perdida e ANOVA e MANOVA, temos que utilizar Soma de Quadrados Tipo III.


ParameterEstimateStandard Errort ValuePr > |t|
Intercept0.11690925155.301741860.020.9835
Kcal_d0.01161837450.001992285.830.0043
Corr_s-.12291356000.04735485-2.600.0603
Cha_Sol-.10674221160.12283635-0.870.4339


Podemos ver que a estimativa dos parâmetros 
Bo, B1, B e   B foi:



Parameter
Estimate
Bo = Intercept
0.1169092515
B1 = Kcal_d
0.0116183745
B2 = Corr_s
-.1229135600
B3 = Cha_Sol
-.1067422116


Podemos observar que:
             B> 0
                          B <0 
                 B <0
            assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma: 
             Bpositivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC
             Bnegativamente    ou seja quando aumenta corrida diminuí o IMC  
              B3  negativamente    ou seja quando aumentam as xícaras de chá por sema diminui o IMC 


Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:


Parameter
Estimate
Pr > |t|
Bo = Intercept
0.1169092515
0.9835
B1 = Kcal_d
0.0116183745
0.0043
B2 = Corr_s
-.1229135600
0.0603
B3 = Cha_Sol
-.1067422116
0.4339


Assim:
            O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
            O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d)  foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
            O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_snão foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significânciarejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
                      - Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
                      - Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais, 
                      - Recomendação das normas ISO, minimo 9 graus de liberdade do resíduodeveríamos ter 13 pontos amostrais.
    
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável  Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.

                  O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.

Temos um problema de Tamanho Amostral, isso impacta na significância da Variável Independente Corrida por Semana.
Assim utilizamos o Algoritmo de Cochran, para pesquisarmos o Tamanho Ótimo da Amostra.
Observamos que para uma população de tamanho N=25, o Tamanho Ótimo da Amostra é: 23 (por que a variação é muito grande, CV%= 100,3 %).
Assim deveríamos aumentar o tamanho da amostra para chegarmos em n = 23, deveríamos tomar dados de 23 - 8 = 15 pessoas mais.
Assim muito provavelmente a variável Corrida por Semana passara a ser estatisticamente significativa. 


Obs
IMC
Kcal_d
Corr_s
Cha_Sol
1
28
2500
1
20
2
19
2100
34
19
3
22
2300
12
18
4
29
2600

22
5
20
2200
17
25
6
18
2100
32
25
7
29
2780
0,5
28
8
31
2890
1
27
9
20
2000
10
25


Media=
13,4375



Desvio=
13,47335



CV%=
100,2668






Tamanho Otimo





da Amostra:









Pop. Infinita =

401,7877


Pop. Finita=

23,53557



Fotos do Calculo do Tamanho Ótimo de Amostra: