LCE_5736_PG - Estatística para Pesquisa e Gestão: Aula 15 - Semifinal

Acerar Agendas - Cronograma (Diagrama de Gant)
- Disciplina Residencia em Analises Estatistificas: foco total nos projetos dos alunos. Tem, na sala de aulas 3 professores (Sonia, Tadeu e Gabriel) e alunos da PG de Estatistifica (mestrado, doutorado e pós-doutorado);
- Quem tem intenção de fazer a disciplina:
Foto e postar

Alunos Residencia Ano 2016:

Aluno	Etapa	D Lines	Trabalho
Carolina Bartol.	Defesa	16/jun	Verificar todas as analises
Carolina Bartol.	Defesa	24/jun	Banca
Nicolle Arruda	Planej.	15/jun	Elaborar cronograma detalhado, porque temos somente 30 dias
Nicolle Arruda	Análise	15/jun	Dados de análise em Google drive
Nicolle Arruda	Condu.	22/jun	Conseguir Aluno (MS, DR, PD)
Nicolle Arruda	Condu.	22/jun	Fechar Parceria até 22/06/16 (Conversar com a Nicollena aula - 22/06)
Andre Machi	Análise	19/ago	Verificação de todas as analises
Andre Machi	Qualif.	19/ago	Banca
Andre Machi	Paper	29/out	Verificar todas as analises do Paper
Mariano Bragion	Planej.	04/jul	Planejamento do projeto de pesquisa
Melina cruzado	Análise	30/jun	Verificar todas as analises do Paper
Melina cruzado	Análise	05/jul	Verificar todas as analises do Paper
Helen Krystine da Silva	Planej.	30/set	Planejamento do projeto de pesquisa
Erick Saldaña	Planej.	05/ago	Planejamento do projeto de pesquisa
Erick Saldaña	Análise	05/out	Análise de dados
Marcos Busanello	Análise	30/jul	Análise de dados
Marcos Busanello	Paper	30/set	Paper
Rafael Popin	Análise	01/nov	Verificar todas as analises do Paper
Rafael Popin	Paper	01/jan	Paper
Marcel Camargo	Planej.	30/jun	Planejamento do pré-projeto
Ivan Balcão	Planej.	01/jul	Plano de Dissertação

Regressão Múltipla - Seminários

Seminários

Os alunos que quiserem podem apresentar os seus trabalhos de pesquisa para começarmos a interagir.
Já analisamos dados e publicamos com alunos desta turma (2016), estamos analisando dados de outros, não é indispensável apresentar os trabalhos de pesquisa nesta disciplina.
Se fizerem a próxima disciplina Residencia em Analises Estatistificas, no próximo semestre a apresentação será mandatória.
Essa disciplina é a unica de nossa pós-graduado que não tem programa definido, os assuntos abordados nessa disciplina são os problemas de pesquisa dos alunos, logicamente os aspectos estatísticos.
Essa disciplina é interessante por que tem três professores na sala de aulas: a Prof. Sonia especialista em Amostragem e Estatística Experimental, o Prof. Tadeu, especialista em Estatistifica Multivariada e Estatística Experimental e eu, Estatística Robusta para Pesquisa e Gestão. Alem dos professores participam alunos de mestrado, doutorado e pós-doutorado em estatistifica da ESALQ.

Regressão Múltipla

Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):

Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e antidiarreico, as 3 variáveis anteriores as relacionaremos com a variável de resposta: Índice de Massa Corporal (IMC).
Veja o comando SAS para testar esse modelo:

model IMC = Kcal_d Corr_s Cha_Sol;

O Modelo Estatístico é:
Assim voces o acharao na literatura (Douglas Montgomery Introduction to Linear Regression Analysis)

IMC = Bo + B1 * Kcal + B2 * Corr_s + B3 * Cha_Sol + Erro do Modelo

IMC é a:

variável dependente (efeito)

Kcal_d Corr_s Cha_Sol:

são as variáveis independentes (causa)

data multipl;
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29 2780 0.5 28
31 2890 1 27
20 2000 10 25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;

Resultados:

The SAS System

The GLM Procedure

Number of Observations Read	9
Number of Observations Used	9

The SAS System

The GLM Procedure

Dependent Variable: IMC

Source	DF	Sum of Squares	Mean Square	F Value	Pr > F
Model	3	205.9795169	68.6598390	57.02	0.0003
Error	5	6.0204831	1.2040966
Corrected Total	8	212.0000000

Aqui podemos ver que se rejeita a Hipótese:

Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa --> efeito) com (1-0,0003) * 100 = 99,97 % de confiança rejeita-se Ho. Então existe alguma relação causas efeito.

Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.

R-Square	Coeff Var	Root MSE	IMC Mean
0.972057	4.848561	1.133351	23.37500

Source	DF	Type I SS	Mean Square	F Value	Pr > F
Kcal_d	1	169.2880791	169.2880791	131.79	0.0003
Corr_s	1	8.4790347	8.4790347	6.60	0.0620
Cha_Sol	1	0.9699462	0.9699462	0.76	0.4339

Source	DF	Type III SS	Mean Square	F Value	Pr > F
Kcal_d	1	43.68364463	43.68364463	34.01	0.0043
Corr_s	1	8.65365842	8.65365842	6.74	0.0603
Cha_Sol	1	0.96994618	0.96994618	0.76	0.4339

Sempre na Regressão Múltipla Temos que utilizar Soma de Quadrados Tipo III. Também quando tivermos parcela perdida e ANOVA e MANOVA, temos que utilizar Soma de Quadrados Tipo III.

Parameter	Estimate	Standard Error	t Value	Pr > \|t\|
Intercept	0.1169092515	5.30174186	0.02	0.9835
Kcal_d	0.0116183745	0.00199228	5.83	0.0043
Corr_s	-.1229135600	0.04735485	-2.60	0.0603
Cha_Sol	-.1067422116	0.12283635	-0.87	0.4339

Podemos ver que a estimativa dos parâmetros
Bo, B1, B2 e B3 foi:

Parameter	Estimate
Bo = Intercept	0.1169092515
B1 = Kcal_d	0.0116183745
B2 = Corr_s	-.1229135600
B3 = Cha_Sol	-.1067422116

Podemos observar que:
B1 > 0
  B2  <0
B3  <0
assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma:
B1 positivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC,
B2 negativamente    ou seja quando aumenta corrida diminuí o IMC
B3 negativamente    ou seja quando aumentam as xícaras de chá por sema diminui o IMC

Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:

Parameter	Estimate	Pr > \|t\|
Bo = Intercept	0.1169092515	0.9835
B1 = Kcal_d	0.0116183745	0.0043
B2 = Corr_s	-.1229135600	0.0603
B3 = Cha_Sol	-.1067422116	0.4339

Assim:
  O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d)  foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
  O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_s) não foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significância, rejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
- Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
- Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais,
- Recomendação das normas ISO, minimo 9 graus de liberdade do resíduo, deveríamos ter 13 pontos amostrais.

Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável  Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.

  O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3 = Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.

Temos um problema de Tamanho Amostral, isso impacta na significância da Variável Independente Corrida por Semana.
Assim utilizamos o Algoritmo de Cochran, para pesquisarmos o Tamanho Ótimo da Amostra.
Observamos que para uma população de tamanho N=25, o Tamanho Ótimo da Amostra é: 23 (por que a variação é muito grande, CV%= 100,3 %).
Assim deveríamos aumentar o tamanho da amostra para chegarmos em n = 23, deveríamos tomar dados de 23 - 8 = 15 pessoas mais.
Assim muito provavelmente a variável Corrida por Semana passara a ser estatisticamente significativa.

Obs	IMC	Kcal_d	Corr_s	Cha_Sol
1	28	2500	1	20
2	19	2100	34	19
3	22	2300	12	18
4	29	2600		22
5	20	2200	17	25
6	18	2100	32	25
7	29	2780	0,5	28
8	31	2890	1	27
9	20	2000	10	25
		Media=	13,4375
		Desvio=	13,47335
		CV%=	100,2668

Tamanho Otimo
	da Amostra:

	Pop. Infinita =		401,7877
	Pop. Finita=		23,53557

Fotos do Calculo do Tamanho Ótimo de Amostra:

LCE_5736_PG - Estatística para Pesquisa e Gestão

quarta-feira, 22 de junho de 2016

Aula 15 - Semifinal - Cronograma e Regressão Multipla

Nenhum comentário:

Postar um comentário