quarta-feira, 30 de março de 2016

Assuntos de Pesquisa da Disciplina

- Teste de Abbott: Eficacia, dose letal.
- Regressão Robusta,vieses cognitivos e aprendizado, analise de decisões e gestão de riscos.
- Mesmos dados analisados por Estatística Convencional (Parametrica) Vs. Estatística Robusta 

- analise de resíduos ANOVA

terça-feira, 29 de março de 2016

Aula 5 (...) Teste T para Amostras Pareadas e Introducao ao SAS

Aula V - Teste T para Amostras Pareadas e Introducao ao SAS


Observations on the use of statistical methods in Food Science and Technology

http://www.sciencedirect.com/science/article/pii/S0963996913005723


The use of statistical software in food science and technology: Advantages, limitations and misuses

http://www.sciencedirect.com/science/article/pii/S0963996915300557



SAS Students Remoto Servidor LCE:
143.107.212.50:10080

- Segunda Situação para Tomada de Decisão Utilizando Inferência Estatística Indutiva


Os dados estão amarrados:
No exemplo medimos o consumo de combustível antes e depois da regulagem, ou seja, fazemos a medição do mesmo carro antes da regulagem e depois.

Podemos pensar (segundo exemplo) em um grupo de pessoas que monitoram seu peso antes e depois de uma reeducação alimentar.

Outro Exemplo: Fratura de Asa em Frango, antes da apanha e depois da apanha e do transporte.

Teste T para Amostras Pareadas
Exemplo para Dowload:

Teste T para Amostras Pareadas


Video para Análise dos Dados:
Macro Analise Teste T Amostras Pareadas






Teste-t: duas amostras em par para médias






Antes
Depois da Regulagem
Média
9,833333333
10,53333333
Variância
8,8975
6,0175
Observações
9
9
Correlação de Pearson
0,964685505

Hipótese da diferença de média
0

gl
8

Stat t
-2,351548546

P(T<=t) uni-caudal
0,023284275
Inform. Previa (já somos clientes)
t crítico uni-caudal
1,859548033

P(T<=t) bi-caudal
0,04656855
Primeiro servico desses mecanicos
t crítico bi-caudal
2,306004133



Te




Sumario Executivo (Setor Produtivo) da Regulagem dos Carros (7/4/2015):
A regulagem dos carros foi bem sucedida, o consumo antes da regulagem era de 9,83 km /l e depois da regulagem passou para 10,53 km/l com margem de erro= 2,3 % (já tínhamos um boa referência dessa oficina mecânica).

Resultados e Discussão ( Universidade):
Rejeitou-se a hipótese de igualdade, assim existe o efeito da regulagem (p<0,02). A média anterior à regulagem era 9,83 km /l e após a regulagem foi 10,53 km/l.




Discussão Sobre Teste T Amostras Independentes Vs. Amostras Pareadas
Amostras Independentes: as observações (unidades experimentais ou observacionais) não estão relacionadas, ou seja são independentes. No exemplo trabalhamos com DBO, os córregos da região urbana não tinham nenhuma relação com os córregos da área de floresta, rural, suburbana, etc.
O Teste correspondente na Est. Robusta é o Teste U de Mann Whitney.
A generalização dessa situação para mais do que duas situações (tratamentos) é a análise conhecida como ANOVA One Way ou no campo da Estatística Robusta seria o Teste de Kruskal Wallis.
Texto copiado da Wikipidia:
The Kruskal–Wallis one-way analysis of variance by ranks (named after William Kruskal and W. Allen Wallis) is a non-parametric method for testing whether samples originate from the same distribution.[1][2][3] It is used for comparing two or more samples that are independent, and that may have different sample sizes, and extends the Mann–Whitney U test to more than two groups. The parametric equivalent of the Kruskal-Wallis test is the one-way analysis of variance (ANOVA).
Amostras Pareadas
As amostras são relacionadas, por exemplo o carro Uno foi medido antes e depois da regulagem, ou seja esses dados estão relacionados (ou não são independentes ) por que foram medidos no mesmo carro (unidade observacional ou experimental).
A técnica equivalente na Est. Robusta e o Teste de Wilcoxon.

Este teste esta relacionado na ANOVA Two Ways (Delineamento em Blocos Casualizados). Na Estatística Robusta é o Teste de Friedman.








Exercício 4 Teste T para Amostras Pareadas, criar um exemplo individual . DL: 29/4

- Explicação para Numero Magico de 30 pontos amostrais em marketing e inteligencia organizacional (Dialogo com Gerente de Inteligencia Antesipativa da Informa Economics, Marcelo - Camarão):


Gabriel,
Conforme conversamos por telefone sobre :  QUAL A BASE TEÓRICA que Temos para fazer uma amostra de 30 entrevistas numa região, ou seja:  existe literatura que cita/comprove este número mágico?

Se sim, você pode me passar qual a base teórica e me encaminhar as referências?  Livros à respeito desse “número mágico “ de 30 entrevistas/região.

Um Abraço,
Marcelo


Oi Marcelo a justificativa para o tamanho de amostra 30 é que pelo Teorema do Limite Central à medida que o tamanho da amostra fica grande o suficiente, a distribuição de amostragem da media aritmética passa a ser distribuída aproximadamente nos moldes da Distribuição Normal. Isso é verdadeiro independentemente do formato da distribuição dos valores individuais da população.
Que tamanho de amostra é grande o suficiente? Quando o tamanho da amostra é pelo menos igual a 30.
Fonte: Estatística – Teoria e Aplicações
Levine – Stephan et all.
2008.
Um abraço.
Gabriel.

P S : Isso também contribui para que as estimativas sejam mais precisas (IC menores).




Aula 4 (30/3/2016) - Tomada de Decisão em Pesquisa e Inteligência Organizacional



Tomada de Decisão em Pesquisa e Inteligência Organizacional

Danilo - Da para estudar NP-MANOVA (R) e Regressão Robusta (SAS - R)?




Livro Básico - Infer. Estat. Indutiva - Download












- Exemplo: Arquivo do Excel para Download:

           







Aparentemente há diferenças, as medias aritméticas são diferentes, umas maiores ou menores que as outras. Por exemplo o DBO da Área Urbana é 9,7 mg/l e da Área Semiurbana 7,2 mg/l. Essa informação é suficiente para tomar a decisão de falar que são diferentes?

Não, essa diferença de medias aritméticas é matemática, 


não estatística, para falar que são diferentes devemos


 aplicar um teste de hipótese estatístico (que faz parte da


 Inferência Estatística Indutiva), por exemplo o Teste T de


 Student (se os dados tiverem distribuição Normal) ou U de


 Mann–Whitney (Estatística Robusta) se tivermos problemas


 de normalidade, heterocedasticidade ou presença de 


outliers (dados fora de contexto), o se simplesmente não


 quisermos ou podermos, testar todas essas pressuposições.


Esses testes nos fornecerão uma Margem de Erro (probabilidade) e uma Margem de Confiança, para tomarmos a decisão da melhor maneira possível, por exemplo em ciência (teses, papers, congressos. Etc.) não são aceitas as tomadas de decisão sem os endossos probabilísticos. Tambem é assim na área de gestão, desde a segunda gerra mundial (E. Deming), em EUA e Japão.


OK, vamos fazer a primeira analise desses dados no Excel, utilizando macros analíticas (programas dentro do programa Excel). Uma dessas macros é Teste T de Student para Duas Amostras Independente com Variâncias Desconhecidas.

O teste T é a ferramenta mais importante para a tomada de decisão em gestão, inteligência e certificação internacional da qualidade.
Na área de pesquisa a principal ferramenta de tomada de decisão é ANOVA. ANOVA é uma generalização do Teste T, quando existem mais do que dois níveis do fator tratamentos, o Teste T é somente para dois níveis.



Em primeira instancia devemos ativar as macros analíticas do Excel, normalmente compramos o Excel e utilizamos somente uma parte dele, o mais frequente é não estarem ativadas (como comprar um apartamento de 3 quartos e utilizar somente um ou dois), nos departamentos, laboratóriosempresas, etc.



Vídeo para Ativar as Macros Analíticas do Excel:





Vídeo para Rodar a Macro Analitica Teste T de Student para Amostras Independentes em Excel:








·      Ho: Hipótese de Nulidade ou de Igualdade
o    DBO Reg. Urbana = DBO Reg. Semiurbana
o    DBO Reg. Urbana - DBO Reg. Semiurbana = 0
o     
·      H1:  Hipótese de Alternativa
o    H1a: Uni caudal: 
§  DBO Reg. Urbana > DBO Reg. Semiurbana
o    H1b: Bicaudal:
§  DBO Reg. Urbana    ≠ DBO Reg. Semiur.
·         H1a: Uni caudal - Demanda Informação Confiável Previa
·         H1b: Bicaudal - Sem Informação Previa

Teste-t: duas amostras presumindo variâncias diferentes
DBO - Urbana
DBO Semiurbana
Média
9,666667
7,166666667
Variância
2,333333
1,583333333
Observações
3
3
Hipótese da diferença de média
0
gl
4
Stat t
2,187975
P(T<=t) uni-caudal
0,046952
Margem de Erro
t crítico uni-caudal
2,131847
P(T<=t) bi-caudal
0,093904
Margem de Erro
t crítico bi-caudal
2,776445


Margem de Erro Uni caudal =4,7 %      
  • Demanda Informação Previa Confiável
    • Publicação (Academia)    
    •  Sumario Executivo (Empresa Privada)                                     

                                                                                                         
Margem de Erro Bi caudal = 9,4   %       

  • Não Demanda Informação Previa Confiável                

Resultados e Discussão (de um documento cientifico – Iniciação, TCC, Mestrado, Doutorado, Pós-doutorado, publicação):
Com Informação Previa Confiável:
A média aritmética para DBO dos ribeirões da região urbana (9,7 mg/l) foi maior significativamente ( p <  0,04695) do que media dos ribeirões da região semiurbana ( 7,2 mg/l).
Sem Informação Previa Confiável:
Não foram conseguidos argumentos suficientes para se rejeitar a hipótese de igualdade ( p < 0,093904151)

Sumario Executivo (Empresa):
Com Informação Previa Confiável:
O DBO da área urbana (9,7 ) é maior do que o DBO da área semiurbana (7,2) com 95,3% de confiança;

Sem Informação Previa Confiável:
Não existe evidencia significativa de diferença na quantidade de DBO nas duas situações analisadas (margem de confiança insuficiente 91%)







Exercício  III - Tomada de Decisão em Pesquisa, Inteligencia Organizacional, etc. Elaborar um exemplo dentro de sua área de interesse.DL 13/4/2016



quarta-feira, 23 de março de 2016

Aula 3 - 23/3/2016 - Interpretação de Regressão com Curvatura e Testes de Hipoteses

Aula 3 -  23/3/2016 - Interpretação de Regressão com Curvatura e Testes de Hipóteses


 Regr. Polinomial e Tomada de Decisão


Regr. Polinomial 



Este exemplo relaciona nível salarial e qualidade de vida. Os dados são fictícios. 
Dados do Exemplo


Salário (US$)
Q.Vida (0-10)
1460
8,1
1575
8,1
1689
8,2
1900
8,5
2150
8,6
2320
8,6
2467
8,6
3000
8,6
3400
8,4
3500
8,4
3900
8,4





Vemos no Diagrama de Dispersão dos Dados, que eles seguem uma distribuição que apresenta curvatura, assim não podemos utilizar o polinômio de primeiro grau, a reta. Podemos tentar ajustar um polinômio de segundo grau, uma parábola.


Vídeo contendo a da sequencia de passos para realizar uma regressão quadrática, clicar no arquivo a seguir:







Resultado da Analise





O modelo ajustado pode ser considerado muito bom (R² = 0,8116). 
Agora acharemos o ponto de Maximo, ou seja qual salário maximiza a qualidade de vida, segundo os dados deste exemplo.
Para calcularmos o ponto de Maximo, temos que derivar o polinômio e igualar o resultado a zero.
Polinômio derivado:
Y’ = (-3E-07x2 + 0,0017x + 6,3124)’ =
    = -3E-07* 2 * x + 0,0017 = 0
Assim  x = -0,0017 / (-3E-07* 2) = 2833,3 US$ é o salário que maximiza a função polinomial.

Calculo no Excel =-0,0017/(2*(-0,0000003))


Exercício 2 - Regressão com curvatura, fazer

exemplo dentro de seu universo de pesquisa. 

DL: 6/4/2016





Tomada de Decisão em Pesquisa e Inteligência Organizacional


Livro Básico - Infer. Estat. Indutiva - Download












- Exemplo: Arquivo do Excel para Download:

           







Aparentemente há diferenças, as medias aritméticas são diferentes, umas maiores ou menores que as outras. Por exemplo o DBO da Área Urbana é 9,7 mg/l e da Área Semiurbana 7,2 mg/l. Essa informação é suficiente para tomar a decisão de falar que são diferentes?

Não, essa diferença de medias aritméticas é matemática, não estatística, para falar que são diferentes devemos aplicar um teste de hipótese estatístico (que faz parte da Inferência Estatística Indutiva), por exemplo o Teste T de Student (se os dados tiverem distribuição Normal) ou U de Mann–Whitney (Estatística Robusta) se tivermos problemas de normalidade, heterocedasticidade ou presença de outliers (dados fora de contexto), o se simplesmente não quisermos ou podermos, testar todas essas pressuposições.


Esses testes nos fornecerão uma Margem de Erro (probabilidade) e uma Margem de Confiança, para tomarmos a decisão da melhor maneira possível, por exemplo em ciência (teses, papers, congressos. Etc.) não são aceitas as tomadas de decisão sem os endossos probabilísticos. Tambem é assim na área de gestão, desde a segunda gerra mundial (E. Deming), em EUA e Japão.


OK, vamos fazer a primeira analise desses dados no Excel, utilizando macros analíticas (programas dentro do programa Excel). Uma dessas macros é Teste T de Student para Duas Amostras Independente com Variâncias Desconhecidas.

O teste T é a ferramenta mais importante para a tomada de decisão em gestão, inteligência e certificação internacional da qualidade.
Na área de pesquisa a principal ferramenta de tomada de decisão é ANOVA. ANOVA é uma generalização do Teste T, quando existem mais do que dois níveis do fator tratamentos, o Teste T é somente para dois níveis.



Em primeira instancia devemos ativar as macros analíticas do Excel, normalmente compramos o Excel e utilizamos somente uma parte dele, o mais frequente é não estarem ativadas (como comprar um apartamento de 3 quartos e utilizar somente um ou dois), nos departamentos, laboratóriosempresas, etc.



Vídeo para Ativar as Macros Analíticas do Excel:





Vídeo para Rodar a Macro Analitica Teste T de Student para Amostras Independentes em Excel:








·      Ho: Hipótese de Nulidade ou de Igualdade
o    DBO Reg. Urbana = DBO Reg. Semiurbana
o    DBO Reg. Urbana - DBO Reg. Semiurbana = 0
o     
·      H1:  Hipótese de Alternativa
o    H1a: Uni caudal: 
§  DBO Reg. Urbana > DBO Reg. Semiurbana
o    H1b: Bicaudal:
§  DBO Reg. Urbana    ≠ DBO Reg. Semiur.
·         H1a: Uni caudal - Demanda Informação Confiável Previa
·         H1b: Bicaudal - Sem Informação Previa

Teste-t: duas amostras presumindo variâncias diferentes
DBO - Urbana
DBO Semiurbana
Média
9,666667
7,166666667
Variância
2,333333
1,583333333
Observações
3
3
Hipótese da diferença de média
0
gl
4
Stat t
2,187975
P(T<=t) uni-caudal
0,046952
Margem de Erro
t crítico uni-caudal
2,131847
P(T<=t) bi-caudal
0,093904
Margem de Erro
t crítico bi-caudal
2,776445


Margem de Erro Uni caudal =4,7 %      
  • Demanda Informação Previa Confiável
    • Publicação (Academia)    
    •  Sumario Executivo (Empresa Privada)                                     

                                                                                                         
Margem de Erro Bi caudal = 9,4   %       

  • Não Demanda Informação Previa Confiável                

Resultados e Discussão (de um documento cientifico – Iniciação, TCC, Mestrado, Doutorado, Pós-doutorado, publicação):
Com Informação Previa Confiável:
A média aritmética para DBO dos ribeirões da região urbana (9,7 mg/l) foi maior significativamente ( p <  0,04695) do que media dos ribeirões da região semiurbana ( 7,2 mg/l).
Sem Informação Previa Confiável:
Não foram conseguidos argumentos suficientes para se rejeitar a hipótese de igualdade ( p < 0,093904151)

Sumario Executivo (Empresa):
Com Informação Previa Confiável:
O DBO da área urbana (9,7 ) é maior do que o DBO da área semiurbana (7,2) com 95,3% de confiança;

Sem Informação Previa Confiável:
Não existe evidencia significativa de diferença na quantidade de DBO nas duas situações analisadas (margem de confiança insuficiente 91%)







Exercício  III - Tomada de Decisão em Pesquisa, Inteligencia Organizacional, etc. DL 1/4/2015