terça-feira, 31 de março de 2020

Heterocedasticidade Regular e Transformação Box Cox (1/4/2020)


/* Exemplo Heterocedasticidade Regular
 e Transformação Box Coxs*/;
 /* Pequeno 2000 outlier */;
Title "Hetero. Regular";
Data Lucrativ;
Input Porte $  Lucro_L;
cards;
Pequeno 2000
Pequeno 198
Pequeno 300
Pequeno 140
Pequeno 201
Pequeno 350
Pequeno 150
Pequeno 199
Medio 800
Medio 410
Medio 270
Medio 800
Medio 390
Medio 250
Medio 430
Medio 700
Grande 600
Grande 1900
Grande 550
Grande 900
Grande 1950
Grande 900
Grande 700
Grande 2020
;
run;
proc print;
run;
proc glm;
class Porte;
Model Lucro_L = Porte;
Means Porte / Tukey Lines;
Run;

TITLE “DIC - Pressuposições do modelo”;
TITLE “Análise de variância e obtenção dos resíduos”;
PROC GLM DATA=Lucrativ;
  Class Porte;
  Model Lucro_L = Porte/SS3;
  OUTPUT OUT=residuos PREDICTED=y_est RESIDUAL=res_ord STUDENT=res_Stud;
RUN;
proc print data=residuos;
 run;

TITLE “Verificação da Normalidade dos resíduos, Normal-plot e Teste de Shapiro-Wilk”;
PROC UNIVARIATE DATA=residuos PLOT NORMAL;
VAR res_Stud;
RUN;
PROC UNIVARIATE DATA=residuos PLOT; VAR res_Stud;
RUN;

TITLE 'Análise gráfica dos resíduos e
 Teste de homogeneidade de variâncias de
 Brown-Forsythe';
 PROC PLOT DATA=residuos;
 PLOT res_Stud*trat="*"/vpos=20; RUN;

 PROC GLM DATA=Lucrativ;
   CLASS Porte;
   MODEL Lucro_L = Porte/SS3;
   MEANS Porte/HOVTEST=bf;
RUN;

TITLE 'Análise gráfica dos resíduos e Transformação de Box-Cox';
PROC PLOT DATA=residuos; PLOT res_Stud*y_est="*"/vpos=20;
RUN; ODS GRAPHICS ON;
PROC TRANSREG DATA=milho;
MODEL BOXCOX(Lucro_L/CONVENIENT LAMBDA=-2 to 2 BY 0.05) = CLASS(trat);
RUN; ODS GRAPHICS OFF;
*/
Programa Rodando
TITLE “DIC - Pressuposições do modelo”*/ ;

PROC SORT DATA=Lucrativ; BY Porte;
RUN;
TITLE “Análise de variância e obtenção dos resíduos”;
PROC GLM DATA=Lucrativ;
CLASS Porte;
MODEL Model Lucro_L = Porte/SS3;
OUTPUT OUT=residuos PREDICTED=y_est RESIDUAL=res_ord STUDENT=res_Stud;
RUN;
proc print data=residuos;
 run;

TITLE “Verificação da Normalidade dos resíduos,
       Normal-plot e Teste de Shapiro-Wilk”;
PROC UNIVARIATE DATA=residuos PLOT NORMAL;
VAR res_Stud;
RUN;
PROC UNIVARIATE DATA=residuos PLOT; VAR res_Stud;
RUN;

TITLE 'Análise gráfica dos resíduos e Teste de homogeneidade de
      variâncias de Brown-Forsythe';
PROC PLOT DATA=residuos; PLOT res_Stud*trat="*"/vpos=20;
RUN;

PROC GLM DATA=Lucrativ;
  class Porte;
  Model Lucro_L = Porte/SS3;
  MEANS Porte/HOVTEST=bf;
 RUN;


TITLE 'Análise gráfica dos resíduos e Transformação de Box-Cox';
PROC PLOT DATA=residuos;
PLOT res_Stud*y_est="*"/vpos=20;
 RUN;
 ODS GRAPHICS ON;
 PROC TRANSREG DATA=Lucrativ;
 MODEL BOXCOX(Lucro_L/CONVENIENT LAMBDA=-2 to 2 BY 0.05) = CLASS(Porte);
 RUN;
 ODS GRAPHICS OFF;








quarta-feira, 25 de março de 2020

Simulação de Outlier no Programa SAS de ANOVA

data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Uva 28
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/ tukey lines;
run;




R por Menu e que Gera Código

https://www.jamovi.org/

O Guilherme recomendou.

Teste Dunnett - Programa SAS

options nocenter ls=80 ps=60;
data a;
input y group;
cards;
16 1
18 1
10 1
12 1
19 1
4 2
6 2
8 2
10 2
2 2
2 3
10 3
9 3
13 3
11 3
;
proc glm;
class group;
model y=group;
means group/dunnett ("3");
run;
quit;


Resultado do Programa SAS





data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/dunnett ("Maca"); 

run;




segunda-feira, 23 de março de 2020

Nos Horários de Aula Estarei on line em Skype e Whatsapp


Por favor vão se cadastrando no SAS on Demand, para rodar on line gratuitamente.
Também instalem o Weka, para rodar Inteligencia Artificial (Machine Learning), também gratuitamente.


Comunicação 23/03/2020


Oi Gente, vamos nos organizando para trabalhar neste período de quarentena. Eu estarei nos horários de aula e de consultas on line.
Vamos pensando em como trabalhar? Eu acho que devemos continuar na linha que estávamos nas aulas presenciais. Estou pensando em continuar com as aulas normais, como fizemos em anos anteriores, vocês tem a sequencia de aulas do ano passado e anteriores no blog, com videoaulas, exercícios e slides. Paralelamente iremos preparando apresentações, Gustavo apresentará as analises estatísticas e de machine learning que realizou para uma publicação juntamente com o Laboratório de Radioisótopos de CENA e o LCE (eu trabalhei com ele). Com Suelen, Guilherme e Gustavo podemos preparar uma aula com MANOVA e NPMANOVA. Robson pode prepar uma apresentação de machine learnin, algoritmo Random Forest. Também Robson pode entrar em contato com Fernanda, da pós-graduação em Ecologia, para levantar dados e analisar. Posteriormente podemos iniciar as analises de grandes bases de dados com Suelen e Guilherme, dados da Clinica do Leite (teses defendidas por Renata e Hellen).
OK vamos conversando, estou atento ao Whatsapp e ao Skype.
Um abraço forte! Felicidade!
Gabriel.

sexta-feira, 20 de março de 2020

Horários de Consulta: Skype e Whatsapp

Horários de Consulta:  Skype e Whatsapp

Horários de Consulta:
Skype: hc_gabriel

Segundas: 18-19
Quintas: 18-19
Sábados: 14:15- 15:15
Domingos: 21:15-23:15

Podemos marcar outros horários se necessário, conversamos por Whatsapp: o meu é 019-988-627-438.

Comunicação para nos adaptarmos a ensino a distancia


Oi Gente, temos que planejar e implantar uma forma de trabalharmos a distancia. Temos duas opções muito boas, Skype ou Google Meet logicamente podemos fazer um grupo de Whatsapp. Vocês conhecem alguma outra?
Estou planejando para dar aulas nas quartas das 14 as 18h. Alguém tem problemas de entrar na internet nesse horário?
Estou colocando, na ultima postagem uma videoaula sobre o SAS para ANOVA, se puderem entrem nela, focaremos nesse assunto na quarta que vem.
Meu Whatsapp é: 019-988-627-438.
Estou a disposição para interagirmos, se puderem se comuniquem para fazermos o grupo de Whatsapp.
Um abraço.
Gabriel.

segunda-feira, 16 de março de 2020

Videoaula e conteúdo introdutório sobre o Programa SAS

Videoaulas do Programa SAS para ANOVA



12/4/2019





Programas Análogos ao SAS





Videoaulas do Programa SAS para ANOVA


Primeira Videoaula - Rodando um Programa SAS para ANOVA:


https://youtu.be/Z2K_WBG86OY


Segunda Videoaula - Interpretando o Resultado de um Programa SAS para ANOVA

https://youtu.be/1EebI4y72iA





Entrando no SAS da Web

Primeiro você tem que criar uma conta no SAS on Demand (gratuita)

Depois você segue estes passos para entrar no SAS na Web:




Ou isto 















Tela do SAS on Demand na Internet







OK Você já está no SAS da Internet!







Programa SAS :

data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/ tukey lines;
run;







Resultado da Análise:






Dependent Variable: NaOH
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
3
129.8000000
43.2666667
36.24
<.0001
Error
11
13.1333333
1.1939394


Corrected Total
14
142.9333333





O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula (ou Hipotese de Nulidade) ou Hipótese de Igualdade, ou seja que todos os sucos contem igual quantidade (concentração) de OHNa. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho, em favor de H1: Hipótese Alternativa, assim existe alguma diferença de concentração de OHNa entre os sucos.
Assim os sucos tem diferenças na quantidade de NaOH.
Mas onde estão as diferenças?
Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.




Box and wisker plot - Wikipedia











Relatório do Teste de Tukey no 
SAS Comercial









Relatório de ANOVA (SAS):

Resultados e Discussão
O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro). Assim o experimento mostra diferenças altamente significativas (quando o p valor e < 0,01) (se estive-se o p valor entre 0,01 e 0,05, as diferenças seriam simplesmente significativas) e por ultimo se o p valor for > do que 0,05 então não se rejeita a hipótese de igualdade.
O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg), por que as medias dos 2 sucos são precedidas pela letra "A". Esses dois sucos diferiram estatisticamente dos sucos de laranja (letra "B") e manga que apresentaram as menores medias aritméticas de Na OH (letra "C").
Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).
O texto em verde é somente para esclarecimentos, não deve ser colocado na tese.









 Estrutura Programa SAS






Diferentes Cores de Letras Atribuídas pelo SAS



Veja que você poderá mudar o que esta em fonte cor preta, as palavras em azul, são palavras reservadas do SAS, isso não poderá ser mudado. Tambem veja que o banco de dados, que seguramente você digitou no Excel esta com uma sobra cor amarelo-marrão.





 Fim Estrutura Programa SAS


Como Gravar os 2 Arquivos Gerados pelo SAS
1) O arquivo de programa SAS e dados tem exetencao ".sas"
2) O arquivo de resultados tem extencao " .mht".
Esse dois arquivos podem ser lidos pelo Word, clicando no nome do arquivo com o botão direito do mouse e escolhendo a opção "Abrir com" do Microsoft Explorer.


Exercício na Aula

  • Digitar no SAS  para refletir em cada linha digitada. 
  • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, quarta geração) e na língua inglesa.

quarta-feira, 11 de março de 2020

Exercícios

Mandar Exercícios Para
Colocar no comentário o nome do aluno e o exercício.

gestao.estat.cert@gmail.com

Exercício 1 - Crie um exemplo para aplicar Teste T.



Slides a mão Aula 2












Segunda Aula Introdução à Inferência






Tomada de Decisão em Inteligência Organizacional



Videoaula 1






Videoaula 2






Livro Básico - Infer. Estat. Indutiva - Download












- Exemplo: Arquivo do Excel para Download:

           







Aparentemente há diferenças, as medias aritméticas são diferentes, umas maiores ou menores que as outras. Por exemplo o DBO da Área Urbana é 9,7 mg/l e da Área Semiurbana 7,2 mg/l. Essa informação é suficiente para tomar a decisão de falar que são diferentes?

Não, essa diferença de medias aritméticas é matemática, 


não estatística, para falar que são diferentes devemos


 aplicar um teste de hipótese estatístico (que faz parte da


 Inferência Estatística Indutiva), por exemplo o Teste T de


 Student (se os dados tiverem distribuição Normal) ou U de


 Mann–Whitney (Estatística Robusta) se tivermos problemas


 de normalidade, heterocedasticidade ou presença de 


outliers (dados fora de contexto), o se simplesmente não


 quisermos ou podermos, testar todas essas pressuposições.


Esses testes nos fornecerão uma Margem de Erro (probabilidade) e uma Margem de Confiança, para tomarmos a decisão da melhor maneira possível, por exemplo em ciência (teses, papers, congressos. Etc.) não são aceitas as tomadas de decisão sem os endossos probabilísticos. Tambem é assim na área de gestão, desde a segunda gerra mundial (E. Deming), em EUA e Japão.


OK, vamos fazer a primeira analise desses dados no Excel, utilizando macros analíticas (programas dentro do programa Excel). Uma dessas macros é Teste T de Student para Duas Amostras Independente com Variâncias Desconhecidas.

O teste T é a ferramenta mais importante para a tomada de decisão em gestão, inteligência e certificação internacional da qualidade.
Na área de pesquisa a principal ferramenta de tomada de decisão é ANOVA. ANOVA é uma generalização do Teste T, quando existem mais do que dois níveis do fator tratamentos, o Teste T é somente para dois níveis.



Em primeira instancia devemos ativar as macros analíticas do Excel, normalmente compramos o Excel e utilizamos somente uma parte dele, o mais frequente é não estarem ativadas (como comprar um apartamento de 3 quartos e utilizar somente um ou dois), nos departamentos, laboratóriosempresas, etc.





·      Ho: Hipótese de Nulidade ou de Igualdade
o    DBO Reg. Urbana = DBO Reg. Semiurbana
o    DBO Reg. Urbana - DBO Reg. Semiurbana = 0
o     
·      H1:  Hipótese de Alternativa
o    H1a: Uni caudal: 
§  DBO Reg. Urbana > DBO Reg. Semiurbana
o    H1b: Bicaudal:
§  DBO Reg. Urbana    ≠ DBO Reg. Semiur.
·         H1a: Uni caudal - Demanda Informação Confiável Previa
·         H1b: Bicaudal - Sem Informação Previa

Teste-t: duas amostras presumindo variâncias diferentes
DBO - Urbana
DBO Semiurbana
Média
9,666667
7,166666667
Variância
2,333333
1,583333333
Observações
3
3
Hipótese da diferença de média
0
gl
4
Stat t
2,187975
P(T<=t) uni-caudal
0,046952
Margem de Erro
t crítico uni-caudal
2,131847
P(T<=t) bi-caudal
0,093904
Margem de Erro
t crítico bi-caudal
2,776445


Margem de Erro Uni caudal =4,7 %      
  • Demanda Informação Previa Confiável
    • Publicação (Academia)    
    •  Sumario Executivo (Empresa Privada)                                     

                                                                                                         
Margem de Erro Bi caudal = 9,4   %       

  • Não Demanda Informação Previa Confiável                

Resultados e Discussão (de um documento cientifico – Iniciação, TCC, Mestrado, Doutorado, Pós-doutorado, publicação):
Com Informação Previa Confiável:
A média aritmética para DBO dos ribeirões da região urbana (9,7 mg/l) foi maior significativamente ( p <  0,04695) do que media dos ribeirões da região semiurbana ( 7,2 mg/l).
Sem Informação Previa Confiável:
Não foram conseguidos argumentos suficientes para se rejeitar a hipótese de igualdade ( p < 0,093904151)

Sumario Executivo (Empresa):
Com Informação Previa Confiável:
O DBO da área urbana (9,7 ) é maior do que o DBO da área semiurbana (7,2) com 95,3% de confiança;

Sem Informação Previa Confiável:
Não existe evidencia significativa de diferença na quantidade de DBO nas duas situações analisadas (margem de confiança insuficiente 91%)