quarta-feira, 29 de abril de 2020

Gerando Componentes Principais

data imc_dat;

input cat $ imc corr kcal;

cards;

AT 20.2 60.7 3200

AT 21.3 54.8 3100

AT 19.3 49.6 2800

AT 21.1 52.3 3300

SEM 22.4 14.9 2600

SEM 21.9 17.8 2700

SEM 23.8 18.6 3200

SEM 24.1 15.1 3300

SE  27.3 2.5 2700

SE  23.4 4.3 2300

SE  25.2 2.3 2600

SE  26.4 2.6 3200

PR 26.2 4.1 2600

PR 24.2 2.1 2700

PR 25.4 1.9 2650
;
proc princomp out=nbayes;
var imc corr kcal;
run;
proc print data=nbayes;
run;

Exercícios

gestao.estat.cert@gmail.com
Um exemplo para cada técnica apresentada em sala de aulas.



quarta-feira, 22 de abril de 2020

Registrar o SAS Studio - Apostila Gustavo e Gabriel

Registrar o SAS Studio - Apostila Gustavo e Gabriel






























Regressão Robusta e Paramétrica no SAS

Regressão Robusta e Paramétrica no SAS


data com;
input x y;
cards;
30   430
21   335
35   520
42   490
37   470
2    210
8    195
17   270
35   400
25   480
20   4000
;
/* Com orlier Y = 4000 */

data sem;
input x1 y1;
cards;
30   430
21   335
35   520
42   490
37   470
2    210
8    195
17   270
35   400
25   480
;

proc print data = com;
run;

proc print data = com;
run;
title "Com Outlier";
proc reg data = com;
model y = x;
run;
/* Analise Errada porque tem Outlier Y = 4000
Nao podemos ter outliers na proc reg */


proc reg data = sem;
model y1 = x1;
run;
/* Para a Gente nao descartar, eliminar, dados podemos utilizar
regressao robusta proc robustreg, o oulier na afeta à analise, nao
temos nescesidade de normalidade nem ausencia de outliers */

proc robustreg data = com method = m;
model y = x;
run;

proc robustreg data = sem method = m;
model y1 = x1;

run;

Videoaulas de Regressão

Relações Causa - Efeito:
 Regressão
Japão: Kaoru Ishkawa
 Diagrama de Dispersão

 Propaganda - Vendas 

Arquivo para Download









Videoaulas de Regressão - Macro em Excel  - EXCEL AVANÇADO

Videoaula 1 - Resolvendo Graficamente e Sem Probabilidade ( Sem Macros em Excel)

https://www.youtube.com/watch?v=HWnrEfMHOZw&feature=youtu.be





Videoaula 2 - Resolvendo com Probabilidade, Margem de Erro e Margem de Confiança, Inferência Estatística - Macro de Regressão em Excel


https://www.youtube.com/watch?v=qLbziQKSeB8&feature=youtu.be


 Propaganda - Vendas 

Arquivo para Download




Regressão Linear é um dos modelos mais atrativos devido a sua representação entendível, no caso da regressão linear simples sua utilização é mais para aprendizado, já que na prática ela não é muito aplicada, visto que, em muitos casos a gama de variáveis de entradas é maior, fazendo-se uso da Regressão Linear Multivariável, ao qual não adentraremos nesse post. O modelo de representação da regressão linear simples é a tradicional equação conhecida como equação da reta ou em inglês slope-intercept form, usaremos a notação mais utilizada em exemplos de Machine Learning e não da matemática, mas você pode saber mais sobre a própria equação neste link.
Temos o y a variável dependente que representa a predição, as letras gregas β (Beta), também conhecidos como coeficientes, que são a representação das variáveis que o algoritmo irá utilizar para “aprender” a produzir as previsões mais precisas e o x a variável independente que representa o dado de entrada. As letras gregas β também são conhecidas como inclinação e interceptação ou em inglês intercept-slope.

Função de custo


Função de custo, no inglês cost function ou ainda ordinary least squares é uma função utilizada para medir o quão errado o modelo está, os chamados resíduos. Isto é, consiste no cálculo da distância de cada ponto (distância essa entre as variáveis x e y) em relação a reta de regressão, esse valor é elevado ao quadrado e somado, o total é a quantidade média de erro do modelo.

MANOVA

MANOVA 











data imc_dat;
input cat $ imc corr kcal;
cards;
AT 20.2 60.7 3200
AT 21.3 54.8 3100
AT 19.3 49.6 2800
AT 21.1 52.3 3300
SEM 22.4 14.9 2600
SEM 21.9 17.8 2700
SEM 23.8 18.6 3200
SEM 24.1 15.1 3300
SE  27.3 2.5 2700
SE  23.4 4.3 2300
SE  25.2 2.3 2600
SE  26.4 2.6 3200
PR 26.2 4.1 2600
PR 24.2 2.1 2700
PR 25.4 1.9 2650
;
proc print;
run;
proc glm;
 class cat;
 model imc corr kcal  = cat;
 contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
 contrast " Professor Vs Sedentario" cat  0 1 -1 0;
 manova h=_all_ / printe printh;
 contrast " Atl e Semiat Vs Seden e Prof" 1 -1 -1 1;
 contrast " Professor Vs Sedentario" cat 0 1 -1 0;

run;



/* 
contrast " Atl e Semiat Vs Seden e Prof"  cat 1 -1 -1 1;
Pega a ordem alfabetica dos niveis dos fatores para os coeficientes
   dos contrastes 
Se colocar o contraste depois do comando MANOVA faz os contrastes univariados 
tambem
*/


Correlação Residual MANOVA:


Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 11
imc
corr
kcal
imc
1.000000

0.017729
0.9564
0.697770
0.0116
corr
0.017729
0.9564
1.000000

0.132496
0.6814
kcal
0.697770
0.0116
0.132496
0.6814





Outro Exemplo de Contrastes, Ordem Alfabética:





- Análise Multivariada Exemplos: 
















Comparar resultados ANOVA com Kruskal-Wallis.


data imc_dat;
input cat $ imc corr kcal;
cards;
AT    20.2  60.7  3200
AT    21.3  54.8  3100
AT    19.3  49.6  2800
AT    21.1  52.3  3300
SEM   22.4  14.9  2600
SEM   21.9  17.8  2700
SEM   23.8  18.6  3200
SEM   24.1  15.1  3300
SE    27.3  2.5   2700
SE    23.4  4.3   2300
SE    25.2  2.3   2600
SE    26.4  2.6   3200
PR    26.2  4.1   2600
PR    24.2  2.1   2700
PR         25.4         1.9        2650
;
proc print;
run;
proc npar1way data=imc_dat wilcoxon dscf;
 class cat;
 var imc corr kcal = cat;
run;
Tem um erro nesse programa, onde esta? Compare com os slides apresentados antes do programa SAS (Dois slides de Kruskal Wallis com trechos de programa SAS).


 var imc corr kcal = cat; ==> ANOVA, GLM, MANOVA
 var imc corr kcal;          ==> Kruskal Wallis







Resultados de Kruskal Wallis

Arquivo Word para Download:




Resultados ANOVA dados brutos, transformados e da Estat. Robusta. Tese doutorado do Gabriel.










terça-feira, 21 de abril de 2020

Número Mágico!!!

Projeto SEAPEC - "Número mágico de 30 entrevistas"
Entrada
usp
x


27/09/13

para gasarrie, 
Gabriel,
Conforme conversamos por telefone sobre :  QUAL A BASE TEÓRICA que Temos para fazer uma amostra de 30 entrevistas numa região, ou seja:  existe literatura que cita/comprove este número mágico?

Se sim, você pode me passar qual a base teórica e me encaminhar as referências?  Livros à respeito desse “número mágico “ de 30 entrevistas/região.

Um Abraço,
Marcelo




Gabriel Segura <gasarrie@usp.br>
27/09/13

para Marcelo
Oi Marcelo a justificativa para o tamanho de amostra 30 é que pelo Teorema do Limite Central à medida que o tamanho da amostra fica grande o suficiente, a distribuição de amostragem da media aritmética passa a ser distribuída aproximadamente nos moldes da Distribuição Normal. Isso é verdadeiro independentemente do formato da distribuição dos valores individuais da população.

Que tamanho de amostra é grande o suficiente? Quando o tamanho da amostra é pelo menos igual a 30.

Fonte: Estatística – Teoria e Aplicações

Levine – Stephan et all.

2008.

Um abraço.

Gabriel.

P S : Isso também contribui para que as estimativas sejam mais precisas (IC menores).




27/09/13

Quem acabar MQP e MANOVA pesquisar An. Discriminante Linear e Quadrático

Programas de an. Discriminante em SAS

Programa SAS discriminante quaraticio
Bancos curso machine learning
data banco;
input obs Status $ Length Left Right Bottom Top Diagonal;
cards;
1 0 214.8 131.0 131.1 9.0 9.7 141.0
2 0 214.6 129.7 129.7 8.1 9.5 141.7
3 0 214.8 129.7 129.7 8.7 9.6 142.2
4 0 214.8 129.7 129.6 7.5 10.4 142.0
5 0 215.0 129.6 129.7 10.4 7.7 141.8
6 0 215.7 130.8 130.5 9.0 10.1 141.4
7 0 215.5 129.5 129.7 7.9 9.6 141.6
8 0 214.5 129.6 129.2 7.2 10.7 141.7
9 0 214.9 129.4 129.7 8.2 11.0 141.9
10 0 215.2 130.4 130.3 9.2 10.0 140.7
11 0 215.3 130.4 130.3 7.9 11.7 141.8
12 0 215.1 129.5 129.6 7.7 10.5 142.2
13 0 215.2 130.8 129.6 7.9 10.8 141.4
14 0 214.7 129.7 129.7 7.7 10.9 141.7
15 0 215.1 129.9 129.7 7.7 10.8 141.8
16 0 214.5 129.8 129.8 9.3 8.5 141.6
17 0 214.6 129.9 130.1 8.2 9.8 141.7
18 0 215.0 129.9 129.7 9.0 9.0 141.9
19 0 215.2 129.6 129.6 7.4 11.5 141.5
20 0 214.7 130.2 129.9 8.6 10.0 141.9
21 0 215.0 129.9 129.3 8.4 10.0 141.4
22 0 215.6 130.5 130.0 8.1 10.3 141.6
23 0 215.3 130.6 130.0 8.4 10.8 141.5
24 0 215.7 130.2 130.0 8.7 10.0 141.6
25 0 215.1 129.7 129.9 7.4 10.8 141.1
26 0 215.3 130.4 130.4 8.0 11.0 142.3
27 0 215.5 130.2 130.1 8.9 9.8 142.4
28 0 215.1 130.3 130.3 9.8 9.5 141.9
29 0 215.1 130.0 130.0 7.4 10.5 141.8
30 0 214.8 129.7 129.3 8.3 9.0 142.0
31 0 215.2 130.1 129.8 7.9 10.7 141.8
32 0 214.8 129.7 129.7 8.6 9.1 142.3
33 0 215.0 130.0 129.6 7.7 10.5 140.7
34 0 215.6 130.4 130.1 8.4 10.3 141.0
35 0 215.9 130.4 130.0 8.9 10.6 141.4
36 0 214.6 130.2 130.2 9.4 9.7 141.8
37 0 215.5 130.3 130.0 8.4 9.7 141.8
38 0 215.3 129.9 129.4 7.9 10.0 142.0
39 0 215.3 130.3 130.1 8.5 9.3 142.1
40 0 213.9 130.3 129.0 8.1 9.7 141.3
41 0 214.4 129.8 129.2 8.9 9.4 142.3
42 0 214.8 130.1 129.6 8.8 9.9 140.9
43 0 214.9 129.6 129.4 9.3 9.0 141.7
44 0 214.9 130.4 129.7 9.0 9.8 140.9
45 0 214.8 129.4 129.1 8.2 10.2 141.0
46 0 214.3 129.5 129.4 8.3 10.2 141.8
47 0 214.8 129.9 129.7 8.3 10.2 141.5
48 0 214.8 129.9 129.7 7.3 10.9 142.0
49 0 214.6 129.7 129.8 7.9 10.3 141.1
50 0 214.5 129.0 129.6 7.8 9.8 142.0
51 0 214.6 129.8 129.4 7.2 10.0 141.3
52 0 215.3 130.6 130.0 9.5 9.7 141.1
53 0 214.5 130.1 130.0 7.8 10.9 140.9
54 0 215.4 130.2 130.2 7.6 10.9 141.6
55 0 214.5 129.4 129.5 7.9 10.0 141.4
56 0 215.2 129.7 129.4 9.2 9.4 142.0
57 0 215.7 130.0 129.4 9.2 10.4 141.2
58 0 215.0 129.6 129.4 8.8 9.0 141.1
59 0 215.1 130.1 129.9 7.9 11.0 141.3
60 0 215.1 130.0 129.8 8.2 10.3 141.4
61 0 215.1 129.6 129.3 8.3 9.9 141.6
62 0 215.3 129.7 129.4 7.5 10.5 141.5
63 0 215.4 129.8 129.4 8.0 10.6 141.5
64 0 214.5 130.0 129.5 8.0 10.8 141.4
65 0 215.0 130.0 129.8 8.6 10.6 141.5
66 0 215.2 130.6 130.0 8.8 10.6 140.8
67 0 214.6 129.5 129.2 7.7 10.3 141.3
68 0 214.8 129.7 129.3 9.1 9.5 141.5
69 0 215.1 129.6 129.8 8.6 9.8 141.8
70 0 214.9 130.2 130.2 8.0 11.2 139.6
71 0 213.8 129.8 129.5 8.4 11.1 140.9
72 0 215.2 129.9 129.5 8.2 10.3 141.4
73 0 215.0 129.6 130.2 8.7 10.0 141.2
74 0 214.4 129.9 129.6 7.5 10.5 141.8
75 0 215.2 129.9 129.7 7.2 10.6 142.1
76 0 214.1 129.6 129.3 7.6 10.7 141.7
77 0 214.9 129.9 130.1 8.8 10.0 141.2
78 0 214.6 129.8 129.4 7.4 10.6 141.0
79 0 215.2 130.5 129.8 7.9 10.9 140.9
80 0 214.6 129.9 129.4 7.9 10.0 141.8
81 0 215.1 129.7 129.7 8.6 10.3 140.6
82 0 214.9 129.8 129.6 7.5 10.3 141.0
83 0 215.2 129.7 129.1 9.0 9.7 141.9
84 0 215.2 130.1 129.9 7.9 10.8 141.3
85 0 215.4 130.7 130.2 9.0 11.1 141.2
86 0 215.1 129.9 129.6 8.9 10.2 141.5
87 0 215.2 129.9 129.7 8.7 9.5 141.6
88 0 215.0 129.6 129.2 8.4 10.2 142.1
89 0 214.9 130.3 129.9 7.4 11.2 141.5
90 0 215.0 129.9 129.7 8.0 10.5 142.0
91 0 214.7 129.7 129.3 8.6 9.6 141.6
92 0 215.4 130.0 129.9 8.5 9.7 141.4
93 0 214.9 129.4 129.5 8.2 9.9 141.5
94 0 214.5 129.5 129.3 7.4 10.7 141.5
95 0 214.7 129.6 129.5 8.3 10.0 142.0
96 0 215.6 129.9 129.9 9.0 9.5 141.7
97 0 215.0 130.4 130.3 9.1 10.2 141.1
98 0 214.4 129.7 129.5 8.0 10.3 141.2
99 0 215.1 130.0 129.8 9.1 10.2 141.5
100 0 214.7 130.0 129.4 7.8 10.0 141.2
101 1 214.4 130.1 130.3 9.7 11.7 139.8
102 1 214.9 130.5 130.2 11.0 11.5 139.5
103 1 214.9 130.3 130.1 8.7 11.7 140.2
104 1 215.0 130.4 130.6 9.9 10.9 140.3
105 1 214.7 130.2 130.3 11.8 10.9 139.7
106 1 215.0 130.2 130.2 10.6 10.7 139.9
107 1 215.3 130.3 130.1 9.3 12.1 140.2
108 1 214.8 130.1 130.4 9.8 11.5 139.9
109 1 215.0 130.2 129.9 10.0 11.9 139.4
110 1 215.2 130.6 130.8 10.4 11.2 140.3
111 1 215.2 130.4 130.3 8.0 11.5 139.2
112 1 215.1 130.5 130.3 10.6 11.5 140.1
113 1 215.4 130.7 131.1 9.7 11.8 140.6
114 1 214.9 130.4 129.9 11.4 11.0 139.9
115 1 215.1 130.3 130.0 10.6 10.8 139.7
116 1 215.5 130.4 130.0 8.2 11.2 139.2
117 1 214.7 130.6 130.1 11.8 10.5 139.8
118 1 214.7 130.4 130.1 12.1 10.4 139.9
119 1 214.8 130.5 130.2 11.0 11.0 140.0
120 1 214.4 130.2 129.9 10.1 12.0 139.2
121 1 214.8 130.3 130.4 10.1 12.1 139.6
122 1 215.1 130.6 130.3 12.3 10.2 139.6
123 1 215.3 130.8 131.1 11.6 10.6 140.2
124 1 215.1 130.7 130.4 10.5 11.2 139.7
125 1 214.7 130.5 130.5 9.9 10.3 140.1
126 1 214.9 130.0 130.3 10.2 11.4 139.6
127 1 215.0 130.4 130.4 9.4 11.6 140.2
128 1 215.5 130.7 130.3 10.2 11.8 140.0
129 1 215.1 130.2 130.2 10.1 11.3 140.3
130 1 214.5 130.2 130.6 9.8 12.1 139.9
131 1 214.3 130.2 130.0 10.7 10.5 139.8
132 1 214.5 130.2 129.8 12.3 11.2 139.2
133 1 214.9 130.5 130.2 10.6 11.5 139.9
134 1 214.6 130.2 130.4 10.5 11.8 139.7
135 1 214.2 130.0 130.2 11.0 11.2 139.5
136 1 214.8 130.1 130.1 11.9 11.1 139.5
137 1 214.6 129.8 130.2 10.7 11.1 139.4
138 1 214.9 130.7 130.3 9.3 11.2 138.3
139 1 214.6 130.4 130.4 11.3 10.8 139.8
140 1 214.5 130.5 130.2 11.8 10.2 139.6
141 1 214.8 130.2 130.3 10.0 11.9 139.3
142 1 214.7 130.0 129.4 10.2 11.0 139.2
143 1 214.6 130.2 130.4 11.2 10.7 139.9
144 1 215.0 130.5 130.4 10.6 11.1 139.9
145 1 214.5 129.8 129.8 11.4 10.0 139.3
146 1 214.9 130.6 130.4 11.9 10.5 139.8
147 1 215.0 130.5 130.4 11.4 10.7 139.9
148 1 215.3 130.6 130.3 9.3 11.3 138.1
149 1 214.7 130.2 130.1 10.7 11.0 139.4
150 1 214.9 129.9 130.0 9.9 12.3 139.4
151 1 214.9 130.3 129.9 11.9 10.6 139.8
152 1 214.6 129.9 129.7 11.9 10.1 139.0
153 1 214.6 129.7 129.3 10.4 11.0 139.3
154 1 214.5 130.1 130.1 12.1 10.3 139.4
155 1 214.5 130.3 130.0 11.0 11.5 139.5
156 1 215.1 130.0 130.3 11.6 10.5 139.7
157 1 214.2 129.7 129.6 10.3 11.4 139.5
158 1 214.4 130.1 130.0 11.3 10.7 139.2
159 1 214.8 130.4 130.6 12.5 10.0 139.3
160 1 214.6 130.6 130.1 8.1 12.1 137.9
161 1 215.6 130.1 129.7 7.4 12.2 138.4
162 1 214.9 130.5 130.1 9.9 10.2 138.1
163 1 214.6 130.1 130.0 11.5 10.6 139.5
164 1 214.7 130.1 130.2 11.6 10.9 139.1
165 1 214.3 130.3 130.0 11.4 10.5 139.8
166 1 215.1 130.3 130.6 10.3 12.0 139.7
167 1 216.3 130.7 130.4 10.0 10.1 138.8
168 1 215.6 130.4 130.1 9.6 11.2 138.6
169 1 214.8 129.9 129.8 9.6 12.0 139.6
170 1 214.9 130.0 129.9 11.4 10.9 139.7
171 1 213.9 130.7 130.5 8.7 11.5 137.8
172 1 214.2 130.6 130.4 12.0 10.2 139.6
173 1 214.8 130.5 130.3 11.8 10.5 139.4
174 1 214.8 129.6 130.0 10.4 11.6 139.2
175 1 214.8 130.1 130.0 11.4 10.5 139.6
176 1 214.9 130.4 130.2 11.9 10.7 139.0
177 1 214.3 130.1 130.1 11.6 10.5 139.7
178 1 214.5 130.4 130.0 9.9 12.0 139.6
179 1 214.8 130.5 130.3 10.2 12.1 139.1
180 1 214.5 130.2 130.4 8.2 11.8 137.8
181 1 215.0 130.4 130.1 11.4 10.7 139.1
182 1 214.8 130.6 130.6 8.0 11.4 138.7
183 1 215.0 130.5 130.1 11.0 11.4 139.3
184 1 214.6 130.5 130.4 10.1 11.4 139.3
185 1 214.7 130.2 130.1 10.7 11.1 139.5
186 1 214.7 130.4 130.0 11.5 10.7 139.4
187 1 214.5 130.4 130.0 8.0 12.2 138.5
188 1 214.8 130.0 129.7 11.4 10.6 139.2
189 1 214.8 129.9 130.2 9.6 11.9 139.4
190 1 214.6 130.3 130.2 12.7 9.1 139.2
191 1 215.1 130.2 129.8 10.2 12.0 139.4
192 1 215.4 130.5 130.6 8.8 11.0 138.6
193 1 214.7 130.3 130.2 10.8 11.1 139.2
194 1 215.0 130.5 130.3 9.6 11.0 138.5
195 1 214.9 130.3 130.5 11.6 10.6 139.8
196 1 215.0 130.4 130.3 9.9 12.1 139.6
197 1 215.1 130.3 129.9 10.3 11.5 139.7
198 1 214.8 130.3 130.4 10.6 11.1 140.0
199 1 214.7 130.7 130.8 11.2 11.2 139.4
200 1 214.3 129.9 129.9 10.2 11.5 139.6
;

/*
proc npar1way  wilcoxon dscf;
 class Status;
 var Length Left Right Bottom Top Diagonal ;
run;
/*
proc anova;
class Status;
model Length Left Right Bottom Top Diagonal = Status;
means Status / tukey alpha=0.01 lines;
run;


proc glm;
class Status;
model Length Left Right Bottom Top Diagonal = Status;
manova h=_all_ / printe printh;
run;
data banco;
input obs Status $ Length Left Right Bottom Top Diagonal;
cards;
*/
title "Discriminante Linear";
proc discrim data=banco method=normal pool=yes
       crossvalidate;
class Status;
priors prop;
var Length Left Right Bottom Top Diagonal;
run;
title "Discriminante Quadratico";
proc discrim data=banco method=normal pool=no
       crossvalidate;
class Status;
priors prop;
var Length Left Right Bottom Top Diagonal;
run;


data banco;
input obs Status $ Length Left Right Bottom Top Diagonal;
cards;
1 0 214.8 131.0 131.1 9.0 9.7 141.0
2 0 214.6 129.7 129.7 8.1 9.5 141.7
3 0 214.8 129.7 129.7 8.7 9.6 142.2
4 0 214.8 129.7 129.6 7.5 10.4 142.0
5 0 215.0 129.6 129.7 10.4 7.7 141.8
6 0 215.7 130.8 130.5 9.0 10.1 141.4
7 0 215.5 129.5 129.7 7.9 9.6 141.6
8 0 214.5 129.6 129.2 7.2 10.7 141.7
9 0 214.9 129.4 129.7 8.2 11.0 141.9
10 0 215.2 130.4 130.3 9.2 10.0 140.7
11 0 215.3 130.4 130.3 7.9 11.7 141.8
12 0 215.1 129.5 129.6 7.7 10.5 142.2
13 0 215.2 130.8 129.6 7.9 10.8 141.4
14 0 214.7 129.7 129.7 7.7 10.9 141.7
15 0 215.1 129.9 129.7 7.7 10.8 141.8
16 0 214.5 129.8 129.8 9.3 8.5 141.6
17 0 214.6 129.9 130.1 8.2 9.8 141.7
18 0 215.0 129.9 129.7 9.0 9.0 141.9
19 0 215.2 129.6 129.6 7.4 11.5 141.5
20 0 214.7 130.2 129.9 8.6 10.0 141.9
21 0 215.0 129.9 129.3 8.4 10.0 141.4
22 0 215.6 130.5 130.0 8.1 10.3 141.6
23 0 215.3 130.6 130.0 8.4 10.8 141.5
24 0 215.7 130.2 130.0 8.7 10.0 141.6
25 0 215.1 129.7 129.9 7.4 10.8 141.1
26 0 215.3 130.4 130.4 8.0 11.0 142.3
27 0 215.5 130.2 130.1 8.9 9.8 142.4
28 0 215.1 130.3 130.3 9.8 9.5 141.9
29 0 215.1 130.0 130.0 7.4 10.5 141.8
30 0 214.8 129.7 129.3 8.3 9.0 142.0
31 0 215.2 130.1 129.8 7.9 10.7 141.8
32 0 214.8 129.7 129.7 8.6 9.1 142.3
33 0 215.0 130.0 129.6 7.7 10.5 140.7
34 0 215.6 130.4 130.1 8.4 10.3 141.0
35 0 215.9 130.4 130.0 8.9 10.6 141.4
36 0 214.6 130.2 130.2 9.4 9.7 141.8
37 0 215.5 130.3 130.0 8.4 9.7 141.8
38 0 215.3 129.9 129.4 7.9 10.0 142.0
39 0 215.3 130.3 130.1 8.5 9.3 142.1
40 0 213.9 130.3 129.0 8.1 9.7 141.3
41 0 214.4 129.8 129.2 8.9 9.4 142.3
42 0 214.8 130.1 129.6 8.8 9.9 140.9
43 0 214.9 129.6 129.4 9.3 9.0 141.7
44 0 214.9 130.4 129.7 9.0 9.8 140.9
45 0 214.8 129.4 129.1 8.2 10.2 141.0
46 0 214.3 129.5 129.4 8.3 10.2 141.8
47 0 214.8 129.9 129.7 8.3 10.2 141.5
48 0 214.8 129.9 129.7 7.3 10.9 142.0
49 0 214.6 129.7 129.8 7.9 10.3 141.1
50 0 214.5 129.0 129.6 7.8 9.8 142.0
51 0 214.6 129.8 129.4 7.2 10.0 141.3
52 0 215.3 130.6 130.0 9.5 9.7 141.1
53 0 214.5 130.1 130.0 7.8 10.9 140.9
54 0 215.4 130.2 130.2 7.6 10.9 141.6
55 0 214.5 129.4 129.5 7.9 10.0 141.4
56 0 215.2 129.7 129.4 9.2 9.4 142.0
57 0 215.7 130.0 129.4 9.2 10.4 141.2
58 0 215.0 129.6 129.4 8.8 9.0 141.1
59 0 215.1 130.1 129.9 7.9 11.0 141.3
60 0 215.1 130.0 129.8 8.2 10.3 141.4
61 0 215.1 129.6 129.3 8.3 9.9 141.6
62 0 215.3 129.7 129.4 7.5 10.5 141.5
63 0 215.4 129.8 129.4 8.0 10.6 141.5
64 0 214.5 130.0 129.5 8.0 10.8 141.4
65 0 215.0 130.0 129.8 8.6 10.6 141.5
66 0 215.2 130.6 130.0 8.8 10.6 140.8
67 0 214.6 129.5 129.2 7.7 10.3 141.3
68 0 214.8 129.7 129.3 9.1 9.5 141.5
69 0 215.1 129.6 129.8 8.6 9.8 141.8
70 0 214.9 130.2 130.2 8.0 11.2 139.6
71 0 213.8 129.8 129.5 8.4 11.1 140.9
72 0 215.2 129.9 129.5 8.2 10.3 141.4
73 0 215.0 129.6 130.2 8.7 10.0 141.2
74 0 214.4 129.9 129.6 7.5 10.5 141.8
75 0 215.2 129.9 129.7 7.2 10.6 142.1
76 0 214.1 129.6 129.3 7.6 10.7 141.7
77 0 214.9 129.9 130.1 8.8 10.0 141.2
78 0 214.6 129.8 129.4 7.4 10.6 141.0
79 0 215.2 130.5 129.8 7.9 10.9 140.9
80 0 214.6 129.9 129.4 7.9 10.0 141.8
81 0 215.1 129.7 129.7 8.6 10.3 140.6
82 0 214.9 129.8 129.6 7.5 10.3 141.0
83 0 215.2 129.7 129.1 9.0 9.7 141.9
84 0 215.2 130.1 129.9 7.9 10.8 141.3
85 0 215.4 130.7 130.2 9.0 11.1 141.2
86 0 215.1 129.9 129.6 8.9 10.2 141.5
87 0 215.2 129.9 129.7 8.7 9.5 141.6
88 0 215.0 129.6 129.2 8.4 10.2 142.1
89 0 214.9 130.3 129.9 7.4 11.2 141.5
90 0 215.0 129.9 129.7 8.0 10.5 142.0
91 0 214.7 129.7 129.3 8.6 9.6 141.6
92 0 215.4 130.0 129.9 8.5 9.7 141.4
93 0 214.9 129.4 129.5 8.2 9.9 141.5
94 0 214.5 129.5 129.3 7.4 10.7 141.5
95 0 214.7 129.6 129.5 8.3 10.0 142.0
96 0 215.6 129.9 129.9 9.0 9.5 141.7
97 0 215.0 130.4 130.3 9.1 10.2 141.1
98 0 214.4 129.7 129.5 8.0 10.3 141.2
99 0 215.1 130.0 129.8 9.1 10.2 141.5
100 0 214.7 130.0 129.4 7.8 10.0 141.2
101 1 214.4 130.1 130.3 9.7 11.7 139.8
102 1 214.9 130.5 130.2 11.0 11.5 139.5
103 1 214.9 130.3 130.1 8.7 11.7 140.2
104 1 215.0 130.4 130.6 9.9 10.9 140.3
105 1 214.7 130.2 130.3 11.8 10.9 139.7
106 1 215.0 130.2 130.2 10.6 10.7 139.9
107 1 215.3 130.3 130.1 9.3 12.1 140.2
108 1 214.8 130.1 130.4 9.8 11.5 139.9
109 1 215.0 130.2 129.9 10.0 11.9 139.4
110 1 215.2 130.6 130.8 10.4 11.2 140.3
111 1 215.2 130.4 130.3 8.0 11.5 139.2
112 1 215.1 130.5 130.3 10.6 11.5 140.1
113 1 215.4 130.7 131.1 9.7 11.8 140.6
114 1 214.9 130.4 129.9 11.4 11.0 139.9
115 1 215.1 130.3 130.0 10.6 10.8 139.7
116 1 215.5 130.4 130.0 8.2 11.2 139.2
117 1 214.7 130.6 130.1 11.8 10.5 139.8
118 1 214.7 130.4 130.1 12.1 10.4 139.9
119 1 214.8 130.5 130.2 11.0 11.0 140.0
120 1 214.4 130.2 129.9 10.1 12.0 139.2
121 1 214.8 130.3 130.4 10.1 12.1 139.6
122 1 215.1 130.6 130.3 12.3 10.2 139.6
123 1 215.3 130.8 131.1 11.6 10.6 140.2
124 1 215.1 130.7 130.4 10.5 11.2 139.7
125 1 214.7 130.5 130.5 9.9 10.3 140.1
126 1 214.9 130.0 130.3 10.2 11.4 139.6
127 1 215.0 130.4 130.4 9.4 11.6 140.2
128 1 215.5 130.7 130.3 10.2 11.8 140.0
129 1 215.1 130.2 130.2 10.1 11.3 140.3
130 1 214.5 130.2 130.6 9.8 12.1 139.9
131 1 214.3 130.2 130.0 10.7 10.5 139.8
132 1 214.5 130.2 129.8 12.3 11.2 139.2
133 1 214.9 130.5 130.2 10.6 11.5 139.9
134 1 214.6 130.2 130.4 10.5 11.8 139.7
135 1 214.2 130.0 130.2 11.0 11.2 139.5
136 1 214.8 130.1 130.1 11.9 11.1 139.5
137 1 214.6 129.8 130.2 10.7 11.1 139.4
138 1 214.9 130.7 130.3 9.3 11.2 138.3
139 1 214.6 130.4 130.4 11.3 10.8 139.8
140 1 214.5 130.5 130.2 11.8 10.2 139.6
141 1 214.8 130.2 130.3 10.0 11.9 139.3
142 1 214.7 130.0 129.4 10.2 11.0 139.2
143 1 214.6 130.2 130.4 11.2 10.7 139.9
144 1 215.0 130.5 130.4 10.6 11.1 139.9
145 1 214.5 129.8 129.8 11.4 10.0 139.3
146 1 214.9 130.6 130.4 11.9 10.5 139.8
147 1 215.0 130.5 130.4 11.4 10.7 139.9
148 1 215.3 130.6 130.3 9.3 11.3 138.1
149 1 214.7 130.2 130.1 10.7 11.0 139.4
150 1 214.9 129.9 130.0 9.9 12.3 139.4
151 1 214.9 130.3 129.9 11.9 10.6 139.8
152 1 214.6 129.9 129.7 11.9 10.1 139.0
153 1 214.6 129.7 129.3 10.4 11.0 139.3
154 1 214.5 130.1 130.1 12.1 10.3 139.4
155 1 214.5 130.3 130.0 11.0 11.5 139.5
156 1 215.1 130.0 130.3 11.6 10.5 139.7
157 1 214.2 129.7 129.6 10.3 11.4 139.5
158 1 214.4 130.1 130.0 11.3 10.7 139.2
159 1 214.8 130.4 130.6 12.5 10.0 139.3
160 1 214.6 130.6 130.1 8.1 12.1 137.9
161 1 215.6 130.1 129.7 7.4 12.2 138.4
162 1 214.9 130.5 130.1 9.9 10.2 138.1
163 1 214.6 130.1 130.0 11.5 10.6 139.5
164 1 214.7 130.1 130.2 11.6 10.9 139.1
165 1 214.3 130.3 130.0 11.4 10.5 139.8
166 1 215.1 130.3 130.6 10.3 12.0 139.7
167 1 216.3 130.7 130.4 10.0 10.1 138.8
168 1 215.6 130.4 130.1 9.6 11.2 138.6
169 1 214.8 129.9 129.8 9.6 12.0 139.6
170 1 214.9 130.0 129.9 11.4 10.9 139.7
171 1 213.9 130.7 130.5 8.7 11.5 137.8
172 1 214.2 130.6 130.4 12.0 10.2 139.6
173 1 214.8 130.5 130.3 11.8 10.5 139.4
174 1 214.8 129.6 130.0 10.4 11.6 139.2
175 1 214.8 130.1 130.0 11.4 10.5 139.6
176 1 214.9 130.4 130.2 11.9 10.7 139.0
177 1 214.3 130.1 130.1 11.6 10.5 139.7
178 1 214.5 130.4 130.0 9.9 12.0 139.6
179 1 214.8 130.5 130.3 10.2 12.1 139.1
180 1 214.5 130.2 130.4 8.2 11.8 137.8
181 1 215.0 130.4 130.1 11.4 10.7 139.1
182 1 214.8 130.6 130.6 8.0 11.4 138.7
183 1 215.0 130.5 130.1 11.0 11.4 139.3
184 1 214.6 130.5 130.4 10.1 11.4 139.3
185 1 214.7 130.2 130.1 10.7 11.1 139.5
186 1 214.7 130.4 130.0 11.5 10.7 139.4
187 1 214.5 130.4 130.0 8.0 12.2 138.5
188 1 214.8 130.0 129.7 11.4 10.6 139.2
189 1 214.8 129.9 130.2 9.6 11.9 139.4
190 1 214.6 130.3 130.2 12.7 9.1 139.2
191 1 215.1 130.2 129.8 10.2 12.0 139.4
192 1 215.4 130.5 130.6 8.8 11.0 138.6
193 1 214.7 130.3 130.2 10.8 11.1 139.2
194 1 215.0 130.5 130.3 9.6 11.0 138.5
195 1 214.9 130.3 130.5 11.6 10.6 139.8
196 1 215.0 130.4 130.3 9.9 12.1 139.6
197 1 215.1 130.3 129.9 10.3 11.5 139.7
198 1 214.8 130.3 130.4 10.6 11.1 140.0
199 1 214.7 130.7 130.8 11.2 11.2 139.4
200 1 214.3 129.9 129.9 10.2 11.5 139.6
;

/*
proc npar1way  wilcoxon dscf;
 class Status;
 var Length Left Right Bottom Top Diagonal ;
run;
/*
proc anova;
class Status;
model Length Left Right Bottom Top Diagonal = Status;
means Status / tukey alpha=0.01 lines;
run;


proc glm;
class Status;
model Length Left Right Bottom Top Diagonal = Status;
manova h=_all_ / printe printh;
run;
data banco;
input obs Status $ Length Left Right Bottom Top Diagonal;
cards;
*/
title "Discriminante Linear";
proc discrim data=banco method=normal pool=yes
       crossvalidate;
class Status;
priors prop;
var Length Left Right Bottom Top Diagonal;
run;
title "Discriminante Quadratico";
proc discrim data=banco method=normal pool=no
       crossvalidate;
class Status;
priors prop;
var Length Left Right Bottom Top Diagonal;
run;

*/

Exercício - Criar um exemplo para aplicar ANOVA - MANOVA - Cluster

quarta-feira, 15 de abril de 2020

Machine Learning Não Supervisionado - Data Crunching e Cluster Analysis

 
Machine Learning Não Supervisionado
Data Crunching e Cluster Analysis


Videoaulas


Videoaula 1

Introdução à Estatística Multivariada e à Inteligência Artificial

https://youtu.be/AQdRiLq9lss




Videoaula 2

Data Crunching - Pivot Tables - Pivot ou Tabela Dinâmica em Excel (Calculo da Matriz de Médias Aritméticas)

https://youtu.be/vhHHc7VxgBk




Videoaula 3

Visual Analytics ou Cluster Analysis ou Elaboração do Dendrograma em Linguagem SAS na Nuvem ( SAS on Demand - Free) 


https://youtu.be/jkpbgtRNZ40











- Pesquisar Data:
                      - Mining
                      - Crunching
                      - Analysis


  Tabela Dinâmica - Excel (Pivot Table ou Paivot ou "Pivot" forma de referenciar em empresas)

 e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 20.000 computadores de ultima geração de 2019) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.




Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big-Small Data) e Pesquisa Cientifica



Também é utilizado numa área da Inteligência Artificial denominada Visual Analytics, vejamos o seguinte exemplo, como poderíamos enxergar em dimensão 78?










No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:






                         
                           Tabela Dinâmica
                              em   Excel
                             ( Pivot Table )

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;