segunda-feira, 27 de abril de 2015

Aula VII (29/4) - Tabela Dinâmica e Cluster Analysis

Aula VII - Tabela Dinâmica e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.

Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big Data) e Pesquisa Cientifica.

No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:




                      Tabela Dinâmica em Excel

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    AT      20.475       54.35  3100
    PR      25.175  2.55  2662.5
    SE       25.575  2.925  2700
    SEM   23.05         16.6  2950
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;
















    quarta-feira, 22 de abril de 2015

    Back up
    Estrutura Programa SAS








     Fim Estrutura Programa SAS

    Exercício na Aula

    • Digitar no SAS Studio o programa da aula passada, para aprender a utilizar o editor do SAS Studio (Na aula anterior somente copiamos e colamos) e também para refletir em cada linha digitada. 
    • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, terceira geração) e na língua inglesa.
    • Discutir os resultados com base em postagem da aula anterior. Reescreva ou copie interpretando cada paragrafo.




    Work Shop para Zerar Exercícios

    Vamos fazer todos os exerccios pendentes, tirando todas as duvidas. Na proxima aula chamamos as pessoas aleatoriamente para apresentarem.

    Proximas aulas




    Banco de Dados Excel para SAS


    Estatistifica Robusta
    file:///C:/Users/Usuario/Downloads/metodosestrobustos%20(1).pdf
    (Bootstrapping)


    Exemplo: Vamos evoluir a partir de um arquivo, em Excel, para Teste T. Rodaremos Teste T e depois agregaremos tratamentos (numero maior do que 2). Fazer Download do arquivo abaixo:



    Teste T – Sucos de Frutas



       Agora se apresentam duas situações:  



      1) Vou rodar o SAS Studio (gratuito)

      2) Vou rodar o SAS Comprado: Somente seguir o Passo 1 do SAS Studio copiar e colar.



           Vou rodar o SAS Studio (gratuito)

    Gabriel estuda contrastes para estatistifica robusta




    Passo 1 – Digitar os dados no Excel:
    ·       Respeitando estrutura de bancos de dados:
    o   Colunas ou Campos ou Variáveis:
    §  Uma coluna para Tratamentos (ou situações). Exemplo: Tipos de Suco.
    §  Uma coluna para a variável de resposta: Concentração de OHNa.
     Passo 2: Copiar e colar no Bloco de Notas
    Passo 3: Copiar do Bloco de Notas para o Word
    Passo 4: Selecionar a opção mostrar tudo do Word, clicar no P invertido do menu.
    Passo 5: Substituir caractere de tabulação por espaço em branco.
    Passo 6: Copiar e colar no SAS Studio.





      terça-feira, 21 de abril de 2015

      Aula VI (22/4/2015) - Estrutura Programa SAS - Banco de Dados Excel para SAS

       Estrutura Programa SAS









       Fim Estrutura Programa SAS


      Exercício na Aula

      • Digitar no SAS Studio o programa da aula passada, para aprender a utilizar o editor do SAS Studio (Na aula anterior somente copiamos e colamos) e também para refletir em cada linha digitada. 
      • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, quarta geração) e na língua inglesa.
      • Discutir os resultados com base em postagem da aula anterior. Reescreva ou copie interpretando cada paragrafo.




      Work Shop para Zerar Exercícios


      Vamos fazer todos os exercícios pendentes, tirando todas as duvidas. Na próxima aula chamamos as pessoas aleatoriamente para apresentarem.


      segunda-feira, 13 de abril de 2015

      Aula V (15/4) - ANOVA na Linguagem SAS

      Aula VII  - Questionário para Pesquisa de Mercado de Trabalho para o Cientista dos Alimentos 

      Lógica de Raciocínio: 

                 Similar à do Planejamento Estratégico
                         SWOT - Analysis




      Fonte: https://www.google.com.br/search?q=swot+analysis&newwindow=1&biw=988&bih=619&noj=1&tbm=isch&imgil=i6SlLWhSs-H0OM%253A%253BuJBLJLDqGppYxM%253Bhttp%25253A%25252F%25252Fwww.valariehurst.com%25252Fconduct-personal-swot-analysis%25252F&source=iu&pf=m&fir=i6SlLWhSs-H0OM%253A%252CuJBLJLDqGppYxM%252C_&usg=__HARjApwJ9ef4TQoahDlglzj9A5g%3D&ved=0CD8Qyjc&ei=HYwoVauKMOLHsQTt2YDYDQ#imgrc=i6SlLWhSs-H0OM%253A%3BuJBLJLDqGppYxM%3Bhttp%253A%252F%252Fwww.valariehurst.com%252Fwp-content%252Fuploads%252F2014%252F06%252FSWOT.02.png%3Bhttp%253A%252F%252Fwww.valariehurst.com%252Fconduct-personal-swot-analysis%252F%3B640%3B604



      Oportunidades - Pareto Modificado por Gabriel





      Oportunidades - Pareto Original (Temos que compactar os itens)



      Sequencia para Fazer Gráfico de Pareto Original

      Passo 1 - Elaborar esta tabela

      Passo 2 - Entrar Aqui


      Passo 3 - Entrar em Todos os Gráficos

      Passo 4 - Entrar em Combinação
                      (Apos Gráfico de Radar)

      Passo 5 - 


      Passo 6 - Colocar Títulos



      Exercício 6 - Elaborar um gráfico de Pareto Individual. DL: 5/5








      Quando temos mais de duas categorias para comparar (No Teste T tínhamos somente 2 categorias)



      - Tarefa montar um banco de dados para rodar ANOVA – Rodar e elaborar um relatório.
      Anexos do Teste ANOVA na Linguagem SAS:

      SAS Students Remoto Servidor LCE:
      143.107.212.50:10080

      Programa SAS (Para SAS Pago e SAS Studio - Students):

      data SUCOS;
      input suco $ NaOH;
      cards;
      Maca    8
      Maca    11
      Maca    10
      Maca    8
      Maca    9
      Uva 8
      Uva 6
      Uva 7
      Uva 9
      Laranja 5
      Laranja 4
      Laranja 5
      Manga   2
      Manga   1
      Manga   1
      ;
      proc ANOVA;
      class suco;
      model NaOH=suco;
      means suco/ tukey lines;
      run;







      Resultado da Análise:












      Relatório de ANOVA (SAS):

      Resultados e Discussão
      O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro).
      O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg). Esses dois sucos diferiram estatisticamente dos sucos de laranja e manga que apresentaram as menores medias aritméticas de Na OH.
      Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).







      terça-feira, 7 de abril de 2015

      Aula IV (8/4) - Teste T para Amostras Pareadas e Introducao ao SAS

      Aula IV - Teste T para Amostras Pareadas e Introducao ao SAS

      SAS Students Remoto Servidor LCE:
      143.107.212.50:10080

      - Segunda Situação para Tomada de Decisão Utilizando Inferência Estatística Indutiva


      Os dados estão amarrados:
      No exemplo medimos o consumo de combustível antes e depois da regulagem, ou seja, fazemos a medição do mesmo carro antes da regulagem e depois.

      Podemos pensar (segundo exemplo) em um grupo de pessoas que monitoram seu peso antes e depois de uma reeducação alimentar.

      Teste T para Amostras Pareadas
      Exemplo para Dowload:

      Teste T para Amostras Pareadas


      Video para Análise dos Dados:
      Macro Analise Teste T Amostras Pareadas






      Teste-t: duas amostras em par para médias






      Antes
      Depois da Regulagem
      Média
      9,833333333
      10,53333333
      Variância
      8,8975
      6,0175
      Observações
      9
      9
      Correlação de Pearson
      0,964685505

      Hipótese da diferença de média
      0

      gl
      8

      Stat t
      -2,351548546

      P(T<=t) uni-caudal
      0,023284275
      Inform. Previa (já somos clientes)
      t crítico uni-caudal
      1,859548033

      P(T<=t) bi-caudal
      0,04656855
      Primeiro servico desses mecanicos
      t crítico bi-caudal
      2,306004133



      Te




      Sumario Executivo (Setor Produtivo) da Regulagem dos Carros (7/4/2015):
      A regulagem dos carros foi bem sucedida, o consumo antes da regulagem era de 9,83 km /l e depois da regulagem passou para 10,53 km/l com margem de erro= 2,3 % (já tínhamos um boa referência dessa oficina mecânica).

      Resultados e Discussão ( Universidade):
      Rejeitou-se a hipótese de igualdade, assim existe o efeito da regulagem (p<0,02). A média anterior à regulagem era 9,83 km /l e após a regulagem foi 10,53 km/l.




      Discussão Sobre Teste T Amostras Independentes Vs. Amostras Pareadas
      Amostras Independentes: as observações (unidades experimentais ou observacionais) não estão relacionadas, ou seja são independentes. No exemplo trabalhamos com DBO, os córregos da região urbana não tinham nenhuma relação com os córregos da área de floresta, rural, suburbana, etc.
      O Teste correspondente na Est. Robusta é o Teste U de Mann Whitney.
      A generalização dessa situação para mais do que duas situações (tratamentos) é a análise conhecida como ANOVA One Way ou no campo da Estatística Robusta seria o Teste de Kruskal Wallis.
      Texto copiado da Wikipidia:
      The Kruskal–Wallis one-way analysis of variance by ranks (named after William Kruskal and W. Allen Wallis) is a non-parametric method for testing whether samples originate from the same distribution.[1][2][3] It is used for comparing two or more samples that are independent, and that may have different sample sizes, and extends the Mann–Whitney U test to more than two groups. The parametric equivalent of the Kruskal-Wallis test is the one-way analysis of variance (ANOVA).
      Amostras Pareadas
      As amostras são relacionadas, por exemplo o carro Uno foi medido antes e depois da regulagem, ou seja esses dados estão relacionados (ou não são independentes ) por que foram medidos no mesmo carro (unidade observacional ou experimental).
      A técnica equivalente na Est. Robusta e o Teste de Wilcoxon.

      Este teste esta relacionado na ANOVA Two Ways (Delineamento em Blocos Casualizados). Na Estatística Robusta é o Teste de Friedman.








      Exercício 4 Teste T para Amostras Pareadas, criar um exemplo individual . DL: 29/4

      - Explicação para Numero Magico de 30 pontos amostrais em marketing e inteligencia organizacional (Dialogo com Gerente de Inteligencia Antesipativa da Informa Economics, Marcelo - Camarão):


      Gabriel,
      Conforme conversamos por telefone sobre :  QUAL A BASE TEÓRICA que Temos para fazer uma amostra de 30 entrevistas numa região, ou seja:  existe literatura que cita/comprove este número mágico?

      Se sim, você pode me passar qual a base teórica e me encaminhar as referências?  Livros à respeito desse “número mágico “ de 30 entrevistas/região.

      Um Abraço,
      Marcelo


      Oi Marcelo a justificativa para o tamanho de amostra 30 é que pelo Teorema do Limite Central à medida que o tamanho da amostra fica grande o suficiente, a distribuição de amostragem da media aritmética passa a ser distribuída aproximadamente nos moldes da Distribuição Normal. Isso é verdadeiro independentemente do formato da distribuição dos valores individuais da população.
      Que tamanho de amostra é grande o suficiente? Quando o tamanho da amostra é pelo menos igual a 30.
      Fonte: Estatística – Teoria e Aplicações
      Levine – Stephan et all.
      2008.
      Um abraço.
      Gabriel.

      P S : Isso também contribui para que as estimativas sejam mais precisas (IC menores).







      Teste-t: duas amostras presumindo variâncias diferentes




       Analise
      Errada
       Não utiliza a estrutura dos dados




      Variável 1
      Variável 2
      Média
      9,833333333
      10,53333333
      Variância
      8,8975
      6,0175
      Observações
      9
      9
      Hipótese da diferença de média
      0

      gl
      15

      Stat t
      -0,543760512

      P(T<=t) uni-caudal
      0,297298309
      Diminuímos aproximadamente 15 vesses a margem de erro
      t crítico uni-caudal
      1,753050356

      P(T<=t) bi-caudal
      0,594596617

      t crítico bi-caudal
      2,131449546