quarta-feira, 24 de abril de 2019

Data Crunching e Cluster Analysis

 Data Crunching e Cluster Analysis


Videoaulas


Videoaula 1

Introdução à Estatística Multivariada e à Inteligência Artificial

https://youtu.be/AQdRiLq9lss




Videoaula 2

Data Crunching - Pivot Tables - Pivot ou Tabela Dinâmica em Excel (Calculo da Matriz de Médias Aritméticas)

https://youtu.be/vhHHc7VxgBk




Videoaula 3

Visual Analytics ou Cluster Analysis ou Elaboração do Dendrograma em Linguagem SAS na Nuvem ( SAS on Demand - Free) 


https://youtu.be/jkpbgtRNZ40











- Pesquisar Data:
                      - Mining
                      - Crunching
                      - Analysis


  Tabela Dinâmica - Excel (Pivot Table ou Paivot ou "Pivot" forma de referenciar em empresas)

 e Cluster Analysis


Estatística Multivariada – Cluster Analysis

Vamos começar a “olhar” com a Estatística (algoritmos matemáticos), de forma multivariada.

Isso é muito familiar para a gente por que nosso cérebro (muito mais poderoso que qualquer computador, 20.000 computadores de ultima geração de 2019) enxerga de forma multivariada.

Como reconhecemos os objetos ou as pessoas, por somente um item? Por exemplo, como reconhecemos uma pessoa: sexo, altura, cor do cabelo, formato do rosto, timbre da voz, sotaque, perfume que utiliza (ou que não utiliza), etc.

Na verdade utilizamos todos esses dados e muitos mais simultaneamente, ou seja, nosso sistema de reconhecimento natural é multivariado (como a Estatística Multivariada).

Como nosso cérebro processa toda essa informação em frações de segundo não sabemos. A neurociência está quebrando cabeça com isso. Podemos perguntar para Nicolelis (o neurocientista que dizem ter a maior chance de conseguir um Premio Nobel para o Brasil).

O que podemos fazer com a matemática, estatística e computação é simular de alguma forma primitiva o funcionamento do cérebro.




Esse tipo de abordagem é utilizado nas áreas de Inteligencia de Negócios (BI), Sistemas de Informação ( Data Mining, Data Crunching, Decision Support Systems-DSS e Big-Small Data) e Pesquisa Cientifica



Também é utilizado numa área da Inteligência Artificial denominada Visual Analytics, vejamos o seguinte exemplo, como poderíamos enxergar em dimensão 78?










No exemplo a ser apresentado (arquivo de Excel para download), temos 4 categorias de pessoas: Atletas, Semi-atletas, Sedentários e Professores da ESALQ. Nessas pessoas foram medidas 3 variáveis, Índice de Massa Corporal, Quantos quilômetros corre ou anda por semana e Quilocalorias que Ingere por Dia (modelo trivariado, se tem mais do que uma já é multivariado).
Exemplo para Download:



Aqui apresentamos o nosso objetivo, elaborarmos um dendrograma, que é a representação gráfica da saída do procedimento Cluster Analysis do Programa SAS:






                         
                           Tabela Dinâmica
                              em   Excel
                             ( Pivot Table )

Podemos ver nesse exemplo que temos vários representantes de cada categoria, são exatamente 4 (ou quatro repetições de cada categoria)

Para aplicarmos Cluster Analysis devemos calcular previamente as medias aritméticas de cada categoria, para cada uma das 3 variáveis de resposta.






Vamos colocar a sequencia de passos para obtermos essas medias utilizando um recurso muito poderoso de bancos de dados do Excel (tal vez o mais poderoso):


 Tabela Dinâmica ou Pivot Table ou Pivot.


Passo 1 – Marcar o banco de dados original

Passo 2 – Entrar em Inserir e Depois em Tabela Dinâmica.






Passo 3 – Dar OK. Entraremos no Ambiente de Trabalho da Tabela Dinâmica:





Passo 4 – Clicar em Categorias “Cat.”(sem soltar o mouse, operação “Drag”) e arrastar as categorias para o local Rótulos de Linha.





Passo 5 – Arrastar as 3 variáveis observadas: IMC, Corr e Kcal para o local Somatória de Valores (Σ valores). Veja que o protótipo da Tabela Dinâmica, já está pronto, no canto superior esquerdo.



Passo 6 – O problema é que temos somatória dos valores e precisamos de medias aritméticas para entrar no Programa de 

Cluster Analysis do SAS. Como fazer para trocar 

somatória para medias?:


Veja que os dados são de soma, um IMC de 100, praticamente não existe ( 81,9 ; 100,7 ...)


·       Colocar o cursor na célula “soma de IMC

    ·   Pressionar o botão direito do mouse







    ·       Escolher a opção: “Configurações do Campo de Valor

    ·       Veja que está em “Soma”, clicar em “Média”. 





    Veja que agora temos Média de ICM para cada categoria.


    ·       Fazer mesma operação para Corr e Kcal.





    Fim do calculo das medias de cada categoria.


    Agora é somente copiar e colar no SAS.


    Programa SAS para Cluster Analysis dos Dados Calculados no Excel:

    data  pessoas;
    input cat $ imc corr kcal;
    cards;
    DADOS DO SAS DEPOIS DE APLICAR TABELA DINAMICA
    ;
    proc cluster data=pessoas outtree = arvore method = average;
    var imc corr kcal;
    id cat;
    run;
    PROC TREE DATA = arvore;
    RUN;
















    Visual Analytics - Java Site e SAS



    Aplicativo Visual Analytics da Microsoft gratuito
    https://www.microsoft.com/pt-br/p/sas-visual-analytics-app/9nblggh51rvw?activetab=pivot%3Aoverviewtab  

    Carta sobre Disciplinas de Inteligência Artificial (IA) e IA no LCE/ESALQ/USP

    Carta sobre Disciplinas de Inteligência Artificial (IA) e IA no LCE/ESALQ/USP



    Olá Pessoal,

    Peço desculpas antecipadamente pela extensão do e-mail, acho que deve ser de interesse de quem está preocupado com as disciplinas do LCE de graduação e quem gosta da área de Inteligência Artificial (IA), para ensino, pesquisa ou extensão no LCE.

    Acredito que as disciplinas abaixo listadas, Anexo 1, sejam as primeiras disciplinas de graduação da ESALQ que abordam (IA), desenvolvendo os temas: Data Mining, Machine Learning, Big e Small Data, Ciência de Dados, Visual Analytics, etc., combinando esses assuntos com a Quarta Revolução Industrial (Indústria, Fazenda, Serviços, Administração e Gestão 4.0).

    A Quarta Revolução Industrial, um tema bem novo (2013), utiliza essas técnicas de IA intensivamente, permitindo desenvolver outros temas importantes para a empregabilidade e competitividade dos egressos da ESALQ: a Hipercompetitividade e a Hiperinovação, que por sua vez utilizam intensivamente estatística em técnicas de inteligência de negócios.

    Essas disciplinas despertaram bastante interesse, sendo que vários professores de outros departamentos gostariam de trabalhar em parceria, acredito que o LCE deveria liderar essa área na ESALQ e CENA.

    A maior proximidade por afinidade, das áreas acima mencionadas, acontece a meu modo de ver com a estatística, matemática e computação, principalmente a estatística. O Rafael vem em Agosto da Europa ministrar uma disciplina de pós-graduação nessa área e estamos todos, alunos e professores supermotivados e ansiosos para poder cursa-la, tentando de qualquer forma acertar nossas agendas de disciplinas.

    No CENA trabalho com química (Ativação Neurônica, ICP-MS, XRF, etc.), analisando dados. Eu não queria entrar na área de IA, achava que estava velho, fui forçado a entrar depois que a Profa. Elisabete me mostrou mais de 50 papers utilizando IA na nossa área de química de alimentos, ambiente, metrologia, mineração, materiais de alta tecnologia, energia, etc. O mundo está utilizando a IA junto com a estatística, não sei se é necessário mas está na moda, os meios de publicação hipervalorizam. Para a gente da estatística é divertido por que aprendemos e testamos técnicas novas, por sinal superinteligentes e interessantes.

    Com os colegas Sonia, Renata, Taciana, Cristian e Silvio, estamos conversando há um tempo sobre esses assuntos e agora convido a todos para trabalharmos juntos nas disciplinas e em projetos de pesquisa e extensão na área. Poderíamos fazer o curso do Rafael em agosto e depois montarmos grupos de estudo, treinamentos internos, work shops internos, grupos de estagio com alunos de graduação (já tenho um, com IA Estatística e Hiperinovação, estão todos convidados a participar da coordenação).

    Estou pensando numa pratica profissionalizante para América Latina, nessa área por e-learning, gostaria de ser vice coordenador, para que tenha continuidade quando me aposentar (posso de aqui a 5 ou 6 anos). Estou pensando em algo assim como “Estadistica e Inteligencia Atrificial para Hiperinnovación, plazo de 24 meses para 24 personas por e-learning a partir de 2020”. Somente está faltando a coordenadora ou coordenador.

    Bom, ideias não faltam, o Rafael é muito inteligente, capacitado, trabalha na Europa, muito boa gente, tem todos os requisitos para ser um ótimo orientador de nossa equipe. Se por ventura não puder fazê-lo, temos plano B, o pessoal do ICMC de São Carlos, já nos atendeu muito bem a Cristian e a mim (fiquei 5 dias com eles e os consultei muitas vezes). Também temos projetos com equipes de USA, Holanda, Reino Unido (eu consulto pesquisadores na Espanha, Portugal, México, Chile, Uruguai, Argentina, Índia, China, Rússia, etc.) e outros países através do CENA, vários outros através do LCE, já estamos nos virando para resolver problemas práticos com IA, fazendo publicações, tal vez simples mas aceitas dentro e fora do pais (em geral corroboradas e as vesses retificadas pela Estatística), então, acho que o gelo  foi quebrado.

    Podemos também trabalhar em parceria para fazermos publicações, meu viés é aplicado utilizando estatística e IA (eventualmente gestão), se forem dados do LCE melhor, tal vez da área de Química, também podemos simular, estou fazendo algumas experiências trabalhando com IA e PCA, IA e Cluster, IA e Analise Discriminante, IA e MANOVA, IA e Funções Canônicas, IA e Regressão Logística, IA e Reamostragem, etc. Também tem muita demanda por IA do CENA e da ESALQ, podemos trabalhar com equipe de funcionários (docentes ou não docentes) ou funcionários e alunos de pós-graduação. Nessa área frequentemente tem que se programar, o Jorge e o Eduardo, estão fazendo programas em C para me ajudar e estudando Python (por e-learning) que é a principal linguagem de IA, o principal programa é o R, existem outros de menor importância, mais amigos do usuário.

    Acredito que em poucos anos estaremos usando a IA de modo similar a Estatística, para todo tipo de problema, logicamente isso demandará trabalho conjunto, inteligência coletiva e colaborativa, são muitas técnicas, algoritmos, programas, os que já existem, e aparecem inovações o tempo todo.

    No momento consigo fazer algumas coisas com IA e checo tudo com Estatística, quando os resultados são diferentes confio na Estatística, nunca na IA. Normalmente os resultados coincidem, porem tem exceções. Não sei como explicar, por que IA é para peta bytes, lei dos grandes números, big data?, e a Estatística para small data?, tera bytes para baixo, não sei. Essa problemática exige massa critica maior.

    Sei que as seis disciplinas de graduação, evolução de antigas disciplinas de sistemas de informação e inteligência, são motivo de preocupação na minha aposentadoria e que tal vez gostariam que diminuísse esse numero de disciplinas para poder focarmos no calculo, eu gosto muito de calculo, mas vejam, todos os professores da ESALQ, CENA, ICMC/USP (São Carlos), inclusive parceiros da Europa, USA, Rússia e  China (os últimos são parceiros de projeto do BRICS, estamos tentando aprovar um projeto conjunto), que souberam dessas disciplinas e que falaram comigo acharam que são grandes oportunidades para o LCE, eu também acho que o LCE tem que evoluir e assumir liderança e protagonismo, a IA para mim é o assunto mais importante da ciência e tecnologia atual, mundialmente.

    De qualquer forma não estou desatento à preocupação dos colegas, falei com a Profa. Thais, ex. Coordenadora do curso de Ciência dos Alimentos, atual Presidente da Comissão de Graduação para transformar duas das seis disciplinas (as oferecidas para o LAN) em optativas, achou viável, dessa forma as disciplinas podem ser extintas sem problemas na minha aposentadoria ou em qualquer momento, assim ficaríamos com quatro optativas, sendo que uma obrigatória seria do LES.

    Também falei com professores do LES que manifestaram muito interesse nessas disciplinas, existe a possibilidade de transferir as seis disciplinas, ou menos, num prazo mínimo de dois anos. Seria um trabalho conjunto no qual eu prepararia os professores para assumi-las, se o LCE assim deseja-se.

    Estou a disposição para bater um papo quando quiserem. Fico no Departamento de tarde e de noite (minhas aulas são nesses horários), as vezes de tarde estou no CENA, mas é só me ligar no CENA ou me ligar por Whatsapp que chego no LCE em 15 minutos, pode ser na Química ou na Matemática. Deixo os números no Anexo 2.

    Por ultimo um comentário marginal, a área de IA é tão legal e flexível (como a Estatística) que estou conseguindo interagir com minha filha na área de comunicações (estatística da AT&T) e meu filho na área de medicina, não é fácil para mim achar assunto para conversar com meus filhos, acho que os dois um dia trabalharão com IA, como foco principal ou secundário.

    Muito obrigado pela atenção, desculpem pela extensão do e-mail.

    Um abraço forte.

    Muitas felicidades para todos!!!

    Gabriel.



    Anexo 1 Disciplinas de graduação do LCE com esses assuntos validas para 2019:



    LCE1270 – Inteligência Artificial, Big-Small Data e Gestão para Indústria, Serviços e Fazenda 4.0.

    LCE137 - Inteligência Artificial, Data Mining e Gestão para Inovação e Hipercompetitividade.

    LCE136 - Ciência de Dados e Gestão para Empregabilidade, Empreendedorismo e Inovação.

    LCE134 - Computação, Inteligência Artificial e Organizacional para Ciência dos Alimentos Visando Hipercompetitividade e Hiperinovação.

    LCE105 - Computação, Inteligência Artificial e Organizacional para Economia Visando Hipercompetitividade.

    LCE0100 – Inteligência Artificial Gestão e  Certificação Internacional da Qualidade na Produção de Alimentos







    Anexo 2

    Whatsapp do Gabriel, por favor, me liguem por Whatsapp (VOIP) eu demoro em ver mensagens, fico distraído, muito obrigado.

    019 – 988-627-438



    Telefone do Laboratório de Radioisótopos do CENA

    3429-2829



    A Lu e a Solange sempre sabem onde estou, se não estiver no LCE ou no CENA, as vesses vou na Economia ou Computação da ESALQ.

    segunda-feira, 22 de abril de 2019

    quarta-feira, 10 de abril de 2019

    RANOVA ou NPANOVA ou Kruskal Wallis - Com Outlier

    RANOVA ou NPANOVA ou Kruskal Wallis

    Programa de RANOVA com OUTLIER (Suco de Manga com 200 mg/l de NaOH)


    data SUCOS;
    input suco $ NaOH;
    cards;
    Maca    8
    Maca    11
    Maca    10
    Maca    8
    Maca    9
    Uva 8
    Uva 6
    Uva 7
    Uva 9
    Laranja 5
    Laranja 4
    Laranja 5
    Manga   200
    Manga   1
    Manga   1
    ;
    proc npar1way data=SUCOS wilcoxon dscf;
     class suco;
     var NaOH;
    run;




    VIDEOAULAS

    Simulando Outlier em ANOVA
    ( Variâncias heterogêneas e coeficiente de variação muito grande : maior que 250%)


    Rodando RMANPVA ou NPMANOVA ou Teste de Kruskal Wallis
    https://youtu.be/LGu-kUWN92c




    sexta-feira, 5 de abril de 2019

    Videoaulas do Programa SAS para ANOVA


    Videoaulas do Programa SAS para ANOVA



    12/4/2019





    Programas Análogos ao SAS





    Videoaulas do Programa SAS para ANOVA


    Primeira Videoaula - Rodando um Programa SAS para ANOVA:


    https://youtu.be/Z2K_WBG86OY


    Segunda Videoaula - Interpretando o Resultado de um Programa SAS para ANOVA

    https://youtu.be/1EebI4y72iA





    Entrando no SAS da Web

    Primeiro você tem que criar uma conta no SAS on Demand (gratuita)

    Depois você segue estes passos para entrar no SAS na Web:




    Ou isto 















    Tela do SAS on Demand na Internet







    OK Você já está no SAS da Internet!







    Programa SAS :

    data SUCOS;
    input suco $ NaOH;
    cards;
    Maca    8
    Maca    11
    Maca    10
    Maca    8
    Maca    9
    Uva 8
    Uva 6
    Uva 7
    Uva 9
    Laranja 5
    Laranja 4
    Laranja 5
    Manga   2
    Manga   1
    Manga   1
    ;
    proc ANOVA;
    class suco;
    model NaOH=suco;
    means suco/ tukey lines;
    run;







    Resultado da Análise:






    Dependent Variable: NaOH
    Source
    DF
    Sum of Squares
    Mean Square
    F Value
    Pr > F
    Model
    3
    129.8000000
    43.2666667
    36.24
    <.0001
    Error
    11
    13.1333333
    1.1939394


    Corrected Total
    14
    142.9333333





    O número em vermelho é a margem de erro da ANOVA, em termos proporcionais, chamado nas publicações de p valor (p value).
    No âmbito corporativo se utiliza (1- p valor) * 100 = Margem de confiança para se rejeitar a hipótese Ho: Hipótese nula (ou Hipotese de Nulidade) ou Hipótese de Igualdade, ou seja que todos os sucos contem igual quantidade (concentração) de OHNa. Se tivermos p valor < 0,05 ou margem de confiança > 95%, então rejeita-se Ho, em favor de H1: Hipótese Alternativa, assim existe alguma diferença de concentração de OHNa entre os sucos.
    Assim os sucos tem diferenças na quantidade de NaOH.
    Mas onde estão as diferenças?
    Temos que ver os Box Plot de cada suco e a comparação de medias efetuada neste casso pelo Teste de Comparações Múltiplas de Tukey.




    Box and wisker plot - Wikipedia











    Relatório do Teste de Tukey no 
    SAS Comercial









    Relatório de ANOVA (SAS):

    Resultados e Discussão
    O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro). Assim o experimento mostra diferenças altamente significativas (quando o p valor e < 0,01) (se estive-se o p valor entre 0,01 e 0,05, as diferenças seriam simplesmente significativas) e por ultimo se o p valor for > do que 0,05 então não se rejeita a hipótese de igualdade.
    O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg), por que as medias dos 2 sucos são precedidas pela letra "A". Esses dois sucos diferiram estatisticamente dos sucos de laranja (letra "B") e manga que apresentaram as menores medias aritméticas de Na OH (letra "C").
    Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).
    O texto em verde é somente para esclarecimentos, não deve ser colocado na tese.









     Estrutura Programa SAS






    Diferentes Cores de Letras Atribuídas pelo SAS



    Veja que você poderá mudar o que esta em fonte cor preta, as palavras em azul, são palavras reservadas do SAS, isso não poderá ser mudado. Tambem veja que o banco de dados, que seguramente você digitou no Excel esta com uma sobra cor amarelo-marrão.





     Fim Estrutura Programa SAS


    Como Gravar os 2 Arquivos Gerados pelo SAS
    1) O arquivo de programa SAS e dados tem exetencao ".sas"
    2) O arquivo de resultados tem extencao " .mht".
    Esse dois arquivos podem ser lidos pelo Word, clicando no nome do arquivo com o botão direito do mouse e escolhendo a opção "Abrir com" do Microsoft Explorer.


    Exercício na Aula

    • Digitar no SAS  para refletir em cada linha digitada. 
    • Perguntar qualquer duvida, todo deve fazer sentido, pode não ser fácil por que estamos trabalhando numa linguagem de computação (de alto nível, quarta geração) e na língua inglesa.