quarta-feira, 17 de junho de 2015

Aula XVI (24/6) - Fechar a disciplina com simulacao boostrapping e analise real de dados

Simulação boostrapping 


  • Jorge Alexandre Wiendl: Programador de linguagem de

 baixo nível ( Linguagem C)

  • Feranada do NUPEIA pode vir para apresentar problema
  • Exemplo de amostragem de cana de açúcar (Paper Hawaii)

Analise de dados reais:
  • Andrés Lai Reyes - Chefe da informatica da ESALQ
  • Dados da Lilian: Farinha de Arroz para material de referencia laboratorial certificado

Falar da Disciplina Residencia em Analises Estatísticas

  • Convidar Sonia e Tadeu

Links para Parcerias Futuras

E-mail do Gabriel: gasarrie@usp.br
Celular - Whatsapp : 019-988627438





Conversa que tive esta semana com os alunos da Disciplina LCE 100 - Mercado de Trabalho, Gestão e Certificação da Qualidade,  de graduação.

Fazer analogias para pós-graduado.


Estamos acabando o programa da disciplina, assim gostaria que pensemos na possibilidade de termos parcerias futuramente, colocarei algumas possibilidades, seguramente tem muitas outras.


Links para Parcerias Futuras


1) Laboratório de Analises Estatísticas (LAE) da ESALQ. Eu cuido da Estatística para Pesquisa e Gestão, Estatística Robusta e Simulação Bootstrapping.
Temos 11 professores de estatística e aproximadamente 70 alunos de pós-graduação em estatistifica da ESALQ que trabalham nas analises do LAE.
Podemos colaborar nos aspectos estatísticos de seus trabalhos nas áreas de gestão ou pesquisa.
Também você pode ser estagiário na área de produção de alimentos e estatística. Os estatísticos estão muito escassos, por isso uma competência em estatística aumenta sua empregabilidade e competitividade. Veja que essa escassez impacta no salario do estatístico, o segundo do brasil atrás somente do medico. Eles são contratados antes de acabar a graduação, tenho uma filha no penúltimo ano de estatística na USP de São Carlos, já foi convidada para fazer estagio remunerado no Banco Itaú (2400 $R), ver referencia abaixo, Anexo 1.
Podemos fazer isso na graduação ou na pós-graduação.
O LAE está saturado de trabalho, eu por exemplo, somente analiso dados de meus alunos  de graduação e PG ainda assim o tempo fica escaço




2) Painel Permanente para Pesquisa de Mercado de Trabalho do Cientista dos Alimentos


Divulgar Portal: Pesquisa de Mercado de Trabalho para Cursos de Graduação da ESALQ



http://mercado-trabalho-esalq.blogspot.com.br

Quem quiser trabalhar nesse projeto permanente, tem que gostar de:
·      Computação: Bancos de dados pesquisas em internet.
·      Data Minig, Crunching e Analysis. Textor mining, Big Data.
·      Estatística:
o  Dimensionamento ótimo de amostras
o  Estat, robusta para gestão e pesquisa (Kruskal Wallis, Wilcoxon, Corelaçã de Speerman, etc)
o  Estatística multivariada: MANOVA, Cluster Analysis, Principal Components Analysis, Analise Discriminante, Funções Canônicas.
o  Estatística paramétrica: ANOVA, regressão (simples e múltipla) correlação, testes de comparações múltiplas- Tukey, Duncan, etc.
·      Pesquisas de Mercado – CRM
·      Planejamento Estratégico
·      QFD
·      BI
·      Planejamento Estratégico
·      FEMEA - RCA - DOE, etc.

·      E-Learning: disciplina de Estat. Robusta PG, já para Unesp RC e Cabo Frio (e Piracicaba), ano que vem convite para Peru, Argentina, África do Sul e China (dois últimos locais legais para quem quer treinar inglês).
Dedicação: 2-3 horas por semana, 80% em casa, reuniões a cada 15 dias 30 minutos, videoconferência.


3) Pesquisas em Metrologia para Ciência dos Alimentos: material de referência laboratorial (MRL) para arroz, feijão, soja, tomate, café, feed (ração de animais), açúcar e cana de açúcar, bovinos (músculo, rim, fígado, cérebro, sangue).
Vidro de 100 ml ou mg = 800 US$.
Já aprovamos projeto de 1.000.000 $R e agora outro para criar um NIT (Núcleo de Inovação Tecnológica) para produção e distribuição no BR de MRL.



4) Orientação de estágios ou pratica profissionalizante ou mestrado, doutorado ou pós-doutorado nas áreas de gestão, certificação de 
qualidade, inteligencia de negócios e sistemas de informação, todo aplicado à produção de alimentos, ecologia aplicada e metrologia, preferivelmente para quem trabalhe no Item 2. Estou cadastrando minhas duas disciplinas de PG no Curso de Ciência dos Alimentos, já estão cadastradas em Estatistifica e Ecologia Aplicada: Estatística Robusta para Pesquisa e Gestão e Residencia em Análises Estatísticas.

5) Projetos de consultoria em Gestão, Certificação (nacional e internacional), Inteligencia e Informação para Produção de Alimentos. O tempo está um pouco escasso para esta atividade, mas tenho bastante experiencia, como para atuar em coaching ou mentoring.

6) Bater papo para fortalecer networking (52% dos empregos nos EUA (USA) são conseguidos através de networking, imagine no Brasil, que as pessoas conversam muito mais. Fonte: parceria ESALQ e CENA com o MIT ( Instituto de Tecnologia de Massachusetts), Anexo 2. Pense muito ao recusar participar de um churrasco, feijoada, pizzada, macarronada, paella, happy hour, cervejada, festa de aniversario, casamento, ate velório, etc. Sempre tenho cafe, chá, água mineral e umas bolachas no departamento de Estatistifica, podemos ir também no CENA onde trabalho a pesquisa em alimentos.






Anexo 1 - Salario Estatístico


http://oglobo.globo.com/economia/emprego/estatisticos-entram-em-cena-carreira-tem-segundo-melhor-salario-7347090

Estatísticos entram em cena: carreira tem segundo melhor salário

Puxada pelo mundo digital, profissão ocupa 6º lugar no ranking das melhores carreiras, informa Ipea

POR 
© 1996 - 2015. Todos direitos reservados a Infoglobo Comunicação e Participações S.A. Este material não pode ser publicado, transmitido por broadcast, reescrito ou redistribuído sem autorização. 



Anexo 2) MIT - http://pt.wikipedia.org/wiki/Instituto_de_Tecnologia_de_Massachusetts



Instituto de Tecnologia de Massachusetts (em inglêsMassachusetts Institute of TechnologyMIT) é um centro universitário de educação e pesquisa privado localizado em CambridgeMassachusetts, nos Estados Unidos.
O MIT é um dos líderes mundiais em ciência, engenharia e tecnologia, bem como outros campos, como administraçãoeconomialinguística,ciência política e filosofia. Dentre seus preeminentes departamentos e escolas, destacam-se: Sloan School of ManagementLincoln Laboratory,Computer Science and Artificial Intelligence LaboratoryMedia Lab e Whitehead Institute.
Dentre os professores e ex-alunos do MIT estão incluídos vários políticos (entre os quais a senadora vitalícia italiana Elena Cattaneo), executivos,escritoresastronautascientistas e inventores preeminentes. O MIT já produziu mais de 70 Prêmio Nobel, oito dos quais são membros do seu corpo docente atual.



Presente do Dia dos Namorados



Presente do Dia dos Namorados



Presente para Todos:  Livro We, o Livro Mais Importante que Li Sobre Amor - Paixão e Relacionamentos Sustentáveis:
Baseado no Mito de Tristão e Isolda o mais antigo do Cristianismo.



Resumo de Livro We (feito pelo Gabriel):



Livro Eletrônico (We) Completo:






segunda-feira, 15 de junho de 2015

Aula XV - Apresentações Pesquisas Alunos - Gráfico de Controle com Repetições




ExamTime - Site para elaborar mapa mental, gratuito, tem outras ferramentas de aprendizagem.
https://www.goconqr.com/pt-BR/p/1479690



1) Apresentações Pesquisas Alunos


2) Dinâmicas com técnicas já apresentadas nas aulas, exemplos dos alunos.



   3) Gráfico de Controle para a Média 

Aritmética

 – Dados com Repetições de Tratamentos

Seria a situação de fazermos uma ANOVA One Way, mesma estrutura de dados, veja na planilha abaixo, pasta Dados.

Planilha com Dados e Gráfico de Controle:

**********************************
**********************************





Tente entender como foi elaborado o gráfico de controle (engenharia reversa)e elabore um gráfico de controle análogo para dados relacionados a sua pesquisa.


Algumas Dicas:
a) A media do gráfico de controle é a media das medias dos frascos
b) O limite superior é calculado da seguinte forma:
Media das Medias + 3 * Medias dos Desvios / Raiz(Tamanho das Amostras)
Tamanho das Amostras = 3
c) Os passos são análogos à elaboração de gráficos de controle de pontos amostrais, aula anterior.


Apostila passo a passo:

**********************************
  Apostila em Power Point

**********************************


Dicas para Elaboração do Gráfico

Escolha as opções: 

  • Inserir
  • Gráfico de Linhas






















quarta-feira, 10 de junho de 2015

Simulação Bootstrapping - Exemplo

Simulação Bootstrapping 

Origem: Wikipédia, a enciclopédia livre.

Bootstrapping (ou simplesmente bootstrap, em inglês algo como "alça de botina") é um método de reamostragem proposto por Bradley Efron em 1979. Utiliza-se para aproximar distribuição na amostra de um levantamento estatístico. Usa-se frequentemente para aproximar o viés ou a variância de um conjunto de dados estatísticos, assim como para construir intervalos de confiança ou realizar contrastes de hipóteses sobre parâmetros de interesse. Na maior parte dos casos não pode obter-se expressões fechadas para as aproximações bootstrap e portanto é necessário obter reamostragens em um ordenador para por em prática o método. A enorme capacidade de cálculo dos computadores atuais facilita consideravelmente a aplicabilidade deste método tão custoso computacionalmente.



Exemplo


Reamostragem ou Simulação Bootstrapping
Foi necessário utilizar Reamostragem Bootstrapping por que o tamanho da amostra foi muito pequeno.
Era necessário compara com detalhes os desvios padrão com cada uma das técnicas de amostragem de cana de açúcar, amostragem horizontal VS. Amostragem obliqua. 
A técnica de amostragem que apresentar menor dispersão será a preferida, a mais precisa.

Arquivos sobre Bootstrapping Aplicado:
Texto Utilizando Bootstrapping

Slides sobre Bootstrapping Aplicado:
Slides Bootstrapping


Entrada no SAS - Numero SAS Studio

SAS Students Remoto Servidor LCE:
143.107.212.50:10080

Programa SAS (Para SAS Pago e SAS Studio - Students):

data SUCOS;
input suco $ NaOH;
cards;
Maca    8
Maca    11
Maca    10
Maca    8
Maca    9
Uva 8
Uva 6
Uva 7
Uva 9
Laranja 5
Laranja 4
Laranja 5
Manga   2
Manga   1
Manga   1
;
proc ANOVA;
class suco;
model NaOH=suco;
means suco/ tukey lines;
run;







Resultado da Análise:












Relatório de ANOVA (SAS):

Resultados e Discussão
O quadro de análise da variância mostra que existem diferenças entre o teor de Na OH dos sucos analisados (p<0,0001), com mais do que 99,99% de confiança (ou menos de 0,01% de erro).
O suco que apresentou maior teor de Na OH foi o de maça (9,2 mg/kg) que não diferiu significativamente (pelo Teste de Comparações Múltiplas de Tukey ao nível de 95% de confiança) do suco de uva (7,5 mg/kg). Esses dois sucos diferiram estatisticamente dos sucos de laranja e manga que apresentaram as menores medias aritméticas de Na OH.
Por sua vez os suco de laranja apresentou uma média aritmética superior estatisticamente (4,7mg/kg) em relação ao suco de manga (1,3 mg/kg).






segunda-feira, 8 de junho de 2015

Aula XIV (10/6/2015) - Regressão Múltipla - Seminários

Aula XIV - Regressão Múltipla - Seminários


Seminários
            Os alunos que quiserem podem apresentar os seus trabalhos de pesquisa para começarmos a interagir.
            Já analisamos dados e publicamos com alunos desta turma (2015), estamos analisando dados de outros, não é indispensável apresentar os trabalhos de pesquisa nesta disciplina. 
           Se fizerem a próxima disciplina Residencia em Analises Estatistificas, no próximo semestre a apresentação será mandatória. 
           Essa disciplina é a unica de nossa pós-graduado que não tem programa definido, os assuntos abordados nessa disciplina são os problemas de pesquisa dos alunos, logicamente os aspectos estatísticos. 
           Essa disciplina é interessante por que tem três professores na sala de aulas: a Prof. Sonia especialista em Amostragem e Estatística Experimental, o Prof. Tadeu, especialista em Estatistifica Multivariada e Estatística Experimental e eu, Estatística Robusta para Pesquisa e Gestão.                 Alem dos professores participam alunos de mestrado, doutorado e pós-doutorado em estatistifica da ESALQ.



Regressão Múltipla

Exemplo em SAS (Todo o que está escrito em fonte azul é entrada os saída do SAS):


Estamos testando a influencia das variáveis: Quilocalorias ingeridas por dia (Kcal_d), dos Quilômetros que as pessoas correm por semana (Corr_s) e das Xícaras de Chá do Sol (Cha_Sol), que é recomendado para emagrecer, anticancerígeno, antienvelhecimento e antidiarreico, as 3 variáveis anteriores no Índice de Massa Corporal (IMC). Veja o comando SAS para testar esse modelo:
model IMC = Kcal_d Corr_s Cha_Sol;


O Modelo Estatístico é:

IMC = Bo + B1 * Kcal + B2 * Corr_s  +  B3 * Cha_Sol  +                        Erro do Modelo


IMC é a: 
 variável dependente (efeito)

Kcal_d Corr_s Cha_Sol:    
                          são as variáveis independentes (causa)


data multipl;
input IMC Kcal_d Corr_s Cha_Sol;
cards;
28 2500 1 20
19 2100 34 19
22 2300 12 18
29 2600 . 22
20 2200 17 25
18 2100 32 25
29  2780    0.5 28
31  2890    1   27
20  2000    10  25
;
proc glm;
model IMC = Kcal_d Corr_s Cha_Sol;
run;



Resultados:


The SAS System


The GLM Procedure
Number of Observations Read 9
Number of Observations Used 9




The SAS System


The GLM Procedure
Dependent Variable: IMC

Source DF Sum of Squares Mean Square F Value Pr > F
Model 3 205.9795169 68.6598390 57.02 0.0003
Error 5 6.0204831 1.2040966
Corrected Total 8 212.0000000



Aqui podemos ver que se rejeita a Hipótese:

Rejeita-se Ho: B1 = B2 = B3 = 0 (ou seja que não ha nenhuma relação de causa  -->  efeito) com (1-0,0003) * 100 =  99,97 % de confiança. Então existe alguma relação causas efeito.

Quando a confiança para se rejeitar Ho for menor do que 95%, ou a margem de erro menor do que 0,05 = 5%, então nenhuma variável independente esta influenciado o IMC (variável dependente). Não foi esse o caso deste exemplo.
Cola analise com dado perdido @@@@@@@@@@@@@@



R-Square Coeff Var Root MSE IMC Mean
0.972057 4.848561 1.133351 23.37500


Source DF Type I SS Mean Square F Value Pr > F
Kcal_d 1 169.2880791 169.2880791 131.79 0.0003
Corr_s 1 8.4790347 8.4790347 6.60 0.0620
Cha_Sol 1 0.9699462 0.9699462 0.76 0.4339


Source DF Type III SS Mean Square F Value Pr > F
Kcal_d 1 43.68364463 43.68364463 34.01 0.0043
Corr_s 1 8.65365842 8.65365842 6.74 0.0603
Cha_Sol 1 0.96994618 0.96994618 0.76 0.4339


Parameter Estimate Standard Error t Value Pr > |t|
Intercept 0.1169092515 5.30174186 0.02 0.9835
Kcal_d 0.0116183745 0.00199228 5.83 0.0043
Corr_s -.1229135600 0.04735485 -2.60 0.0603
Cha_Sol -.1067422116 0.12283635 -0.87 0.4339


Podemos ver que a estimativa dos parâmetros 
Bo, B1, B2  e   B foi:



Parameter
Estimate
Bo = Intercept
0.1169092515
B1 = Kcal_d
0.0116183745
B2 = Corr_s
-.1229135600
B3 = Cha_Sol
-.1067422116


Podemos observar que:
             B1 > 0
                          B <0 
                 B <0
            assim as variáveis independentes (causa) ainda sem pensar em significância estatistifica atuaram em relação a IMC da seguinte forma: 
             B1 positivamente ou seja quando aumentam as quilocalorias por dia aumenta o IMC
             B2 negativamente    ou seja quando aumenta corrida diminuí o IMC  
              B3  negativamente    ou seja quando aumentam as xícaras de chá por sema diminui o IMC 


Agora temos que observar para quais variáveis independentes o coeficiente foi estatisticamente diferente de O (zero), para isso temos que observar a margem de erro do teste de cada coeficiente:


Parameter
Estimate
Pr > |t|
Bo = Intercept
0.1169092515
0.9835
B1 = Kcal_d
0.0116183745
0.0043
B2 = Corr_s
-.1229135600
0.0603
B3 = Cha_Sol
-.1067422116
0.4339


Assim:
            O Intersepto foi igual a zero (Bo = Intercept), o que tem muito poco valor pratico, seria o valor do IMC se todas as variáveis independentes fossem zeradas, logicamente se a ingestão diária de calorias fosse zero o individuo estaria morto.
            O coeficiente da variável independente Quilocalorias Ingeridas por Dia (B1 = Kcal_d)  foi diferente de zero, assim com 99,57 % de confiança podemos afirmar que a quantidade de quilocalorias ingeridas por dia impacta positivamente no IMC.
            O coeficiente a variável independente Quilômetros que as pessoas correm por semana (B2 = Corr_snão foi diferente de zero se utilizarmos o critério de 95% de confiança (ou 5% de margem de erro), porem esta muito perto da significânciarejeitaríamos a hipótese de ser igual a zero com 94% de confiança. Assim poderíamos entrar na discussão da suficiência do tamanho amostral, foi igual a 9 pontos amostrais. Esse tamanho amostral é insuficiente para todos os critérios que o professor conhece:
                      - Teorema do Limite Central da Estatística ( o mais importante da Estatística) requer no minimo 30 pontos amostrais;
                      - Recomendação da Estatística Experimental, minimo 10 graus de liberdade do resíduo e 20 do total ajustado, assim deveríamos ter no minimo 21 pontos amostrais, 
                      - Recomendação das normas ISO, minimo 9 graus de liberdade do resíduodeveríamos ter 13 pontos amostrais.
    
Vemos que não conseguimos satisfazer nenhum dos 3 critérios, assim uma significância de 94% é uma evidencia forte de que a variável  Quilômetros que as pessoas correm por semana (Corr_s) tem influencia significativa no IMC, uma relação inversamente proporcional, assim quando aumenta a corrida diminui o IMC. Seguramente se aumentarmos o tamanho amostral chegaremos a uma significância maior do que 95%.

                  O coeficiente a variável independente Xícaras de Chá do Sol por semana ( B3Cha_Sol) foi não significativa (p < 0,4339), assim o Chá do Sol não influenciou no IMC ou não tivemos argumentos estatisticamente significativos para rejeitar Ho: B3 = 0.