forked from filipezabala/fdepcdd
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path_main.tex
9641 lines (8010 loc) · 475 KB
/
_main.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% Options for packages loaded elsewhere
\PassOptionsToPackage{unicode}{hyperref}
\PassOptionsToPackage{hyphens}{url}
%
\documentclass[
]{book}
\usepackage{lmodern}
\usepackage{amssymb,amsmath}
\usepackage{ifxetex,ifluatex}
\ifnum 0\ifxetex 1\fi\ifluatex 1\fi=0 % if pdftex
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{textcomp} % provide euro and other symbols
\else % if luatex or xetex
\usepackage{unicode-math}
\defaultfontfeatures{Scale=MatchLowercase}
\defaultfontfeatures[\rmfamily]{Ligatures=TeX,Scale=1}
\fi
% Use upquote if available, for straight quotes in verbatim environments
\IfFileExists{upquote.sty}{\usepackage{upquote}}{}
\IfFileExists{microtype.sty}{% use microtype if available
\usepackage[]{microtype}
\UseMicrotypeSet[protrusion]{basicmath} % disable protrusion for tt fonts
}{}
\makeatletter
\@ifundefined{KOMAClassName}{% if non-KOMA class
\IfFileExists{parskip.sty}{%
\usepackage{parskip}
}{% else
\setlength{\parindent}{0pt}
\setlength{\parskip}{6pt plus 2pt minus 1pt}}
}{% if KOMA class
\KOMAoptions{parskip=half}}
\makeatother
\usepackage{xcolor}
\IfFileExists{xurl.sty}{\usepackage{xurl}}{} % add URL line breaks if available
\IfFileExists{bookmark.sty}{\usepackage{bookmark}}{\usepackage{hyperref}}
\hypersetup{
pdftitle={Fundamentos de Estatística para Ciência de Dados},
pdfauthor={Filipe J. Zabala},
hidelinks,
pdfcreator={LaTeX via pandoc}}
\urlstyle{same} % disable monospaced font for URLs
\usepackage{color}
\usepackage{fancyvrb}
\newcommand{\VerbBar}{|}
\newcommand{\VERB}{\Verb[commandchars=\\\{\}]}
\DefineVerbatimEnvironment{Highlighting}{Verbatim}{commandchars=\\\{\}}
% Add ',fontsize=\small' for more characters per line
\usepackage{framed}
\definecolor{shadecolor}{RGB}{248,248,248}
\newenvironment{Shaded}{\begin{snugshade}}{\end{snugshade}}
\newcommand{\AlertTok}[1]{\textcolor[rgb]{0.94,0.16,0.16}{#1}}
\newcommand{\AnnotationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\AttributeTok}[1]{\textcolor[rgb]{0.77,0.63,0.00}{#1}}
\newcommand{\BaseNTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\BuiltInTok}[1]{#1}
\newcommand{\CharTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\CommentTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\CommentVarTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ConstantTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ControlFlowTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\DataTypeTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{#1}}
\newcommand{\DecValTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\DocumentationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\ErrorTok}[1]{\textcolor[rgb]{0.64,0.00,0.00}{\textbf{#1}}}
\newcommand{\ExtensionTok}[1]{#1}
\newcommand{\FloatTok}[1]{\textcolor[rgb]{0.00,0.00,0.81}{#1}}
\newcommand{\FunctionTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\ImportTok}[1]{#1}
\newcommand{\InformationTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\newcommand{\KeywordTok}[1]{\textcolor[rgb]{0.13,0.29,0.53}{\textbf{#1}}}
\newcommand{\NormalTok}[1]{#1}
\newcommand{\OperatorTok}[1]{\textcolor[rgb]{0.81,0.36,0.00}{\textbf{#1}}}
\newcommand{\OtherTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{#1}}
\newcommand{\PreprocessorTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textit{#1}}}
\newcommand{\RegionMarkerTok}[1]{#1}
\newcommand{\SpecialCharTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\SpecialStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\StringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\VariableTok}[1]{\textcolor[rgb]{0.00,0.00,0.00}{#1}}
\newcommand{\VerbatimStringTok}[1]{\textcolor[rgb]{0.31,0.60,0.02}{#1}}
\newcommand{\WarningTok}[1]{\textcolor[rgb]{0.56,0.35,0.01}{\textbf{\textit{#1}}}}
\usepackage{longtable,booktabs}
% Correct order of tables after \paragraph or \subparagraph
\usepackage{etoolbox}
\makeatletter
\patchcmd\longtable{\par}{\if@noskipsec\mbox{}\fi\par}{}{}
\makeatother
% Allow footnotes in longtable head/foot
\IfFileExists{footnotehyper.sty}{\usepackage{footnotehyper}}{\usepackage{footnote}}
\makesavenoteenv{longtable}
\usepackage{graphicx}
\makeatletter
\def\maxwidth{\ifdim\Gin@nat@width>\linewidth\linewidth\else\Gin@nat@width\fi}
\def\maxheight{\ifdim\Gin@nat@height>\textheight\textheight\else\Gin@nat@height\fi}
\makeatother
% Scale images if necessary, so that they will not overflow the page
% margins by default, and it is still possible to overwrite the defaults
% using explicit options in \includegraphics[width, height, ...]{}
\setkeys{Gin}{width=\maxwidth,height=\maxheight,keepaspectratio}
% Set default figure placement to htbp
\makeatletter
\def\fps@figure{htbp}
\makeatother
\setlength{\emergencystretch}{3em} % prevent overfull lines
\providecommand{\tightlist}{%
\setlength{\itemsep}{0pt}\setlength{\parskip}{0pt}}
\setcounter{secnumdepth}{5}
\usepackage{amsmath}
\usepackage{wasysym}
\newlength{\cslhangindent}
\setlength{\cslhangindent}{1.5em}
\newenvironment{cslreferences}%
{\setlength{\parindent}{0pt}%
\everypar{\setlength{\hangindent}{\cslhangindent}}\ignorespaces}%
{\par}
\title{Fundamentos de Estatística para Ciência de Dados}
\author{Filipe J. Zabala}
\date{2020-11-07}
\usepackage{amsthm}
\newtheorem{theorem}{Theorem}[chapter]
\newtheorem{lemma}{Lemma}[chapter]
\newtheorem{corollary}{Corollary}[chapter]
\newtheorem{proposition}{Proposition}[chapter]
\newtheorem{conjecture}{Conjecture}[chapter]
\theoremstyle{definition}
\newtheorem{definition}{Definition}[chapter]
\theoremstyle{definition}
\newtheorem{example}{Example}[chapter]
\theoremstyle{definition}
\newtheorem{exercise}{Exercise}[chapter]
\theoremstyle{remark}
\newtheorem*{remark}{Remark}
\newtheorem*{solution}{Solution}
\begin{document}
\maketitle
{
\setcounter{tocdepth}{1}
\tableofcontents
}
\hypertarget{prefuxe1cio}{%
\chapter*{Prefácio}\label{prefuxe1cio}}
\addcontentsline{toc}{chapter}{Prefácio}
\emph{Há dois motivos} para ler este texto: (\(i\)) você deseja se tornar um profissional qualificado e entende que o ferramental estatístico pode auxiliar em suas decisões futuras ou (\(ii\)) você foi obrigado. De toda forma sugere-se a leitura deste\footnote{Este material foi desenvolvido nos ambientes \href{https://www.rstudio.com/products/rstudio/download/preview/}{RStudio v1.4.904} e \href{https://www.r-project.org/}{R 4.0.3} baseado no pacote \href{https://bookdown.org/}{bookdown}, disponível em \href{https://github.com/filipezabala/fdepcdd}{\texttt{github.com/filipezabala/fdepcdd}}.}\footnote{Este material está sob a licença \href{https://creativecommons.org/licenses/by/4.0/deed.pt_BR}{Creative Commons de Atribuição 4.0 Internacional (CC BY 4.0)}. Você tem o direito de compartilhar -- copiar e redistribuir o material em qualquer suporte ou formato -- e adaptar -- remixar, transformar, e criar a partir do material para qualquer fim, mesmo que comercial. Você deve dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Você deve fazê-lo em qualquer circunstância razoável, mas de nenhuma maneira que sugira que o licenciante apoia você ou o seu uso. Você não pode aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita. Mais detalhes em \href{https://creativecommons.org/licenses/by/4.0/legalcode}{creativecommons.org/licenses/by/4.0/legalcode}.} e de outros materiais de apoio ao longo do curso\footnote{\href{https://pt.khanacademy.org}{pt.khanacademy.org}} praticando através de exercícios de fixação. Este texto consiste em declarações tão verídicas quanto o possível para a linguagem humana usual.
\emph{Jingle do Livro}\footnote{`Compre este disco / É uma pesquisa paciente / Cada volta da agulha / Pelo sulco docemente / Fará você ficar / Mais feliz e inteligente'. \emph{Jingle do Disco} de Tom Zé, do álbum \emph{1992 The Hips of Tradition}.}
Leia este livro\\
É uma pesquisa paciente\\
Cada linha deste texto\\
No papel ou virtualmente\\
Fará você ficar\\
Ao menos inteligente
\hypertarget{introducao}{%
\chapter{Introdução}\label{introducao}}
O \emph{Método Estatístico} ou simplesmente \emph{Estatística} reúne ferramentas teóricas e práticas para analisar informações quantitativas, medir incertezas e auxiliar na tomada de decisão. É um componente do \emph{Método Científico}, e pode ser dividido conforme o esquema da Figura a seguir. Neste curso serão abordados tópicos de Estatística Descritiva,, Inferência Estatística sob os prismas da Estatística Clássica (ou Frequentista) e Bayesiana e Séreis Temporais.
\begin{figure}
\centering
\includegraphics{img/estat.png}
\caption{Uma possível divisão da Estatística.}
\end{figure}
\hypertarget{ferramentas}{%
\section{Ferramentas}\label{ferramentas}}
\hypertarget{r}{%
\subsection{R}\label{r}}
\href{https://www.r-project.org/}{R} é uma ferramenta para cálculos estatísticos e gráficos. Foi desenvolvido no departamento de Estatística da Universidade de Auckland, e seu código está disponível sob a licença \href{https://www.gnu.org/}{GNU} (\emph{GNU is Not Unix}) GPL\footnote{A Licença Pública Geral GNU é um tipo de licença utilizada para software livre, que garante aos usuários finais (indivíduos, organizações ou empresas) a liberdade de usar, estudar, compartilhar e modificar o software.}. Atualmente a \emph{R Foundation} está sediada na Universidade de Economia e Negócios de Viena, Áustria. Foi influenciado por linguagens como \emph{S} e \emph{Scheme} seguindo o conceito minimalista orientado a objeto, que especifica um pequeno núcleo padrão acompanhado de \href{https://cran.r-project.org/web/packages/}{pacotes} para a extensão da linguagem.
Recomenda-se manter o R e seus pacotes sempre atualizados. No Windows recomenda-se ainda a instalação do \href{https://cran.r-project.org/bin/windows/Rtools/}{Rtools} de acordo com a \href{https://cran.r-project.org/bin/windows/Rtools/history.html}{versão} instalada do R. Os pacotes utilizados neste curso podem ser instalados e atualizados conforme código abaixo. No caso de utilização de \href{https://pt.wikipedia.org/wiki/Sistema_operacional_tipo_Unix}{sistema operacional do tipo Unix}, recomenda-se rodar as instruções acima em um \href{https://en.wikipedia.org/wiki/List_of_terminal_emulators}{terminal} após executar o comando \texttt{sudo\ R} seguido da senha do sistema.
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{packs \textless{}{-}}\StringTok{ }\KeywordTok{c}\NormalTok{(}\StringTok{\textquotesingle{}tidyverse\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}readxl\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}e1071\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}arrangements\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}DescTools\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}symmetry\textquotesingle{}}\NormalTok{,}
\StringTok{\textquotesingle{}mvtnorm\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}VGAM\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}chisq.posthoc.test\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}rgl\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}ggfortify\textquotesingle{}}\NormalTok{,}\StringTok{\textquotesingle{}factoextra\textquotesingle{}}\NormalTok{,}
\StringTok{\textquotesingle{}reticulate\textquotesingle{}}\NormalTok{)}
\KeywordTok{install.packages}\NormalTok{(packs, }\DataTypeTok{dep =}\NormalTok{ T)}
\NormalTok{devtools}\OperatorTok{::}\KeywordTok{install\_github}\NormalTok{(}\StringTok{\textquotesingle{}filipezabala/jurimetrics\textquotesingle{}}\NormalTok{, }\DataTypeTok{force=}\NormalTok{T)}
\NormalTok{devtools}\OperatorTok{::}\KeywordTok{install\_github}\NormalTok{(}\StringTok{\textquotesingle{}filipezabala/voice\textquotesingle{}}\NormalTok{, }\DataTypeTok{force=}\NormalTok{T)}
\NormalTok{devtools}\OperatorTok{::}\KeywordTok{install\_github}\NormalTok{(}\StringTok{\textquotesingle{}filipezabala/desempateTecnico\textquotesingle{}}\NormalTok{, }\DataTypeTok{force=}\NormalTok{T)}
\KeywordTok{update.packages}\NormalTok{(}\DataTypeTok{ask =}\NormalTok{ F)}
\end{Highlighting}
\end{Shaded}
\hypertarget{cran-task-views}{%
\subsubsection*{CRAN Task Views}\label{cran-task-views}}
\addcontentsline{toc}{subsubsection}{CRAN Task Views}
As \href{https://cran.r-project.org/web/views/}{CRAN Task Views} visam fornecer informações sobre os pacotes da CRAN (\emph{Comprehensive R Archive Network}) relacionados a um determinado tópico. É recomendado verificar os assuntos de interesse dentro das \href{https://cran.r-project.org/web/views/}{CRAN Task Views} para uma abordagem mais completa utilizando a linguagem R.
\hypertarget{rstudio}{%
\subsection{RStudio}\label{rstudio}}
\href{https://www.rstudio.com/}{RStudio} é um ambiente de desenvolvimento integrado ao R. Possibilita a criação de apresentações e relatórios automáticos em diversos formatos como pdf, html e docx, mesclando linguagens como \href{https://www.r-project.org/}{R}, \href{https://www.latex-project.org/}{LaTeX}, \href{https://www.markdownguide.org/}{markdown}, \href{http://www.open-std.org/jtc1/sc22/wg14/www/docs/n1256.pdf}{C}, \href{http://www.cplusplus.com/}{C++}, \href{https://www.python.org/}{Python}, \href{https://www.mysql.com/}{SQL}, \href{https://html.spec.whatwg.org/}{HTML}, \href{https://www.w3.org/standards/webdesign/htmlcss}{CSS}, \href{https://www.ecma-international.org/ecma-262/11.0/}{JavaScript}, \href{https://mc-stan.org/}{Stan} e \href{https://d3js.org/}{D3}. Está disponível nas edições \href{https://www.rstudio.com/products/rstudio-desktop/}{Desktop}, \href{https://www.rstudio.com/products/rstudio/download-server/}{Server} juntamente com seus respectivos \href{https://www.rstudio.com/products/rstudio/download/preview/}{\emph{previews}}, reunindo as funcionalidades do R de forma parcimoniosa.
\hypertarget{python}{%
\subsection{Python}\label{python}}
\href{https://www.python.org/}{Python} é uma linguagem de programação interpretada, interativa e orientada a objetos. Ela incorpora módulos, exceções, tipagem dinâmica, tipos de dados dinâmicos de nível muito alto e classes. Oferece suporte a vários paradigmas de programação além da programação orientada a objetos, como a programação procedural e funcional. Ele tem interfaces para muitas chamadas de sistema e bibliotecas, bem como para vários sistemas de janela, e é extensível em C ou C ++. Também pode ser usado como uma linguagem de extensão para aplicativos que precisam de uma interface programável. Finalmente, o Python é portátil: ele roda em muitas variantes do Unix, incluindo Linux e macOS, e no Windows.
\hypertarget{python-em-r-markdown}{%
\subsubsection*{Python em R Markdown}\label{python-em-r-markdown}}
\addcontentsline{toc}{subsubsection}{Python em R Markdown}
O pacote \texttt{reticulate} inclui um mecanismo Python para R Markdown que executa trechos de Python em uma única sessão Python incorporada em sua sessão R, permitindo o acesso a objetos criados em trechos de Python do R e vice-versa.
\begin{Shaded}
\begin{Highlighting}[]
\CommentTok{\# Interface de R e Python}
\KeywordTok{library}\NormalTok{(reticulate)}
\KeywordTok{repl\_python}\NormalTok{() }
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## Python 3.8.5 (/usr/local/bin/python3.8)
## Reticulate 1.18 REPL -- A Python interpreter in R.
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{os \textless{}{-}}\StringTok{ }\KeywordTok{import}\NormalTok{(}\StringTok{"os"}\NormalTok{)}
\NormalTok{os}\OperatorTok{$}\KeywordTok{listdir}\NormalTok{(}\StringTok{"."}\NormalTok{)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] "02-descritiva.Rmd" ".Rhistory" "01-introducao.Rmd" ".DS_Store"
## [5] "LICENSE" "temp.zip" "index.Rmd" "_main.tex"
## [9] "03-prob.Rmd" "_main.Rmd" "07-modelos_lineares.Rmd" "packages.bib"
## [13] "code" "05-inferencia-class.Rmd" "temp.xlsx" "_main_files"
## [17] "_bookdown_files" "README.md" "06-inferencia-bayes.Rmd" "img"
## [21] ".gitignore" "_main.log" "09-series_temporais.Rmd" "_book"
## [25] "info.R" "book.bib" "08-apr_maquina.Rmd" "fdepcdd.Rproj"
## [29] ".git" ".Rproj.user" "10-ref.Rmd" "04-amostragem.Rmd"
\end{verbatim}
\begin{exercise}
\protect\hypertarget{exr:reticulate}{}{\label{exr:reticulate} }Ler a documentação do \texttt{reticulate} disponível em \url{https://rstudio.github.io/reticulate/}.
\end{exercise}
\hypertarget{jasp}{%
\subsection{JASP}\label{jasp}}
\href{https://jasp-stats.org/}{JASP} é um projeto de código aberto apoiado pela Universidade de Amsterdã. Com interface amigável, oferece procedimentos de análises estatísticas com abordagens clássica e bayesiana. Desenvolvido para análises de publicação, dentre suas principais características, estão:
\begin{itemize}
\tightlist
\item
Atualização dinâmica de todos os resultados\\
\item
Layout de planilha e uma interface intuitiva de arrastar e soltar\\
\item
Saída anotada para comunicar seus resultados\\
\item
Integração com o \emph{Open Science Framework} (\href{https://osf.io/}{OSF})\\
\item
Suporte para formato APA (copie gráficos e tabelas diretamente no Word)
\end{itemize}
\hypertarget{stan}{%
\subsection{Stan}\label{stan}}
\href{https://mc-stan.org/}{Stan} é uma plataforma de código aberto para modelagem estatística e computação estatística de alto desempenho. É também utilizado para análise de dados e previsão nas ciências sociais, biológicas e físicas, engenharia e negócios. A biblioteca de matemática de Stan fornece funções de probabilidade e álgebra linear. Pacotes de R adicionais fornecem modelagem linear baseada em expressão, visualização da posteriori e validação cruzada de exclusão. Existem interfaces para diversos ambientes de computação populares, tais como \href{https://mc-stan.org/users/interfaces/rstan.html}{RStan} (R) e \href{https://mc-stan.org/users/interfaces/pystan.html}{PyStan} (Python). Usando a linguagem pode-se obter:
\begin{itemize}
\tightlist
\item
inferência estatística bayesiana completa com amostragem MCMC (NUTS, HMC)\\
\item
inferência bayesiana aproximada com inferência variacional (ADVI)\\
\item
estimativa de máxima verossimilhança penalizada com otimização (L-BFGS)
\end{itemize}
\hypertarget{materiais-de-apoio}{%
\section{Materiais de apoio}\label{materiais-de-apoio}}
\hypertarget{puxe1gina-do-professor-filipe-zabala}{%
\subsection{Página do professor Filipe Zabala}\label{puxe1gina-do-professor-filipe-zabala}}
Em \href{http://filipezabala.com/}{filipezabala.com} o aluno irá encontrar uma série de materiais de apoio como apostilas, vídeos e artigos. Em \href{https://github.com/filipezabala}{github.com/filipezabala} estão disponíveis uma série de repositórios criados pelo professor.
\begin{exercise}
\protect\hypertarget{exr:videoR}{}{\label{exr:videoR} }Para uma introdução aos conceitos básicos de R, assita aos vídeos disponíveis na playlist \href{https://www.youtube.com/playlist?list=PLgnUrXr7_7coSfm067nFXPvShO18o6GQ_}{Ciência de Dados em software livre}.
\end{exercise}
\hypertarget{khan-academy}{%
\subsection{Khan Academy}\label{khan-academy}}
A \href{https://pt.khanacademy.org}{Khan Academy}\footnote{Segundo a informação oficial, `é uma organização sem fins lucrativos com a missão de oferecer uma educação gratuita de alta qualidade para qualquer pessoa, em qualquer lugar'.} possui uma ampla gama de materiais gratuitos em Português, que podem servir de suporte ao aluno durante o curso. A lista a seguir indica os principais fundamentos necessários para o bom desenvolvimento do conteúdo.
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\tightlist
\item
Propriedades fundamentais de potenciação, radiciação e frações
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-5-ano/numeros-fracoes-5ano}~\\
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-8-ano/numeros-8ano}
\end{itemize}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{1}
\tightlist
\item
Teoria dos Conjuntos
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/6-ano-matematica/numeros-operacoes-com-numeros-naturais-6ano}~\\
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-9-ano/numeros-9ano}~\\
\item
\url{https://pt.khanacademy.org/math/statistics-probability/probability-library\#basic-set-ops}
\end{itemize}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{2}
\tightlist
\item
Análise combinatória e axiomas de probabilidade
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-7-ano/probabilidade-e-estatistica-7ano}~\\
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-8-ano/probabilidade-e-estatistica-8ano}~\\
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-9-ano/probabilidade-e-estistica-9ano}
\end{itemize}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{3}
\tightlist
\item
Funções elementares: linear, polinomial, logarítmica e exponencial
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/brazil-math-grades/pt-9-ano/algebra-funcoes-9ano}~\\
\item
\url{https://pt.khanacademy.org/math/algebra2/exponential-and-logarithmic-functions}
\end{itemize}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{4}
\tightlist
\item
Matrizes, determinantes, decomposições, autovalores e autovetores
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/algebra-home/alg-matrices}
\end{itemize}
\begin{enumerate}
\def\labelenumi{\arabic{enumi}.}
\setcounter{enumi}{5}
\tightlist
\item
Derivadas e integrais
\end{enumerate}
\begin{itemize}
\tightlist
\item
\url{https://pt.khanacademy.org/math/differential-calculus/dc-diff-intro}~\\
\item
\url{https://pt.khanacademy.org/math/calculus-home/integration-calc}
\end{itemize}
\hypertarget{algarismos-e-numeros}{%
\section{Algarismos e Números}\label{algarismos-e-numeros}}
Um \emph{algarismo} é um símbolo, enquanto um \emph{número} expressa uma idéia de quantidade. Números são representados por algarismos, sendo fundamental distinguir estes elementos.
\begin{example}
\protect\hypertarget{exm:alg-num}{}{\label{exm:alg-num} }Se há 20 alunos na sala A outros 30 na sala B, pode-se dizer que, em média, há \(\frac{20+30}{2}=25\) alunos nas duas salas. Esta é uma informação numérica. Se rotularmos o sexo masculino como 0 e o feminino como 1, fica claro que 0 e 1 estão sendo tratados como algarismos, uma vez que não expressam quantidades.
\end{example}
\hypertarget{porcentagens-decimais-e-milhares}{%
\section{Porcentagens, Decimais e Milhares}\label{porcentagens-decimais-e-milhares}}
Neste texto será adotado o padrão americano, que utiliza o símbolo de ponto (.) como separador de decimais e vírgula (,) como separador de milhares. Assim, \[\frac{1}{40} = 0.025 = 0.0250 = .025 = 2.5\% = \frac{2.5}{100}.\] Dízimas periódicas serão escritas na forma \(\frac{1}{3} = 0.333... = 0.\bar{3} \approx 0.333 \approx 0.3\). O número \(32,960 = 30,000 + 2,000 + 960\) deve ser lido como `trinta e dois mil novecentos e sessenta'.\\
Esta opção evita muitos problemas, já que muitos \emph{softwares} estatísticos não são compatíveis com o padrão brasileiro, que utiliza vírgula como separador de decimais e ponto para separar os milhares. Nas anotações pessoais e listas de exercícios poderá ser adotada a notação de preferência do aluno.
\hypertarget{o-senhor-x}{%
\section{\texorpdfstring{O Senhor \(X\)}{O Senhor X}}\label{o-senhor-x}}
Quando avalia-se algo de interesse prático, em geral observam-se nomes longos. Considere a variável
\begin{quote}
\(X\): `número de filhos de mulheres atendidas em um hospital público de Porto Alegre em 2019'.
\end{quote}
Esta longa descrição tornará maçante qualquer texto que utilize-o muitas vezes, tornando impraticável a realização de cálculos envolvendo tal característica de interesse. É razoável, portanto, associar descrições longas a símbolos. A letra \(X\) é famosa por simbolizar algo genérico, tanto na Ciência quanto na vida cotidiana. Note que o símbolo utilizado para separar \(X\) de sua descrição é \texttt{:}, e não \texttt{=}.
Neste texto será utilizado \(X\) (maiúsculo) para representar a característica de interesse, e \(x_k\) (minúsculo) para representar o \(k\)-ésimo valor observado desta característica. Assim, enquanto \(X\) representa genericamente o número de filhos de mulheres atendidas em um hospital público de Porto Alegre em 2019, \(x_4 = 2\) indica que a quarta mulher avaliada no estudo tem dois filhos.
\hypertarget{somatorio}{%
\section{Somatório}\label{somatorio}}
A soma de \(n\) números \(x_1, x_2, ..., x_n\) é representada por \(\sum_{i=1}^n {x_i} = x_1 + x_2 + \dotsb + x_n\), e lê-se `somatório de xis \(i\) de um até ene'.
\begin{example}
\protect\hypertarget{exm:somatorio}{}{\label{exm:somatorio} }(Número de passos) Suponha que foi anotado o `número de passos até a lixeira mais próxima' na cidade de Porto Alegre em \(n = 6\) ocasiões, conforme Tabela a seguir.
\begin{longtable}[]{@{}cccccc@{}}
\toprule
\(x_{1}\) & \(x_{2}\) & \(x_{3}\) & \(x_{4}\) & \(x_{5}\) & \(x_{6}\)\tabularnewline
\midrule
\endhead
186 & 402 & 191 & 20 & 7 & 124\tabularnewline
\bottomrule
\end{longtable}
Esta tabela indica que na primeira ocasião foram caminhados 186 passos até localizar uma lixeira (representado por \(x_1=186\)), na segunda foram 402 passos (representado por \(x_2=402\)), e assim sucessivamente. Para calcular o total de passos caminhados, pode-se fazer
\begin{equation}
\sum_{i=1}^6 {x_i} = x_1 + x_2 + \dotsb + x_6 = 186+402+191+20+7+124 = 930
\label{eq:somatorio}
\end{equation}
\end{example}
\begin{Shaded}
\begin{Highlighting}[]
\DecValTok{186}\OperatorTok{+}\DecValTok{402}\OperatorTok{+}\DecValTok{191}\OperatorTok{+}\DecValTok{20}\OperatorTok{+}\DecValTok{7}\OperatorTok{+}\DecValTok{124} \CommentTok{\# R e RStudio são calculadoras}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 930
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{x \textless{}{-}}\StringTok{ }\KeywordTok{c}\NormalTok{(}\DecValTok{186}\NormalTok{,}\DecValTok{402}\NormalTok{,}\DecValTok{191}\NormalTok{,}\DecValTok{20}\NormalTok{,}\DecValTok{7}\NormalTok{,}\DecValTok{124}\NormalTok{) }\CommentTok{\# Pode{-}se criar um vetor e atribuir a x}
\KeywordTok{sum}\NormalTok{(x) }\CommentTok{\# Usando a função \textquotesingle{}sum\textquotesingle{}, apresentada na Equação (1.1)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 930
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{sum}\NormalTok{(x}\OperatorTok{\^{}}\DecValTok{2}\NormalTok{) }\CommentTok{\# Soma dos quadrados, representada pela Equação (1.2)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 248506
\end{verbatim}
A letra grega \(\sum\) é o sigma maiúsculo, conforme Seção \ref{alfabeto-grego}. Em muitos casos a simbologia de somatório é simplificada, utilizando-se \(\sum\), \(\sum_{x}\) ou \(\sum_{i}\). A seguir estão alguns exemplos mais avançados de uso mais sofisticado do somatório, podendo ser omitidos em uma primeira leitura.
\begin{equation}
\sum_{i=1}^n x_{i}^2 = x_{1}^2 + x_{2}^2 + \ldots + x_{n}^2
\label{eq:soma-quad}
\end{equation}
\begin{exercise}
\protect\hypertarget{exr:corona}{}{\label{exr:corona} }Considere o banco de dados disponível no pacote \texttt{coronavirus}\footnote{\emph{Johns Hopkins University Center for Systems Science and Engineering} (JHU CCSE). \url{https://systems.jhu.edu/research/public-health/ncov}} conforme código a seguir.
\end{exercise}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{library}\NormalTok{(coronavirus) }\CommentTok{\# chamando a biblioteca \textquotesingle{}coronavirus\textquotesingle{}}
\CommentTok{\# update\_dataset(silence = FALSE) \# atualizando os dados}
\KeywordTok{data}\NormalTok{(coronavirus) }\CommentTok{\# deixando o banco de dados disponível}
\KeywordTok{dim}\NormalTok{(coronavirus) }\CommentTok{\# dimensões do banco de dados (linhas x colunas)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 219852 7
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{head}\NormalTok{(coronavirus) }\CommentTok{\# mostrando o início do banco de dados}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## date province country lat long type cases
## 1 2020-01-22 Afghanistan 33.9 67.7 confirmed 0
## 2 2020-01-23 Afghanistan 33.9 67.7 confirmed 0
## 3 2020-01-24 Afghanistan 33.9 67.7 confirmed 0
## 4 2020-01-25 Afghanistan 33.9 67.7 confirmed 0
## 5 2020-01-26 Afghanistan 33.9 67.7 confirmed 0
## 6 2020-01-27 Afghanistan 33.9 67.7 confirmed 0
\end{verbatim}
\textbf{a.} Obtenha a soma de casos (\texttt{cases}) registrados ao longo de todo o período.\\
\textbf{b.} Obtenha a soma ao quadrado de casos registrados ao longo de todo o período.\\
\textbf{c.} Obtenha a soma de casos registrados ao longo de todo o período dividido por tipo (\texttt{type}).\\
\textbf{d.} Considerando a variável \(X\): `número de casos registrados' em \texttt{nrow(coronavirus)} linhas do banco de dados, represente os itens a. e b. utilizando a notação de somatório.
\hypertarget{arredondamento-e-truncagem}{%
\section{Arredondamento e Truncagem}\label{arredondamento-e-truncagem}}
\emph{Arredondamento}\footnote{Esta é a regra do \emph{arredondamento para o número mais próximo}.} e \emph{truncagem} são métodos para escrever números com precisão delimitada.
Para \emph{arredondar} um número para a \(k\)-ésima casa decimal, basta observar a \(k\)+1-ésima casa. Se a \(k\)+1-ésima casa decimal for 0, 1, 2, 3 ou 4, mantém-se a \(k\)-ésima casa decimal; se a \(k\)+1-ésima casa decimal for 5, 6, 7, 8 ou 9, soma-se 1 à \(k\)-ésima casa decimal. Como exercício, releia a frase anterior substituindo `\(k\)-ésima' por `primeira' e `\(k\)+1-ésima' por `segunda', aplicando esta regra para o número 153.654321. Note que \textbf{deve-se sempre avaliar o número original para realizar o arredondamento}. Arredondamentos são comuns, por exemplo, ao calcularmos um índice de preço ou um montante de pagamento sobre o qual incidiu certa taxa de juros.
Para \emph{truncar} um número para a \(k\)-ésima casa decimal, basta eliminar a \(k\)+1-ésima casa decimal e suas subsequentes. Como exercício, releia a frase anterior substituindo `\(k\)-ésima' por `primeira' e `\(k\)+1-ésima' por `segunda', aplicando esta regra novamente para o número 153.654321. Compare com os valores arredondados e note que pode-se utilizar números já truncados para continuar a reduzir a precisão sem a necessidade de conhecer o valor original. Truncagens são comuns, por exemplo, para representar idades e ao calcular os graus G1 e G2 da PUCRS. Assim, se o cálculo do seu G1 resultar em 6.99999999, o sistema irá truncar para 6.9, e não arredondar para 7.0.
\begin{example}
\protect\hypertarget{exm:arred-trunc}{}{\label{exm:arred-trunc} }(Arredondamento e truncagem)
\begin{longtable}[]{@{}cll@{}}
\toprule
Decimais & Arredondamento & Truncagem\tabularnewline
\midrule
\endhead
6 & 153.654321 & 153.654321\tabularnewline
5 & 153.65432 & 153.65432\tabularnewline
4 & 153.6543 & 153.6543\tabularnewline
3 & 153.654 & 153.654\tabularnewline
2 & 153.65 & 153.65\tabularnewline
1 & 153.7 & 153.6\tabularnewline
0 & 154 & 153\tabularnewline
-1 & 150 & 150\tabularnewline
-2 & 200 & 100\tabularnewline
\bottomrule
\end{longtable}
\end{example}
\begin{Shaded}
\begin{Highlighting}[]
\CommentTok{\# Usando base R}
\KeywordTok{options}\NormalTok{(}\DataTypeTok{digits =} \DecValTok{10}\NormalTok{) }\CommentTok{\# Ajustando para apresentação de 10 dígitos (padrão: 7)}
\ControlFlowTok{for}\NormalTok{(i }\ControlFlowTok{in} \DecValTok{6}\OperatorTok{:{-}}\DecValTok{2}\NormalTok{)\{ }\KeywordTok{print}\NormalTok{(}\KeywordTok{round}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\DataTypeTok{dig =}\NormalTok{ i)) \} }\CommentTok{\# \textquotesingle{}digits\textquotesingle{} casas decimais}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 153.654321
## [1] 153.65432
## [1] 153.6543
## [1] 153.654
## [1] 153.65
## [1] 153.7
## [1] 154
## [1] 150
## [1] 200
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{trunc \textless{}{-}}\StringTok{ }\ControlFlowTok{function}\NormalTok{(x, ..., }\DataTypeTok{dig =} \DecValTok{0}\NormalTok{) base}\OperatorTok{::}\KeywordTok{trunc}\NormalTok{(x}\OperatorTok{*}\DecValTok{10}\OperatorTok{\^{}}\NormalTok{dig, ...)}\OperatorTok{/}\DecValTok{10}\OperatorTok{\^{}}\NormalTok{dig }\CommentTok{\# Aprimorando}
\ControlFlowTok{for}\NormalTok{(i }\ControlFlowTok{in} \DecValTok{6}\OperatorTok{:{-}}\DecValTok{2}\NormalTok{)\{ }\KeywordTok{print}\NormalTok{(}\KeywordTok{trunc}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\DataTypeTok{dig =}\NormalTok{ i)) \} }\CommentTok{\# Precisão de i decimais}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 153.654321
## [1] 153.65432
## [1] 153.6543
## [1] 153.654
## [1] 153.65
## [1] 153.6
## [1] 153
## [1] 150
## [1] 100
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\CommentTok{\# Usando o pacote plyr}
\NormalTok{plyr}\OperatorTok{::}\KeywordTok{round\_any}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\FloatTok{.01}\NormalTok{, round) }\CommentTok{\# dig = 2 em round}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 153.65
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{plyr}\OperatorTok{::}\KeywordTok{round\_any}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\FloatTok{.0001}\NormalTok{, floor) }\CommentTok{\# dig = 4 em trunc}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 153.6543
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{plyr}\OperatorTok{::}\KeywordTok{round\_any}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\DecValTok{1}\NormalTok{, round) }\CommentTok{\# dig = 0 em round}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 154
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{plyr}\OperatorTok{::}\KeywordTok{round\_any}\NormalTok{(}\FloatTok{153.654321}\NormalTok{, }\DecValTok{100}\NormalTok{, round) }\CommentTok{\# dig = {-}2 em round}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 200
\end{verbatim}
\hypertarget{outros}{%
\section{Outros símbolos e expressões}\label{outros}}
\begin{itemize}
\tightlist
\item
\(\sim\): tem distribuição.
\item
\(\approx\): aproximadamente.
\item
\#: número de.
\item
\(\pm\)/\(\mp\): mais ou menos/menos ou mais.
\item
\(\bigtriangleup\): fim do Teorema.
\item
i.e.: \emph{id est}, expressão em Latim que significa `isto é'.
\item
e.g.: \emph{exempli gratia}, expressão em Latim que significa `por exemplo'.
\end{itemize}
\hypertarget{alfabeto-grego}{%
\subsection{Alfabeto grego}\label{alfabeto-grego}}
\begin{longtable}[]{@{}cclccl@{}}
\toprule
Maiúscula & Minúscula & Nome & Maiúscula & Minúscula & Nome\tabularnewline
\midrule
\endhead
\(A\) & \(\alpha\) & Alfa & \(N\) & \(\nu\) & Nü\tabularnewline
\(B\) & \(\beta\) & Beta & \(\Xi\) & \(\xi\) & Csi\tabularnewline
\(\Gamma\) & \(\gamma\) & Gama & \(O\) & \(o\) & Ômicron\tabularnewline
\(\Delta\) & \(\delta\) & Delta & \(\Pi\) & \(\pi\), \(\varpi\) & Pi\tabularnewline
\(E\) & \(\epsilon\), \(\varepsilon\) & Épsilon & \(P\) & \(\rho\), \(\varrho\) & Rô\tabularnewline
\(Z\) & \(\zeta\) & Zeta & \(\Sigma\) & \(\sigma\), \(\varsigma\) & Sigma\tabularnewline
\(H\) & \(\eta\) & Eta & \(T\) & \(\tau\) & Tau\tabularnewline
\(\Theta\) & \(\theta\), \(\vartheta\) & Teta & \(\Upsilon\) & \(\upsilon\) & Úpsilon\tabularnewline
\(I\) & \(\iota\) & Iota & \(\Phi\) & \(\phi\), \(\varphi\) & Fi\tabularnewline
\(K\) & \(\kappa\), \(\varkappa\) & Capa & \(X\) & \(\chi\) & Qui\tabularnewline
\(\Lambda\) & \(\lambda\) & Lambda & \(\Psi\) & \(\psi\) & Psi\tabularnewline
\(M\) & \(\mu\) & Mü & \(\Omega\) & \(\omega\) & Ômega\tabularnewline
\bottomrule
\end{longtable}
\hypertarget{estatistica-descritiva}{%
\chapter{Estatística Descritiva}\label{estatistica-descritiva}}
A \emph{Estatística Descritiva} está diretamente ligada à organização e descrição dos dados. É utilizada para avaliar como as observações se distribuem, onde estão posicionadas e como se apresentam em termos de dispersão e associação. Neste capítulo serão introduzidos conceitos e métodos descritivos, ponto de partida da \emph{análise exploratória de dados}, passo fundamental para análises estatísticas mais avançadas.
\hypertarget{variuxe1veis}{%
\section{Variáveis}\label{variuxe1veis}}
Variável é uma característica medida nos universos ou amostras. As \emph{variáveis qualitativas} ou \emph{atributos} avaliam características não numéricas no conjunto de interesse, como gênereo, time de futebol e nível de escolaridade. As \emph{variáveis quantitativas} medem características numéricas, como número de alunos prestando atenção ou tempo de uma música em segundos. Podem ser classificadas conforme a Figura a seguir.
\includegraphics{img/variavel.png}
\hypertarget{variavel-qualitativa-nominal}{%
\subsection{Variável qualitativa nominal}\label{variavel-qualitativa-nominal}}
Variáveis \emph{qualitativas nominais} possuem o menor grau de informação dentre os quatro tipos propostos, permitindo apenas a avaliação de frequências e ordenações arbitrárias. Aplicam-se em avaliações de grupos não ordenados, tais como `gênero', `religião', `raça', `cor preferida', `bairro onde reside', `time de futebol do coração', etc.
\begin{example}
\protect\hypertarget{exm:var-nominal}{}{\label{exm:var-nominal} }(Time de futebol do coração) Suponha um lugar onde tudo seja tratado de maneira dicotômica\footnote{\textit{Dicotomia} é o ato de segmentar um conjunto em dois subconjuntos mutuamente excludentes, i.e., um elemento pode pertencer somente a um dos subconjuntos.}. Como exercício, no primeiro dia de aula de Estatística as pessoas são questionadas quanto ao `time de futebol do coração' através do voto secreto em uma cédula, onde estão listados os dois times locais. Não existe informação prévia que obrigue a dispor na listagem qualquer time antes ou depois de outro. Por este motivo optou-se pela ordenação alfabética -- apesar do princípio de tumulto --, resultando na lista
\includegraphics{img/maragato_ximango.png}
Os mais tradicionalistas gritavam palavras de ordem, preferindo a grafia
\includegraphics{img/chimango_maragato.png}
\end{example}
\hypertarget{variavel-qualitativa-ordinal}{%
\subsection{Variável qualitativa ordinal}\label{variavel-qualitativa-ordinal}}
Variáveis \emph{qualitativas ordinais} possuem grau de informação maior em relação às nominais pois são dotadas de uma ordenação prévia, permitindo comparações entre as observações. As variáveis de natureza ordinal são utilizadas quando avaliam-se medidas tais como `colocação em um torneio esportivo', `grau de escolaridade', `classificação de um restaurante quanto à qualidade da comida', etc.
\begin{example}
\protect\hypertarget{exm:var-ordinal1}{}{\label{exm:var-ordinal1} }(Colocação no vestibular) A variável `colocação geral no vestibular' é classificada como qualitativa ordinal pois indica a ordenação do vestibulando em comparação aos demais, mesmo que não se conheça a nota final de cada candidato. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-ordinal2}{}{\label{exm:var-ordinal2} }(Escala de Likert) Quando deseja-se medir o grau de satisfação em relação a algum bem ou serviço, pode-se utilizar a Escala de Likert de \(k\) níveis. Uma vantagem de utilizar \(k\) par é que obriga-se o respondente a se posicionar a favor/contra, acima/abaixo. Se um empresário utilizar \(k=4\), pode fazer 1: Ruim, 2: Regular, 3: Bom, 4: Ótimo. Se \(k=5\), pode-se considerar 1: Péssimo, 2: Ruim, 3: Regular, 4: Bom, 5: Ótimo. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-ordinal3}{}{\label{exm:var-ordinal3} }Corrida maluca) Suponha uma corrida disputada em Imaginationland\footnote{\url{http://www.imdb.com/title/tt0995577}}, na qual Rubinho Barrichello tenha chegado na primeira colocação e Ayrton Senna na décima nona. As únicas informações de que dispomos apontam que i) Barrichello chegou antes de Senna, ii) ninguém chegou antes de Barrichello, iii) há 17 intermediários e iv) de fato, tudo aconteceu em Imaginationland. \(\\\)
\end{example}
\hypertarget{variavel-quantitativa-discreta}{%
\subsection{Variável quantitativa discreta}\label{variavel-quantitativa-discreta}}
Uma variável \emph{quantitativa discreta} assume apenas valores inteiros, i.e., discretos. Tecnicamente as variáveis discretas são caracterizadas por conjuntos enumeráveis\footnote{Um conjunto \textit{enumerável} é aquele em que se pode listar e contar os elementos.} finitos ou infinitos.
\begin{example}
\protect\hypertarget{exm:var-discr1}{}{\label{exm:var-discr1} }(Número de filhos) Suponha que deseja-se observar o número de filhos de mulheres atendidas em um hospital. Para cada mulher entrevistada, o conjunto de possíveis respostas para a pergunta `quantos filhos a senhora tem?' é \(F = \lbrace 0, 1, 2, \ldots, k \rbrace\), onde \(k\) é o número máximo de filhos que uma mulher possa ter ao longo de sua vida. O recorde mundial é \(k=69\), atribuído à russa Valentina Vassilyeva. Este é um conjunto enumerável finito. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-discr2}{}{\label{exm:var-discr2} }(Pontos em um dado lançado \(k\) vezes) Suponha \(k\) lançamentos de um dado. Em cada lançamento é anotada a face resultante, somada aos valores obtidos nos \(k-1\) lançamentos anteriores. O conjunto de possíveis resultados deste experimento é \(S = \lbrace k, k+1, \ldots, 6k \rbrace\). Este é um conjunto enumerável finito. Como exercício, faça \(k=4\) e releia a sentença anterior substituindo os valores. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-discr3}{}{\label{exm:var-discr3} }(Consumo de uma engrenagem moto-contínua) Suponha uma engrenagem eterna, com consumo medido em PAB\footnote{Passos Até a Bufunfa.}. O conjunto do número possível de passos é \(S = \lbrace 1, 2, \ldots \rbrace\). Este é um conjunto enumerável infinito. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-discr4}{}{\label{exm:var-discr4} }(Pilcher's Squad) Norman Pilcher foi o criador da Drug Squad, e ganhou notoriedade nos anos 60 por prender artistas como Mick Jagger e John Lennon. O conjunto de artistas que o Sargento Pilcher poderia prender é \(A = \lbrace a_{1}, a_{2}, \ldots, a_{k} \rbrace\), onde \(k\) representa o número de artistas disponíveis para serem presos. Este é um conjunto enumerável finito. \(\\\)
\end{example}
\hypertarget{variavel-quantitativa-continua}{%
\subsection{Variável quantitativa contínua}\label{variavel-quantitativa-continua}}
A classe de variáveis \emph{quantitativas contínuas} é caracterizada por permitir a observação de qualquer subconjunto dos números reais como resultado, i.e., permite resultados não inteiros. É utilizada para avaliar tempo, distâncias, áreas, volumes ou qualquer outra grandeza numérica de caráter não enumerável\footnote{Um conjunto \emph{não enumerável} possui infinitos elementos, sendo impossível listá-los segundo alguma regra.}. Tal como nas variáveis discretas, é possível avaliar relações matemáticas entre os valores observados.
\begin{example}
\protect\hypertarget{exm:var-cont1}{}{\label{exm:var-cont1} }(Proporção de bulímicas) Suponha que um grupo de pesquisadores está interessado em avaliar a `proporção de mulheres bulímicas no Rio Grande do Sul'. Este valor está obrigatoriamente entre 0 e 1 (ou 0\% e 100\%), podendo ser representado pelo conjunto não enumerável \(\Omega = \lbrace b \in \mathbb{R} : 0 \le b\le 1 \rbrace\). \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-cont2}{}{\label{exm:var-cont2} }(Idade) A variável `idade' é classificada como quantitativa contínua por representar uma noção temporal. Caso haja interesse, pode-se dizer que em certo instante do tempo João apresentou \(31.990192013071629871269817323644\) anos de idade. Na prática, porém, geralmente as idades são truncadas, sendo que João provavelmente afirmaria ter 31 anos de idade mesmo um dia antes do seu 32\textordmasculine aniversário. Na melhor das situações as idades são observadas com precisão de dias, calculando-se a idade do indivíduo pela diferença entre o dia de hoje e o seu dia de nascimento, convertendo o valor para anos. O conjunto dos possíveis tempos de vida de um ser humano é dado por \(\Omega = \lbrace t \in \mathbb{R} : 0 < t \le T \rbrace\), onde \(T\) é a idade máxima em anos que um ser humano pode atingir. Segundo o \textit{Guiness World Records}, \(T=122.44931506849315\), alcançado pela francesa Jeanne Louise Calment. \(\Omega\) é dito não enumerável visto não ser possível contabilizar o seu número de elementos. \(\\\)
\end{example}
\begin{example}
\protect\hypertarget{exm:var-cont3}{}{\label{exm:var-cont3} }(Descendo o nível) Suponha que um grupo de pessoas foi avaliado em relação à variável `idade' medida em anos, considerando-se a hora e minuto do nascimento. É possível transformá-la na variável `idade discreta' simplesmente truncando os valores observados. Da mesma forma, pode-se tranformá-la na variável `idade ordinal', classificando-a de acordo com a tabela a seguir.
\begin{longtable}[]{@{}ccc@{}}
\toprule
i & Faixa etária & Classificação\tabularnewline
\midrule
\endhead
1 & Até 10 anos & Criança\tabularnewline
2 & 10 \(\vdash\) 13 & Pré-adolescente\tabularnewline
3 & 13 \(\vdash\) 18 & Adolescente\tabularnewline
4 & 18 \(\vdash\) 35 & Adulto jovem\tabularnewline
5 & 35 \(\vdash\) 45 & Adulto\tabularnewline
6 & 45 \(\vdash\) 65 & Adulto maduro\tabularnewline
7 & 65 \(\vdash\) 75 & Idoso jovem\tabularnewline
8 & 75 + & Idoso\tabularnewline
\bottomrule
\end{longtable}
Note que se uma pessoa tem 31.990192013071629871269817323644 anos de idade (contínua), pode-se considerar a idade truncada de 31 anos (discreta) e classificá-la como um `adulto jovem' (ordinal). Porém, dado que uma pessoa é classificada como adulto jovem, é possível apenas afirmar que ela tem idade entre 18 anos (completos) e 35 anos (incompletos) segundo a classificação proposta. \(\\\)
\end{example}
Cada tipo de variável apresenta um nível de informação que deve ser respeitado. É possível ir de um nível maior de classificação para um nível menor, mas jamais ao contrário. É válido lembrar que perde-se informação ao descer o nível de classificação da variável. É bastante comum, porém, encontrar trabalhos utilizando níveis de classificação inapropriados, conduzindo a técnicas não adequadas que implicam em conclusões equivocadas.
\begin{exercise}
\protect\hypertarget{exr:class-var}{}{\label{exr:class-var} }Classifique as variáveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contínua).
\begin{enumerate}
\def\labelenumi{\alph{enumi}.}
\tightlist
\item
Número de geladeiras em casa
\item
Temperaturas da água da piscina em um dia de verão
\item
Número de suicídios em uma cidade no decorrer do ano passado
\item
Concentração de chumbo em uma amostra de água
\item
Lista de editoras de livros
\item
Grau de satisfação dos clientes que frequentam uma rinha de galo
\item
Marcas de amaciantes para roupas
\item
Tempo que um paciente sobrevive após determinado diagnóstico
\item
Participação de mercado (\emph{market share})
\item
Classificação em uma corrida de banheiras
\item
Tempo final de cada corredor
\item
Lista dos nomes das banheiras participantes, tal como `Dick Vigarista' e `Trollface'
\item
Distância de Estambul ao Rio de Janeiro
\end{enumerate}
\end{exercise}
\hypertarget{distribuicao-de-frequencia}{%
\section{Distribuição de Frequência}\label{distribuicao-de-frequencia}}
\hypertarget{db-rol-eo}{%
\subsection{Dados brutos, Rol e Estatísticas de Ordem}\label{db-rol-eo}}
Quando observa-se alguma variável de interesse, em geral anotam-se os resultados na ordem em que aparecem. Esta lista de dados não ordenada é conhecida como \emph{lista de dados brutos}. Quando ordenam-se estes dados -- em ordem crescente ou decrescente -- obtém-se um \emph{rol}, dando origem às \emph{estatísticas de ordem}. Em uma distribuição de \(n\) elementos \(x_{1}\), \(x_{2}\), \(\ldots\), \(x_{n}\) observados sequencialmente, denotam-se os dados ordenados de forma crescente por \(x_{(1)}\), \(x_{(2)}\), \(\ldots\), \(x_{(n)}\) e, analogamente, \(x_{(n)}\), \(x_{(n-1)}\), \(\ldots\), \(x_{(1)}\) para a ordenação decrescente.
\begin{example}
\protect\hypertarget{exm:rol1}{}{\label{exm:rol1} }(Rol) Se ordenarmos os dados observados da variável \(X\):`número de passos até a lixiera mais próxima', obtemos o rol conforme tabela a seguir. O menor número de passos caminhados foi sete, representado por \(x_{(1)}=7\), e o maior foi quatrocentos e dois, representado por \(x_{(6)}=402\).
\begin{longtable}[]{@{}cccccc@{}}
\toprule
\(x_{(1)}\) & \(x_{(2)}\) & \(x_{(3)}\) & \(x_{(4)}\) & \(x_{(5)}\) & \(x_{(6)}\)\tabularnewline
\midrule
\endhead
7 & 20 & 124 & 186 & 191 & 402\tabularnewline
\bottomrule
\end{longtable}
\end{example}
\begin{Shaded}
\begin{Highlighting}[]
\NormalTok{(x \textless{}{-}}\StringTok{ }\KeywordTok{c}\NormalTok{(}\DecValTok{186}\NormalTok{,}\DecValTok{402}\NormalTok{,}\DecValTok{191}\NormalTok{,}\DecValTok{20}\NormalTok{,}\DecValTok{7}\NormalTok{,}\DecValTok{124}\NormalTok{)) }\CommentTok{\# Criando e apresentando o vetor original de dados brutos}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 186 402 191 20 7 124
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{sort}\NormalTok{(x) }\CommentTok{\# Apresentando o rol, ou vetor ordenado. Teste ?order}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 7 20 124 186 191 402
\end{verbatim}
\begin{Shaded}
\begin{Highlighting}[]
\KeywordTok{sort}\NormalTok{(x, }\DataTypeTok{decreasing =}\NormalTok{ T) }\CommentTok{\# Ordem decrescente, onde T indica TRUE (padrão: FALSE)}
\end{Highlighting}
\end{Shaded}
\begin{verbatim}
## [1] 402 191 186 124 20 7
\end{verbatim}
Em um primeiro momento estas definições podem parecer ultrapassadas, mas são de grande importância na construção de métodos avançados de análise de dados. Como atualmente trabalham-se com bases de dados em formato eletrônico, em geral é fácil realizar a ordenação de grandes volumes de dados. É importante ressaltar, porém, que em certos casos é necessário muito poder de processamento para executar tais ordenações, podendo se tornarem impraticáveis pelo alto custo computacional.
\begin{exercise}
\protect\hypertarget{exr:rol2}{}{\label{exr:rol2} }Considere o conjunto de dados \(10,-4,5,7,1,3,9\).
\begin{enumerate}
\def\labelenumi{\alph{enumi}.}
\tightlist
\item
Obtenha o rol.
\item
Indique e interprete \(x_{(4)}\).
\end{enumerate}
\end{exercise}
\begin{exercise}
\protect\hypertarget{exr:unnamed-chunk-9}{}{\label{exr:unnamed-chunk-9} }Utilizando a função \texttt{sort}, encontre o rol das colunas \texttt{filhos} e \texttt{altura} disponíveis em \url{http://filipezabala.com/data/hospital.txt}.
\end{exercise}
\hypertarget{tab-freq-univ-discr}{%
\subsection{Tabela de frequência univariada discreta}\label{tab-freq-univ-discr}}
Listas muito longas, ainda que ordenadas, não costumam ser de fácil compreensão. Assim, a \emph{tabela de frequência univariada discreta} é uma boa maneira de consolidar os dados de uma variável que assuma, como regra-de-bolso, até 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna descrevendo a variável de interesse e uma coluna com a \emph{frequência (da classe)}, i.e., o número de observações contempladas em cada categoria. Sugere-se também a apresentação de uma coluna indicando a classe, denotada por \(i\) conforme Tabela a seguir.
\begin{longtable}[]{@{}cccccccc@{}}
\toprule
\begin{minipage}[b]{0.06\columnwidth}\centering
\(i\)\strut
\end{minipage} & \begin{minipage}[b]{0.06\columnwidth}\centering
\(x_{i}\)\strut
\end{minipage} & \begin{minipage}[b]{0.06\columnwidth}\centering
\(f_{i}\)\strut
\end{minipage} & \begin{minipage}[b]{0.07\columnwidth}\centering
\(f_{r_{i}}\)\strut
\end{minipage} & \begin{minipage}[b]{0.15\columnwidth}\centering
\(F_{i}\)\strut
\end{minipage} & \begin{minipage}[b]{0.07\columnwidth}\centering
\(F_{r_{i}}\)\strut
\end{minipage} & \begin{minipage}[b]{0.20\columnwidth}\centering
\(\Finv_{i}\)\strut
\end{minipage} & \begin{minipage}[b]{0.10\columnwidth}\centering
\(\Finv_{r_{i}}\)\strut
\end{minipage}\tabularnewline
\midrule
\endhead
\begin{minipage}[t]{0.06\columnwidth}\centering
1\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(x_{1}\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(f_{1}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(f_{1}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.15\columnwidth}\centering
\(F_{1}=f_{1}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(F_{1}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.20\columnwidth}\centering
\(\Finv_{1}=\Finv_{2}+f_{1}=n\)\strut
\end{minipage} & \begin{minipage}[t]{0.10\columnwidth}\centering
\(\Finv_{1}/n=1\)\strut
\end{minipage}\tabularnewline
\begin{minipage}[t]{0.06\columnwidth}\centering
2\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(x_{2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(f_{2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(f_{2}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.15\columnwidth}\centering
\(F_{2}=F_{1}+f_{2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(F_{2}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.20\columnwidth}\centering
\(\Finv_{2}=\Finv_{3}+f_{2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.10\columnwidth}\centering
\(\Finv_{2}/n\)\strut
\end{minipage}\tabularnewline
\begin{minipage}[t]{0.06\columnwidth}\centering
3\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(x_{3}\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(f_{3}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(f_{3}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.15\columnwidth}\centering
\(F_{3}=F_{2}+f_{3}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(F_{3}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.20\columnwidth}\centering
\(\Finv_{3}=\Finv_{4}+f_{3}\)\strut
\end{minipage} & \begin{minipage}[t]{0.10\columnwidth}\centering
\(\Finv_{3}/n\)\strut
\end{minipage}\tabularnewline
\begin{minipage}[t]{0.06\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.15\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.20\columnwidth}\centering
\(\vdots\)\strut
\end{minipage} & \begin{minipage}[t]{0.10\columnwidth}\centering
\(\vdots\)\strut
\end{minipage}\tabularnewline
\begin{minipage}[t]{0.06\columnwidth}\centering
\(k-2\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(x_{k-2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering
\(f_{k-2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(f_{k-2}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.15\columnwidth}\centering
\(F_{k-2}=F_{k-3}+f_{k-2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.07\columnwidth}\centering
\(F_{k-2}/n\)\strut
\end{minipage} & \begin{minipage}[t]{0.20\columnwidth}\centering
\(\Finv_{k-2}=\Finv_{k-1}+f_{k-2}\)\strut
\end{minipage} & \begin{minipage}[t]{0.10\columnwidth}\centering
\(\Finv_{k-2}/n\)\strut
\end{minipage}\tabularnewline
\begin{minipage}[t]{0.06\columnwidth}\centering
\(k-1\)\strut
\end{minipage} & \begin{minipage}[t]{0.06\columnwidth}\centering