-
Notifications
You must be signed in to change notification settings - Fork 3
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
04148ec
commit e570d42
Showing
2 changed files
with
60 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,30 @@ | ||
--- | ||
title: "Multivariate Analysis for Data Science" | ||
date: 2024-02-05 22:32:00 -0300 | ||
categories: [Blog] | ||
tags: [statistics, multivariate analysis, knowledge, data science] | ||
showtoc: true | ||
summary: The two most important multivariate analysis techniques for data science. | ||
cover: | ||
image: "https://ik.imagekit.io/devmedeiros/multivariate_b0hhdC9vZ.webp" | ||
alt: "laptop preto e branco com três emojis, joinha, coração e palmas" | ||
caption: "Photo by [https://unsplash.com/@gaellemarcel?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Gaelle Marcel) on [https://unsplash.com/photos/person-holding-balloons-vrkSVpOwchk?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Unsplash)" | ||
--- | ||
|
||
## What is Multivariate Analysis? | ||
|
||
Multivariate analysis is a branch of statistical methods that allows analyzing the distribution of two or more variables. In statistics it can be used to reduce the dimensionality of data, simplifying variability, or for inference techniques. | ||
|
||
## Principal Component Analysis | ||
|
||
Principal Component Analysis, also known as PCA, constitutes a multivariate analysis method whose purpose is to reduce the dimensionality of data. This reduction occurs by reducing the number of columns or variables while maintaining a significant percentage of the variability present in the data. | ||
|
||
The use of this technique becomes interesting when dealing with a large number of variables of interest that you want to group and correlate. For example, a telecommunications company may have various information about its customers, such as age, income, profession, length of service with the company, and products/services purchased, among others. Often, the analyst wants to take advantage of all this information, whilst avoiding _overfitting_. In this context, the application of PCA emerges as a valuable tool, allowing dimensionality reduction while preserving the intrinsic variability of these variables. | ||
|
||
## Cluster Analysis | ||
|
||
Cluster analysis, also called clustering, is a technique that aims to group individuals or variables with similar characteristics. There are several algorithms for clustering, but the most common and most used is K-means. | ||
|
||
Clusters can be used to create metrics and indices that can be used to evaluate a business or even to build forecasting models. | ||
|
||
These tools are fundamental for scientists and analysts seeking to extract valuable _insights_, avoid _overfitting_, and promote a deeper understanding of the structure of multivariate data. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,30 @@ | ||
--- | ||
title: "Análise Multivariada para Ciência de Dados" | ||
date: 2024-02-05 22:32:00 -0300 | ||
categories: [Blog] | ||
tags: [estatística, análise multivariada, conhecimento, ciência de dados, data science] | ||
showtoc: true | ||
summary: As duas técnicas mais importantes de análise multivariada para ciência de dados. | ||
cover: | ||
image: "https://ik.imagekit.io/devmedeiros/multivariate_b0hhdC9vZ.webp" | ||
alt: "laptop preto e branco com três emojis, joinha, coração e palmas" | ||
caption: "Imagem por [https://unsplash.com/@gaellemarcel?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Gaelle Marcel) na [https://unsplash.com/photos/person-holding-balloons-vrkSVpOwchk?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Unsplash)" | ||
--- | ||
|
||
## O que é Análise Multivariada? | ||
|
||
A análise multivariada é um ramo de métodos estatísticos que permite analisar a distribuição de duas ou mais variáveis. Na estatística ela pode ser utilizada para diminuir a dimensionalidade dos dados, simplificando a variabilidade, ou para técnicas de inferência. | ||
|
||
## Análise de Componentes Principais | ||
|
||
A Análise de Componentes Principais, também conhecida como PCA (_Principal Component Analysis_), constitui um método de análise multivariada cujo propósito é a redução da dimensionalidade dos dados. Essa redução se dá pela diminuição do número de colunas ou variáveis, mantendo, ao mesmo tempo, uma porcentagem significativa da variabilidade presente nos dados. | ||
|
||
A utilização dessa técnica torna-se interessante quando se lida com um grande número de variáveis de interesse que se deseja agrupar e correlacionar. Por exemplo, uma empresa de telecomunicações pode dispor de diversas informações sobre seus clientes, tais como idade, renda, profissão, tempo de vinculo à empresa, produtos/serviços adquiridos, entre outros. Muitas vezes, o analista deseja aproveitar todas essas informações, evitando, no entanto, o _overfitting_. Nesse contexto, a aplicação do PCA surge como uma ferramenta valiosa, permitindo a redução da dimensionalidade enquanto preserva a variabilidade intrínseca dessas variáveis. | ||
|
||
## Análise de Cluster | ||
|
||
A análise de cluster, também chamada de clusterização, é uma técnica que tem como objetivo agrupar os indivíduos ou variáveis com características semelhantes. Existe diversos algoritmos para agrupamento, mas o mais comum e mais utilizado é o K-médias (K-means). | ||
|
||
Os clusters podem ser utilizados para criar métricas e indíces que podem ser usados para avaliar um negócio ou até para construir modelos de previsões. | ||
|
||
Essas ferramentas são fundamentais para cientistas e analistas que buscam extrair _insights_ valiosos, evitando o _overfitting_, e promovem uma compreensão mais profunda da estrutura dos dados multivariados. |