Skip to content

Commit

Permalink
new post
Browse files Browse the repository at this point in the history
  • Loading branch information
devmedeiros committed Feb 6, 2024
1 parent 04148ec commit e570d42
Show file tree
Hide file tree
Showing 2 changed files with 60 additions and 0 deletions.
30 changes: 30 additions & 0 deletions content/en/post/multivariate-analysis.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
---
title: "Multivariate Analysis for Data Science"
date: 2024-02-05 22:32:00 -0300
categories: [Blog]
tags: [statistics, multivariate analysis, knowledge, data science]
showtoc: true
summary: The two most important multivariate analysis techniques for data science.
cover:
image: "https://ik.imagekit.io/devmedeiros/multivariate_b0hhdC9vZ.webp"
alt: "laptop preto e branco com três emojis, joinha, coração e palmas"
caption: "Photo by [https://unsplash.com/@gaellemarcel?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Gaelle Marcel) on [https://unsplash.com/photos/person-holding-balloons-vrkSVpOwchk?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Unsplash)"
---

## What is Multivariate Analysis?

Multivariate analysis is a branch of statistical methods that allows analyzing the distribution of two or more variables. In statistics it can be used to reduce the dimensionality of data, simplifying variability, or for inference techniques.

## Principal Component Analysis

Principal Component Analysis, also known as PCA, constitutes a multivariate analysis method whose purpose is to reduce the dimensionality of data. This reduction occurs by reducing the number of columns or variables while maintaining a significant percentage of the variability present in the data.

The use of this technique becomes interesting when dealing with a large number of variables of interest that you want to group and correlate. For example, a telecommunications company may have various information about its customers, such as age, income, profession, length of service with the company, and products/services purchased, among others. Often, the analyst wants to take advantage of all this information, whilst avoiding _overfitting_. In this context, the application of PCA emerges as a valuable tool, allowing dimensionality reduction while preserving the intrinsic variability of these variables.

## Cluster Analysis

Cluster analysis, also called clustering, is a technique that aims to group individuals or variables with similar characteristics. There are several algorithms for clustering, but the most common and most used is K-means.

Clusters can be used to create metrics and indices that can be used to evaluate a business or even to build forecasting models.

These tools are fundamental for scientists and analysts seeking to extract valuable _insights_, avoid _overfitting_, and promote a deeper understanding of the structure of multivariate data.
30 changes: 30 additions & 0 deletions content/pt/post/multivariate-analysis.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
---
title: "Análise Multivariada para Ciência de Dados"
date: 2024-02-05 22:32:00 -0300
categories: [Blog]
tags: [estatística, análise multivariada, conhecimento, ciência de dados, data science]
showtoc: true
summary: As duas técnicas mais importantes de análise multivariada para ciência de dados.
cover:
image: "https://ik.imagekit.io/devmedeiros/multivariate_b0hhdC9vZ.webp"
alt: "laptop preto e branco com três emojis, joinha, coração e palmas"
caption: "Imagem por [https://unsplash.com/@gaellemarcel?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Gaelle Marcel) na [https://unsplash.com/photos/person-holding-balloons-vrkSVpOwchk?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash](Unsplash)"
---

## O que é Análise Multivariada?

A análise multivariada é um ramo de métodos estatísticos que permite analisar a distribuição de duas ou mais variáveis. Na estatística ela pode ser utilizada para diminuir a dimensionalidade dos dados, simplificando a variabilidade, ou para técnicas de inferência.

## Análise de Componentes Principais

A Análise de Componentes Principais, também conhecida como PCA (_Principal Component Analysis_), constitui um método de análise multivariada cujo propósito é a redução da dimensionalidade dos dados. Essa redução se dá pela diminuição do número de colunas ou variáveis, mantendo, ao mesmo tempo, uma porcentagem significativa da variabilidade presente nos dados.

A utilização dessa técnica torna-se interessante quando se lida com um grande número de variáveis de interesse que se deseja agrupar e correlacionar. Por exemplo, uma empresa de telecomunicações pode dispor de diversas informações sobre seus clientes, tais como idade, renda, profissão, tempo de vinculo à empresa, produtos/serviços adquiridos, entre outros. Muitas vezes, o analista deseja aproveitar todas essas informações, evitando, no entanto, o _overfitting_. Nesse contexto, a aplicação do PCA surge como uma ferramenta valiosa, permitindo a redução da dimensionalidade enquanto preserva a variabilidade intrínseca dessas variáveis.

## Análise de Cluster

A análise de cluster, também chamada de clusterização, é uma técnica que tem como objetivo agrupar os indivíduos ou variáveis com características semelhantes. Existe diversos algoritmos para agrupamento, mas o mais comum e mais utilizado é o K-médias (K-means).

Os clusters podem ser utilizados para criar métricas e indíces que podem ser usados para avaliar um negócio ou até para construir modelos de previsões.

Essas ferramentas são fundamentais para cientistas e analistas que buscam extrair _insights_ valiosos, evitando o _overfitting_, e promovem uma compreensão mais profunda da estrutura dos dados multivariados.

0 comments on commit e570d42

Please sign in to comment.