Machine Learning Project using Logistic regression to predict whether or not a user has clicked on an online ad
Nesse projeto vamos trabalhar com um conjunto de dados fictício, que indica se um usuário clicou ou não em um anúncio online. A partir disso, vamos criar um modelo para prever se o usuário, baseado em suas características, vai clicar ou não no anúncio. O modelo de machine learning que será utilizado será uma regressão logística.
O dataset contém as seguintes features:
- 'Daily Time Spent on Site': tempo do consumidor no site em minutos
- 'Age': Idade do cliente em anos
- 'Area Income': Renda média da área geográfica do consumidor
- 'Daily Internet Usage': Média de minutos que o consumidor gasta na internet
- 'Ad Topic Line': Título do anúncio
- 'City': Cidade do consumidor
- 'Male': Se o consumidor era um Homem
- 'Country': País do consumidor
- 'Timestamp': Hora em que o consumidor clicou no anúncio ou em fechar a janela
- 'Clicked on Ad': 0 or 1 indicando se o consumidor clicou no anúncio
Vamos fazer mais algumas análises estatísticas, para isso vamos olhar um mapa de calor com as correlações entre as features, e vamos demonstrar algumas delas através de gráficos
Vimos também que idade e uso de internet tem uma correlação negativa, ou seja, quanto menor a idade mais internet se usa diariamente e vice-versa.
Vemos que o gráfico acima realmente apresenta dois "nichos". No lado esquedo superior temos o grupo de menor idade e com maior uso de internet, enquanto no lado direito inferior temos maior idade e menor uso de internet.
Vimos que há uma alta correlação entre idade e clicar nos anúncios. Vamos então separar as idades em faixas e verficar o comportamento.
Vamos começar divivindo o dataset nos dados de treino e teste. Também vamos definir as features e o target que serão utilizados