공공데이터를 활용한 흡연 여부 예측

요약

사람에게서 나타나는 생체 특성 중 흡연여부에 영향을 미치는 요인을 찾고자 하였다. 분석을 위해 분류 모델 중 나이브베이즈분류기, knn, 다항로지스틱회귀모형, 의사결정나무, 랜덤포레스트, XGBoost, SVM 총 7개의 모델을 사용하였다. 분석에 사용된 데이터는 국민건강보험공단에서 제공하는 건강검진정보 데이터를 사용하였다. 선행연구들을 바탕으로 분류모델의 학습에 있어 헤모글로빈수치(HMG), 간기능 수치(GAMMA_GTP), 신장 수치(CREATININE), 성별(SEX)이 흡연여부에 높은 영향성을 줄 것으로 예상하였다. 랜덤포레스트를 최종모델로 설정하여 분석한 결과 가설과 유사하게 변수중오도가 도출되었고 성별이 가증 큰 영향을 끼치는 것으로 확인되었다.

1. EDA

EDA를 통해서 다음과 같은 사실을 확인 할 수 있었다.

여성의 경우 남성보다흡연자 비율이 적다.
나이대가 높아질수록 흡연자의 비율이 적어진다.
지역별 흡연율 차이는 성비에 기인하는데, 울산은 대표적인 남초도시이다. 이에 따라 흡연율이 높다.
흡연자의 크레아티닌 수치가 높다.
음주자일수록 흡연율이 높다.
흡연자일수록 감마지피티(간수치)가 높다.
흡연자일수록 HDL이 낮다.

2. 모델링

이번 프로젝트에서는 총 7가지의 모델을 사용 하였으며, 각 모델에 대해 최적의 하이퍼파라미터를 찾고 성능을 비교한 후 최종 모델을 선정했다.

2-1. 모델 성능 비교

2-2. 모델 소개

3. 최종 모델 및 성능 측정

최종적으로 성능이 우수하며 속도가 빠르고 과적합에 효과적이고 해석이 용이한 랜덤포레스트가 선정되었다. 다음은 랜덤포레스트에 대한 변수중요도와 ROC CURVE 이다. 프로젝트 초반에 세웠던 가설과 동일하게 성별(SEX), 헤모글로빈(HNG), 간기능수치(GAMMA_GTP), 신장수치(CREATININE)이 변수중요도 상위에 위치함을 확인 할 수 있었다.

4. 결론

4-1. 가설 확인

본 분석에서는 7개의 분류모델을 학습하는 과정을 거쳤고 모델의 성능, 해석의 용이성, 속도, 일반화가능성을 기준으로 랜덤포레스트를 흡연 분류 예측 최적 모형으로 선정하였다.

분류모델의 학습에 있어 헤모글로빈수치(HMG), 간기능수치(GAMMA_GTP), 신장수치(CREATININE), 성별(SEX)가 흡연여부에 높은 영향성을 줄 것이라 가설을 세웠다. 실제 분석 결과 가설과 동일하게 높은 영향을 줌을 확인 할 수 있었다.

4-2. 활용방안

1) 소비자 건강 헬스케어 앱

최근 우리은행에서는 디지털 헬스케어 기업 GC케어와 헬스케어 플랫폼 서비스를 출시했다. 이 서비스는 소비자의 건강도를 수치로 나타내어 사용자로 하여금 손쉽게 건강을 관리할 수 있도록 도와주는 서비스이다. 이번 프로젝트의 흡연 예측을 활용하면 사용자의 흡연여부를 예측하고 이를 기반으로 서비스 내에서 보다 정확한 건강 점수를 제공 할 수 있다. 또한 흡연여부를 예측하여 흡연,금연,비흡연, 사용자를 구분하고 그에 맞춤화 된 서비스를 제공 할 수있다.

2) 금연 정책

금연정책을 시행할 때 대상을 정확히 타겟하여 맞춤형으로 금연정책을 시행하면 보다 높은 효과를 가질 수 있을 것이다. 또한 모든 성인을 대상으로 흡연전수조사를 하는데 한계점이 존재하므로 건강 데이터를 기반으로 성인의 흡연을 예측하고 그에 맞는 금연정책의 동향을 파악하고 의사결정의 근거로 활용하면 더 높은 효과를 가질거라 생각된다.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
code		code
data		data
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

공공데이터를 활용한 흡연 여부 예측

요약

1. EDA

2. 모델링

2-1. 모델 성능 비교

2-2. 모델 소개

3. 최종 모델 및 성능 측정

4. 결론

4-1. 가설 확인

4-2. 활용방안

1) 소비자 건강 헬스케어 앱

2) 금연 정책

About

Releases

Packages

Languages

dongwan97/Smoking-Prediction-Model

Folders and files

Latest commit

History

Repository files navigation

공공데이터를 활용한 흡연 여부 예측

요약

1. EDA

2. 모델링

2-1. 모델 성능 비교

2-2. 모델 소개

3. 최종 모델 및 성능 측정

4. 결론

4-1. 가설 확인

4-2. 활용방안

1) 소비자 건강 헬스케어 앱

2) 금연 정책

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages