Skip to content

mrlee23/bankruptcy-prediction

Repository files navigation

스페인 기업 부도 분석 및 예측

개요

이 프로젝트는 Bankruptcy_2016의 데이터를 이용하여 1998년부터 2003년까지 약 3000개의 기업에 대한 정보를 분석하고 부도 여부를 예측하는 것을 목표로 한다.

목적과 목표

기업별 재무재표와 상태 정보등을 이용한 분석을 통해 기업 부도에 영향을 미치는 변수들을 선택하고 모수들을 추정해 적합한 통계적 모델을 찾는 것을 목적으로 한다. 이렇게 이끌어낸 통계적 모델을 이용해서 기업의 재무재표 및 상태 정보를 통해 부도 가능성을 예측하는 것을 목표로 한다.

데이터 개요

스페인 소재의 기업을 대상으로 부도 여부를 조사한 1998년 ~ 2003년 까지의 데이터이다.

총 34개의 변수가 있으며 총 8개의 질적변수와 26개의 양적변수가 있다. 2859의 데이터가 있고 이중 NA 값을 제외한 데이터수는 2385개 이다. 데이터 분석시에는 NA 값을 제외한 2385개의 데이터를 이용할 것이다.

원본 데이터셋의 데이터 개요는 bankruptcy-datasets.arff 참조할 것.

질적 변수

변수 이름타입설명
SIZEsmall, medium, big
SOCIAL_CODECo, Ltd, other기업 형태
LINKED_GROUPno, yes그룹 여부
PROVINCE_CODE1..52(4,5,19,34,42,44,51 제외)지방 코드
DELAY_ACCOUNTSno, yesDELAY (IN SENDING ITS ANNUAL ACCOUNTS)
AUDITEDno, yes감사 여부
AUDITORS_OPINIONnothing, positive, minor, negative감사원 의견
BANKRUPTCYNO, YES부도 여부

양적 변수

변수 이름범위설명
YEAR1998 ~ 2003기록 연도
NUMBER_EMPLOYEES0 ~ 2662직원 수
AGE0 ~ 85기업 연수
NUMBER_PARTNERS0 ~ 75협력 기업 수
CHANGES_LOCATION0 ~ 8기업 위치 변경 수
DEBT_STRUCTURE-99.07 ~ 134.48부채 구조
DEBT_COST-0.87 ~ 8151.25부채 비용
DEBT_PAYING_AVAILABILITY-7.27 ~ 345.05부채 지불 능력
DEBT_RATIO-43094.47 ~ 17570.04부채 비율
WORKING_CAPITAL-14.92 ~ 24.23순운전(운영)자본
WARRANTY-526.22 ~ 46836.93WARRANTY
OPERATING_INCOME_MARGIN-45180.9 ~ 8791.51영업이익률
RETURN_OPERATING_ASSETS-68775792 ~ 2885.159운용자산순환률
RETURN_EQUITY-1825426 ~ 9349.018자기자본이익률
RETURN_ASSETS-481.07 ~ 711.22총자산순이익률
STOCK_TURNOVER-481.08 ~ 711.22자본금회전율
ASSET_TURNOVER-0.33 ~ 112.28자산회전율
RECEIVABLE_TURNOVER-905.96 ~ 17096.96매출채권 회전율
ASSET_ROTATION-60947.59 ~ 90619.69자본순환율
FINANCIAL_SOLVENCY-343.43 ~ 5481.22재무건전성
ACID_TEST-315.79 ~ 5268.60당좌 비율
NUMBER_JUDICIAL_INCIDENCES_TOTAL0 ~ 5법적 분쟁 발생 수
NUMBER_JUDICIAL_INCIDENCES_YEAR0 ~ 1최근 1년간 법적 분쟁 발생 수
SPENT_JUDICIAL_INCIDENCES_TOTAL0 ~ 448342.4법적 분쟁 부담 비용
SPENT_JUDICIAL_INCIDENCES_YEAR0 ~ 445476.7최근 1년간 법적 부쟁 부담 비용
NUMBER_SERIOUS_INCIDENCES0 ~ 1위험 사고 발생 수

분석 과정

기업 부도 요인을 분석하는 것이 목적으로 BANKRUPTCY 를 반응변수로 사용한다. BANKRUPTCY 는 질적변수로 YES(부도), NO(부도아님)를 통해 부도 여부를 나타내는 변수이다. 어떤 변수가 실제로 기업의 부도에 영향을 미치며, 어떤 분류 방법이 기업 부도 여부를 가장 잘 예측하는지를 알아내는 것이 이 프로젝트의 목적이다.

연구 목적을 달성하기 위해서 아래의 순서를 따라 데이터 분석을 진행해 나갈 것이다.

  1. 데이터 설정
  2. 변수 선택 : Best subset, Forward selection, Backward selection, Ridge regression, Lasso 등을 이용해 각각의 가장 좋은 모델을 선택
  3. 최종 모델 선택 : 5개의 선택된 모델 중 Validation set approach, LOOCV, 10-fold 을 이용해 오류율을 비교하여 오류율이 가장 낮은 모델을 선택
  4. 분류 방법 비교 : 선택한 모델을 이용해서 Logistic, LDA, QDA, KNN 을 이용해서 어떤 방법이 가장 오류율이 적은지 분석
  5. Bootstrap : 선택한 모델에서 임의의 2개의 X 변수를 선택하여 Bootstrap을 이용해 모수 $α$ 추정, 표준편차와 비교

데이터 설정

변수 선택하기에 앞서 원활한 분석을 위해서 NA 값을 지니는 행을 제거하고 분석하는데 상관이 없는 변수들을 제거해야 한다. 먼저 NA값이 있는 행을 모두 제거하였다. 그리고 기업 형태를 나타내는 SOCIAL_CODE=와 지방 코드를 나타내는 =PROVINCE_CODE 를 사용할 변수에서 제외하였다. 마지막으로 AGE 값은 상식적으로 0 이상이여야 하는데 -1인 값들이 있어서 이러한 행들을 제거하였다. 데이터를 수정하기 전의 데이터는 34개의 변수와 2859개의 데이터가 있었는데, 수정한 후 32개의 변수와 2383개의 데이터가 남았고 이 데이터를 이용해 분석을 진행한다.

예외적으로 LDA, QDA 분석을 진행할 때 사용할 반응변수 BANKRUPTCY0(NO) 또는 1(YES) 로 나타내어야 하기 때문에 이 경우에는 YES, NO 값을 1과 0으로 변환시켜주는 convert.data() 를 사용한다.

변수 선택

Best subset

./plots/full.png

Forward

./plots/forward.png

Backward

./plots/backward.png

결과

./plots/variable-selection-full.png

./plots/variable-selection-fwd.png

./plots/variable-selection-bwd.png

./plots/variable-selection-ridgelasso.png

최종 비교

./plots/variable-selection.png

Error rateC_pBICAdjr^2RidgeLasso
Validation set approach0.051217460.052896730.056255250.055415620.05289673
LOOCV(K=200)0.052822760.049778040.055337410.057760890.05010032
10-fold(K=10)0.054157300.050052120.056815560.057656540.05145151
최소 오류율0.051217460.049778040.055337410.055415620.05010032
C_pBICAdjr^2RidgeLasso
SIZESIZESIZE[All]YEAR
NUMBER_EMPLOYEESDEBT_COSTNUMBER_EMPLOYEESSIZE
AGERETURN_EQUITYAGEAGE
LINKED_GROUPRETURN_ASSETSLINKED_GROUPLINKED_GROUP
DEBT_COSTNUMBER_JUDICIAL_INCIDENCES_YEARNUMBER_PARTNERSWORKING_CAPITAL
WORKING_CAPITALSPENT_JUDICIAL_INCIDENCES_TOTALDEBT_COSTRETURN_EQUITY
RETURN_EQUITYAUDITEDWORKING_CAPITALRETURN_ASSETS
RETURN_ASSETSRETURN_EQUITYASSET_TURNOVER
ASSET_TURNOVERRETURN_ASSETSFINANCIAL_SOLVENCY
NUMBER_JUDICIAL_INCIDENCES_YEARASSET_TURNOVERNUMBER_JUDICIAL_INCIDENCES_TOTAL
SPENT_JUDICIAL_INCIDENCES_TOTALNUMBER_JUDICIAL_INCIDENCES_YEARNUMBER_JUDICIAL_INCIDENCES_YEAR
NUMBER_SERIOUS_INCIDENCESSPENT_JUDICIAL_INCIDENCES_TOTALSPENT_JUDICIAL_INCIDENCES_TOTAL
AUDITEDNUMBER_SERIOUS_INCIDENCESAUDITED
AUDITORS_OPINIONAUDITEDAUDITORS_OPINION
AUDITORS_OPINION
147153214

Shrinkage Methods(Ridge, Lasso)

./plots/ridge.png

./plots/lasso.png

최종 모델 선택

분류 방법 비교

Bootstrap

About

통계적 학습 방법을 이용한 기업의 파산 가능성 예측

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published