데이터사이언스 기록기📚

[삼성 SDS Brightics 서포터즈] #18_개인 프로젝트_노코드 AI 오픈소스 Brightics Studio로 분석_직원 이직률⑥ 그룹 모델링, 정리 본문

대외활동/삼성SDS Brightics 서포터즈

[삼성 SDS Brightics 서포터즈] #18_개인 프로젝트_노코드 AI 오픈소스 Brightics Studio로 분석_직원 이직률⑥ 그룹 모델링, 정리

syunze 2022. 11. 8. 21:47

안녕하세요!

개인 프로젝트 마지막 포스팅으로 돌아왔습니다!

 

벌써 개인 프로젝트를 마무리해야 한다니

조금 섭섭하기도 합니다ㅠㅠ

 

오늘은 저번 포스팅에서 적용해보지 못한

그룹 모델링과 최종 프로젝트 정리로 포스팅을 진행해보도록 하겠습니다.

 

🔽이전 포스팅이 궁금하시면 아래 링크를 클릭해주세요!🔽

 

[삼성 SDS Brightics 서포터즈] #17_개인 프로젝트_노코드 AI 오픈소스 Brightics Studio로 분석_직원 이직

안녕하세요!! 벌써 17번째 포스팅으로 돌아왔습니다! 이제 서포터즈 포스팅도 얼마 남지 않았는데요ㅠㅠ 끝까지!! 열심히 포스팅해보겠습니다! 오늘은 저번 포스팅의 오류 수정과 하이퍼파라미

subinze.tistory.com


1. 그룹 모델링

1-1. Industry Grouping

그룹 모델링을 시작할 때는

Split Data도 수정해 주어야 합니다!

 

그 이유는,

학습 시 없던 그룹이 테스트 데이터로 들어왔기 때문에

'Exception: Please check the dataset'이라는 오류가 발생하는 것이었습니다!

 

사전에 오류를 방지하기 위해,

Split Data의 Group by에서 Industry를 넣어 나누어 주고

모델링 부분의 Group by에서 동일한 Industry를 넣어주면 문제를 해결할 수 있습니다.

 

제가 저번 주에 겪었던 문제를 멘토님께서 조언해주신 덕분에 해결할 수 있었습니다!

 

Group by - Industry

Industry로 그룹핑한 결과,

정확도는 다음과 같았습니다.

 

MLP가 가장 높았지만,

3,4,5번인 AdaBoost, XGB, Random Forest를 이용하여 더 분석해보려 합니다.

제가 선택한 모델들은 Tree 계열로

Feature Importance로 퇴사 여부를 확인할 수 있기 때문입니다!

 

Tree 계열 모델 중,

제가 선택한 최종 모델은 Random Forest입니다.

 

정확도는 가장 낮지만,

Industry별 상위 3개의 Feature Importance가 가장 적합하다고 판단하여

선정하였습니다.

 

예시에서 볼 수 있듯이,

Consult의 Feature Importance는 way_foot, ansxiet, stag로 이직이 높고 

IT의 Feature Importance는 stag, independ, novator로 이직이 높은 것을 알 수 있었습니다.


1-2. Age_group Grouping

 

Industry와 동일한 방법으로

Split Data와 각 모델링을 수정하였습니다.

Age_group으로 그룹핑한 결과,

정확도는 다음과 같았습니다.

 

동일한 이유로

1,3,4번인 Random Forest, XGB,  AdaBoost를 이용하여 더 분석해보려 합니다.

최종 선택한 모델은

Random Forest입니다.

 

정확도도 가장 높았으며

Feature Importance도 적절한 변수가 나왔기 때문에 선정하였습니다.

이직하고 싶은 이유는 나이대 상관없이 유사하였는데요,

기본적으로 anxiety와 selfcontrol이 높은 Feature Importance에 속해있었습니다.


1-3. Profession Grouping

Profession으로 그룹핑한 결과,

정확도는 다음과 같았습니다.

 

동일한 이유로

1,4,2번인 Random Forest, XGB,  AdaBoost를 이용하여 더 분석해보려 합니다.

최종 선택한 모델은

Random Forest입니다.

 

정확도도 가장 높았으며

Feature Importance도 적절한 변수가 나왔기 때문에 선정하였습니다.

Teaching과 PR은 표본이 적어 Feature Importance가 나오지 않았습니다.

HR은 stag, age, selfcontrol로 이직이 높았고,

Commercial은 recNErab을 이용한 교통, selfcontrol, age로 이직이 높음을 확인할 수 있었습니다.

 


2. 프로젝트 정리

2-1. 프로젝트 배경

 

프로젝트 배경은

전체 직업군 단위 그만둔 비율이 꾸준히 증가하는 것을 확인할 수 있었으며

1-3년 동안 일한 직원들의 사직서 제출 비율이 가장 높은 것을 확인할 수 있었습니다.


2-2. 프로젝트 분석 목적

 

탐색한 배경을 근거로

 

집단의 이직률 예측 및

이직 요인 파악

 

으로 분석 목적을 설정하였습니다.


2-3. 데이터 셋 설명

데이터셋 구성은 다음과 같습니다.


2-4. EDA 및 통계적 검정

 나이대별로 Event 분포를  한 시각화입니다.

20대~30대 비율이 높긴 하지만

20대 이직자가 30대 이직자보다 더 많은 것을 확인할 수 있었습니다.

 

산업군별 Event 분포 확인해보았습니다.

 

빨간색인 Banks, Building, Consult, State는 남는 사람보다 이직자가 더 많음을 확인할 수 있었으며

초록색인 IT, PoverGeneration, Telecom, transport는 남는 사람이 더 많음을 확인할 수 있었습니다.

 

또한, 카이제곱 검정을 이용하여

종속변수와 독립변수의 종속, 독립 여부를 확인해보았습니다.

 

귀무가설을 채택한 변수는

gender, coach, head_gender, greywage, age_group으로

주로 나이와 성별에 관련된 변수였습니다.

 

귀무가설을 기각하고 대립 가설을 선택한 변수는

industry, profession, traffic, way 변수로

직업이나 통근길과 관련된 변수였습니다.


2-5. 데이터 전처리

 

gender, coach, head_gender, greywage, age_group

변수는 라벨 인코딩하였습니다.

 

① 그룹화하지 않는 모델을 만들 때는

industry, profession, traffic, way 변수를 

원핫인코딩하였으며

 

② 그룹화를 한 모델을 만들 때는

traffic, way 변수만

원핫인코딩을 진행하였습니다.


2-6. 모델링 및 결론

① 그룹화하지 않는 모델

최적화하기 전, 모델별 정확도는 다음과 같았으며

Random Forest가 0.666으로 가장 높은 것을 확인해 볼 수 있었습니다.

또한, 하이퍼 파라미터 조정과 변수 제거를 통해

최종으로 XGB모델을 선정하였습니다.


② 그룹화를 한 모델

그룹 모두 Random Forest를 선정하였습니다.

 

Industry Group은 대표적으로

Consult의 Feature Importance는 way_foot, ansxiet, stag로 이직이 높고

IT의 Feature Importance는 stag, independ, novator로 이직이 높은 것을 알 수 있었습니다.

 

Age_group은 나이대 상관없이 유사하였는데요,

기본적으로 anxiety와 selfcontrol이 높은 Feature Importance에 속해있었습니다.

 

Profession Gruop은

HR은 stag, age, selfcontrol로 이직이 높았고,

Commercial은 recNErab을 이용한 교통, selfcontrol, age로 이직이 높음을 확인할 수 있었습니다.

 


2-7.  향후 방안

 

향후 방안

이직의 요인을

직군별, 직업별, 나이대별로 파악하여

해당 요인을 해소 및 해결할 수 있게

회사에서 지원하여 이직률을 줄여나갈 방안이 있습니다.


드디어 개인 프로젝트가 끝났습니다!

 

다시 돌아보니 부족했던 점도 많이 보이고

조금 더 발전시키지 못한 게 아쉽네요ㅠㅠ

 

 

다음 포스팅은 마지막...! 포스팅입니다...!

마지막 포스팅도 관심 있게 봐주세요!!

 

* 본 포스팅은 삼성 SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다 *

 

 

728x90
Comments