[삼성 SDS Brightics 서포터즈] #13_개인 프로젝트_직원 이직률① 데이터 선정
안녕하세요!
Brightics 서포터즈 3기입니다!
저번 주까지는 팀 프로젝트를 진행했었는데요
이번 주부터 약 6주간은 개인 프로젝트를 진행할 예정입니다!
6주간 제 계획은
1주 - 데이터 선정 및 분석 개요
2주 - EDA
3주 - 데이터 전처리
4주 - 데이터 전처리 및 데이터 모델링
5주 - 모델링
6주 - 결과 정리
로 진행하려 합니다!
그럼 개인 프로젝트 1주차 시작해볼까요?
1. 배경
최근, 회사를 이직하는 비율이 점차 늘어난다는 기사를 본 적이 있습니다.
이를 직접 확인해보기 위해 관련 자료를 찾아보았습니다!

상단의 표를 참고하면
2021년 1월 ~ 2021년 12월까지
전체 직업군 단위 그만둔 비율이 증가하는 것을 알 수 있었습니다.

상단의 분석자료는 2021년 이직률 분석 자료입니다.
평균 이직률은 20%이며,
직군별 상이하지만 e-commerce 직군이 30.7%로
평균 이직률이 높은 것을 확인할 수 있었습니다.
또한 1-3년 동안 일한 직원들의 사직서 제출 비율이
45%로 가장 높다고 합니다.
해당 자료들을 찾아보며
이직률이 높은 것이 어떤 요인으로 발생하는 것인지 궁금해졌습니다!
2. 데이터 분석 목적
저는 탐색한 배경을 근거로
Test 집단의 이직률 예측 및
이직한 사람들의 이직 요인 파악
으로 분석 목적을 선정하였습니다!
3. 데이터셋 선정
데이터셋은 캐글의
'Employee Turnover' 데이터셋을 이용하여 분석하려 합니다!
Employee Turnover
Employee Turnover dataset originally used for a Survival Analysis Model
www.kaggle.com
3-1. 데이터 구성
Columns | Description |
stag | 재직 기간(경험 시간) |
gender | 성별 |
age | 나이 |
industry | 산업군 |
profession | 직업 |
traffic | 어떤 경로로 회사에 들어왔는지 |
coach | 수습 기간 중 코치의 존재 여부 |
head_gender | supervisor 성별 |
greywage | 백색 급여(계약서에 명시된 급여) / 회색 금여 (계약서 명시 급여 + 문 |
way | 출근 방법(버스 or 차 or etc) |
extraversion | 외향성 점수 |
independ | 독립 점수 |
selfcontrol | 자기 통제 점수 |
anxiety | 불안 점수 |
novator | novator 투자회사 점수 |
event | 직원 이직 여부(0,1) |
데이터 칼럼은 총 16개로 되어있으며
event 칼럼은 Y,
이외의 칼럼은 X로 구성되어 있습니다.
이번 주는 간단히 어떤 데이터로 분석할지
배경 조사와 분석의 목적, 데이터셋 선정을 마무리하였습니다!
다음 주에는 해당 데이터의 EDA 포스팅으로 돌아오겠습니다 :)
* 본 포스팅은 삼성 SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다 *