[삼성 SDS Brightics 서포터즈] #14_개인 프로젝트_직원 이직률② EDA
안녕하세요!
Brigthics 서포터즈 3기입니다!
이번 포스팅은 직원 이직률 2번째 편으로
전 편에서 말씀드린 것과 같이
데이터 확인과 EDA를 진행하려 합니다!
🔽전 편이 궁금하시면 아래 링크를 클릭해주세요!🔽
[삼성 SDS Brightics 서포터즈] #13_개인 프로젝트_직원 이직률① 데이터 선정
안녕하세요! Brightics 서포터즈 3기입니다! 저번 주까지는 팀 프로젝트를 진행했었는데요 이번 주부터 약 6주간은 개인 프로젝트를 진행할 예정입니다! 6주간 제 계획은 1주 - 데이터 선정 및 분석
subinze.tistory.com
1. 데이터 로드
먼저, 저는 캐글에서 데이터를 가져왔기때문에
데이터 업로드하는 과정을 진행해야합니다!


왼쪽 사진처럼
오른쪽 끝 Palette를 선택한 후,
Data - Add를 눌러줍니다.
그럼
오른쪽 사진처럼 Add Data 화면이 뜨게됩니다!
1~3까지 순차적으로 확인해보며 데이터 업로드를 마무리합니다.


Load 블록을 이용해
turnover.csv가 업로드 된걸 확인할 수 있었습니다!
2. 데이터 확인
2-1. Profile Table

가장 먼저, Profile Table 블록을 통해
데이터 분포 및 특징을 한 눈에 알아보도록 하겠습니다!

Overview에서
Missing 데이터는 없는 것으로 확인되었고
이후 전처리할 때 주의깊게 봐야하는 Warning을 확인하였습니다!

하단의 그래프에서 Y값인 event를 확인해보았습니다.
event는 0과 1의 비율이 대략 1:1로
데이터 불균형 문제는 고려하지 않아도 된다는 결론을 내렸습니다!

Spearman의 상관계수를 확인해보니
novator와 selfcontrol이 음의 선형 상관관계를 가진다는 것을 확인할 수 있었습니다.
2-2. Statistic Summary

다음은 Statistic Summary를 통해
수치형 변수의 특징들을 알아봤습니다.

수치형 변수들의 range는
변수 특징에 맞게 있을 수 있는 범주에 있음을 확인할 수 있었습니다.
Avg를 확인해보니,
stag는 앞쪽에 데이터가 몰려있는 것을 확인할 수 있었습니다.
또한, 모든 변수의
null count가 없음을 확인할 수 있었습니다.
2-3. String Summary

다음은 String Summary를 통해
카테고리형 변수의 특징들을 알아봤습니다.

카테고리형 변수들은
모두 null count가 없음을 확인할 수 있었습니다.
또한 num of distinct를 통해
각 변수별 개수 확인을 해 보았습니다.
2-4. Replace String Variable

Replace String Variable 함수를 통해
일부 String값을 바꾸어보았습니다.

데이터를 로드하던 중,
Finance의 c 철자를 인식하지 못하는 것을 확인할 수 있었습니다.
그래서 Replace String Variable 함수를 통해
이를 교정해보았습니다.

Target String에 원래 단어를 입력하고,
Replace String에 변경할 단어를 입력하였습니다.
Python에서는
칼럼 선택 후, replace 함수를 이용하여 변경하게 되는데
간단하게 단어로 변경할 수 있어 매우 편리했습니다!
2-5. Python Script

저는 나이 부분의 데이터를 한 눈에 알아보기 위해
Python Script를 이용하여 나이대로 그룹화를 하였습니다!

Python Script로 적용 후
age_group 칼럼이 생성되는 것을 확인할 수 있었습니다.
3. EDA
3-1. stag, age

stag와 age를 히스토그램을 이용하여 확인해보았습니다.
stag를 확인해보면
근무한 시간이 짧은 사람의
분포가 더 많은 것을 확인해 볼 수 있었습니다.
age는 21~43까지는 많고,
21살 이전과 43살 이후에는 적은 것을 파악할 수 있었습니다.
3-2. event

어느 나이대가 가장 이직이 많은지 알아보기 위하여
event를 기준으로 분포를 나타내보았습니다.
앞서 본 age 그래프와 같이
20대~30대 비율이 높긴 하지만
20대 이직자가 30대 이직자보다 더 많은 것을 확인할 수 있었습니다.

또한, 산업군별로 이직자를 알아보기위해
산업군별 event 분포를 확인해보았습니다.
빨간색인 Banks, Building, Consult, State는 남는 사람보다 이직자가 더 많음을 확인할 수 있었으며
초록색인 IT, PoverGeneration, Telecom, transport는 남는 사람이 더 많음을 확인할 수 있었습니다.

산업군에서 더 들어가, 직업군에서 이직자를 알아보기 위해
직업군별 event 분포를 확인해보았습니다.
Commercial, Consult, Engineer,Finance,
Law, Marketing, PR, Teaching, manage가
다른 직업군보다 이직자가 많다는 것을 확인할 수 있었습니다.
이번 포스팅은
데이터 확인과 EDA를 진행하였습니다!
다음포스팅에는
데이터 통계 분석과 전처리 부분으로 찾아오도록 하겠습니다!
* 본 포스팅은 삼성 SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다 *