데이터사이언스 기록기📚

[삼성 SDS Brightics 서포터즈] #15_개인 프로젝트_노코드 AI 오픈소스 Brightics Studio로 분석_직원 이직률③ 통계적 검정 및 데이터 전처리 본문

대외활동/삼성SDS Brightics 서포터즈

[삼성 SDS Brightics 서포터즈] #15_개인 프로젝트_노코드 AI 오픈소스 Brightics Studio로 분석_직원 이직률③ 통계적 검정 및 데이터 전처리

syunze 2022. 10. 18. 17:28

안녕하세요!

Brigthics 서포터즈 3기입니다!

 

이번 포스팅은 직원 이직률 3번째 편으로

전 편에서 말씀드린 것과 같이

데이터 전처리와 통계적 검정을 진행하려 합니다!

 

🔽전 편이 궁금하시면 아래 링크를 클릭해주세요!🔽

 

[삼성 SDS Brightics 서포터즈] #13_개인 프로젝트_직원 이직률① 데이터 선정

안녕하세요! Brightics 서포터즈 3기입니다! 저번 주까지는 팀 프로젝트를 진행했었는데요 이번 주부터 약 6주간은 개인 프로젝트를 진행할 예정입니다! 6주간 제 계획은 1주 - 데이터 선정 및 분석

subinze.tistory.com

 

 

[삼성 SDS Brightics 서포터즈] #14_개인 프로젝트_직원 이직률② EDA

안녕하세요! Brigthics 서포터즈 3기입니다! 이번 포스팅은 직원 이직률 2번째 편으로 전 편에서 말씀드린 것과 같이 데이터 확인과 EDA를 진행하려 합니다! 🔽전 편이 궁금하시면 아래 링크를 클릭

subinze.tistory.com

그럼 3번째 포스팅,

시작해보겠습니다!


1. 데이터 전처리

1-1. 이상치

 

수치형 변수들을 대상으로

이상치를 확인해보았습니다!

stag, age box plot

box plot을 이용하여 이상치 여부를 확인해보았습니다.

 

stag는 경험 시간으로 180시간은 가능한 시간으로 정상치로 판단하였습니다.

age는 60세 이하가 재직 가능하므로 정상치로 판단하였습니다. 

 

 

extraversion, independ, selfcontrol, anxiety, novator

 정도를 나타내는 수치형 변수 또한

1~10까지 분포되어 있어 이상치가 없음을 확인할 수 있었습니다.


1-2. 결측치

 

 

이전 포스팅에서 확인해보았듯

모든 데이터에 결측치는 존재하지 않았습니다!

 


2. 통계적 검정

변수별 관계성을 더 파악해보기 위해

통계적 검정을 사용하였습니다!

 

통계적 검정에서 얻은 결과를 기준으로

추후 모델링 과정에서 비교를 진행하려 합니다.

 

2-1. 정규성 검정

 

통계적 검정을 사용할 때 

전제 조건으로 해당 변수가 모수적인지 비모수적인지 알아야 합니다.

 

모수, 비모수를 판단하기 위해 정규성 검정을 진행하게 되는데요,

정규성 검정은

귀무가설(H0) : 표본 분포는 정규분포를 따른다.

대립 가설(H1) : 표본 분포는 정규분포를 따르지 않는다.

의 가설을 가지고 판단하게 됩니다.

저는 정규성 검정의 다양한 방법 중

Kolmogorov-Smirnov test 방법을 이용하였습니다. 

 

정규성 검정을 실시한

이산형 변수(stag, event, age, extraversion, independ, selfcontrol, anxiety, novator)는 

모두 귀무가설을 기각하여 정규분포를 따르지 않다는 사실을 알게 되었습니다.

 

이는 이산형 변수들이 비모수적 통계를 따른다는 것을 의미합니다.


2-2. correlation

 

비모수적 통계의 상관계수

Spearman에 대하여 더 자세히 알아보았습니다.

 

Spearman순위에 대한 상관계수를 구하게 됩니다. 

그래서 1~10까지 단계로 나누어진

extraversion, independ, selfcontrol, anxiety, novator 칼럼만 Spearman을 진행하였습니다!

selfcontrol과 extraversion이 -0.527로 음의 상관관계를 가집니다.

extraversion(외향성 점수)가 높으면 selfcontrol(자기 통제 점수)가 낮은 편임을 확인할 수 있습니다.

 

anxiety와 independ가 -0.434로 음의 상관관계를 가집니다.

anxiety(불안 점수)가 높으면 independ(독립 점수)가 낮은 편임을 확인할 수 있습니다. 

 

novator와 selfcontrol이 -0.570으로 음의 상관관계를 가집니다. 

novator(투자회사 점수)가 높으면 selfcontrol(자기 통제 점수)가 낮은 편임을 확인할 수 있습니다.

 


2-3. Chi-square Test of Independence

 

다음은 카이제곱 검정을 이용하여 

종속변수와 독립변수가 독립 사건인지 종속 사건인지 판단해보았습니다.

 

카이제곱 검정은

귀무가설(H0) : 종속변수와 독립변수가 독립 사건이다.

대립 가설(H1) : 종속변수와 독립변수가 종속 사건이다.

의 가설을 가지고 판단하게 됩니다.

Label은 event로 고정 후,

하나의 칼럼 별로 카이제곱 검정을 실시하였습니다!

 

귀무가설을 채택한 변수는

gender, coach, head_gender, greywage, age_group으로

주로 나이와 성별에 관련된 변수였습니다.

 

귀무가설을 기각하고 대립 가설을 선택한 변수는

industry, profession, traffic, way 변수로

직업이나 통근길과 관련된 변수였습니다.


결론적으로

종속변수와 독립변수가 독립 사건인

주로 나이와 성별에 관련된 변수

Event(이직 여부)를 결정하는 주요 변수가 아니며

 

종속변수와 독립변수가 종속 사건인

직업이나 통근길과 관련된 변수

Event(이직 여부)를 결정하는 주요 변수라는 결론을 내리게 되었습니다.


2-4. Mann-Whitney test

 

마지막으로 Mann-Whitney test를 통해

독립성을 가진 변수들을 조금 더 탐구해보았습니다.

 

Mann-Whitney test

독립성은 가정되지만 정규분포를 따르지 않는 경우 시행하는 검정입니다.

 

해당 데이터에서는 

종속변수와 독립변수가 독립 사건인

gender, coach, head_gender, greywage, age_group 변수로 적용할 수 있습니다.

 

gender : Mann-Whitney test

상단의 변수는 gender 변수로

귀무가설(H0)은 성별에 따라 이직 여부 정도는 유의한 차이가 없다.

대립 가설(H1)은 성별에 따라 이직 여부 정도는 유의한 차이가 있다.

의 가설을 가지게 됩니다.

 

gender의 P-value가 0.26으로 0.05보다 커

귀무가설을 채택하여

'성별에 따라 이직 여부 정도는 유의한 차이가 없다.'

는 사실을 확인하였습니다.

 

coach : Mann-Whitney test

 

상단의 변수는 coach 변수로

귀무가설(H0)은 코치 여부에 따라 이직 여부 정도는 유의한 차이가 없다.

대립 가설(H1)은 코치 여부에 따라 이직 여부 정도는 유의한 차이가 있다.

의 가설을 가지게 됩니다.

 

coach의 P-value들이 0.05 인근에 위치하고 있어

판단하기에는 어렵다는 사실을 확인하였습니다.

 

head gender : Mann-Whitney test

상단의 변수는 head_gender변수로

귀무가설(H0)은 상사 성별에 따라 이직 여부 정도는 유의한 차이가 없다.

대립 가설(H1)은 상사 성별에 따라 이직 여부 정도는 유의한 차이가 있다.

의 가설을 가지게 됩니다.

 

head_gender의 P-value가 0.08으로 0.05보다 커

귀무가설을 채택하여

'상사 성별에 따라 이직 여부 정도는 유의한 차이가 없다.'

는 사실을 확인하였습니다.

 

greywage : Mann-Whitney test

상단의 변수는 greywage변수로

귀무가설(H0)은 백색/회색 급여에 따라 이직 여부 정도는 유의한 차이가 없다.

대립 가설(H1)은 백색/회색 급여에 따라 이직 여부 정도는 유의한 차이가 있다.

의 가설을 가지게 됩니다.

 

greywage의 P-value들이 0.05 인근에 위치하고 있어

판단하기에는 어렵다는 사실을 확인하였습니다.


이번 포스팅은 

데이터 전처리와 통계적 검정을 주제로 진행하였습니다.

 

통계적 검정에서 알아낸 내용을 바탕으로

모델링에서 적용해보도록 하겠습니다.

 

다음 포스팅은 모델링으로 찾아오겠습니다!

 

* 본 포스팅은 삼성 SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다 *

728x90
Comments