데이터사이언스 기록기📚

[삼성 SDS Brightics 서포터즈] #01_데이터 분석? 어렵게 생각하지 마세요! Brightics가 있잖아요! 본문

대외활동/삼성SDS Brightics 서포터즈

[삼성 SDS Brightics 서포터즈] #01_데이터 분석? 어렵게 생각하지 마세요! Brightics가 있잖아요!

syunze 2022. 6. 20. 21:31

안녕하세요~!

Brightics 3기 서포터즈입니다!

 

서포터즈로 선발된 이후 처음으로 작성하는 글인데요, 차근차근 Brightics에 대해서 알아보도록 하겠습니다!

(서류 및 면접 포스팅은 이후에 진행하겠습니다.)

 

먼저 Brightics Studio를 다운로드 하는 방법과 간단한 사용방법을 알아볼까요?


1. Brightics Studio 다운로드

분석에 앞서, 먼저 Brightics Studio 다운로드 받는 방법을 알려드리겠습니다!

 

https://www.brightics.ai/

 

Brightics AI

 

www.brightics.ai

상단의 사이트에 들어간 후, 먼저 회원가입을 해 주세요!

모든 서비스는 로그인 후 사용 가능합니다.

 

 

Brigthics Studio 다운로드

로그인을 완료하고나면

Downloads 탭을 눌러 Brigthics Studio를 설치합니다.


 

다운로드zip

다운로드 받은 후 실행파일을 클릭해주세요!

열리지 않을 때는 마우스 왼쪽 - 열기 버튼을 눌러 열어줍니다.

 

 

설치 과정

PC보호를 위한 창이 뜨면 실행 버튼을 눌러주시고

저장경로 명시Start 버튼을 눌러주세요.

 

 

Brigthics Studio 실행 아이콘

저장경로에 들어가면 'Brigthics-Studio_Launcher' 아이콘이 있습니다.

해당 아이콘을 클릭해주세요!

 

 

설치

아이콘을 선택하게되면 ML/DL에 따라 설치되는 부분이 있습니다.

저는 ML의 Start All Services for ML을 클릭하여 설치하였습니다.

 

설치 완료!

설치가 완료되면 자동으로 구글 창이 뜨게 됩니다.


2. Brightics Studio 사용해보기

 

1) 프로젝트 생성

 왼쪽 사진에서 + 버튼을 눌러 새로운 프로젝트를 생성합니다!

  저는 새로운 프로젝트를 'new project'라는 이름을 지어 생성하였습니다.

 

 

 2) 모델 생성

모델 생성

새로운 모델을 생성하기 위해 Create a Model에서 new를 눌러줍니다.

 

Data Flow에는 모델의 이름, 설명, 템플릿을 선택할 수 있습니다.

템플릿은 Default, Classification, Clustering, iris, Python and SQL Scripts, Regression, Text Analytics로 구성되어 있습니다.

 

저는 모델의 이름은 example, 템플릿은 Default로 설정하여 모델을 생성하였습니다!

 

 

 3) 데이터 로드

함수 종류

빈 화면에 마우스를 가져가면 Double-Click to add Function이 뜹니다.

클릭해주세요!

 

이후 Select Function 창이 뜨면서 함수를 선택할 수 있습니다.

All Function에서는 데이터 로드, 데이터 전처리, 모델링(통계, 분류, 회귀 등)을 선택할 수 있습니다. 

 

먼저 데이터를 불러오기 위해 Load 함수를 선택해주세요!

 

Studio 내 데이터 선택

Load 함수를 누르게 되면 왼쪽 화면이 나타나게 됩니다.

 

저는 Brightic Studio 내에 있는 데이터를 사용하여 분석을 진행해보겠습니다.

내부 데이터를 불러오기 위해 Input Path - upload를 눌러주세요.

분석하고 싶은 데이터를 클릭해주시면 오른쪽 화면처럼 데이터가 나타납니다!

 

저는 sample_adult.csv를 이용하여 분석을 진행하였습니다.

 

 

 4) 데이터 분포 확인(EDA)

본격적인 분석을 시작해보기 전에, 데이터 분포를 확인해보겠습니다!

데이터 시트 오른쪽 상단에 있는 Chart Settings 버튼을 눌러주세요.

데이터 분포 확인

저는 히스토그램히트맵을 통해 분포를 확인해보았습니다.

 

히스토그램을 이용하여 나이 분포를,

히트맵을 이용하여 나이, 일하는 시간, 성별 분포를 확인해보았습니다.

 

 

 5) 데이터 전처리

 ① 칼럼선택

분포를 확인해본 후 간단한 데이터 전처리를 진행하였습니다.

 

Select Column 함수를 이용하여 필요없는 칼럼을 제외하는 작업을 실시하였습니다.

세부 사항으로는 필요 없는 칼럼은 제거 가능하고 타입을 바꿀 수 있습니다.

 

원 데이터에서 null 칼럼인 education을 제외하였습니다.

 

 ② 행에 null 값 존재 시 삭제

null인 칼럼만 제외하는 것이 아닌, 행에 null값이 존재할 때 삭제하는 함수도 이용해보았습니다.

 

Delete Missing Data를 이용하여 null값이 존재하는 행을 삭제하였습니다.

모든 칼럼을 넣어보았지만 오른쪽 사진과 같이 null값이 존재하는 행은 없는것으로 확인되었습니다!

 

 

 6) 모델 사용하여 분석

① 통계 - 상관관계 분석

Correlation 분석

전처리된 데이터를 이용하여 Correlation 함수상관관계 분석을 진행해보았습니다!

원하는 변수를 Select Colums에서 선택해주세요.

 

저는 hours_per_week, education_num을 선택하고 pearson 방법을 이용하여 상관관계 분석을 진행하였습니다.

나온 결과값을 확인해보니, 두 변수는 서로 무의미한 값이며 corr가 약 0이므로 상관관계가 없는 것으로 나타났습니다.

 

② 분류 - 의사결정나무

Decision Tree 분석

다음은 분류 중 Decision Tree를 이용한 분류를 진행해보았습니다!

의사결정나무 칼럼 선택 및 파라미터 조정

의사결정나무 분석에 진행할 칼럼을 선택하고, 분류할 class(Label Column)를 선택합니다.

의사결정나무 분석에 이용하는 기준도 선택해 주세요!

 

분류할 class가 많으면 Tree가 무한생성되니 무한생성을 방지하기 위해 Max Depth, Min Samples Splits, Min Samples Leaf도 조정해주세요!

 

의사결정나무 결과

Max Depth가 약하여 클래스 분류가 잘 되지 못했습니다ㅠㅠ

진행한 의사결정나무 중 의미있는 변수는 'age'가 가장 높았습니다.


Brigthics Studio를 이용하여 간단하게 분석을 진행해보았습니다.

흔히 알고 있는 Python, R 분석과 다르게 코딩 없이 블럭을 이용하여 분석을 쉽게 진행할 수 있습니다.

 

코딩이 어려워서 분석을 망설였던 분들, Brightics Studio를 통해 쉽게 분석을 진행해보는 것이 어떨까요?

 

 

 

 

* 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다. *

728x90
Comments