본문 바로가기

카테고리 없음

파이썬001 - 타이타닉 생존자 예측하기. (데이터분석)


약 일주일이상 공부관련글이 올라오지 않았다.

자바의 반복문에 대한 공부를 하다보니 감을 좀 익혔고,

다른 부분을 공부는 했는데 글로 정리하려니 참 귀찮은 일이 아닐 수 없다.

이번에는 파이썬을 이용한 데이터 분석에 대해 배운점을 복기겸 생존신고겸. 간략하게 적어보려한다.

빙산과 충돌 후 침몰중인 타이타닉호

언제 발생했고, 몇명이 사망했고, 몇명이 생존했고, 몇시에 사고가 발생했고... 이런 정보들은 

인터넷에 널리고 널렸다. 각자 알아보기로하고

파이썬을 이용한 데이터분석을 할때 한번쯤 꼭 접하게 되는것이 머신러닝을 통한 '타이타닉 생존자 예측하기' 이다.

타이타닉 사고당시 탑승했던 승객들의 여러가지 데이터들이 기록되어있는 자료와

나중에 컴퓨터에게 판단을 시킬 test.csv파일도 함께 첨부한다.

train.csv
0.06MB
test.csv
0.03MB

이 자료에는

탑승객의 사망여부, 이름, 성별, 나이등 총 13가지로 분류된 데이터가 기록되어있다.

모두 기록되어 있는것은 아니지만 이 데이터를 토대로 '머신러닝'을 컴퓨터한테 시킬꺼다.

개인적으로 '머신러닝'이 무슨 말인지 이해가 잘 안되었는데

공부하고 느낀바로는 컴퓨터에게 데이터를 던져주고

컴퓨터야 이러한 데이터값을 가진상황이 있을때는 어떨꺼 같아? 하고 물어보는게 아닌가라는 생각을 해본다.

비유를 해보자면 컴퓨터에게 타이타닉의 생존자/사망자의 대한 여러가지 데이터를 주고나서 학습시킨뒤

이러한 데이터를 가진 사람이라면 컴퓨터야 너는 어떻게 판단할래? 라고 물어본다는 것이다.

서두가 길다.

얼른 파이썬으로 시도해보자.


ad


기본적으로 파이썬을 설치하고 'pandas'를 설치해 주어야한다. 

좌측 상단 File - Setting을 선택해주고

좌측에 Project: (프로젝트 이름) 을클릭한 후 나타나는 화면에서 '+'버튼을 눌러주자

다음 창에서 pandas를 검색하고 목록에서 pandas를 찾아 설치해주자.

+를 클릭 / pandas를 입력한 후 하단에 Install Package를 클릭하여 pandas를 설치하자

이것으로 데이터 분석할 준비가 완료되었다.

이후로 꽤 많은 양의 글을 써야하나

아직 공부중이고 내가 완벽하게 숙지하지 못한것도 있고, 제대로 설명할 자신도 없으므로

내가 영상을보고 따라해본 고마우신분의 3부작 영상을 참조하자.

(나도 얼른 배우고 정리해서 글 써야지...)