Culture & Book/내가 읽은 그 책

[IT 빅데이터] 판다스로 쉽게 배우는 데이터 분석과 시각화 (조승근) _ 책 리뷰 _ 처음 시작하는 파이썬 데이터 분석, 판다스로 시작

쿵야085 2024. 3. 13. 23:48
반응형

[IT 빅데이터] 판다스로 쉽게 배우는 데이터 분석과 시각화 (조승근)

책 리뷰 _ 처음 시작하는  파이썬 데이터 분석, 판다스로 시작

 

 

 

도서명ㅣ판다스로 쉽게 배우는 데이터 분석과 시각화
부제ㅣDATA ANALYSISpandas, matplotlib 또는 seaborn 라이브러리를 이용하여 시각화 표현
저자ㅣ조승근
출판사ㅣ광문각출판미디어  
페이지ㅣ352쪽     
출판일ㅣ2024년 02월 20일

 

 

 

 

저자 소개

저자 : 조승근

 

부산대에서 전자공학 박사 학위를 취득하였고, LG 전자 제어연구소 선행제어연구팀에서 책임연구원직을 수행하였습니다. 현재는 메카르토닉스 공학, 로봇제어 분야의 교육 및 연구를 수행하고 있습니다. 

 

목차

 

머리말

1. 파이썬(Python)으로 시작하는 데이터 분석

1.1 파이썬으로 데이터 분석을 해야 하는 이유
1.2 파이썬 개발 도구(주피터노트북) 설치
1.3 주피터 노트북 실행 및 사용 방법

2. 넘파이(Numpy)

2.1 Numpy 기초
2.1.1 Numpy와 List의 비교
2.1.2 Numpy 속성
2.1.3 Numpy.arange() 함수
2.1.4 Numpy 통계 관련 함수
2.2 Numpy 인덱싱(indexing), 슬라이싱(slicing), 반복(iterating)
2.2.1 Numpy 인덱싱과 슬라이싱
2.2.2 논리적 인덱싱
2.2.3 2차원 배열에서의 인덱싱과 슬라이싱
2.3 결합(concatenate)과 분리(split)
2.3.1 배열의 결합과 전치(np.concatenate()와 np.transpose())
2.3.2 배열 분리
2.4 Numpy의 특별한 행렬과 벡터
2.4.1 np.zeros()와 np.ones()
2.4.2 np.full()와 np.eye()
2.4.3 np.random()

3. 판다스(pandas) - 시리즈(Series)

3.1 시리즈 생성과 정렬
3.1.1 시리즈 생성
3.1.2 시리즈 인덱싱, 슬라이싱
3.1.3 시리즈 values 변경, 추가
3.1.4 시리즈 index와 values
3.1.5 시리즈 index 재설정
3.1.6 시리즈 정렬
3.2 시리즈 주요 메서드
3.2.1 head()와 tail()
3.2.2 unique(), nunique() 그리고 value_counts()

4. 판다스(pandas) - 데이터프레임(DataFrame)

4.1 데이터프레임 생성과 정렬
4.1.1 데이터프레임 생성과 이름 변경
4.1.2 데이터프레임 행과 열
4.1.3 데이터프레임 인덱싱과 슬라이싱
4.1.4 데이터프레임 복사
4.1.5 데이터프레임 행/열 선택 및 추가
4.1.6 데이터프레임 연산
4.1.7 데이터프레임 행/열 삭제
4.1.8 데이터프레임 논리적 인덱싱
4.1.9 데이터프레임 정렬
4.2 데이터프레임 데이터 타입(자료형)
4.2.1 Category 타입
4.2.2 datatime 타입

5. 판다스(pandas) - 데이터프레임(DataFrame) 다루기

5.1 CSV 파일로 데이터프레임 생성
5.2 5.2 데이터 요약
5.3 결측치 제거 및 대체
5.3.1 결측 데이터 확인과 NaN의 의미
5.3.2 결측 데이터 삭제
5.3.3 결측치에 값 채우기
5.3.4 결측치 단일 대체
5.3.5 결측치 다중 대체(마스킹과 보간)
5.4 문자열 데이터 처리
5.4.1 파이썬의 기본 문자열 처리 함수
5.4.2 str 액세서와 문자열 처리 메서드
5.4.3 정규 표현식
5.4.4 str.contains()과 str.startswith(), str.endswith()
5.4.5 apply(), agg(), map(), applymap() 비교
5.5 데이터프레임 결합과 병합
5.5.1 pandas.concat()
5.5.2 pandas.merge()
5.6 그룹 집계와 멀티인덱스
5.6.1 groupby()
5.6.2 멀티인덱스와 swaplevel(), droplevel()
5.6.3 groupby()에 멀티인덱스 적용
5.6.4 pandas.transform()
5.6.5 unstack()과 stack()
5.6.6 cross_tab()
5.6.7 pivot()과 pivots_table()

6. 데이터 시각화

6.1 pandas의 plot()
6.1.1 line 그래프
6.1.2 box 그래프
6.1.3 bar 그래프
6.1.4 pie 그래프
6.1.5 hist 그래프
6.1.6 kde 그래프와 scatter 그래프
6.2 matplotlib 라이브러리
6.2.1 matplotlib으로 기본 그래프 생성
6.2.2 Figure 생성과 subplot 추가
6.2.3 box 그래프와 bar 그래프
6.2.4 pie 그래프
6.2.5 hist 그래프
6.2.6 scatter 그래프
6.3 Seabron 라이브러리
6.3.1 seabron 예제 데이터 세트 활용
6.3.2 countplot()과 barplot()
6.3.3 histplot()과 boxplot(), violinplot()
6.3.4 scatterplot()과 relplot()

 

ㅣ 판다스로 나도 데이터 분석 전문가!

 

판다스를 처음 만난 건 지금으로부터 약 5년 전이었던 거 같습니다. 당시에 데이터분석이 필요한다는 이야기가 많이 퍼졌고 데이터사이언티스트에 대한 수요가 생기기 시작했습니다. 지금은 당연하게 많은 기업들에서 데이터 분석을 체계적으로 하고 있지만 당시에는 데이터 분석을 체계적으로 하는 기업들이 정말 드물었던 거 같습니다. 당시에 저도 데이터 분석가에 관한 수요가 많을 것으로 예상하고 파이썬을 배우기 시작했는데요. 그런데 열정만 가득했지 막상 배우기 시작한 파이썬은 쉽지 않았기에 포기해 버렸던 거 같습니다. 그렇지만 아직도 그때 시작한 데이터분석에 대한 공부의 열정이 식지 않아서 이번 책 <판다스로 쉽게 배우는 데이터분석과 시각화>를 보게 되었습니다. 

 

 

이번 책은 초보자를 대상으로 한 책이기 때문에 책은 첫 장부터 파이썬과 주피터 노트북 설치 및 사용법부터 시작하여 기본적인 데이터 분석 환경을 구축하는 방법을 자세히 다루고 있습니다. 또한, 넘파이와 판다스에 대한 기초부터 고급 기능까지 친절하게 설명하고 있어 초보자가 학습하기에 적합한 구성을 갖추고 있다고 생각됩니다. 특히 각 장은 명확한 예제와 함께 구성되어 있어 이론을 쉽게 이해하고, 실습을 통해 실제 데이터를 다뤄보며 학습할 수 있도록 돕고 있습니다. 또한, 책의 구성과 내용은 데이터 분석에 대한 전반적인 이해를 돕는 것뿐만 아니라, 시각화 부분에서도 초보자가 쉽게 따라 할 수 있도록 풍부와 예제와 설명을 제공하고 있어서 너무 도움이 많이 되는 거 같습니다. 

 

 

분명히 책을 보다 보면 어려운 부분들이 등장하기도 하고, 벽을 만나는 부분들이 있기도 합니다. 특히 평소에는 잘 쓰지 않는 언어들을 사용하다 보면 내가 왜 이런 공부를 시작했을까라는 생각을 할 수 있습니다. 그렇지만 저는 정말 이번책이 정말 친절하게 만들어진 책이라는 것도 많이 생각되었는데요. 각각 표에 대한 설명을 친절하게 표현하려고 노력한 부분들이 많이 보이며, 텍스트로 된 부분들도 찬찬히 잘 읽어서 따라 하다 보면 어느 순간 책에 주어진 문제들을 해결하는 모습들을 만날 수 있습니다. 

 

 

저는 이번책이 데이터 분석가나 데이터 분석 자격증을 준비하는 사람들에게 정말 좋은 시작점이 될 수 있는 책이라고 생각되는데요. 파이썬 문법에 대한 지식이 있는 독자들을 대상으로 하지만, 문법에 익숙하지 않아도 충분히 필요한 문법들을 그때그때 학습하면서 따라갈 수 있습니다. 또한 책의 구성이 실제 현업에서 사용되는 데이터 분석 기법과 시각화 방법을 실습할 수 있는 기회를 제공하기 때문에 독자들은 이론뿐만 아니라 실제로 데이터를 다루는 능력을 향상할 수 있을 것입니다. 데이터분석이 말로만 들어도 어렵게 느껴지지만, 이번 책 <판다스로 쉽게 배우는 데이터 분석과 시각화>를 통해 쉽게 접근해 보면 좋을 거 같습니다. 

 

출판사로부터 책을 제공받아 주관적으로 작성한 글입니다.

 

 
판다스로 쉽게 배우는 데이터 분석과 시각화
이 책은 크게 데이터 분석과 데이터 시각화라는 두 개의 주제를 다루고 있다. 시중에 나와 있는 다수의 데이터 분석 관련 도서에서 다루지 않은 수학적 배경지식, 기초적인 원리 등을 다루었으며, 이를 통해 원하는 데이터만 추출하고, 정렬하며, 이상치를 찾거나 결측치를 채우는 보다 효과적인 방법에 대해 학습할 수 있게 될 것이다. 또한, 이 책의 큰 장점 중 하나는 현업에서 많이 사용하고 여러 자격 검증에서도 자주 다루는 정형화된 포맷의 그래프 및 차트들을 기초부터 고급 활용 부분까지 세세하게 다루었다는 것이다. pandas를 이용하여 아주 간단히 그래프를 표현하는 방법부터, matplotlib 또는 seaborn 라이브러리를 이용하여 그래프를 표현하는 부분까지 폭넓게 다루고 있다. 만약 데이터 분석가가 장래의 목표이거나, 데이터 분석 전문가 등의 자격증을 준비한다면 이 책으로 시작하는 것도 훌륭한 선택이라 생각한다. 이 책은 파이썬 문법(변수, 함수, 반복문, 조건문, 컬렉션 자료형)을 이미 학습한 사람을 대상으로 쓰여졌지만, 문법을 모르는 사람들도 필요한 문법을 학습하며 본다면 그리 어렵지 않게 따라올 수 있을 것이다. 이 책에서 지면의 부족으로 미처 다루지 못한 예측적 데이터 분석(머신러닝, 딥러닝)은 현재 집필 중이므로 머지 않아 출판될 수 있을 것이다.
저자
조승근
출판
광문각출판미디어
출판일
2024.02.20

 

 

2022.11.06 - [기타/생활정보] - [넷플릭스/유튜브] 넷플릭스 가격 부담 없이 겜스고에서 저렴하게 이용하는 팁

 

[넷플릭스/유튜브] 넷플릭스 가격 부담 없이 겜스고에서 저렴하게 이용하는 팁

[넷플릭스/유튜브] 넷플릭스 가격 부담 없이 겜스고에서 저렴하게 이용하는 팁 OTT 서비스를 처음 접한 것이 넷플릭스였던거 같은데요. 넷플릭스 이외에도 국내에서 만날 수 있는 OTT 서비스들이

ilsang2.tistory.com

 

반응형