본문 바로가기
데이터

[금융데이터 분석을 위한 판다스 활용법][파이썬]

by Jyujae 2022. 3. 2.

인프런 강좌에서 '금융데이터 분석을 위한 판다스 활용법' 이라는 강의를 수강했다.

시리즈부터 데이터프레임 구조, 간단한 프로젝트까지 구현하여 시각화까지 해 볼 수 잇었다.

 

강의를 들으면서 가장 기억하고 싶은 3가지

1. 실전에서 내가 사용할 정보들은 인덱스값도 많고 정제되지 않은 데이터일 확률이 높기에(nan값도 많고..),

concat 함수 df1=pd.concat([df_10y_rate_close_sample,kodex_sector_df_sample],keys=['10Y','ETF'],axis=1,join='inner')

에서 join='inner'를 활용하여 공통적 인덱스값을 가지고 올 수 있다.

2. nan값을 다룰 때, dropna(),fillna(),isna()와 같은 method를 잘 활용해야 데이터 정제에 유리할 것 같다고 느꼈다.

kodex_sector_df=kodex_etf_price_df[sector_list] # sector list에 있는 것들의 정보만 들고온다 [] 안에는 칼럼 이름이 들어간다

kodex_sector_df.loc['2016-10-01':'2018-02-20'].isna().sum(axis=0) # 비교할 기간 안에 nan값이 존재하면 비교를 못한다. 이를 확인하는 작업

drop_list=['KODEX IT','KODEX 게임산업','KODEX 고배당','KODEX 필수소비재','KODEX 헬스케어','KODEX 경기소비재'] #nan값이 존재하는 데이터값들 버리기

kodex_sector_df=kodex_sector_df.drop(drop_list,axis=1) #열기준으로 없애주기니까 axis=1

kodex_sector_df

본 코드는 kodex etf 섹터들과 비교할 기간에 nan값이 존재하여 유의미한 데이터 분석을 못할 것 같아 nan값의 유무를 찾아내는 과정이다.

이번 프로젝트에서는 nan값이 있는 데이터는 버려주었다

3. loc/iloc

loc[]: []안에 '인덱스값'을 넣으면 그 인덱스값에 알맞는 '데이터값'을 불러온다.

iloc[]: []안에 '인덱스 번호'를 넣으면 그 인덱스 번호에 알맞는 '데이터값'을 불러온다.

팀 프로젝트를 할 때 소통하는 과정에서 필요한 데이터를 보여주면서 회의할 때 가장 많이 활용할 코드 같다.

인덱스값이 기간이라면 ex) ['2020-01-12':] 같이 부여할 수도 있다.

[강의 링크]

https://www.inflearn.com/course/%EA%B8%88%EC%9C%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%90%EB%8B%A4%EC%8A%A4-%ED%99%9C%EC%9A%A9/dashboard

[Pandas Series, DataFrame, plot, project 올려 놓은 깃 주소]

https://github.com/JeongYujae/Pandas_10Y-RATE_ETF_DATA

'데이터' 카테고리의 다른 글

[MySQL] 기본 설정 + django와 서버 연결하기  (0) 2022.08.14