인프런 강좌에서 '금융데이터 분석을 위한 판다스 활용법' 이라는 강의를 수강했다.
시리즈부터 데이터프레임 구조, 간단한 프로젝트까지 구현하여 시각화까지 해 볼 수 잇었다.
강의를 들으면서 가장 기억하고 싶은 3가지
1. 실전에서 내가 사용할 정보들은 인덱스값도 많고 정제되지 않은 데이터일 확률이 높기에(nan값도 많고..),
concat 함수 df1=pd.concat([df_10y_rate_close_sample,kodex_sector_df_sample],keys=['10Y','ETF'],axis=1,join='inner')
에서 join='inner'를 활용하여 공통적 인덱스값을 가지고 올 수 있다.
2. nan값을 다룰 때, dropna(),fillna(),isna()와 같은 method를 잘 활용해야 데이터 정제에 유리할 것 같다고 느꼈다.
kodex_sector_df=kodex_etf_price_df[sector_list] # sector list에 있는 것들의 정보만 들고온다 [] 안에는 칼럼 이름이 들어간다
kodex_sector_df.loc['2016-10-01':'2018-02-20'].isna().sum(axis=0) # 비교할 기간 안에 nan값이 존재하면 비교를 못한다. 이를 확인하는 작업
drop_list=['KODEX IT','KODEX 게임산업','KODEX 고배당','KODEX 필수소비재','KODEX 헬스케어','KODEX 경기소비재'] #nan값이 존재하는 데이터값들 버리기
kodex_sector_df=kodex_sector_df.drop(drop_list,axis=1) #열기준으로 없애주기니까 axis=1
kodex_sector_df
본 코드는 kodex etf 섹터들과 비교할 기간에 nan값이 존재하여 유의미한 데이터 분석을 못할 것 같아 nan값의 유무를 찾아내는 과정이다.
이번 프로젝트에서는 nan값이 있는 데이터는 버려주었다
3. loc/iloc
loc[]: []안에 '인덱스값'을 넣으면 그 인덱스값에 알맞는 '데이터값'을 불러온다.
iloc[]: []안에 '인덱스 번호'를 넣으면 그 인덱스 번호에 알맞는 '데이터값'을 불러온다.
팀 프로젝트를 할 때 소통하는 과정에서 필요한 데이터를 보여주면서 회의할 때 가장 많이 활용할 코드 같다.
인덱스값이 기간이라면 ex) ['2020-01-12':] 같이 부여할 수도 있다.
[강의 링크]
[Pandas Series, DataFrame, plot, project 올려 놓은 깃 주소]
https://github.com/JeongYujae/Pandas_10Y-RATE_ETF_DATA
'데이터' 카테고리의 다른 글
[MySQL] 기본 설정 + django와 서버 연결하기 (0) | 2022.08.14 |
---|