트레이딩 알고리즘이나 금융 추천시스템을 만들고 싶은데 데이터는 어디서 구할까?

금융상품 추천, 알고리즘 트레이딩(퀀트 시스템), 주식 향방 예측, 로보 어드바이저 등등
금융 서비스 혹은 모델을 설계하려면 데이터가 필요하다.

 

증권 같은 경우에는 세간의 관심이 가장 많이 쏠리는 영역으로,
대한민국만 하더라도 일찍이 1963년부터 데이터를 쌓아왔다.

 

 

 

서비스 설계와 모델링, 데이터 분석에 사용할 수 있는 수많은 알짜배기 데이터셋을 정리해둔다.

추신,,, 현재 학비가 매우 비싸지만,,, 내 인생에 없을 정보와 양질의 교육을 받을 수 있는 이 시간이 참 값지다.


1. WRDS (Wharton Research Data Services)

 

Wharton Research Data Services

Wharton Research Data Services - The Global Standard for Business Research. From the classroom to the boardroom, WRDS is more than just a data platform — data validation, flexible delivery options, simultaneous access to multiple data sources, and dedica

wrds-www.wharton.upenn.edu

비즈니스 탑스쿨인 와튼에서 제공하는 금융 데이터 분석의 기본이자 핵심 플랫폼이다.
우리 학교에서 이 WRDS 중 핵심 데이터(미국 주식 - CRSP 등)를 구독하고 있어서, 덕분에 최고 양질과 깊이 있는 금융 데이터를 수집할 수 있다. CSV, xlsx, python 패키지 등 다양한 포맷으로 자유롭게 추출 가능하다.

  • CRSP : 미국주식 수익률, 거래량
    • 미국 주식 수익률과 거래량 데이터의 표준이다. 기간과 회사 정보를 입력해 조회하며, 'Search the entire database'를 통해 전 종목 데이터를 얻을 수 있다. 배당 포함 여부에 따른 수익률(Returns), 주가, 거래량 등을 제공한다.
    • Returns : 배당 수익률 포함
    • Returns without Dividends : 배당 수익률 제외
    • Price or Bid/Ask Average : 주식가격
    • Number of Shares : 주식 발행 수
    • Volume : 거래량
  • Compustat - Capital IQ: 재무제표
    • 글로벌 주식의 재무제표와 순자산 정보를 확인할 수 있다. 기본 세팅만으로도 충분한 데이터 확보가 가능하다.

2. Global Factor Data (jkpfactors.com)

 

Home | Global Factor Data

This website is based on the article “Is There a Replication Crisis in Finance?” (Jensen, Kelly, and Pedersen, Journal of Finance 2023). This paper constructs 153 characteristics/factors clustered into 13 themes (see cluster diagram here ) in 93 countr

jkpfactors.com

주식 수익률 예측을 위한 변수(Factor)들이 모여 있는 곳이다. JKP Global Factor Data (jkpfactors.com)로, 금융학계의 권위자인Jensen, Kelly, Pedersen 교수의 연구를 바탕으로 운영되고 있다. 특정 국가에 국한되지 않고, 전세계 수만개 기업 데이터를 분석해서 제공 중이다. (전 세계 93개국, 13개 테마, 150개 이상의 주식 특성 데이터)

 

학술 연구 목적으로, 교수나 연구자들이 새로운 자산 가격 결정 모델을 만들 때 표준 데이터로 사용한다.
그리고 퀀트 프로그래밍 - 데이터 기반 투자전략을 세우는 펀드 매니저들이 백테스트(과거 시뮬레이션)를 위해 활용한다.

  • 속칭, Factor Zoo : 1950년부터 현재까지 발견된 무려 153개의 수익률 예측 변수를 집계해두었다. 회사의 나이(Firm Age)나 Book-to-market 같은 유명 변수들이 포함되어 있다.
  • Python을 통해 WRDS와 연결하여 데이터를 받을 수 있다. 지금 Authentification 문제인지 잘 안된다.

내 계정을 허락해줘

 

  • 참고로 한국 주식 정보도 조회할 수 있다. 대신 조회 시 CRSP permno 대신 Compustat gvkey를 사용해야 한다. (Global factor data 메뉴에서 별도 조회 필요)
  • 플랫폼에 변수가 방대해서 머신러닝 모델링에 꽤나 최적화되어 있다.


3. Open Source Asset Pricing (openassetpricing.com)

 

Open Source Asset Pricing

This website provides test asset returns and signals replicated from the academic asset pricing literature. If you use the data, please cite our paper: @article{ChenZimmermann2022, title={Open Source Cross-Sectional Asset Pricing}, author={Chen, Andrew Y.

www.openassetpricing.com

오픈소스 에셋 프라이싱(OSAP)은 전 세계 금융 연구자들과 퀀트 투자자들이 자산 가격 결정 모델을 투명하게 공유하고 검증할 수 있도록 만든 공공 데이터 프로젝트이자 학자들이 개발한 수익률 예측 변수들의 저장소다.

  • Momentum, Book-to-Market 등 무려 212개에 달하는 Predictor를 제공한다.
  • 1.6GB 분량의 압축 CSV 파일이나 파이썬 패키지로 간편하게 받을 수 있다.
  • 그야말로 오픈소스.. 머신러닝의 천국이다.
 

GitHub - tomz23/OpenSourceAP.DownloadR

Contribute to tomz23/OpenSourceAP.DownloadR development by creating an account on GitHub.

github.com

 


4. pyanomaly (Python Library)

https://pyanomaly.readthedocs.io/en/latest/

카이스트 선배이자 성균관대 교수님이 관리하는 라이브러리다.
여기도 위와 유사하게 주식 수익률 예측 변수들에 대해서 받아볼 수 있다.

  • WRDS와 연동하여 수익률 예측 변수들을 바로 받아볼 수 있다.
  • ReadTheDocs의 'Cookbook' 메뉴에 다양한 예제가 잘 정리되어 있다. 파이썬 라이브러리라 아래처럼 Import해서 사용한다. 다만, WRDS와 연동이 되어 있어서 계정은 필요하다.
  • 라이브러리 임포트로 빠르게 데이터프레임으로 뽑고 바로 ML 하거나 시각화한다거나 하면 가볍고 손쉬울 것 같다.


5. KAIST 도서관 (library.kaist.ac.kr)

 

KAIST전자도서관

KAIST 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요

library.kaist.ac.kr

학교에서 구독 중인 유료 자산을 전부 활용할 수 있다!!!

1. 전자자료 - 데이터베이스

  • 가장 유용한 Wallstreet Journal 유료 기사들을 받을 수 있다.
  • (첫 등록은 교내에서만 가능, 메일 주소는 반드시 kaist.ac.kr, 로그인 안하면 상당 부분 접근 불가)

  • market&Finance > Stocks 메뉴 > 주식 관련 뉴스
    • 근데 이 기사가 Open Access 불가인데도 LLM 스크래핑(크롤링)해서 읽기 가능
    • Share Article로 PDF 내보내기도 가능

2. 논문 (전자정보 교외접속)

  • 학교에서 웬만하면 다 저널 구독을 하는 중
    • 구글 스칼라, IEEExplore 등
    • 이 링크를 통해 들어간 구글 스칼라는 학교에서 구독한 저널들은 전부 읽을 수 있게 된다.
    • ex. fama french 1993
    • 교외 접속해서 View PDF => 논문 읽을 수 있게 됨


6. Yahoo Finance (finance.yahoo.com)

간단하고 빠른 정보 확인에 유용하다.
가격 정보나 차트 등 기본적인 데이터를 확인하기 좋다. 다만 깊이 있는 데이터가 필요하다면 결국 WRDS를 사용해야 한다.

 


7. KFTP (kftp.kaist.ac.kr)

  • 꿀 자료들이 방대하게 있다고 하는데 현재 교외 IP 접속이 막혀 있다.....
  • 홍릉 캠퍼스는 접속이 된다는데, 여의도 교육장에서도 접속할 수 있도록 IP 권한을 얻었으면 좋겠다. 접근성이 너무 한정적이라 아쉽다.

8. 블룸버그 통신 단말 (Bloomberg Terminal)

사실 이게 하이라이트인데,,

블룸버그 단말기로 볼 수 있는 Macro Data에 대해서는 다음 게시물에서 다뤄보겠다.

(너무 길어서 나눠서 정리하겠다..)