pythonで株探の全銘柄分のhtmlを取得

オニールのCAN-SLIM銘柄探しのためにEPS増加率データを取得したい。

成長率をスクリーニングできるものが見つからないため、株探でひとつひとつ調べるしかないかと諦めかけていたとき、このデータから自分でデータベースを作成してみようと思いつく。

スクレイピングが必要と思い調べたが、BeautifulSoupとか難しそうだし簡単にできないか調べたところ表データの取得はpandasで簡単にできそうだったのでやってみる。

 

参考)

www.youtube.com

 

うん、できそう。

f:id:bon_kabu:20210117013409p:plain

 

全銘柄のデータを取得するために、とりあえず都度株探にアクセスするのもあれなので一回株探の全銘柄のページのHTMLを手元に落とす。

参考

snowball.hatenablog.com

f:id:bon_kabu:20210117013621p:plain

銘柄コードをlist化

東証のホームページから銘柄コードのリストを取得、文字列にしてなんかよくわからん[1301]の[]を削除するために内包表現で必要データだけ抜き出ししてデータ成形。

 

f:id:bon_kabu:20210117013938p:plain

HTML取得コード

これで1秒ごとに各銘柄のHTMLデータを取得、だいたい1時間強かかるので放置。

今日はここまで。

 

ここからはCAN-SLIMのCとAを満たす銘柄探索のため、EPSの年度伸び、EPSの四半期伸びを格納する。そのために必要な表を抜き出して、四半期ごとの伸びも計算してデータフレーム化していこう。