pythonで株探の全銘柄分のhtmlを取得
オニールのCAN-SLIM銘柄探しのためにEPS増加率データを取得したい。
成長率をスクリーニングできるものが見つからないため、株探でひとつひとつ調べるしかないかと諦めかけていたとき、このデータから自分でデータベースを作成してみようと思いつく。
スクレイピングが必要と思い調べたが、BeautifulSoupとか難しそうだし簡単にできないか調べたところ表データの取得はpandasで簡単にできそうだったのでやってみる。
参考)
うん、できそう。
全銘柄のデータを取得するために、とりあえず都度株探にアクセスするのもあれなので一回株探の全銘柄のページのHTMLを手元に落とす。
参考
東証のホームページから銘柄コードのリストを取得、文字列にしてなんかよくわからん[1301]の[]を削除するために内包表現で必要データだけ抜き出ししてデータ成形。
これで1秒ごとに各銘柄のHTMLデータを取得、だいたい1時間強かかるので放置。
今日はここまで。
ここからはCAN-SLIMのCとAを満たす銘柄探索のため、EPSの年度伸び、EPSの四半期伸びを格納する。そのために必要な表を抜き出して、四半期ごとの伸びも計算してデータフレーム化していこう。