タクマ松下のブログ

情報科学科の学生が書く記録。フロントエンドとサーバサイド練習中!です!

pythonでスクレイピングしたらめちゃ簡単だった

こんばんは.

僕はスクレイピングとかしたことがありませんで,
今日初めてスクレイピングをしました.

とは言っても,
Wikipediaからデータを引っこ抜きたいだけだったので
なるべく簡単に済ませようと思いました.

やってみる

Go編

最初は書き慣れたもので行こうと思って,
Goで書いてみようと思ったんですが意外とめんどう...
3分で理解できなかったらポイしてました.
go getなんちゃらしてみたんですが,やめました.

Python

結論からいうと3秒でできました.

qiita.com

参考ページです.

Pythonは書いたことなかったのですが,
とりあえず brew install python3 をして,
pip3 pandaとかいうのを入れて...
コードを書きました.

import pandas
url = 'https://en.wikipedia.org/wiki/Timeline_of_programming_languages'
fetched_dataframes = pandas.io.html.read_html(url)

count = 0

for data in fetched_dataframes:
    data.to_csv('./datas/' + str(count) + '.csv')
    count += 1

あとは python3 hoge.py

こうすると./datas/ に0.csvとかができます.
HTMLでテーブルになっているとこが全部抜けました.

まとめ

簡単すぎるのでおすすめ