データ分析エンジニアのブログ

日常のことからプログラミングや機械学習まで@六本木

2014-07-01から1ヶ月間の記事一覧

PythonでScrapyを使ってクローリングをしてみる

前回はurllib2というモジュールを使った簡単なスクレイピングの方法を紹介しました。 今日はScrapyというクローリング+スクレイピングのフレームワークを使って、 ウェブから情報を取ってくる方法をご紹介します。 フレームワークな分、以前紹介した手法よ…

【Python】urllib2とElementTreeで簡単スクレイピング

こんばんは! 今回はurllib2とElementTreeというモジュールを使った、 Pythonでの簡単なスクレイピングの方法について書いてみようと思います。 クローリングのような大規模なものになると、 scrapyやBeautifulSoup、Mechanize等のモジュールを使った方が楽…

AICとBICについて

最近、重回帰分析やx-means法について調べていて、 AICとBICという指標について気になったので、メモ代わりに。 簡潔に言うと、この2つの値はモデルの当てはまりの良さを表すために使われています。 定義としては以下の式で表されます。 AIC = T * log(s^2) …