データ分析エンジニアのブログ

日常のことからプログラミングや機械学習まで@六本木

Python

ネットワークの中心性の話

久々のブログ更新です。 最近は、卒論と機械学習やアドテク周りの勉強をやっていて中々ブログを書く時間が取れていませんでした。 卒論ではTwitterにおける情報拡散の研究をしているので、 基本的なネットワークの特徴量である、中心性の話をしたいと思いま…

PythonでScrapyを使ってクローリングをしてみる

前回はurllib2というモジュールを使った簡単なスクレイピングの方法を紹介しました。 今日はScrapyというクローリング+スクレイピングのフレームワークを使って、 ウェブから情報を取ってくる方法をご紹介します。 フレームワークな分、以前紹介した手法よ…

【Python】urllib2とElementTreeで簡単スクレイピング

こんばんは! 今回はurllib2とElementTreeというモジュールを使った、 Pythonでの簡単なスクレイピングの方法について書いてみようと思います。 クローリングのような大規模なものになると、 scrapyやBeautifulSoup、Mechanize等のモジュールを使った方が楽…

PythonでURLのプロトコル(http://,https://)を消す方法

こんにちは。 最近はPythonを使ってツイートの分析をしています。 具体的にはクラスタリングやtf-idfなどの手法を使って、クラスタリングした後に そのクラスターの特徴語を抜き出すということをやっています。 tf-idfの結果を見ると、 ところどころhttpやコ…

Python/Numpyでベクトルのユークリッド距離を求める

PythonのNumpyを使えば、次元によらずに ベクトル同士のユークリッド距離が簡単に求められます。 方法1 >>> import numpy as np >>> np.linalg.norm(a-b) 方法2 >>> import numpy as np >>> np.sqrt(numpy.power(a-b, 2).sum()) おまけでScipyを使ってコサイ…

PythonでMySQLのエスケープ

PythonでMySQLを使うとき必ずと言っていいほど文字コードに悩まされます。 以前起きたUnicodeErrorはMySQLdb.connector() のメソッドでcharset='utf8'を引数に渡せば解決する類のものでした。 今回のUnicodeErrorはテキストを挿入したときに起きたもので、 …

Pythonの実行結果をブラウザに表示する(MAMP)

今日、CGIスクリプトとして PythonをWebサーバ上で動かすということをやってみました。 MAMPのローカル環境で作業しています。 ・まずはMAMPのapacheの設定apacheの設定ファイルでCGIを有効化し、.py拡張子を追加する /Applications/MAMP/conf/apache/httpd.…

幅優先探索で迷路を解いてみた

こんにちは。 今までCheckiOを順調に進めてきたのですが、笑 かなりつまづいた問題があったのでその問題について書きます。 ※ ネタバレを含みますのでご注意ください。 まず迷路を解くのにもいろいろな方法があります。 一般的には深さ優先探索や幅優先探索…

tf-idf法で単語の重み付けをやってみる!

前回Macにmecabを入れることができたので、 tf-idf法という手法を使って文章内の単語の重み付けをやってみました。 ソースコードはgithubに公開しています。 https://github.com/junishitsuka/python/blob/master/tf-idf.py こちらの式を参考にtf-idfについ…

macにmecabを入れてpythonから使えるようにするまで

今日は形態素解析によく使われるmecabをMacでインストールしました。 homebrewでのインストール手順ですが、 今日やった手順を残しておきたいと思います。 1. まずは検索 $ brew search mecab => mecab mecab-ipadic mecab-unidic 2. mecabのインストール $ …

Pythonを始めて1週間でやったこと

こんばんは。 研究のため、1週間ほど前にPythonを始めたものです。 参考程度にこの1週間でやってきたことを軽くまとめていきます。 1. ドットインストールのPython入門 (全24回)で全体像をつかむ 僕は新しい言語や技術を学ぶとき、 必ずと言っていいほどドッ…

研究室の配属が決まりました!

実際に決まったのは1ヶ月くらい前なんですが、研究室の配属が決定しました。 就職も決まっていて、それほど研究に身を入れるつもりもなかったので 記事には書かなかったのですが、少し研究を頑張ってみようと決意したので... ほんとは4月から内定先でアルバ…