Python
久々のブログ更新です。 最近は、卒論と機械学習やアドテク周りの勉強をやっていて中々ブログを書く時間が取れていませんでした。 卒論ではTwitterにおける情報拡散の研究をしているので、 基本的なネットワークの特徴量である、中心性の話をしたいと思いま…
前回はurllib2というモジュールを使った簡単なスクレイピングの方法を紹介しました。 今日はScrapyというクローリング+スクレイピングのフレームワークを使って、 ウェブから情報を取ってくる方法をご紹介します。 フレームワークな分、以前紹介した手法よ…
こんばんは! 今回はurllib2とElementTreeというモジュールを使った、 Pythonでの簡単なスクレイピングの方法について書いてみようと思います。 クローリングのような大規模なものになると、 scrapyやBeautifulSoup、Mechanize等のモジュールを使った方が楽…
こんにちは。 最近はPythonを使ってツイートの分析をしています。 具体的にはクラスタリングやtf-idfなどの手法を使って、クラスタリングした後に そのクラスターの特徴語を抜き出すということをやっています。 tf-idfの結果を見ると、 ところどころhttpやコ…
PythonのNumpyを使えば、次元によらずに ベクトル同士のユークリッド距離が簡単に求められます。 方法1 >>> import numpy as np >>> np.linalg.norm(a-b) 方法2 >>> import numpy as np >>> np.sqrt(numpy.power(a-b, 2).sum()) おまけでScipyを使ってコサイ…
PythonでMySQLを使うとき必ずと言っていいほど文字コードに悩まされます。 以前起きたUnicodeErrorはMySQLdb.connector() のメソッドでcharset='utf8'を引数に渡せば解決する類のものでした。 今回のUnicodeErrorはテキストを挿入したときに起きたもので、 …
今日、CGIスクリプトとして PythonをWebサーバ上で動かすということをやってみました。 MAMPのローカル環境で作業しています。 ・まずはMAMPのapacheの設定apacheの設定ファイルでCGIを有効化し、.py拡張子を追加する /Applications/MAMP/conf/apache/httpd.…
こんにちは。 今までCheckiOを順調に進めてきたのですが、笑 かなりつまづいた問題があったのでその問題について書きます。 ※ ネタバレを含みますのでご注意ください。 まず迷路を解くのにもいろいろな方法があります。 一般的には深さ優先探索や幅優先探索…
前回Macにmecabを入れることができたので、 tf-idf法という手法を使って文章内の単語の重み付けをやってみました。 ソースコードはgithubに公開しています。 https://github.com/junishitsuka/python/blob/master/tf-idf.py こちらの式を参考にtf-idfについ…
今日は形態素解析によく使われるmecabをMacでインストールしました。 homebrewでのインストール手順ですが、 今日やった手順を残しておきたいと思います。 1. まずは検索 $ brew search mecab => mecab mecab-ipadic mecab-unidic 2. mecabのインストール $ …
こんばんは。 研究のため、1週間ほど前にPythonを始めたものです。 参考程度にこの1週間でやってきたことを軽くまとめていきます。 1. ドットインストールのPython入門 (全24回)で全体像をつかむ 僕は新しい言語や技術を学ぶとき、 必ずと言っていいほどドッ…
実際に決まったのは1ヶ月くらい前なんですが、研究室の配属が決定しました。 就職も決まっていて、それほど研究に身を入れるつもりもなかったので 記事には書かなかったのですが、少し研究を頑張ってみようと決意したので... ほんとは4月から内定先でアルバ…