Deep Learningのためのライブラリ、Pylearn2のインストールメモです。AnacondaのPython2.7とTheanoはすでにインストールされていました。このサイト参考にさせていただきました。
最初のインストールは、本家のサイトを参照。gitが必要です。環境変数は、以下の様に設定します。
openの引数がちょっと工夫ですが、その他はTheanoがちゃんと入っていればそれほど苦も無く動くと思いますが、このはじめの一歩をうごかすときのプチ嵌まりポイントが、サンプルデータ。ここから、「CIFAR-10 python version」を持ってきて、tarをDATAディレクトリで解凍しますが、
以下にファイルが入るようにします。まあ、make_dataset.pyのエラーが出るので、そのとき気が付きますが。 スポンサーサイト
|
たとえば、「無治療、ちょっと治療、ちゃんと治療」のように、3個以上のカテゴリに順序があるとき、これらの群間で数値にトレンドがあるかどうかを検定する方法に、Jonckheere-Terpstra(ヨンクヒール・タプストラ)検定という方法があります。詳しくは、Rを使った実例や、Wikipedia(英語)などを参考にしてください。Rにあるのに、scipy.statsに無く、大学の図書館に、この本があったので、Pythonで実装しようかと思ったのですが、面倒になってrpy2を使ってしまいました。数値データは、本の中から引用しています。
Jonckheere-Terpstra data: v by l J = 59, p-value = 0.01156 alternative hypothesis: decreasing: 1 > 2 > 3 事前にRのパッケージのインストールが必要です。 > source("http://bioconductor.org/biocLite.R") > biocLite("SAGx") とすれば行けると思いますが、手元の環境ではちょっとエラーが・・・。ま、動いているからいいか。 |
MacOSX10.8.2のR 2.15.2でROC(Receiver Operating Characteristic)曲線を描いてみました。ちょっと探したら、ROCRというパッケージがあったので、早速インストール。Macバイナリ版が使えなかったので、以下のコマンドで。
なんらかの数値とクラス分けのための0,1を2列にしたデータを用意して読み込み、あとは言われるがままに使うだけです。
|
生命科学の分野でも、遺伝子発現情報やDNAメチル化情報のクラスター解析に使われているNMF(non-negative matrix factorization)を応用した手法を実装したPython用ライブラリにに、nimfaがあります。データマイニングソフトのOrangeにも採用されているようなので、使って見ました。
まず、こちらのGithubサイトから、レポジトリをzipファイルで取得して解凍。sudo python setup.py installで入れます。Python Image Library(PIL)が必要なので、なければこちらはpipなどで手軽に入れておきます。 NMFはやはりいくつのクラスに分類するかがもっとも効いてくるパラメータですので、これを2から9でふるサンプルスクリプトを載せておきます。といっても、estimate_rankというメソッドがあるので便利です。データは、行方向に変数、列方向にサンプルが並んだテキストファイルを、ほとんど神といっても過言では無いPandasのDataFrameとして読み込んでいます。一部、nimfaのサンプルコードを利用しています。
Consensus行列を可視化するとこんな感じになります。 ![]() |
| ホーム |
|