すぐにできそうで、ちょっと面倒な作業かとおもったので、メモを。
どうも、列の追加がちょっとややこしいので、もっと良い方法があるかもしれません。 スポンサーサイト
|
統計的検定を無造作に何回も繰り返すとき、P値を補正する必要があると言われておりますが、Pythonならそんなこともすぐできます。
pandas.DataFrameになっているデータを使い、cols_0とcols_1の2群間でt検定を行って、FDR(Benjamini & Hochberg)でP値を補正しています。これで、cps[1]に補正されたP値が入ると、statsmodelsのドキュメントには書いてあるんですが、なぜか全部nan。。。 原因を究明したいところですが、人間ついつい楽をしたくなってしまうもので、Rに渡せばすぐです。
それっぽい値もはいっているし、だいたい数も合っているのでいいんじゃないでしょうか。便利な物が多すぎると、ついつい甘えてしまうのは良くないとは思いつつ、世界に貢献したいと思っても、探すとすぐ出てきてしまう世の中なので、創作意欲が削られると言い訳してみたり。 |
タブ区切りなどになったテキストファイルから一括してデータを読み込むのに、read_csvは便利です。
これで、タブ区切りのテキストファイルを、一番左の列をindexとして読み込めます。しかし、欠損値が空白文字などで入っていると面倒なことになります。data.dtypesで、各列のデータ型が表示されますが、これがobjectになっていると、欠損値の空白に引きずられて全体が文字列になってしまっていて数値として認識されていません。そうなると、meanの計算などが出来ませんので、ファイルを読み込むときに、デフォルトで欠損値扱いになるN/Aなどの文字列の他に、以下のように追加で欠損値を認識するための文字列を指定します。
これでOK。meanは計算出来ないのに、medianは計算できるので、ちょっと原因に気が付くまで時間がかかりました。まだまだ修行が足りません。 |
| ホーム |
|