Random Forestsという機械学習の方法論があります。すこし前に興味があって、自分で実装してみたりしたのですが、scikit-learnを使えばPythonで簡単に実行できます。
実装するとアルゴリズムが完全に理解できるので良いですが、使いながら理解していくという方法もありかもしれません。 スポンサーサイト
|
データの標準化という言葉が正しいのかどうか、ちょっと不確かなんですが、時々、各データから、平均値を引いて、標準偏差で割りたいときがあります。DataFrameでそれを各行のデータについてやりたいときは、こうします。
|
Pandas.DataFrameをmatshowとかでとりあえず描画しようとしたら、「Image data can not convert to float」と言われて、エラーになりました。どう考えても中身はfloatだろうに、と思っていたら、軽い落とし穴が。
時々、ファイルの1行目がヘッダで、2行目にいならい説明が入っていたりします。 ID sample0 sample1 sample2... exp str0 str1 str2... ID0 0.11 0.22 0.33... みたいな感じです。 こんなファイルを一度全体を読み込んでから、expの1行削除すると、推定されたデータ型がObjectになってしまうので、読み込む時にスキップします。
skiprowsのところです。0行目はヘッダ行なので、1行目を読みとばします。こうすると、Pandasがきちんとfloatだと推定してくれるので、助かります。 |
| ホーム |
|