タブ区切りなどになったテキストファイルから一括してデータを読み込むのに、read_csvは便利です。
これで、タブ区切りのテキストファイルを、一番左の列をindexとして読み込めます。しかし、欠損値が空白文字などで入っていると面倒なことになります。data.dtypesで、各列のデータ型が表示されますが、これがobjectになっていると、欠損値の空白に引きずられて全体が文字列になってしまっていて数値として認識されていません。そうなると、meanの計算などが出来ませんので、ファイルを読み込むときに、デフォルトで欠損値扱いになるN/Aなどの文字列の他に、以下のように追加で欠損値を認識するための文字列を指定します。
これでOK。meanは計算出来ないのに、medianは計算できるので、ちょっと原因に気が付くまで時間がかかりました。まだまだ修行が足りません。 スポンサーサイト
|
|
| ホーム |
|