Pandas.read_csvのちょっとした話
Pandas.DataFrameをmatshowとかでとりあえず描画しようとしたら、「Image data can not convert to float」と言われて、エラーになりました。どう考えても中身はfloatだろうに、と思っていたら、軽い落とし穴が。
時々、ファイルの1行目がヘッダで、2行目にいならい説明が入っていたりします。
ID  sample0 sample1 sample2...
exp str0    str1   str2...
ID0 0.11    0.22   0.33...
みたいな感じです。
こんなファイルを一度全体を読み込んでから、expの1行削除すると、推定されたデータ型がObjectになってしまうので、読み込む時にスキップします。

pandas.read_csv('data_file', sep='\t', index_col=0,skiprows=[1,],na_values=(' ',' ','','NA')))

skiprowsのところです。0行目はヘッダ行なので、1行目を読みとばします。こうすると、Pandasがきちんとfloatだと推定してくれるので、助かります。
スポンサーサイト
【2014/08/18 14:33】 | Python | トラックバック(0) | コメント(0) | page top↑
<<分類用の色付けを持ったヒートマップを描く | ホーム | 自前のcolormapを用意する>>
コメント
コメントの投稿














管理者にだけ表示を許可する

トラックバック
トラックバックURL
→http://tanopy.blog79.fc2.com/tb.php/111-1ea30b58
この記事にトラックバックする(FC2ブログユーザー)
| ホーム |