Pandas.read_csvでファイル読み込み
タブ区切りなどになったテキストファイルから一括してデータを読み込むのに、read_csvは便利です。

import pandas as pd
data = pd.read_csv('***.txt',index_col=0,sep='\t')

これで、タブ区切りのテキストファイルを、一番左の列をindexとして読み込めます。しかし、欠損値が空白文字などで入っていると面倒なことになります。data.dtypesで、各列のデータ型が表示されますが、これがobjectになっていると、欠損値の空白に引きずられて全体が文字列になってしまっていて数値として認識されていません。そうなると、meanの計算などが出来ませんので、ファイルを読み込むときに、デフォルトで欠損値扱いになるN/Aなどの文字列の他に、以下のように追加で欠損値を認識するための文字列を指定します。

data = pd.read_csv('***.txt',index_col=0,sep='\t',na_values=(' '))

これでOK。meanは計算出来ないのに、medianは計算できるので、ちょっと原因に気が付くまで時間がかかりました。まだまだ修行が足りません。
スポンサーサイト
【2014/06/04 12:11】 | Python | トラックバック(0) | コメント(0) | page top↑
<<P値の補正 | ホーム | 社会心理学講義>>
コメント
コメントの投稿














管理者にだけ表示を許可する

トラックバック
トラックバックURL
→http://tanopy.blog79.fc2.com/tb.php/103-f8e98ccd
この記事にトラックバックする(FC2ブログユーザー)
| ホーム |