日本の航空遅延データ分析:管理図を用いたオンタイムパフォーマンスの探求

NYCフライトデータで発見!管理図を使った遅延分析の意外な事実

飛行機の出発遅延について、うーん、午前中だけで三つの主要空港に限定したデータが存在するらしい。まあ、そもそもどうして午前中なのかは…いや、それは今はいいか。データをざっと眺めてみた感じだと、遅延が全くないわけじゃなくて、七十回に一度ぐらいはずいぶん長く待たされることになる印象だった。そんな頻度かあ、とちょっと驚いた。

えっと、「skim」と呼ばれるツールで大まかに観察してみたところ、中央値自体は数分程度っぽい。しかし気になったのが欠損値で、その数が二千件近くもあって、正直その部分の信頼性には疑問符が浮かぶ。あれ?でも欠損値ってどこまで無視していいものなんだろう…まあ、とりあえず先に進む。

qicharts2やggplot2という名の道具も使われていて、その響きにちょっと違和感を覚える瞬間もある。それぞれ微妙に用途とか性格が違うような雰囲気。でも細部まではまだ掴みきれていない感じだし、本当に合ってるのかなと自問したりする。

プロセスコントロールチャートという手法なら統計的検定なしでも何か話せる場面がありそうだけど、その良し悪しについては今ひとつピンと来ていない。本当はもう少し深掘りしたいけどね…。この方法だと数字そのものより変化とか傾向を見抜きやすそうな気配もある。ただ全部試したわけじゃないから、小さな動きまでは断言できない。ま、いいか。

本段の参照元: https://www.johnmackintosh.net/blog/2018-03-31-Backed-By-Data/

日本の空港データで再挑戦!文化差とデータ取得の壁を考える

「データの欠損値が二千件近く存在する」と聞かされたとき、なんというか…正直なところ、集計結果への信頼度に一瞬だけど揺らぎが生まれてしまった。いや、そもそも自分は疑い深い性格だからなのかもしれないけど。うーん、たとえば遅延時間の中央値を算出するとき、この手の大量な抜け落ちを意図的に無視したままだと、本来なら表れていたであろう傾向が微妙にぼやけてしまう可能性ってあるよね。でもさ、あっそういえば昨日コーヒーこぼしたばっかりだし、気を付けないとな…。で、話を戻すと―実際には分析時によく「na.rm = TRUE」を指定して欠損値ごと省略しちゃうケースが多かったりする。そのわりに、その選択が分析全体へ及ぼす影響について深く考えず進めることも珍しくない感じ。ま、いいか。しかしながら少なくともどこまで補完や除外を行うべきなのか、その都度ちゃんと状況ごと見直して決める必要だけはありそうだと思うんだ。

日本の空港データで再挑戦!文化差とデータ取得の壁を考える

Related to this topic:

Comments