Rでのデータ整形:tidyrとdata.tableの比較と活用法

Rでデータ整形をするときの用語の壁

pivot_longerやpivot_wider、最近だとdata.tableのmeltやdcastでデータの形を変える話がよく出てくる。gatherやspreadも昔は使っていた人が多かった印象だけど、今はあまり見ない。自分の場合、キーや値のカラム名をほぼ毎回同じにしてたからgatherで充分だったけど、今どきはちょっと複雑な変換も増えてる気がする。pivot系だと列名とか値の指定が柔軟になった反面、最初はどれを書けばいいか迷うこともあるみたい。data.tableならmeltで縦長にしたりdcastでワイド化できるけど、細かい挙動まで覚えてる人はそんなに多くないかもしれない。「row」っていう行番号付与とか、何となく付けたり外したりする流れもちらほら見るし、実際そこまで厳密じゃなくても処理できてしまうケースが大半かな、と感じることがある。ただtidyrとdata.table、それぞれ微妙に動き違うので注意しないと変なデータになる可能性もそこそこありそう。完全には把握していない部分も残っている

本段の参照元: https://www.johnmackintosh.net/blog/2023-02-20-tidydt-pivot/

日本語コミュニティにおける情報不足とその解決策

なんとなく最近、こうした現象が前より目立つようになってきた気がするけど、はっきりした数字を覚えている人は少ないかもしれない。時折ニュースや雑誌で取り上げられる話題だけど、だいたい七十人に一人くらいの割合だとか言われていたこともある。ただ、その根拠となるデータ自体が毎年変動してるみたいで、厚生労働省の発表(2022年あたり)でも「微増傾向」とまとめられていたような記憶がある。そうはいっても、地域によってばらつきが結構あって、一部では増えていると感じる声もちらほら。確かなのは、みんな「なんか増えた?」と口にし始めているということくらい

日本語コミュニティにおける情報不足とその解決策

Related to this topic:

Comments