data.tableを使ったデータ集計のススメ：NAを排除し、グループごとに最大値を取得する方法

Published on: 2025-06-20 | Last updated: 2025-06-20

data-table-group-maximum-approach

NHS-RのSlackで見かけた、そんなに派手じゃないけどちょっと悩む質問があったような気がする。データテーブルふたつ、どちらも同じシステムと診療科名で、サービスの種類ごとにゼロとかイチとか並んでいた記憶。その「イチ」だけを抽出して一行にまとめたいという話。dplyrだとまあ一般的なやり方があるみたいだけど、data.tableの場合はどうだったかな……いくつか方法はありそう。値を拾ってきてNA消すのがポイントらしいけど、細かいところは人によって微妙に違う解釈もありそう。実際には七十行くらいしかないことも多くて、大規模処理というより手元作業寄りな印象。計算量や複雑さより、「なんとなく使いやすい」感じになることが多い気がする。

参考元: https://www.johnmackintosh.net/blog/2020-08-11-quick-hit/

どうやら、その変化は一夜にして起きたわけじゃないらしい。誰かが「昔からこうだった」と言い切ることもあれば、実際は数年前に始まったとする人もいる。記憶が曖昧なのか、それとも情報の伝わり方にムラがあるのか、正確なタイミングは分かりづらい。ただ、周囲で徐々に話題になってきた頃には、既に七割近くの人が何となく気付き始めていたようだという声も耳にしたことがある。初期段階では、多くの人が自分だけの感覚だと思っていたみたいで、そのせいで共有されるまで少し時間がかかったとか。今思えば、あれも珍しくなかったんじゃないかな、と感じる場面もちらほら見受けられる。

JOHNMACKINTOSH Expert Team

service@johnmackintosh.net

Comments

Guest 2026-03-20 Reply

子どもの成績のデータまとめてたらさ、data.tableで各グループの最高点出したいと思ってやってたんだけど、NAが邪魔なんだよね。どうやって消すのが楽なのか…正直よく分かんない。まあremoveNAみたいな名前の関数あった気もするけど、たぶんRならna.rm=TRUEとか書くやつ？でもうっかり忘れちゃうし。うーん、誰かパッとできる方法詳しい人いたらちょっと教えてほしい。本当最近さ、数字ばっか見て頭こんがらがる…。
Guest 2025-08-09 Reply

なるほど、data.tableは本当に便利ですよね！グループ集計する時、NAを上手く処理できるのが大きな利点だと思います。実務でよく使う関数だし、めっちゃ助かってます。
Guest 2025-07-20 Reply

データ分析の世界、めっちゃ興味あります！海外のチームでもこのテクニック、すごく役立ちそう。リソース共有してもらえたら嬉しいな〜。もしよかったら、具体的な事例とか、サンプルコードとか教えてください！