データテーブル最新アップデートでdplyr並みの快適さを実現!プログラミングインターフェースの進化に興奮中
data.tableの新しいバージョン、たしか最近CRANに出ていた。何が変わったかというと、%notin%とかlet関数なんてのも見かけるけど、やっぱりプログラミングインターフェースの刷新が目立つ。前はget使ってゴリ押ししてた気がするし、spccharterパッケージもしばらく放置してしまっていた理由がこれだったような。今はenv引数でsubstitute使うだけで変数名まわり結構楽になるっぽい。dplyrっぽいグループ集計もできるし、正直ちょっと戸惑いつつJan Goreckiさんの助言もあってなんとか動いた感じ。
テストにはpalmerpenguinsデータセット…名前長いからpinguにして回避したんだけど、まあそれはさておき、集計や並べ替えを複数カラム対応で書くにはalistとeval(substitute(...))組み合わせると何となく良さげ。ただこのeval(substitute(alist(...)))が本当に公式想定なのか微妙なところ。verbose=TRUEで内部処理眺めたりもできて便利そうだが…グルーピングカラム解釈は大体上手く行ってる感じ。でもまだ全部把握したとは言えず、この先また何か気付きそうな予感。
テストにはpalmerpenguinsデータセット…名前長いからpinguにして回避したんだけど、まあそれはさておき、集計や並べ替えを複数カラム対応で書くにはalistとeval(substitute(...))組み合わせると何となく良さげ。ただこのeval(substitute(alist(...)))が本当に公式想定なのか微妙なところ。verbose=TRUEで内部処理眺めたりもできて便利そうだが…グルーピングカラム解釈は大体上手く行ってる感じ。でもまだ全部把握したとは言えず、この先また何か気付きそうな予感。
本段の参照元: https://www.johnmackintosh.net/blog/2024-02-05-dt-programming/
日本での普及には壁あり?データテーブルの魅力をどう伝えるか、試行錯誤の日々
data.tableの最新バージョンを日本で広めようとすると、いくつかの課題に直面するでしょう。プログラミングコミュニティは保守的な傾向があり、新しいパッケージや関数に対して慎重な姿勢を取ることが多いです。特にRの統計分析分野では、長年使い慣れた古いメソッドから簡単に移行しない文化があります。また、企業や研究機関では、既存のコードベースを変更するリスクを避けたがる傾向もあるため、data.tableの新機能の採用には時間がかかる可能性が高いでしょう。さらに、技術文書の翻訳や解説の遅れも、普及を妨げる要因となるかもしれません。
