Rとdata.tableを使った売上分析：fread()のgrepフィルタリングでデータ処理を効率化する方法

R再開！PreppinDataで気づいたdata.tableの神機能

dplyrとdata.tableでコードを短縮する話、何年か前のあの記事。R自体しばらく触れてなかったみたいだけど、また戻ってきたとか。週ごとのPreppinData課題で、七十個近い週数？何週か飛ばして参加したっぽい。作業はCSV読み込んで「売れた」商品だけ抽出、商品の販売数計算して店舗ごとにピボットして合計も出す流れ。最初は普通にdplyrチェーン書いてて、途中でdata.tableでも試した感じ。ただどちらも最初は集計テーブルを別途用意して結合するやり方だった記憶がある。

あとから思いついた方法がもっと簡単だったとか。「grep」で最初から「Sold」行だけ抜き出しつつ不要カラムも除外、列名まとめて指定して4行くらいで全部終わるという発見。MacやLinuxならまあ普通らしいけどWindowsだと環境による…？mutateやrowSums使えばdplyr側もけっこう短くなると言及されていたような気がする。「正確な数字」じゃなくて、おおよそ二～三割くらいのステップ省略になった印象かな。コツとしては読み込み段階で絞れるものは先に絞ること、それくらい残った感じだろうか。

本段の参照元: https://www.johnmackintosh.net/blog/2021-08-09-code-redux-with-dplyr-and-datatable/

日本で広めるには？R普及の壁と可能性

Rを久しぶりに触る中で、データ処理の効率化を模索する際、日本のRコミュニティでは独特の課題に直面するかもしれません。例えば、企業の既存システムや古いデータ環境との互換性、細かいパフォーマンス最適化への執着、そして何より、簡潔なコードよりも可読性を重視する文化的背景があります。

特にWindowsユーザーは、Unix系と異なる環境設定や、パッケージの導入の複雑さに戸惑うでしょう。また、データサイエンスにおける「正確さ」への強いこだわりが、新しいアプローチへの抵抗感を生み出すかもしれません。コミュニティ内でのナレッジ共有や、柔軟な思考が求められる領域だと感じています。