Excelデータ整理の地獄、Rで乗り切った話
百四十近いエクセルファイル、テンプレートも十数種。データは表形式でなく、あちこち散らばってて、日付のセル位置も何度か移動してたみたい。SSISは無理っぽいし、VBA書く気力もなく、R(XLConnect)を使うことに。サマリーシート作り直したりヘッダー手動設定したり。ファイルごとに違うセル参照する必要があって地味な修正が連続。途中でプレビュー表示が真っ白になる謎現象や、何回かメモリ不足になった記憶もうっすら。一度に四つ五つまでしか処理できない感じだったかな。その後readxlとdata.tableに切替えてからは明らかに速くて安定した。ただ結局テンプレごとにコード修正いるから自動化までは微妙だったような気がする。全部のサマリー集める時も思ったより面倒くさかったけど、一応一つのデータテーブルにはまとめた。他にもjailbreakrとか新しいツールあるらしいけど、その頃は使えずじまいだった。
本段の参照元: https://www.johnmackintosh.net/blog/2017-01-15-taming-wild-spreadsheets/
日本の現場でRを使うときの壁とは?
日本の企業や研究機関でExcelデータの処理を自動化しようとする際、いくつかの課題に直面するでしょう。まず、各部署や事業所で異なるデータ形式や命名規則が障壁となります。また、日本特有の慎重な情報管理文化により、新しいツールの導入には多くの承認プロセスが必要となります。さらに、レガシーシステムへの依存や、既存のワークフローへの影響を懸念する保守的な姿勢が、データ処理の自動化を遅らせる要因となるでしょう。技術的な専門知識を持つ人材の不足も、効率的な解決策の実装を難しくする可能性があります。