分析環境の作り方:R編

R

これからRとRStudioの導入と簡単に操作を行うところまで解説していきます

Rとは

R is a free software environment for statistical computing and graphics.It compiles and runs on a wide variety of UNIX platforms, Windows and MacOS.

Rは統計計算とグラフィックスのためのフリーソフトウェア環境です。様々なUNIXプラットフォーム、Windows、MacOS上でコンパイルして動作します。

https://www.r-project.org/
R: The R Project for Statistical Computing

統計解析を行うための便利な関数が標準で用意されています。またグラフなどのグラフィックも表示できます。Rが言語でRStudioが開発環境となります。

まずはRのインストールから進めていきましょう

Rのインストール

The Comprehensive R Archive Network

こちらから該当のOSのものを指定します。ここではWindows版で進めていきます。

検証は以下の環境・OSで行っています

プロセッサ Intel(R) Core(TM) i7-8700 CPU @ 3.20GHz 3.19 GHz
実装 RAM 16.0 GB
システムの種類 64 ビット オペレーティング システム、x64 ベース プロセッサ
エディション Windows 10 Home Insider Preview
バージョン 2004
OS ビルド 20206.1000
エクスペリエンス Windows Feature Experience Pack 120.22800.0.0

ダウンロードが完了したら実行してください(ここではR-4.0.2-win.exe)

次へボタンを押していくだけで問題ありません。

インストールが完了すると、R x64と書かれたもの(64bit版)が入っているはずなので実行すると

このようなコンソールが表示されると思います。

このままでも利用はできますが、やや使いにくいので一度終了して次に進みます。

RStudioのインストール

Download RStudio
RStudio is a set of integrated tools designed to help you be more productive with R. It includes a console, syntax-highlighting editor that supports direct code...

Free版のダウンロードボタンを選択するとOSを選択する画面になりますので、自身の使っているOSを選択してください。ここではWindows版を選択します。

ダウンロードが完了したらファイルを実行してください(ここではRStudio-1.3.1093.exe)

インストール先の指定と、ショートカット作成の有無だけなので任意で指定してください。

先にRを導入済みであれば次のような画面が開くはずです。

これで導入は完了です。お疲れさまでした。

それでは、簡単に操作してみましょう。

RStudioの操作について

画面の左側がRスクリプトを入力するところ。右上がインポートしているライブラリや操作履歴が表示、右下はプロットしたグラフなどを表示するところとなります。

入力したスクリプトを保存したい場合は、ファイルを作成してそこに書いていきましょう。

画面左上のタブからRScriptを選択しましょう。

すると先ほどのConsoleが左下に移動して、左上に入力する箇所ができたと思います。

Windows版の注意点
ファイルパスは¥や\ではなく/を使います

read.csv("ファイルパス/user.csv", fileEncoding = "utf8")

このように入力してみましょう。テスト用のファイルは以下のリンク先にアップロードしているので、今回はそちらを利用しています。

実行するときはRunボタンを押すか、Ctrl+Enterで実行できます。

コンソールに表示されれば実行完了です。

このままだと、ただ表示しただけで使いまわしができないので、変数に格納してしまいましょう。

プログラミングの経験がない人向け:変数というのは箱のようなもので、データをまとめて放り込んでおくことができるものと理解してもらえばよいかと思います。

Rでは次のように書きます。

変数名 <- 実行したいスクリプト

<-の代わりに=でも実行できますが、個人的には前者のほうが可読性が高いので前者で書きますが、書きやすいほうでよいと思います。

先ほどのcsvデータの場合だと

csv_data <- read.csv("ファイルパス/user.csv", fileEncoding = "utf8")

このように書きます。今度はコンソールにはデータの中身は表示されなかったかと思います。

例えばコンソール内で先ほどの変数csv_dataを実行すると中身が表示されます。

今度は簡単に集計をしてみましょう。先ほどの変数csv_dataを使います。次のように変数名$を書くと列の情報にアクセスできます。

csv_data$pref

これを実行すると都道府県の情報だけが取り出せました。今度は件数を数えます。

table(csv_data$pref)

これで都道府県ごとの集計ができました。

Rで集計を行う場合はdplyrというパッケージを使うのが楽ですが、ここでは省略します。

今度は情報を外に書き出してみます。先ほどの集計した結果を任意の場所に書き出してみましょう。

write.csv(table(csv_data$pref),"ファイルパス/output.csv", fileEncoding = "utf8")

次のようにCSVファイルが作られれば完了です。

終わりに

簡単にではありますが、導入とファイルの読み込み・集計・出力までを行いました。

とても便利なRですが、若干プログラミングの要素もあるので、難しい部分もあるかもしれません。

目的はあくまで分析でありツールを使うことではないので、サクッと集計だけしてExcelでグラフにするなどの使い方もありだと思います。

それでも、いろんなやり方がある、ということを知ることは武器になります。
一緒に勉強していきましょう。

コメント

タイトルとURLをコピーしました