R のインストール

R のインストール

R Project の サイトに行く。 最初の Getting Started の英語を読むと、最後のところに CRAN mirros というリンクがある。 これは CRAN とはComprehensive R - A rchive Mirror の略であり、世界中に同じデータを保有した複製のサイトがある。日本では 統計数理研究所と山形大学にサイトがあるので好きなところを選ぶ。

Figure 1: CRANのサイトトップ画面

そこから自分の使っているパソコンのOSにあったものを選ぶ。Linux の場合にはDistribution 、Mac の場合であれば CPU によって異なるものがあるので、自分の環境に あったものを選ぶ。Windows であれば、リンク先の base を選べば良い。

ダウンロードしたファイルをクリックして インストールが開始される。 Linux であれば、パッケージ管理ソフトで ある aptなどでインストールできる。

RStudio はRをインストールした後に、 インストールする。 Posit の サイトに行き 、サイトの上部にある 右上の「Download RStudio」をクリックする。 RStudio には何種類かあるが、パソコンで操作するIDE (Integrated Development Environment:統合開発環境) である RStudio Desktop を選ぶ。 商用版(RStudio Pro)やWebサーバ用の RStudio Server ではない ので注意してほしい。

Figure 2: RStudioIDEの画面

ダウンロードした後、ファイルをクリックしてインストールする。

## パッケージのインストール

パッケージをインストールするには install.packages("パッケージ名") とする。 たとえば tidyverse というパッケージを インストールするには

> install.packages("tidyverse")

とする。パッケージには関数とデータが含まれている。パッケージを利用する場合には

> library(tidyverse)

とする。 tidyverse には readr(ファイルを読み込む )、 tibble(データフレームを拡張する)、 dplyr (データを集計する)、 tidyr (整然としたデータを変形する) ggplot2(グラフを作成する )、 など複数のパッケージをまとめたパッケージとなっている。

パッケージはRStudio を一度終了したあとに、 起動するときには自動で読み込まれないので、 再度ライブラリの読み込みをする必要がある。

文字コード

コンピュータで文字を扱う場合にはどの文字を コンピュータ上でどう表現するか決めておく必要がある。 その対応規則を文字コードという。 アルファベットについては ASCII(American Standard Code for Information Interchange)が 一般に用いられているが、各言語に対応したものについてはいくつか種類がある。 日本語の場合、Windows ではCP932Shift-JIS といった文字コードがよく用いられ、 Mac やLinuxなどでは UTF-8がよく用いられる。 左上の小窓でファイルを開くことはメモ帳などのソフトで ファイルを開くことと同じように実際にファイルを書き換える 操作を意味している。 このファイルを開く時に文字化けを する場合には、文字コードを指定して開くことができる。

Figure 3: ファイルメニュー

 

Figure 4: ファイルを開く時の文字コードの指定

Rで計算をするためにはファイルを読み込むが、 その際に、文字コードを正しく指定できないと表記が乱れる。 read.csv という関数で文字コードを指定するには

> a1 <- read.csv("data/yamate.csv",fileEncoding="UTF-8")
> head(a1)
         X 品川 目黒 渋谷 原宿 新宿 高田馬場 池袋 巣鴨 田端
1     品川    0    7   12   14   18       22   25   28   24
2     目黒    7    0    5    7   11       15   18   23   31
3     渋谷   12    5    0    2    6       10   13   18   22
4     原宿   14    7    2    0    4        8   11   16   20
5     新宿   18   11    6    4    0        4    7   12   16
6 高田馬場   22   15   10    8    4        0    3    8   12
  日暮里 上野 秋葉原 東京 新橋
1     21   17     14   10    7
2     28   24     21   17   14
3     25   29     26   22   19
4     23   27     28   24   21
5     19   23     26   28   25
6     15   19     22   26   29

とする。

read_csv ではlocale という関数で 文字コードや時間など国ごとで異なる環境を 設定する。

> a2 <-read_csv("Data/yamate_sjis.csv",
+          locale = locale(encoding = "Shift_JIS"))
> head(a2)
# A tibble: 6 × 15
  ...1     品川  目黒  渋谷  原宿  新宿 高田馬場  池袋  巣鴨
  <chr>   <dbl> <dbl> <dbl> <dbl> <dbl>    <dbl> <dbl> <dbl>
1 品川        0     7    12    14    18       22    25    28
2 目黒        7     0     5     7    11       15    18    23
3 渋谷       12     5     0     2     6       10    13    18
4 原宿       14     7     2     0     4        8    11    16
5 新宿       18    11     6     4     0        4     7    12
6 高田馬…    22    15    10     8     4        0     3     8
# ℹ 6 more variables: 田端 <dbl>, 日暮里 <dbl>, 上野 <dbl>,
#   秋葉原 <dbl>, 東京 <dbl>, 新橋 <dbl>

default_locale()とすると 自分の環境がどういう設定になっているかを確認できる。

ggplot では Mac の場合に文字が □ となる場合がある。このような場合、family として フォントを指定する。ここに表示しているフォントは Mac にインストールされているフォントなので、Windows の場合にはfamily= “Hiragino Kaku Gothic Pro W3” を除く。

> a3 <- as.dist(a2[,-1])
> a4 <- cmdscale(a3) %>% data.frame()
> colnames(a4) <-c("x","y")
> ggplot(data=a4)+
+   geom_text(aes(x=x,y=y,label=rownames(a4)),
+             family="Hiragino Kaku Gothic Pro W3")