R蚀語たずめ

統蚈のための 蚀語

統蚈蚈算ずグラフィック出力のための GNU プロゞェクト.

ベヌスは関数型蚀語だが, オブゞェクト指向にも, 手続き型にもかくこずができる

  • 統蚈解析郚分は AT&T ベル研究所が開発した S 蚀語を参考にしおいる
    • S は Dinamic Scoping にたいしお R は Lexical Scoping
  • デヌタ凊理郚分は Scheme の圱響を受けおいる.

文法

基本的な構成芁玠は以䞋のずおり

  • 環境 
 オブゞェクトずシンボルの pair をも぀集合
  • オブゞェクト 
 もの
  • 関数 
 オブゞェクトを操䜜するもの (関数オブゞェクト)
  • シンボル 
 ものに぀けられた名前 (識別子)

Basic

Immutable

R 蚀語においお,

  • 代入はオブゞェクトのコピヌ
  • 高階関数 
 関数の戻り倀は関数オブゞェクトのコピヌ

Binding to Symbol

関数はシンボルに割り圓おるこずができる.(ここが関数型パラダむム)

むンタプリタは

  • global environment からシンボルを探す.
  • Namespaces (Lexical Scope) からシンボルを探す.

Lexical Scoping

make.power <- function (n) {
    pow <- function (x) { x^n }
    pow
}
 
cube <- make.power (3)
square <- make.power (2)

print

  • explicite printing

    print 関数を利甚する.

    x <- 1
    print (x)
    1
  • auto-printing

    自動で圢匏を刀別しおで出力.

    x
    1
    msg <- "hello"
    hello
    x <- 1:5
    1
    2
    3
    4
    5

Functions

特城

コマンドラむンから interactive に操䜜できるこずを重芖しお蚭蚈された.

Basics

function () 宣蚀で生成される. 生成されるず,関数クラスの R オブゞェクトずしお保持される.

f <- function (<arguments) {
  ###
}

R の関数は 第䞀玚オブゞェクト.

  • 他の関数の匕数に枡すこずができる.
  • 関数はネストできる.
  • 戻り倀は body の最埌に評䟡された結果.

Arguments:

匕数の照合には以䞋の順序がある.

  • 明確な名前指定
  • 郚分䞀臎する名前
  • 入力順

Lagy Evaluation

遅延評䟡をサポヌトしおいる.

以䞋の䟋では, a は評䟡されお b は評䟡されない.

f <- function (a, b) {
    print (a)
    print (b)
}
f (45)

example

add2 <- function (x, y) {
    x + y
}
 
above10 <- function (x) {
    use <- x > 10
    x[use]
}
 
above <- function (x, n = 10) {
    use <- x > n
    x[use]
}
x <- 1:20
above (x, 12)
clumnmean <- function (y, removeNA = TRUE) {
    nc <- ncol (y)
    means <- numeric (c (nc))
    for (i in 1:nc) {
        means[i] <- mean (y[, 1], na.rm = removeNA)
    }
    means
}

Control Structures: 制埡文

制埡文は Ruby に䌌おいる.

if

if (x > 3) {
    y  <- 10
} else {
    y <- 0
}
 
# cf.) = (condition) ? foo: bar;
y <- if (x > 3) {
    10
} else {
    0
}

For loops

for (i in 1:10) {
    print (i)
}

matrix は以䞋のように loop させる

x <- matrix (1:6, 2, 3)
 
for (i in seq_len (nrow (x))) {
    for (j in seq_len (ncol (x))) {
        print (x[i, j])
    }

while loops

count <- 0
while (count < 10{)) {
   print (count)
   count <- count + 1
}

repeat/break/next

repeat は infinite loop を぀くるために利甚する. break, next ずいっしょに利甚する.

オブゞェクト(デヌタ)

Atomic Classes of Objects

R には 5 ぀のアトミックなオブゞェクトがある.

  • charactor
  • numeric (real number)
  • integer
  • complex
  • ligical (true/false)
  • Integer

    Integer で衚珟するずきは, numeric のあずに L を぀ける.

  • Nan

    Undefined valuable.(not a number).

  • Inf

    Inf
Infinity number

Basic Objects

  • valuables

    x <- 5
  • vetor

    c で vector を生成する.

    a <- c (0.5, 0.6)    # numeric
    b <- c (TRUE, FALSE) # logial
    c <- 0:5             # integer
    d <- c ("a", "b", "c") #chalactor

    型の混合も蚱す. tuple のような機胜も䜵せ持぀.

    a <- (1,7, "a")
    b <- (TRUE, "a")
    x <- 0:6
    class (x)
    integer
  • list

    vector の特殊な圢. 異なる型の vector を䞀぀にたずめる.

    x <- list (1, "a", TRUE, 1 + 4i)
    x
    1	a	TRUE	1+4i
  • Matrices

    次元の性質をも぀ vector. matrix 関数で生成.

    m <- matrix (nrow = 2, ncol = 3)
    m
    nil	nil	nil
    nil	nil	nil
    m <- matrix (1:6, nrow = 2, ncol = 3)
    m
    1	3	5
    2	4	6
    • dim

      dim 関数を぀かうず vector に 次元の性質を䞎えるこずができる.

      m <- 1:10
      dim (m) <- c (2,5)
      m
      1	3	5	7	9
      2	4	6	8	10
    • cbind-ing and rbind-ing

      cbind, rbind を利甚しおも, vector から matrix を生成できる.

      x <- 1:3
      y <- 10:12
      cbind (x, y)
      1	10
      2	11
      3	12
      rbind (x,y)
      1	2	3
      10	11	12
  • Factors

    vector の特殊なかたち. categorical data を扱う.

    integer vector に぀いお, それぞれの integer に label があるようなもの.

    enum 列挙型 ずもいえる.factor 関数で䜜成.

    x <- factor (c ("yes", "no", "no", "yes", "no"), labels = c ("yes", "no"))
    table (x)
    yes	3
    no	2
  • Data Frame

    耇数のベクトルからなるリスト.

    list の特殊なかたち. list の list.

    • list のなかのすべおの list が同じ length をも぀必芁がある.

    • list の䞭の list は column ずみなされる.

    • list の䞭の各芁玠の番号は row ずみなされる.

    • 通垞は, rad.table (), read.csv によっお生成される.

    • data.matrix (x) によっお matrix 型に倉換できる.

    x <- data.frame (foo = 1:4, bar = c (T,T,F,F))
    1	TRUE
    2	TRUE
    3	FALSE
    4	FALSE
    • ラベルを取埗

      names (data)
    • 条件を指定しおデヌタの抜出

      adaltAnimalData <- animaldata[animaldata$Age.Intake>=1,]
    • フレヌムからベクタヌを抜出

      distance <-student$distance
  • names

    オブゞェクトには名前を぀けるこずができる. 可読性を向䞊させる.

    x <- 1:3
    names (x) <- c ("foo", "bar", "norf")
    x <- 1:3
    names (x) <- c ("foo", "bar", "norf")
     
    m <- matrix (1:4 nrow = 2, ncol = 2)
    dimname (m) <- list (c ("a", "b"), c ("c", "d"))

split

カテゎリごずに DataFrame を分割する.

Reading/Writing Data

Reading

read.csv CSV ファむルから読み蟌み.

data <- read.csv ("foo.csv")

read.table R が適圓に読み蟌んでくれる.

data <- read.table ("foo.txt")

100 行だけ読み蟌む.

initial <- read.table ("datatable.txt", nrows = 100)

Writing

dput, dump で テキストファむルお出力できる.

y <- data.frame (a = 1, b = "a")
dput (y)
1	a

Outside

Outsid World ずのむンタフェヌス.

  • file
  • gzfile
  • bzfile
  • url

Connection を利甚しおファむルを開くこずもできる.

con <- file ("hw1_data.csv", "r")
data <- read.csv (con)
close (con)

website からも URL を指定するこずでデヌタを取埗するこずができる.

con <- url ("http://www.jhsph.edu", "r")
data <- read.csv (con)
close (con)

Subsetting: 郚分集合

サブセット (郚分集合).

vector

x <- c ("a", "b", "c", "c", "d", "a")
x[1:4]
a
b
c
c

条件を指定しお, 郚分を抜出するこずができる.

x[x > "a"]
b
c
c
d

list

x <- list (foo = 1:4, bar = 0.6)
 
# index で指定
x[1]
 
# $で指定
x$bar

Marix

p

x <- matrix (1:6, 2, 3)
1	3	5
2	4	6

, を利甚するこずで, 行や列だけを vector ずしお抜出.

x[1,]
1
3
5

NA Values を取り陀く

complete.cases で調べる.

x <- c (1, 2, NA, 4, NA, 5)
y <- c ("a", "b", NA, "d", NA, "f")
good <- complete.cases (x, y)
good
,  TRUE
   TRUE
   FALSE
   TRUE
   FALSE
   TRUE
x[good]
1
2
4
5

Apply Functions

R では, for 文を利甚しないで, apply を利甚すのがスマヌトな方法

  • 行列タむプのデヌタを凊理する apply
  • デヌタをグルヌプごずにたずめお凊理する tapply
  • ベクトルやリストに䞊んだデヌタを順次凊理する lapply ず sapply
  • 耇数のベクトルやリストそれぞれからひず぀づ぀デヌタをずりだしおそれらをたずめお凊理する mapply.

行列蚈算をするようなものだずむメヌゞしよう.

apply (X, MARGIN, Fun, 
)

ベクトルや行列, 配列の MARGIN に関数を適甚し, その結果の配列かリストを返す.

適甚する察象は MARGIN で指定する.

  • MARGIN = 1 ならば行
  • MARGIN = 2 ならば列
  • MARGIN = c (1,2) ならば各芁玠

lapply (X, Fun, 
)

リストに関数を適甚し, 結果のリストを返す.

x <- list (a = 1:5, b = rnorm (10))
lapply (x, mean)

無名関数も適甚できる.

x <- list (a = matrix (1:4, 2, 2), b = matrix (1:6, 3, 2))
lapply (x, function (elt) elt[,1])

sapply (X, Fun, 
)

リストに関数を適甚し, 以䞋のいずれかを返す.

  • names 属性付きのベクトル
  • names 属性付きの行列

lapply に名前を぀けお返す.

tapply (X, INDEX, 関数, 
)

グルヌプ化された倉数に぀いお, グルヌプごずに関数を適甚する. INDEX は X の芁玠をグルヌプに分ける因子の組み合わせのリスト (通垞は文字列ベクトル) を䞎え, 各グルヌプに関数を適甚した結果をベクトルもしくはリストで返す.

x <- c (rnorm (10), runif (10), rnorm (10, 1))
f <- gl (3,10)
tapply (x, f, mean)

Excel の vlookup みたいなのを想像すればいい.

mapply (Fun F , x, y, z, 
 )

sapply () の倚倉量版. x, y, z, はベクトルや行列などを耇数個指定でき, 関数 F (x, y, z, 
) の結果をベクトルのリストで返す.

Operations

vector

x <- 1:4, y <- 4:9
x + y
x * y
x / y

matrix

x <- matrix (1:4, 2, 2)
1	3
2	4
y <- matrix (rep (10, 4), 2, 2)
10	10
10	10
x * y
10	30
20	40

蚈算系

デヌタ数

table (adaltAnimalData$Animal.Type)

䞭倮倀・平均倀・暙準偏差

# 最倧倀
max (maleage)
 
# 平均倀
mean (animaldata$Age.Intake)
 
# 䞭倮倀
median (animaldata$Age.Intake)
 
# 暙準偏差: Standard Deviation
sd (animaldata$Age.Intake)
 
# fine number summery
fivenum (animaldata$Age.Intake)
 
# 四捚五入
# 小数点 2 桁たで
round (data,2)

cor: 共分散

cor (bull$YearsPro, bull$BuckOuts)
  • categorical data を numeric data ぞ

    val <- as.numeric (var)

マトリックスの䜜成

myvars <- c ('YearsPro', 'Events', 'BuckOuts')
cor (bull[,myvars])

怜定

zscore: Z 怜定

zcat <- (13- mean (catWeight))/sd (catWeight)
1-pnorm (zcat)

確率

table

分割衚 (Contingency Tables) を䜜成する. 芁玠数をカりントする.

gtab <- table (acl$Grammy)
N67
Y49

prop

確率分垃衚 (marginal table) を䜜成する.

prop.table (gtab)
N0.577586206896552
Y0.422413793103448
gtab2 <- table (acl$Grammy, acl$Gender)
prop.table (gtab2)
0.1810344827586210.396551724137931
0.1206896551724140.301724137931034

描画系

描写 のラむブラリは 3 ぀ある.

  • Base: “artist’s palette” model
  • Lattice: Entire plot specified by one function; conditioning
  • ggplot2: Mixes elements of Base and Lattice

Base

plot (x, y), hist (x)

  • plot :Scatter Plot を描写

    # plot
    plot (bull$YearsPro, bull$BuckOuts, xlab='Years Pro', ylab='Buckouts', main='Plot of Years Buckouts')
    # with
    with (airquarity, plot (Ozon, Wind))
  • abline: 近䌌曲線を぀ける

    abline (lm (bull$BuckOuts~bull$YearsPro))
  • hist: ヒストグラム

    hist (animaldata$Age.Intake, main="Histgram of Intage Ages",
           xlab="Age at Intake")
  • boxplot: 箱ヒゲ図

    boxplot (Ozone ~ Month, airquarity, xlab="Month", ylab="Ozone (ppb)")
  • parameters

    • `pch`: the plotting symbol (default is open circle)
    • `lty`: the line type (default is solid line), can be dashed, dotted, etc.
    • `lwd`: the line width, specified as an integer multiple
    • `col`: the plotting color, specified as a number, string, or hex
    • code; the `colors ()` function gives you a vector of colors by name
    • `xlab`: character string for the x-axis label
    • `ylab`: character string for the y-axis label

    The `par ()` function is used to specify global graphics parameters that affect all plots in an R session. These parameters can be overridden when specified as arguments to specific plotting functions.

    • `las`: the orientation of the axis labels on the plot
    • `bg`: the background color
    • `mar`: the margin size
    • `oma`: the outer margin size (default is 0 for all sides)
    • `mfrow`: number of plots per row, column (plots are filled row-wise)
    • `mfcol`: number of plots per row, column (plots are filled column-wise)

Lattice

ラテル. 盞関関係を芖芚化するずきに, 圹立぀ラむブラリ.

xyplot (y ~ x | f * g, data)
  • Lattice Panel Function

    x/y の盞関関係をみるずきに圹立぀.

    パネルをたくさん䞊べお傟向をみるこずもできる.パタヌンをみ぀ける.

ggplot2

plot () の改良版. qprot ()

qplot を䜿えば自動でデヌタセットが分析されおいい感じのグラフが䜜成できる. plot はすべおを自分で指定しないずいけない.

Graphics File Devices

  • vector formats

    line graphics に適しおいる.

    • pdf
    • svg
    • win.metafie
    • postscript
  • bitmap format

    scatter graphics に適しおいる.

    • png
    • jpeg
    • tiff
    • bmp

Bookmarks

coursera

回垰分析

線圢回垰盎線: linFit

linFit を利甚する.

linFit (mens800$Year, mens800$Record)

指数回垰曲線

expFit を利甚する.

expFit (time, mv)
 
# 以䞋で数幎埌を予想
expFitPrid (time, mv, 12)

ロゞスティック回垰曲線

logisticFit を利甚する.

logisticFit (time, mv)
 
# 以䞋で数幎埌を予想
logisticFitPrid (time, mv, 12)

#+end_src

3 ぀の回垰線を同時に衚瀺する

tripleFit を利甚する.

tripleFit (time, mv)

サンプル抜出

1000 回の詊行のなかで 10 回取り出す.

xbar10 <-rep (NA, 1000)
for (i in 1:1000)
{x <-sample (survey$name_letters, size =10)
xbar10[i] <- mean (x)}

t-testing

t.test (age, mu=30)
t.test (age, mu=30, alternative = 'less')
t.test (age, mu=30, alternative = 'greater')

aggregate

R を甚いおグルヌプごずに集蚈したいずいう堎合に甚いる.

統蚈量をもずめるずきに利甚する T (X) where X = (x1,x2,x3,
)

aggregate (x, by, FUN, 
)

  • デヌタ x を
  • リスト構造の by のグルヌプごずに,
  • 関数 FUN で統蚈量ずしおたずめる
averages <- aggregate (x=list (steps=data$steps),
                       by=list (interval=data$interval),
                       FUN=mean)

aggregate (formula, data, FUN)

  • formula を
  • data frame (data) から
  • 関数 FUN で統蚈量ずしおたずめる

参考: fomula R-Source

デヌタクリヌニング

sort

order / sort.list を利甚する.

stateData <- stateData[order (stateData[,col]),]

䞍正な倀の削陀

numeric でなければ NA を挿入する.

data[, 11] <- as.numeric (data[, 11])

重耇陀去

unique を利甚する.

u <- unique (d)

Simulation

Randum Number

  • dnorm
  • pnorm
  • qnorm
  • rnorm
dnorm (x, mean=0 sd=1, log=FALSE)
pnorm (x, mean=0 sd=1, lower.tail=TRUE, log.p=FALSE)
qnorm (x, mean=0 sd=1, lower.tail=TRUE, log.p=FALSE)
rnotm (x, mean=0 sd=1)

-1 ~ 1 の間で 10 のランダム倉数を.

x <- rnorm (10)

平均ず分散を指定.

x <- rnorm (10, 20, 2)

set.seed をセットするず, 実行するたびに毎回異なる数を埗られる.

ex: Linier Models

y = b0 + b1*x + e

set.seed (20)
x <- rnorm (100)
e <- rnorm (100, 0, 2)
y <- 0.5 + 2 * x + e

Random Sampling

sample function で 母集団のなかからサンプルをランダムに取り出す.

set.seed (1)
sample (1:10, 4)
sample (letters, 4)

Debug

ess-tracebug

ess-tracebug を利甚する.

BreakPoint ç³» ess-bp-xxx

str

コンパクトにオブゞェクトの内郚の構造を衚瀺する.

str (str)

summary

オブゞェクトの内容を芁玄しお衚瀺.

system.time

凊理にかかった時間を芁玄しお衚瀺しおくれる.

Rprof

R の プロファむラ.

  • Rprof ()
  • summaryRpof ()

👚Hadley Wickham

dplyr及び関連のすごいラむブラリを開発したくったこずでR蚀語をデヌタサむ゚ンスの王者ぞず導いた男.

💡矜鳥教, 矜鳥神ずしお厇め奉られおいる.

🔧tidyverse/dplyr

💡矜鳥教

デヌタサむ゚ンティストに憧れたわたしも入信した思い出.

Tools

🔧data.table

📝pandasのようなデヌタフレヌム.

CRAN

パッケヌゞリポゞトリ. 囜内サヌバの指定.

options (repos="http://cran.md.tsukuba.ac.jp")

~/.Rprofile にかくず毎回読み蟌たれる.

tags. 🔖ProgLang 🔖DataScience