新刊紹介: Rで学ぶ統計学入門 嶋田正和・阿部真人著(2017)

本書は,フリーの統計ソフトRを使ってデータ分析の入門を体系立てて学ぶための,初心者~中級レベル読者向けの教科書である.統計学の技法を使ってデータ分析を行う高校生や高校の理科教師,大学でのエンドユーザーを育てるのを目的としている.最近では,Rを用いて統計手法を解説する本が数多く出版されているが,かつてはこのような解説本を探すのに苦労した時代があった.比較的初期に出版された洋書(S-PLUS版)としてはCrawley (2002)がある.これは枕のように分厚い本であり,とても持ち歩くことはできない重さであったが,後にR用の簡略版(Crawley, 2005)が出版され,こちらの方は日本語にも翻訳されている.統計学雑誌の書評欄では,これらCrawley本はかなり酷評されていた.ある書評では「教科書として使えるかどうか怪しい」と書かれていたし,別の書評では「この本は(初心者には)推薦できない.統計コースの補助テキストとしてさえ使えない」と書かれていた(Cowles, 2004; Bingham, 2006).Crawley本では,統計用語をきちんと説明せずに用いたり,高度な技法を説明なしに突然に持ち出したりするなど,確かにいくつかの問題が含まれていた.一方,今回の嶋田氏と阿部氏による本に関しては,そのような心配はまったく不要である.初歩的な内容を説明する際に,自らの目線からではなく初心者の目線を保ったまま順序よく解説されており,そのためCrawley本のような飛躍はない.内容およびその説明の順番は全体的に極めてスタンダードである.また,各章の最初に置かれている概説部分は特に秀逸である.この本を手にした際には,まずは各章の最初のページだけを通読することをお薦めする.これにより,統計学を勉強する上での方向感覚が得られると思う.また,本文中には適宜にRのプログラムが示されており,読者はRプログラムを走らせることによって統計処理の内容を認識することができる.第1版の第2刷では,データが収納されたCSVファイルをRの作業ディレクトリーから読み込む方式に変更されたため,プログラムがより見やすくなった.本文中の図を描くためのRプログラムとCSVファイルは,出版社のウェブサイトに掲載されている.このプログラムをRのコンソールにコピーペーストして,自分で図を描いてみるのは,やはり何度やっても楽しい.

第1章では,まず「統計学を学ぶ大切さ」として,観察値の背景に存在する「偶然のばらつき」を考慮することの重要性について,テレビの健康番組でよく見かける「怪しい実験」の持つ問題を例にして解説される.第2章では「母集団と標本」として,サンプリングの概念や,平均や分散といった基本的な統計量が解説される.第3章では「大数の法則,正規分布,中心極限定理」として,次章以降で主役となる正規分布について,なぜこれが主役になるのかについて解説が行われている.第4章「推定と誤差」では,標準誤差と95%信頼区間が導入され,1標本のt検定も簡単に解説される.第5章「2標本の平均値間の有意差検定: t検定」からは,いよいよNeyman-Pearson流の仮説検定論の解説に入る.帰無仮説と対立仮説を設定すること,そして第1種の過誤と第2種の過誤を問題にすることが解説される.第6章では「一元配置の分散分析と多重比較」について解説され,第7章では,より複雑な「多元配置の分散分析と交互作用」について解説される.第9章は「回帰」分析に当てられるが,その前に第8章で「相関」の問題が簡単に解説されている.第10章では「一般化線型モデル(GLM)」が解説される.前章までは第3章で解説した正規分布が主役であったが,本章からは誤差の分布としては正規分布以外のポアソン分布や二項分布が登場する.モデルの当てはまりの悪さを示す「逸脱度(deviance)」については,本書では対数尤度の-2倍と定義されており,この定義はMcCullagh and Nelder (1989)の定義とは異なっており,Nelder and Wedderburn (1972)の定義とも異なっているが,これは検定の内容を理解する上ではわかりやすい定義だと思われる.

第11章では「一般化線形混合モデル(GLMM)と過分散対応」が解説される.この章ではかなり高度なテーマが扱われているが,この章の配置は非常に好ましいと思う.私自身は農水省の研究者向けの統計研修で1993年から一般化線型モデルの講義を始めたが,その1~2年後には「一般化線型モデルを教えるのは非常にマズイのではないか?」という自責の念を持つようになった.それは「一般化線型モデルが妥当であるケースはかなり少ない」ということに思い当たったからである.たとえば,誤差にポアソン分布を用いた場合には,ある平均値のまわりに観測値がポアソン分布にしたがって変動すると仮定して推論を行うのであるが,実際にはその平均値自体が変動していることが多い.このような広い意味での「過分散」を考慮しない限りは,一般化線型モデルを用いると,かえって具合が悪い.すなわち,推定誤差を小さく見積もってしまい,間違って有意差を出しやすくなり,そして95%信頼区間を異常に狭く推定してしまう.正しい推論を行うためには,こうした事情を考慮した解析法である一般化線形「混合」モデルなどを「必ず」用いなければならない.1995年頃には,一般化線形混合モデルを計算できるソフトウエアがなかったため,一般化線形混合モデルの近似として,たとえば,個体数xに関してはlog_e (x+0.5)に関する線形モデルを用いるのが次善の策であった(山村・鈴木, 2006; Yamamura, 2016b).しかし,現在ではフリーのRを使って,一般化線形混合モデルの計算もかなり容易に行うことができるようになっている.第11章では,そうした計算方法について解説されている.本章では本文中では数式はいっさい出さずに,関数glmerとglmmMLの結果を併用して,たいへん分かりやすい解説が行われている.この章の内容は,学習の際の一つのゴール地点だと私は思う.

Fisherの正確確率検定など分割表の検定手法については,第12章「ノンパラメトリック検定(1): 観測度数の利用」で解説されている.分割表の検定では多項分布や超幾何分布などが仮定される.その意味では,これらの検定手法もパラメトリックな検定法の一種と言えるが,これらは伝統的にはノンパラメトリック検定法の一種として扱われることになっている.Karl Pearsonのカイ二乗適合度検定も,観測度数に関する統計手法として,第12章で初めて解説されている.ただし,Karl Pearsonの適合度検定は第5章で解説されるt検定よりも先に考案された手法であり,歴史的には特別な意味を持っている.たとえ仮説がデータに適合している場合であっても,他にも適合する仮説が存在する可能性が残されているため,仮説がデータに「適合している」ことを示しても「その仮説が真である」ことを証明したことにはならない.つまり,仮説は「棄却できる」か「棄却できない」かであって,永遠に「採択」することはできない.その意味では,「適合度」を証明する「適合度検定」といえる検定は,論理的には存在しえないとも言える.これは,FisherがKarl Pearsonを批判する際のネタの一つとなっていた(Fisher, 1935).後の時代に,この問題を克服するための一つのアイデアを,Karl Pearsonの息子であるEgon PearsonがNeymanとともに思いついた.つまり「対立仮説」の設定を提案したのである(Neyman and Pearson, 1928).それに基づいて,帰無仮説と対立仮説の二者択一に基づく仮説検定論を構築することになり,これが現代統計学では主流の考え方になっている.Neyman-Pearsonの仮説検定論については,先述のように本書では第5章でコンパクトに解説されている.

順位を用いた検定は,狭い意味でのノンパラメトリック検定といえるが,こちらについては第13章「ノンパラメトリック検定(2):順位の利用」で扱われており,ここではブルネル・ムンツェル検定という新しい手法が紹介されているのも注目される.ノンパラメトリック検定の場合の多重比較法についてはDunn法とSteel-Dwass法が紹介されている.15年前の時点では,山村 (1993, 2002)は「Applied Entomology and Zoologyに掲載された論文を調べてみると,(間違った多重比較法の代表とも言えるDuncanの多重範囲検定法は使用されなくなったが),ノンパラメトリック検定後にDunn法といった不適切な多重比較法が依然として一部で使用されてはいる」と記述し,Dunn法をあっさりと切り捨てていた.しかし,今から考えれば,「joint rankingの問題 (Hochberg and Tamhane, 1987)」に厳密にこだわる必要はなく,Dunn法も簡単で実用的だと思う.

近年では複雑な推定を行う際にはBayes (1763)流のベイズ推定法が用いられることが多くなってきた.最終章の第14章「ベイズ統計の基礎」では,このベイズ推定法とその計算法について,その要点が非常に要領よく説明されている.ページ数は少ないものの,たいへん親切な配慮である.なお,Fisher (1922)はBayes (1763)流のベイズ推定法の持つ致命的な問題点を指摘していた.私自身は,Yamamura (2016a)でBayes (1763)流のベイズ推定法の正しい活用のしかたについて議論している.

全体的に,本書はスタンダードすぎると言ってよいほどスタンダードだと思える.余計な統計手法には立ち入らず,必要な統計手法について,伝統的な配置で伝統的な観点から分かりやすい解説がなされている.ただし,「スタンダード」には「世間の多数派の考え方に迎合している」という側面がある.たとえば,第5章では,P値が大きいときには帰無仮説を「棄却しない」としているが,上述のように,これはFisherの考え方であり,Neyman-Pearsonの仮説検定論では,この場合には帰無仮説を「採択する」のが正しい.対立仮説を立てた上で帰無仮説を「棄却しない」とするのは,Fisher流でもなくNeyman-Pearson流でもない考え方であるが,現在ではこの考え方が事実上のスタンダードになっている.また,第1章では統計学の手法を,(1) 推定,(2) 検定,(3) 予測,としており,検定が推定の後に置かれている点では,これも現在ではスタンダードな考え方だと思われる.一方,かつてFisher (1922, 1973a, 1973b)は統計処理の流れを,(1) 検定によるモデル選択,(2) モデルのパラメーターの推定,(3) パラメーターの推測限界(fiducial limits)の計算,と考えていたようである.つまり,Fisherは検定を「統計処理の最終目標」とは考えておらず,検定は推定の前に行う一時的な作業に過ぎないと考えていた.しかし,Fisherの意図に反して,現在に至るまで圧倒的な「検定偏重」の時代が続いており,検定が「統計処理の最終目標」であると考えるのがスタンダードになっている.本書でもこのスタンダードにそっており,基本的には検定が重視されている.なお,現代では上のFisherの第1段階部分は,検定ではなくAICの使用などで置き換えることが可能であり,本書でも第10章でAICが解説されている.ただし,AICは「モデルの相対的な良さ」を示してくれるが「モデルの絶対的な良さ」は示してくれない.そのため,たとえば第2位のモデルのほうが第1位のモデルよりも使いやすい場合であって,かつ第2位のモデルが第1位のモデルと同様に「十分に良いモデル」であったとしても,AIC選択ではこの第2位のモデルを採用することはできない.そのため,私は個人的にはAICの代わりにRDという指標を使うことを推薦している(山村, 2009; Yamamura, 2016b).

検定が「統計処理の最終目標」になりえないことについては,Fisher以降も一部の統計学者によって繰り返し指摘されてきた.検定で有意差が出なかったときには「差を検出するのにサンプル数が足りなかった」ことを示しているにすぎず,一方,有意差が出たときには「差を検出するのにサンプル数が十分に多かった」ことを示しているにすぎない.つまり,統計的な有意差の有無は,単に私らが用いたサンプル数の大きさによって決まる問題であり,それは私らが探求している真実とは無関係であるとも言える.AICの提案者である赤池 (1976)は,「あるサイコロの正しさを検定するという問題も全く同線で,現実のサイコロで完全に対称なものが存在しえないことは明らかである.(中略)データによる検定結果を待つまでもなく結論は見えている」とし,検定の「論理的矛盾」を指摘していた.「日本の品質管理の父」と言われるDeming (1975)も,「わたしらは二つのムギ品種や二つの薬が等しいことを見出すために実験を行っているのではない.実験にお金を費やすまでもなく,それらが等しくないことは最初からわかっている」と指摘していた.最近になって,ようやくアメリカ統計学会が公式にこの問題を認知しはじめたようである(Baker, 2016; Wasserstein and Lazar, 2016).本書では基本的にはスタンダードな考え方が解説されているが,第5章末のコラムにおいては,このような「スタンダードでない考え方」についても少しだけ言及されている.

統計学の分野には,現代でも初歩的な部分で多様な考え方が混在している.その意味では,この分野はいまだに混沌とした原始的な状況にあるともいえる.そうした状況に対処するためにも,まずはスタンダードな考え方を身につけることが大事である.本書はそのための一つの最短経路を提供していると思われる.

引用文献

  • 赤池 弘次 (1976) 数理科学 153: 5-11 [Akaike, H. (1976) Mathematical Sciences 53: 5-11].
  • Baker, M. (2016) Nature 531: 151.
  • Bayes, T. (1763) Philos Trans 53: 370-418.
  • Bingham, N. H. (2006) J. Roy. Stat. Soc. A. Stat 169: 169.
  • Cowles, M. K. (2004) Am. Stat. 58: 89.
  • Crawley, M. J. (2002) Statistical Computing: An Introduction to Data Analysis Using S-Plus. Wiley, New York. 761 pp.
  • Crawley, M. J. (2005) Statistics: An Introduction Using R. Wiley, New York. 304 pp [日本語訳: Michael J Crawley (著) (2008) 統計学: Rを用いた入門書(野間口謙太郎・菊池泰樹 訳). 共立出版, 東京,344 pp.].
  • Deming, W. E. (1975) Am. Stat. 29: 146-152.
  • Fisher, R. A. (1922) Philos. Trans. R. Soc. A-Math Phys Sci 222: 309-368.
  • Fisher, R. A. (1935) Nature 136: 474.
  • Fisher, R. A. (1973a) Statistical Methods and Scientific Inference, 3rd ed. Hafner Press, New York [第2版の日本語訳:フィッシャー RA (著) (1962) 統計的方法と科学的推論 (渋谷 政昭,竹内 啓 訳). 岩波書店,東京,227 pp.].
  • Fisher, R. A. (1973b) Statistical Methods for Research Workers, 14th ed. Hafner, New York [第13版の日本語訳:フィッシャー RA (著) (1970) 研究者のための統計的方法 (遠藤 健児,鍋谷 清治 訳). 岩波書店,東京,326 pp.].
  • Hochberg, Y. and A. C. Tamhane (1987) Multiple Comparison Procedures. Wiley, New York. 450 pp.
  • McCullagh, P. and J. A. Nelder (1989) Generalized Linear Models, 2nd ed. Chapman and Hall, London. 511 pp.
  • Nelder, J. A. and R. W. M. Wedderburn (1972) J. Roy. Stat. Soc. A. Stat 135: 370-384.
  • Neyman, J. and E. S. Pearson (1928) Biometrika 20: 175-240.
  • Wasserstein, R. L. and N. A. Lazar (2016) The American Statistician 70: 129-133 [アメリカ統計学会声明「統計的有意性とP値に関するASA声明」の部分については日本語訳がある<http://biometrics.gr.jp/news/all/ASA.pdf>(2017年6月5日確認)].
  • 山村光司 (1993) 植物防疫 47: 463-467.
  • 山村光司 (2002) 植物防疫 56: 436-441.
  • 山村光司 (2009) 植物防疫 63: 324-329.
  • Yamamura, K. (2016a) Popul. Ecol. 58: 45-52.
  • Yamamura, K. (2016b) Commun. Stat. - Simul. Comput. 45: 2122-2144.
  • 山村光司・鈴木芳人 (2006) 植物防疫 60: 112-116.