2016年10月14日金曜日

ユニバース(調査対象集団)と母集団の違いと、それらの使いさばきの有用性を検討する

 ある記事(リンク)で統計学にいう「ユニバース」と「母集団」とを区別して記述したが、本稿は、その点を補足するために作成したものである。

 社会学・心理学における調査法の大家であった林知己夫氏は、1993年の『行動計量学序説』の第二章「調査対象集団・母集団・標本の認識の重要性」(pp.22-25)において、ユニバースと母集団との関係を、次のように示している。かなり長くなるが、必要なだけ引用しておく。原典では、数式は行中に収められているが、ブログのレイアウトの関係上、独立させて表記した。なお、第1章で、林氏は、フォン・ミーゼスによる確率論を紹介している。
2.1 確率と統計の結びつきという観点から
 〔...略...〕今日の推論においては、まず調査対象集団(ユニバース、universe)を明確にし、これに抽出確率を付与し抽出方法を規定して母集団(ポピュレーション、population)を構成し、これから標本(サンプル、sample)を抽出し、こうした標本のデータから母集団への推定(検定)を行う。つまり、これがユニバースへの情報となるようにする考え方である。〔...略...〕しかし、これは全体→個への問題を含んでいると見ることもできる。確率に基づく理論が、個にどういう意味をもつかである。つまり、行為決定――しかも有限回の、さらにただ1回きりの――に対して確率的情報がいかなる意味をもつかの問題である。〔...略...〕これは「無限を基礎においた情報」が「有限を基礎におく行為」にいかに寄与するかの問題ともいうことができる。これは、科学の根源にも関係するものであろう。
 〔...略...〕

2.2 調査対象集団・母集団・標本

1) 調査対象集団
 〔...略...〕調査対象集団(ユニバース)には、即物的なものと論理的なものとがある。即物的なものは、〔...略...〕たとえば、平成5年10月1日日本国土に常住する日本国籍を有するもの、〔...略...〕などはっきりとらえられるものである。一般に集団の要素(人とか企業とか)の数、つまり集団の大きさというのであるが、これは有限である。〔...略...〕
 一方論理的な場合は、確率論のところで述べたように、即物的にそこにあるものではなく、ある条件の下に試行すれば得られるような事象――たとえばサイコロを振る、コイン振りをするなどのこと――、ある条件の下で実験を行うような場合、その得られるであろう一つ一つのデータ――標識によってその結果が表現・記述されなければならない――の集まりというような場合がある。集団の大きさは有限とみなすより、この場合は可能性として無限と見た方がよいであろう。
 〔...略...〕実験を繰り返す場合を考えよう。$n$回実験し、その結果を記述したとすれば、これだけしかない。しかしこの分析結果は、この$n$回にとどまるものではなく、同じ条件の下に繰り返されるであろうところの無限回の実験結果たるユニバースに対するものでなくてはならない。得られたデータは、ユニバースを念頭において初めて科学としての意味をもつものである。

2) 母集団
 いま、大きさ$N$(有限でも無限とみなせる場合でもよい)の調査対象集団(ユニバース)の各要素に抽出確率\begin{equation*}P_1, P_2, \cdots,P_N; \sum_{i=1}^{N}P_i = 1\end{equation*}を与え、独立にあるいはある従属性をもって抽出を行うとしよう。このように抽出確率を与え、抽出の仕方を定めるとき、ユニバースは母集団といわれるものになる。ユニバースは一つでも、推論の目的に応じ、いくつも母集団を作成することができる。最も目的に適合した母集団が採用されればよい。統計的推論は母集団に対してなされるのであるから、前述のように、母集団に対する情報がユニバースに対して有効適切な情報となるように母集団を構成しなくてはならないのである。

3) 標本
 一般に、抽出確率はすべて等しく\begin{equation*}P_i = \dfrac{1}{N} (i = 1, 2, \cdots, N),  \end{equation*}抽出の仕方は独立とされることが多い。〔...略...〕このように母集団から指示された抽出確率・抽出方法で抜き出されるものが標本である。〔...略...〕製品の破壊検査による品質保証をした上での出荷などを考える場合は、〔...略...〕同じ条件の下で繰り返されたら「云々になる」という推定が行えて、初めて、科学としての価値をもつわけである。このように考えてくると、母集団→標本抽出→推論という考え方の重要性が理解されよう。

4) 母集団構成とランダマイゼーション
 数理統計学のきわめて大きな部分が、推定論、統計的検定論で占められている。このとき母集団とは何か、ユニバースとは何か、が熟考されねばならないのにもかかわらず、ほとんどそれに言及がない。行動計量学においては、こうした理論を用いてデータを解析するとすれば、まずここから反省してかからねばならない。我々はユニバースに対する知識が大事なのであるが、これを得るために母集団を介入させるわけである。この母集団構成が我々の目的に対して妥当なものかどうかを深く考えることである。
 なお、数理統計学における母集団構成でもう一つ注意すべきは、論理的母集団の一つであるランダマイゼーションに依拠する母集団構成である。いま一つのサンプルを得ているとしよう。これが、あるランダマイゼーションによる結果の一つと見られるかどうかを検討することになる。どのようなフィールドでランダマイゼーションを考えるかが重大な意味をもつのである。このランダマイゼーションが我々のデータ分析に対して妥当な意味をもつかを考えることが不可欠のことである。ランダマイゼーションは、ユニバース(この場合論理的に考えられるものである)の要素に対する等確率母集団構成である。ここの意識の明確化はきわめてデータ解析に対して重要な意味をもつのである。
ここで、標識は、以下のように説明されている。
〔...略...〕標識というのは、各試行結果を特色づけるところのレッテル(我々の欲する現象記述に適応して定められる)であり、試行結果を一義的に、明確に表現するものでなくてはならない。これは、ある目印、または一つの実数、あるいは$k$この実数の組、ないしは$k$次元空間の一点として表現される。すべての標識から作られる集合を標識集合と名づけることにする。コイン振りの例でいえば、$1, 0$はそれぞれ標識であり、$(1, 0)$なるものは標識集合である。〔p.14〕

 林氏の示した内容は、『統計データ科学事典』の鈴木義一郎氏による「31. 標本調査法:標本調査の基本的な考え方」(pp.662-663)に継承されている。ただし、鈴木氏の解説には、文中の「調査対象集団」の語に「ユニバース(universe)」の語が併記されていないため、「ユニバース」の語だけでは索引を拾えない。この点には、おそらく含みがある。というのも、わが国のみならず英語圏でも「ユニバース」と「母集団」の語は、林氏の著作に示された通りに使い分けられていないことが認められるためである。

 適当さを承知でより広義に言い換えてみると、(林知己夫氏流の)「ユニバース」とは「ある研究分野における興味の対象」であり、「母集団」とは「その現象を説明するため、定量的な分析方法にかけることを前提に作り出されたモデル」である。モデル形成(モデリング)という知的活動においては、「ユニバース」は「現象」に、「母集団」は「モデル」に対比できる。現象のモデル化は、科学的な活動の屋台骨である。多数の現象を単純なモデルに置き換えられるものと仮定し、そのモデルへの置換えが成功することを示せば、少数の法則だけでもより多くの現象を説明できるようになる。

 なお、モデリングという作業は、統計学に限定されず、多くの知的生産活動において実行されている※1。ここに見た林氏の主張は「行動計量学」の名において行われているが、統計学やデータ科学の方法を知り、応用することは、どの研究分野の研究者にも有用である。研究事例の数が少ない社会科学分野についても、統計学における考え方が有用であることを主張したのが、キング・コヘイン・ヴァーバの三氏による『社会科学のリサーチ・デザイン 定性的研究における科学的推論』である。ただし、同書は、人工知能における推論の研究から1990年代に発展した2000年代の因果推論研究を反映していない。

 林氏の定義するユニバースは、「統計モデルの作成」という行為をモデル化した「メタモデル」を想定したときに初めて、その存在を明確に定義する必要が出てくる概念である。メタモデルの「メタ」は、抽象化の度合いを一段上げたときの接頭詞である。モデリングという作業は、モデル化の対象そのものになりうる。モデリングは、理系のほぼすべての分野で行われている作業であると言って良いが、その巧拙は、分野や個人により、相当程度が異なるであろう。

 メタモデルという語を意識することは、モデルの背後にある現象が理論に基づき十分に説明されており、かつ、モデルが現象を非常に良く再現するまでに発達している、いわば成熟段階にある研究分野においては、それほど有用さを認められる心構えではなかろう。しかし、データの取扱いが未熟な研究分野においては、データ分析を行う研究を、データ駆動型(帰納)・理論駆動型(演繹)といったデータ分析研究の段階に基づき分類し、そこで利用されているデータの性質を吟味することは、それなりに有用である。というのも、研究分野の成立初期には、母集団が調査対象集団と整合しない研究が多く見られるであろうところ、この不整合性を周りの研究者集団までもが理解できないほどデータ分析に暗い、という場合も多々あるために、その批判を行う側が批判される側に通じる概念を根本から説明しなければならないことがあるためである。たとえば、エミール・デュルケムの『自殺論』は、間違いなく、計量犯罪学にとっても金字塔的な著作であるが、当時の統計学の限界に基づく限界も見受けられる。

 『自殺論』に見られる統計モデリング上の不備を説明する上で、メタモデルを念頭に置くことは有用である。たとえば、モルセッリの観察を受けてなされた気候・季節・時間帯と地域別の自殺率との関係を踏襲すること(第3章、和書ではpp.101-125.)は、現時点においてさえ当然のように行われる手続であるが、この方法には、一定の仮定が潜む。『自殺論』において、読者は、本来の調査対象集団を、人間のうちに存在する自殺傾向であると想定するであろう。デュルケム氏は、個人に先行して存在する(と彼が仮定する)社会の影響を重視するから、国による区別自体を重視していたであろう。しかしそれでも、現時点の科学から見れば、デュルケム氏が想定すべきであった本来の母集団は個人であり、国による区別は個人由来するはずである。より厳密には、各個人の性別や年齢や家族構成に起因するパーソナリティと、それに起因する社会からの影響の受けやすさ(vulnerability)は、いずれも個人の属性であったはずである。ところが、デュルケム氏の考察は、もっぱら、各国(地域)の自殺率に依拠している。自殺率は、私なりの言葉でデュルケム氏の考察を言い換えると、「集団のうちに表れる代表的な傾向」を示すものであり、社会集団を画定して初めて計算可能となる人工物(artifact)であり、指標(index)である。自殺者は、手作業で2万6千の原票から再集計された(和書pp.15-16)ようであるが、この作業を現時点の知識体系からみると、労力の割に、もったいない比較方法となる。現在において、同様の比較を行うのであれば、何らかの形のネステッド・モデル(=集団に個人が帰属することを前提とするモデル。)など、非集計モデルとしての含みを持たせたモデルを用いるのが適切ということになる※2。私なら、当時でも可能な記述統計的な表現方法として、地方庁舎などの緯度や平均気温を元に、地方を並び替えた後、自殺者数と地域住民数を相対累積度数分布のグラフで表したであろう。数表であれば、自殺者数と住民数の双方を記載していたであろう(このように、後世の使い勝手を考慮した再現可能性を、研究上のrecyclabilityと勝手に呼んでみたい)。デュルケム氏の方法論が1980年代までの間に参照されることには、まったく問題がないが、21世紀に入っても『自殺論』のデータ分析方法の限界がなかなか気付かれていないことは、問題のある状態である。データ分析に係る研究分野の比較的近年の(、習得の困難な)成果を踏まえないからである。なお、『自殺論』における統計概念は、イアン・ハッキング氏の『偶然を飼いならす』で相当の部分が説明されている※3。先に私が示した自殺率の表す内実は、ハッキング氏の見解を私なりにパラフレーズしたものでもある。さらに、和書の訳者である宮島喬氏の解説には、次のように、モデリングを意識した批判が明示されている。
 その社会学的論証の仕方にはたしかにいろいろと問題がある。たとえば自殺の社会的要因による説明を定式化するとき、また非社会的要因による説明を棄却するとき、かれは自殺そのものを問題にしていたのか、それとも自殺の社会率の変動要因を問題にしていたのか。また、二系列の統計的データ(たとえば県別の自殺率と家族の密度)をもとに論証にうつるさいに用いられる共変法は、方法的にはたして今日的な検討にえうるのか。〔p.556〕
宮島氏の批判は、当時の社会学から見て同時代的な水準の指摘であり、モデリングの拙さをピンポイントで射貫くものである。また、モデリングという観点から言えば、アンソニー・ギデンズ氏による、未遂者という暗数を考慮していないという批判を紹介している〔p.557〕。選択バイアス(selection bias)により「抗議、補償、贖罪、自己処罰」〔p.557〕や注意喚起※4という自殺未遂に特有の事情が欠落しているというギデンズ氏の指摘に対する宮島氏の理解は、現在でも否定されていない(、つまり現在でも有効な)批判となっている。これ以上の『自殺論』に対する批判は、ユニバースと母集団という概念と、その使い分けの有用性を指摘するものではなくなるので、別の機会としておこう。

 ユニバースと母集団とを同一と見なすという前記事(リンク)における仮定は、科学的な営みの一般的な水準から見れば、ズルく見えるかも知れない。ただし、前記事における目的は、ある事実を前提に、別の事実の原因として考えられるものを挙げるという、個別具体的なものであり、目的の達成には何ら支障のないものではあった、と私自身は考えているところである。それに所詮、前記事における論証の形式はアブダクションである。前記事において見込まれた原因である選択バイアスは、一般化された概念である。前記事は、個別事例の原因が選択バイアスによるものであるという可能性を検討したに過ぎないものである。

 ユニバースと母集団という用語を説明するのに、まあまあパラフレーズしたと思えるようになったので、本稿はここで打ち止めとしておく。著作権法上の規定もクリアできるだけの分量を記したと思われる(爆)。なお、心理学における統計の妥当性と信頼性に係る話題は、本稿におけるユニバースと母集団に係る話題にも一部重複するが、これら二種の話題の関係がどこまで整理されているか否かは、私には分かりかねることである。


※1 というより、モデルと現実との対比は自然科学の勃興期から存在していたものと言えよう。現時点から見れば、プラトンにもルーツを見出せるように、モデリングという概念そのものが文理の区別のないものであることは間違いないであろう。ただ、私の知識の底の浅さが(ますます)露わになるので、このルーツへの言及は、別の機会に取っておきたい。

※2 デュルケム氏の理解は、集計モデルであるが、現時点では、この種の分析を文句なく行うには、非集計モデルがふさわしいということになる。この区別が現時点でも難しいものであることは、多数の日本語文献に表出されているが、個人攻撃と受け取られかねないので、止めておく。ただ、わが国社会では、専門家集団(各種の学術会議等)の役割の内に、誤り訂正機能を含めることが(故意に)避けられてきたという見解は、ブログで述べるに相応しい内容であろう。

※3 ハッキング氏がデュルケム氏の統計概念をこのように表現したか否かは、確認し直してみないと分からない。十中八九、言及があるとは思う。

※4  三島由紀夫氏の自殺や以前紹介した(リンク)須原一秀氏の『自死という生き方』は、既遂ではあるが、明らかに注意喚起を目的とするものである。わが国に限らず、東洋文化には、この種の自殺が伝統である側面も見受けられる。2014年中の新宿ルミネの歩道橋上における焼身自殺未遂や、日比谷公園における焼身自殺もこの類例にあると言えよう。渋井哲也氏による2014年中の事件の解説記事は、ディテールを知る上で参考になろう。

 林知己夫, (1993). 『行動計量学序説』(行動計量学シリーズ1), 東京:朝倉書店. (NDL-OPAC
 G.キング, R.O.コヘイン, S.ヴァーバ[著], 真渕勝[監訳], (2004). 『社会科学のリサーチ・デザイン 定性的研究における科学的推論』, 東京:勁草書房.(NDL-OPAC
 エミール・デュルケム[著], 宮島喬[訳], (1985). 『自殺論』, 東京:中央公論社.(NDL-OPAC
 イアン・ハッキング[著], 石原英樹・重田園江[訳],  (1999). 『偶然を飼いならす―統計学と第二次科学革命』, 東京:木鐸社.(NDL-OPAC
 須原一秀, (2008).『自死という生き方 覚悟して逝った哲学者』, 東京:双葉社.(NDL-OPAC

日比谷公園での焼身自殺について考える | NewsCafe
(渋井哲也、2014年11月12日17時00分)
http://www.newscafe.ne.jp/article/2014/11/12/1544447.html
中国共産党の圧政に対するチベット人僧侶の焼身自殺が相次いでいますが、私には、このイメージが強く残っています。
 〔...略...〕いくら政策に反対だからといって、一人の行動によって変更されてしまうのなら、それもまた危険な政治文化を作り出してしまいます。




#歴史上の人物について、呼び捨てになっている箇所があるのは、ブログ表記のマイルールに反しているが、放置した。


平成28(2016)年10月15日追記・修正


 別記事に指摘しようとすることが抜けていたので、それらを追記し、正確ではない表現を改めた。

 ところで、ユニバースと母集団の使いさばきに揺れがあることを本文中で述べたが、その実例を確認しておく。統計ソフトウェアの『SIS』の製造販売社であるSIS International社の用語集[1]では、両者が英語圏で同一の意味で利用されることを指摘しつつも、「元の全集合体」という表現を用いており、林知己夫氏の説明を正しいとして比較しても間違いではないという印象を受ける。高木廣文氏の説明[2]では、ユニバースと母集団の両概念が真逆であるように認められる。坂田周一氏の説明[3]は、林氏の説明と同一である。

 社会情報サービス社(SSRI社)の説明は、ほかとは異なり、オブジェクト指向的な雰囲気がある。SSRI社によるユニバースの定義は調査対象集団をクラスと読み替えるものであり、母集団の定義は属性に格納された値として理解しているようである。妥当性の語(指標が測りたい対象を正確に測れているか)をメタに利用すれば、それもありかもとも思うが、私の頭のネジが緩いだけなのかも知れない。と思っていたら、栗原伸一氏の『入門統計学』(2011, オーム社)[5]の説明を読む限りでは、あながちこの理解も外れという訳ではなさそうである。用語が独特の概念に基づき発展を遂げることもあるし、わが国においてガラパゴス的な理解(誤解)が進むこともあり得るから、このような差異が生じた理由までは現時点で分かりかねるものの、とにかく、SSRI社の説明は、栗原伸一氏の説明に基づけば、福代和宏氏[6]のブログに見られるように、単に「違和感がある」として片付けられるものでもないと言える。(心理学におけるファセット理論との絡みもありそうである。)

 リハビリテーションに関わる情報サイト『Study channel』の説明[8]は、ざっくり単純化したものであるが、林氏式の理解からしても、栗原氏式の理解からしても、本質を外したものではない。つまり、この定義もアリだと思われる。Yutakakuwae氏の説明[9]もシンプルであるが問題ない。中恵一氏による説明[10]では、両者が同一になるが、英語圏(のテクスト)でも多数に見られる理解でもあるから、単に指摘するに留めよう。

 以上、後日追記する予定。

[1] 市場調査の用語集
(SIS International)
https://www.sisinternational.com/coverage/languages/%e6%97%a5%e6%9c%ac%e4%ba%ba/%e5%b8%82%e5%a0%b4%e8%aa%bf%e6%9f%bb%e3%81%ae%e7%94%a8%e8%aa%9e%e9%9b%86/
ユニバース
ユニバースとは、ポピュレーションとも呼ばれる母集団のことで、標本が抽出される元の全集合体を指します。
[2] 統計学の基本
(高木廣文, (1998). 「統計学の基本的な考え方」『超音波検査技術』23(4),329-334. 更新2006年12月31日)
http://halbau.world.coocan.jp/choonpa1.html#boshuudan
このような概念上の対象集団を,統計学では「母集団population」と呼んでいる。
 実際の調査対象となる集団もまた「母集団」と呼ばれるが,「ユニバースuniverse」と呼んで区別している。実際に調査を行う場合,ユニバースの構成員全員を対象とする「全数調査(悉皆調査)」を行うのは,国勢調査のような国の行政機関が行う場合を除けば,極めて希といえる。
[3] 第5節 標本抽出法
(坂田周一、2016年03月07日)
http://www.rikkyo.ne.jp/~ssakata/class/academy/materials/06.htm
たとえば,日本の老人の幸福感の調査では日本の老人全員が対象であるはずだが,果たして全員の名簿があるかとなると,名簿に載っていない人もあれば載ったまま死亡した人もある。現実に把握できるかどうかを別にした理想の対象集団をユニバースという。これに対して,時間と場所を特定したうえで実際にサンプリング可能な集団が母集団である。
[4] 統計WEB | コラム『統計備忘録』 | 2008年1月
(社会情報サービス統計調査研究室、2008年01月15日)
https://software.ssri.co.jp/statweb2/column/column0801.html
統計学上の population と universe の違いは、前者が、検定や推定の対象であるところの個体から観測される値(小学校6年生のお小遣い) の集まりであるのに対して、後者は個体(小学校6年生)の集まりという点です。

[5] 入門統計学検定から多変量解析・実験計画法まで - 栗原伸一 - Google ブックス(栗原伸一, (2011). 『入門統計学 検定から多変量解析・実験計画法まで』, 東京:オーム社.)
https://books.google.co.jp/books?id=r5JIE8QbPbAC&pg=PA44#v=onepage&q&f=false
標本の背景にあって対象となる要素(長さや気温などの項目)の集合体のこと、つまり本書で母集団といっていたものをpopulationと呼び、要素を含む対象自体の集合をuniverseと呼ぶのです。例えば、〔...略...〕全松戸市民の意識490 000個が母集団、〔...略...〕多くの要素からなっている490 000人の松戸市民自体がユニバースということになります。

[6] 林知己夫『調査の科学』を読む: 椅子は硬いほうがいい
(福代和宏、2013年10月7日)
http://fukunan-blog.cocolog-nifty.com/fukunanblog/2013/10/post-2b83.html

[7] ユニバースとは - DBM用語 Weblio辞書(株式会社ジェリコ・コンサルティング)
http://www.weblio.jp/content/%E3%83%A6%E3%83%8B%E3%83%90%E3%83%BC%E3%82%B9
ある関心事についての母集団。マーケット・リサーチの目的のために、サンプルと呼ばれる小グループが調査のためにユニバースから抽出される。ユニバースが母、サンプルが子になる。
#DBMとは、Database Marketingの略語。

[8] 母集団と標本 - Study channel
(Study channel team、2015年6月)
http://www.study-channel.com/2015/06/sample-population.html

[9] ハヤベン: 予想以上に対象者を選ぶのは大変。このフローチャートで情報を整理しておいて。
(Yutakakuwae、2014年01月24日)
http://ptkuwae.blogspot.com/2014/01/blog-post_24.html
臨床研究では、自らの対象者の母集団(ポピュレーション)と調査対象集団(ユニバース)と言われる理想の集団との違いを検討すれば十分です。

[10] 統計的な問題についてのメモ(5~9) | A&T
(中恵一、日時不明)
http://www.aandt.co.jp/jpn/qc/toukeimemo2.htm


2016年10月22日追記


 林知己夫氏によるユニバースと母集団の説明は、『調査の科学 社会調査の考え方と方法』(1984年6月20日の第1版第1刷, 東京:講談社, 講談社ブルーバックスB-571)の時点で完成済みであることを確認した。上で紹介した福代和宏氏の説明は、文庫本の版によるものであるため、古い版で確認した。
〔#昭和59年5月1日現在、日本の領土内に常住し、日本国籍を持つ人、と日本人集団を定義したとき、〕住民登録の記録が手がかりになるであろうし、「二十歳以上の日本人」という定義が加わる場合は、有権者名簿が役立つ。このように定義がはっきりし、しかもその構成要素が具体的にとらえられるような調査対象集団を、統計学ではユニバース universe と呼んでいる。〔p.45〕



〔#ある銃の命中率を求める場合、〕限られた回数の試射の結果から数学的に(確率論的に)命中率を割り出し、それで真の命中率を代用させているわけである。したがって、この場合の本当のユニバースは"無限回撃った時の結果の積み重ね"ということになる。〔p.46〕



母集団(ポピュレーション population)〔...略...〕とはユニバースに確率的な概念を加えたものである。〔p.46〕



 ユニバースは一つであっても、母集団はいくつでも構成することができる。そしてその構成の仕方は、母集団から得られる情報の精度がもっとも高くなるように考えるのである。こうして、精度が高く、集計分析に扱いやすいいろいろの標本抽出計画が実際に生まれてくることになる。
 母集団から実際に選び出し、直接、調査の対象になるいくつかの要素が標本(サンプル sample くわしくは任意標本、ランダム・サンプルという)で、この標本を相手に実際にある問題に対する賛否を聞いたり、実験結果を調べる。日本人集団、より具体的には有権者名簿の母集団から三〇〇〇人を確率に従ってえらびだし、これらの人々に調査員をさし向けたりアンケートに記入してもらうとすると、この三〇〇〇人の有権者の集団が標本であり、命中率を調べるための一〇〇回の銃の試射が標本である。〔p.48〕



 このため全体の中から取りだした一部分の標本を調査して全体の性質を推定したいという願いから、ユニバース→母集団→標本抽出→標識付け→計算→母集団に対する推定→ユニバースに対する情報、という調査の基本的な考え方が生まれたのである。サイコロの目や科学的実験による調査は、元来、得られる結果がすべて抽出された標本と見なして考えを進めなくては、何をやったかわからなくなることは、先の銃の命中率の例からおわかりだろう。〔p.52〕
また、鈴木達三・高橋宏一, (1998). 『標本調査法』(シリーズ〈調査の科学〉2), 東京:朝倉書店.の124ページには、調査対象集団の語がユニバースと同意味で紹介されている。同時に、11ページには、母集団の語について、次のような説明がある。
注意1 母集団という言葉は、「母集団(上の意味)に属する各個体の目的項目の値の全体」の意味に使われることもある。その場合には、母集団は木や人の集まりではなく、一般に数値の集まりになっている。たとえば、ある集団の平均身長が問題のとき、母集団は$150, 154, 156, 162,  \cdots, 148$である、という言い方も使われることがある。〔p.11〕
鈴木氏・高橋氏による母集団の説明は、上述した栗原伸一氏の説明にあるpopulationと同義であると解釈できる。この系統によるpopulationの語も、それなりに流通していると言えそうである。



 最後に、林氏の著書に引き続き頼ることにすると、デュルケム氏の方法には、非標本誤差が付随しており、ギデンズ氏の批判は、この非標本誤差を考慮していないと指摘するものである、と言い換えることができそうである。
 精度という〔p.64〕場合、 標本抽出ばかりでなく、前にいった調査そのものにもとづく誤差――これを非標本誤差という――も含めて考えるのである。〔p.65〕



調査の分析で誤りに導くもっとも初歩的なものは、非標本誤差を無視して、統計的検定を行って有意の差があるという結論を出すことである。統計的検定論でいう「有意の差」は、実質的意味で差のあることではなく、数学的にたてた仮説が、標本抽出という観点からのみみて認められない、ということに過ぎない。〔...略...〕有意差を出そうとすれば、標本数を多くとれば必ず〔p.128〕出る。〔p.129〕

以上、いずれも『調査の科学 社会調査の考え方と方法』(1984年)
非標本誤差に対する知見は、統計学で学習することの中心に据えられるべきというよりも、各研究分野において、その分野に即して、独自に積み上げられるべき蓄積であるように見受けられる。この点、統計学を多少は理解しつつも、主題とする専門分野に詳しい研究者が必要になるし、統計学者もまた、それらの専門分野に存在するはずの非標本誤差を良く理解して、専門的な見地から非統計学者の統計学の誤用を気兼ねなく検討すべきであるし、そのような環境が整えられるべきと言える。仮に、非統計学者が統計学的手法を誤るにしても、古典的な方法を使い続けているなどの統計学上の誤りを犯す方が、非標本誤差を無視することに比べれば、大目に見てもらえることになるのであろうか。犯罪学において最も注意すべき非標本誤差とは、犯罪認知件数が警察の認知した件数を指し、暗数を含まないこと、というものであろう。

0 件のコメント:

コメントを投稿

コメントありがとうございます。お返事にはお時間いただくかもしれません。気長にお待ちいただけると幸いです。