項目評価理論の応用(IRT)

IRTは試験問題などを構築するための理論です。

対象者を一定の基準の下に評価したい
統一的な判断基準を作りたい

このようなニーズには「項目評価理論(IRT)」が適しています。ここでは「購買力」なる能力値を例にご説明致します。

例えば心理学の分野では"性格判定"などにも使われているケースがあります。
IRTを応用すれば、コンサルティングのための"優良企業診断プログラム"なる独自の判断基準を作りたい場合、設問項目をお客様と共に十分に吟味させて頂ければ、IRTでその枠組みが実現できるかもしれません。

<IRTの特徴>
(1) 複数のテスト(調査)間の比較が容易
(2) 各質問項目の測定精度をきめ細かく管理できる
(3) 等化により、時間、場所、集団属性に依存しないテストを確立できる

アイディア、懸案事項などございましたら、 是非お問合せ下さい。


購入意向 支持率75%以上!!・・なのに、なぜ売れない!?

新製品開発において、直前の調査によると高い購入意向が示されたのに、いざ発売してみると思いのほか売上が伸び悩んだという苦いご経験をされたことはないでしょうか? 原因はいろいろ考えられますが、もしかしたらそれは、ターゲットとした顧客の本質的な「購買力」が足りないのかも知れません。

一般に購入意向を・ハ的調査にかけるとき、 [ 非常に買いたい | <--> | 全然買いたくない ] などの5段階評価のような選択肢を対象者に回答させるパターンが多いと思います。 しかし、ここでAさんの回答した"非常に買いたい"とBさんの回答した"非常に買いたい"は本質的に同じと言えるのでしょうか? 前述のような通常の質問形式の調査では、その違いを見出すことはできません。

項目反応理論(IRT)は元来、テスト理論の枠組みで説明され、試験問題などを構築するための理論です。例えば、TOEICのような試験で860点以上を叩き出す人は、いつ、どこで、誰が受験しようが"十分な英語コミュニケーション能力を有する人"という天下無敵の称号が与えられます。 これを応用して、対象となる製品に対して調査をかけるというよりはむしろ、いわば絶対的・統一的な基準・尺度を作ってしまい、ターゲット顧客の「購買力」なる能力値を測ろうという考え方です。
製品開発の初期段階で、このように基礎的な調査を組み込むことでムダの無い投資、合理的な開発が遂行されることが期待でき、極めて有益であると思われます。


IRTは絶対的・統一的基準を作成することを第1の目的とします。そのためには調査設問項目がどのような性質を持っているのか吟味する必要があります。そのためモデル母数推定から等化や尺度変換と言った手順をふむ間に、設問項目を吟味することと"項目マスタ"の存在がかかせません。項目マスタとは、設問の雛形とそれに付随する母数の値を蓄積しておく場所です。このようにIRTの長所を生かすために、くりかえし調査を継続する・アとが肝要です。
段階反応モデル
例えば、ビールの「購買力」を測る調査で、設問項目が以下のように構成されているとします。



j問の設問項目を対象者に回答してもらうような調査を想定します。これらの設問項目でスコアの高い回答を選択する人は "ビール購買力が高い"と解釈できます。
ここで、各設問項目の特徴を捉える指標について考えてみます。 第1に、その設問が難しいか易しいか、つまり、対象者がよりスコアの高い方の選択肢を回答をするか、低い方の回答をするかの指標であり、万人がスコアの高い方を選択するようならば、その設問項目は"易しい"と定義します。これを"困難度"といいます。上記の例では直感的に設問1が他と比べて易しい項目であるような気がします。
第2に、その設問が「購買力」の能力を決定するためにどれだけ関与しているのか、影響力を持っているのかを示す指標を定義します。これを"識別力"といいます。上記の例では直感的に設問3の識別力が高そうに思えます。

これら2つに加えて、更に、今我々が最も知りたい「購買力」の能力値そのものも第3の変数と考えます。これは調査のタイミング、場所、及び集団の特性に依存しないナゾの指標なので、潜在変数(調査設問項目からは直接観測できない変数)として定義します。


IRTにはいくつかのモデルがありますが、これら3つの変数を使って対象者の反応パターンが既知の確率分布に従っているモデルを考えます。そして得られた観測データを元にモデルを適用して、ある基準の下でこれら変数の推定値を計算することになります。

試験問題の構築では正解|誤答の2値データですが、調査の場合は上記のように複数の選択肢(順序カテゴリ変数)で構成されている場合が少なくありません。このようなモデルの枠組みを段階反応モデルといいます。


項目反応カテゴリ特性曲線(IRCCC)
得られた推定値から各設問項目に項目反応カテゴリ特性曲線(IRCCC)という描画を施して項目の特徴を調べます。 これは横軸に"ビール購買力"の能力値を、縦軸にそれぞれの回答カテゴリ[はい|どちらでもない|いいえ]の反応確率を配置し、図にしたものです。


データは架空のものであり、あくまで分析手法のイメージを掴んでいただくためのもので、実際の分析モデルではありません。本事例の分析結果に関する一切・フ責任と保証は負いかねます。


緑:[2:はい]の選択確率  赤:[1:どちらでもない]の選択確率  黒:[0:いいえ]の選択確率

横軸のθ能力値は潜在変数なので単位がなく標準化されています。この値が高い人ほど能力が高いことを意味します。

設問1は分布が全体的に左に寄っているような感じがします。設問2と比べて易しい項目であると解釈できます。(∵「購買力」能力値が低い人でも設問のスコアが高い選択肢を選ぶ可能性が高い) また、設問1の曲線カーブは設問2と比べて、途中から急傾斜になっています。回答の選択が「購買力」能力値によって白黒はっきりしていることを意味しており、こちらの項目の方が識別力が高いと解釈できます。

このほかにも、SEMと類似してモデル全体の傾向を見られる"テスト情報関数"なども参照でき、調査設問項目の吟味に総合的な判断が加えられます。

項目プールと等化
IRTの長所を生かすには評価判定する基準となる設問項目を多く蓄積しておくことが必須です。項目マスタの質がテストの質を左右すると言っても過言ではありません。この操作を項目プールといいます。
この調査を繰り返すことにより、それぞれ対象者母数(「購買力」の能力値)と項目母数の推定値が得られます。個々に得られた推・闥lは、このまま単純に比較する訳には行きません。そこで、等化というプロセスが必要になります。
等化は項目プールされている母数を元に、線形変換をかけても分布の本質的な形状は変わらないことを利用して、基準化をかけます。この操作により、一貫した能力値のスコアとして異なる調査同士を比較評価できることになります。


ページ上へ


Copyright (C) 2013 CBR. All rights reserved.