シリーズ 尺度特性を追う:序章
よく使われている尺度の尺度特性を追います。シリーズ化する予定です。今回はあらすじ。
心理学の卒業論文・修士論文・博士論文、日々の研究、臨床活動・・・その中で「心理尺度」を使用することがよくあります。特に質問紙法と呼ばれる研究手法では、いくつかの心理尺度を組み合わせて、その相関関係から構成概念同士の関係を調べていくことが多いです。実際にそのような研究は心理学の中心を占めていると行っても過言ではないでしょう。たとえば
の本では、近年の臨床心理学の発展において「尺度研究の発展が臨床心理学の発展に大きく影響している」ことを具体例とともに詳細に解説しています。また、質問紙のみを使用した研究だけでなく、ヒトの実験研究においても何らかの尺度を取ることがほとんどですし、臨床場面においてもアセスメントのために質問紙を用いる機会は多いです。
しかしその一方で、このような疑問が頭をよぎったことはないでしょうか。
「本当にこの尺度でいいのか?」
これはとても難しい問題です。
の本(近日レビュー記事を上げる予定)でも重ねて強調されていますが、心理学で扱う構成概念は基準関連妥当性を検証する術を持っていない場合が多いです。例えば「うつ」を測る時、目に見える物理的な存在として個々人それぞれに「うつ」があれば、その個人差と尺度の相関係数を調べれば本当に「うつ」が測れているかがわかります(これを基準関連妥当性と言います)。しかし現実に「うつ」は物理的に存在しません。なので、その尺度が本当に「うつ」を測っているかどうかは誰にもわからないのです。これと同じように「不安」「自動思考」なども同じです。本当にその尺度で測れているかどうかは誰にもわかりません。
しかしそのようなことを言っていたのでは、うつや不安を始め、心理学的な構成概念のほとんどを一生研究できなくなってしまいます。現実問題として、それらの症状や障害で困っている人は沢山います。では、どうすればよいか。その答えは
「完全とまでは言わないけれども、できるかぎり「うつ」や「不安」を測っている尺度を作成する」
たしかにそうするしかなさそうです。すると、次の問題にぶち当たります。
どのような基準を持って「その概念を反映・測定・評価できる尺度」であるかどうかを決めるか?
これまたなかなか難しい問です。「うつ」を測っていそうな項目を作ったとしても、別の人に見せたら「うつとは無関係だよ」と言うかもしれません。うつ病の人に回答してもらっても、健常者と大きく点数が変わらないかもしれません。そこで出てきたのが「妥当性」の概念です。これはざっくり言うと「測定したい構成概念を正確に測定できているか」の指標です。具体的な解説は
や
を読んで下さい。これらの本で扱われている指標(妥当性・信頼性など)の枠組みを総称して古典的テスト理論とも呼ばれます。
近年、心理尺度の心理測定学的特性(その尺度が持つ信頼性や妥当性などの特性)を評価し、良い物のみを使用しようという動きが活発化しています。つまり、測りたいものを測れていない「質が低い尺度」は使用しないようにするということです。そこで、「質が高い尺度」とはどのようなものか、どのような基準で決めるかという壁にぶち当たります。
そこで出てきたのがCOSMINです。COSMINは構成概念を測定する尺度の妥当性などを細かく分類し、それぞれが一定以上の質となるよう基準を設けています。これを尺度特性と呼びます。詳細についてはCOSMINのサイト
あるいは土屋先生の論文
http://jabt.umin.ne.jp/j/activities/pdf/guideline/Tsuchiya_2015.pdf
(pdf注意)
を読んで下さい。
ここでは各特性の内容について、軽く説明しておきます。
信頼性
・内的一貫性(項目内の相互関係の程度)
・信頼性(対象者ごとのばらつきが、真の個人差を表している割合)
・測定誤差(概念と無関係な系統的・ランダム誤差が個人差に含まれていないか)
妥当性
・内容妥当性(尺度の内容が構成概念を正確に反映しているか)
・表面的妥当性(その尺度が実際に測りたい構成概念を反映しているようにみえるか)
・構成概念妥当性(尺度の得点が、その概念が前提とする仮説と一貫しているか)
・構造的妥当性(尺度の得点が測定したい概念の次元性を正確に反映しているか)
・仮説検証(尺度得点がその概念によって予測される仮説通りの結果になるかどうか)
・文化間妥当性(尺度が多文化に翻訳された時に、元の尺度のパフォーマンスと変わらないかどうか)
・基準関連妥当性(その尺度の得点が「ゴールドスタンダード」な指標を正確に反映しているか)
反応性(構成概念の時間的な変化を適切に検知できるかどうか)
解釈可能性(尺度の得点が臨床的に解釈できるなど、得点やその変化の大きさが意味ある形に解釈できるかどうか)
※項目反応理論による検証
たしかにこれだけの基準の全てが高ければ「妥当な尺度である」と言えるでしょう。全てがクリアできなくても、その尺度の限界点を知れば、尺度に対する安易な信奉が無くなるでしょうし、なにより更に良い尺度の開発にも繋がるはずです。
さて、これで本シリーズのあらすじは終わりです。次回から、日本で多く使われる様々な尺度や検査について、これらの尺度特性がどのようになっているかを見ていきます。研究活動や臨床活動で使っている尺度の質がどの程度のものなのか把握するために活用してもらえれば幸いです。