| 妥当性 |
「テストが意図された通りに受験者の能力を測定しているか」、あるいは、「テストによって目的に適した評価がなされているのか」を表します。 |
| 信頼性 |
「テストの結果が常に安定しているか」を表します。 |
| 合否判断の判断基準 |
格者と不合格者を分ける判断基準。多くの場合は合格点と呼ばれています。 |
|
言葉だけ聞いてもピンとこないかも知れませんので、例をあげて説明しましょう。
例えば、あなたがライフル射撃の教官で、これから訓練生の能力をテストしようとしているところを想像してみてください。この試験の結果によっては卒業できない訓練生もいるので、責任は重大ですね。それでは、早速試験方法の設計に取りかかりましょう。
まず射撃の仕方ですが、立って撃つのか、うつ伏せで撃つのか、いろいろ種類があります。
的の距離は50mが良いでしょうか、それとも100m?あまり遠すぎると誰も的に当てることが出来なくなるでしょう。
射撃回数は何回にしますか?1回、5回それとも10回?
的の形状や得点も決めなくてはいけません。
的は動くのか、固定しておくのか?
さてここで、あなたの設定したテストの内容が、訓練生がこれまで行ってきたトレーニングの目的を達成しているかを見極めるのに適しているか、ということを考えてみましょう。
もしこのトレーニングが、バイアスロンの選手強化合宿であれば、雪上でスキーを装着して射撃を実施しないと、テストの意味がなくなってしまいます。また、これがボディーガードの養成コースであれば、ライフルではなく短銃で、20m程度の至近距離で動く標的を用いてテストをしたほうが良いかもしれません。
このように、あなたがテストしたい能力を正しく測定できているかということを、テストの「妥当性」という言葉で表現します。
さて、「妥当性が高い」と思われる試験内容に基づき、実際に出題される問題・課題が作成されたとしましょう。試験を実施する前に、テストがうまく機能するかを試してみたくはないですか?
あなたが設計した試験を、何人かの生徒に事前に、それも1回だけでなく、何度か繰り返して受けてもらうことにしましょう。
すると面白い結果が出てきました。テストを受けるたびに受験者の成績がまったく違うのです。ある受験者は1回目の試験ではパーフェクトに近い成績を収めましたが、2回目はその半分も点が取れませんでした。逆に1回目で散々な成績を出した別の受験者は、2回目では非常に良い成績を出しています。果たしてこの試験は、受験者が合格基準を超える能力を持っているのかを測定する仕組みとして、適切に機能していると言えるのでしょうか。
理想的には、テストを5回実施したら、「能力が判断基準を上回る人」は5回とも合格しなければ、受講者の能力を常に正しく測れているとはいえません。これをテストの「信頼性」といい、繰り返し測定した結果が安定しているかどうかを表す指標となります。
さて、「妥当性」「信頼性」を考慮して試験設計、問題作成を行い、無事に事前テストが終了したら、いよいよ合格基準を設定する段階です。もちろん事前テストを実施する以前にある程度の目安はあるでしょうが、事前テストの結果(言ってみれば、実データ)を分析して「何点を取ったら合格させるか」という基準を設定するのも、試験の作成者の重要な役割です。
まずは、
・ある得点を超えたら合格とするのか
・全体の上位何%あるいは上位何名を合格とするのか
を決めなければなりません。
前者であるならば、その合格点は何点であるべきなのか。実施毎に受験者の“でき具合”を見て判断するのか、それとも前もって決めておくのか。
後者であるならば、何%あるいは何名であるべきなのか。下位5人には追加講習を2時間受けてもらうというのも良いかもしれません。
また、合否判断の判断基準を設定する際、去年の合格基準と比べておくことも重要です。去年に比べて合格基準が高すぎると、受講者からは不満の声が上がってくるかもしれないからです。