[検索ヘルプ]
   HOME    |    IT系試験    |  語学・留学系試験  | プロフェッショナル系試験 |    国家資格    |  コーポレート情報 

スキルアップコラム

資格試験を受ける
試験をさがす・予約する
テストセンターをさがす
試験情報をみる
法人様用試験サービス
キャリアアップサポート情報
資格試験スクールガイド
スキルアップコラム
IT系イベント&キャンペーン
能力・キャリア開発事例
試験の実施/作成・分析
試験のコンピュータ化
試験のコンサルティング
English
Registration
Testing Center
HOMEスキルアップコラム>バックナンバー
認定資格試験:良いテストの条件とは?

「自分の知識を試すため」「資格を持っていると就職・転職に有利だから」・・・人々はさまざまな理由で資格試験を受験されることでしょう。言ってみれば、資格試験とは「ある基準に従って受験者を評価する仕組み」ですが、この「評価する仕組み」自体は、どのように評価できるのでしょうか?何をもって「良いテスト」だと言えるのか、疑問に思ったことはありませんか。

今回は、「テストの品質」について、その基本的な考え方を簡単に紹介します。実際に資格試験に出題される問題が作成される時にどんなことが考慮されているのか、「資格好きな日本人」としては気になるところです。

 試験結果を不服として裁判!?

一般に、資格試験を実施することの目的は、「受験者が、資格に相応しい能力と知識を持っているのか」を判断するための手段を提供することです。

個人や事業主、ひいては社会が、「資格保有者が、基準となるレベルの知識と技能を備えており、プロフェッショナルとしてサービスを提供できる」という事実を確認できる、非常に重要な手段になります。ですから、資格試験の合否が受験者個人のキャリア・人生に与える影響は非常に重大です。米国では試験結果にまつわる裁判も起きているそうです。

このように、各ステークホルダーにとって資格試験の持つ価値はかけがえがなく、同時に社会的責任も重大なのです。それでは、このような重大な役割を担う資格試験は、どのような観点で評価されるのでしょうか。

資格を認定する認定機関はそれぞれのテストの目的によって数々の指標を設定していますが、一般的には以下の3つのポイントが重要視されます。

 テストの品質を語る3つの指標

妥当性 「テストが意図された通りに受験者の能力を測定しているか」、あるいは、「テストによって目的に適した評価がなされているのか」を表します。
信頼性 「テストの結果が常に安定しているか」を表します。
合否判断の判断基準 格者と不合格者を分ける判断基準。多くの場合は合格点と呼ばれています。

言葉だけ聞いてもピンとこないかも知れませんので、例をあげて説明しましょう。

例えば、あなたがライフル射撃の教官で、これから訓練生の能力をテストしようとしているところを想像してみてください。この試験の結果によっては卒業できない訓練生もいるので、責任は重大ですね。それでは、早速試験方法の設計に取りかかりましょう。

まず射撃の仕方ですが、立って撃つのか、うつ伏せで撃つのか、いろいろ種類があります。
的の距離は50mが良いでしょうか、それとも100m?あまり遠すぎると誰も的に当てることが出来なくなるでしょう。
射撃回数は何回にしますか?1回、5回それとも10回?
的の形状や得点も決めなくてはいけません。
的は動くのか、固定しておくのか?

さてここで、あなたの設定したテストの内容が、訓練生がこれまで行ってきたトレーニングの目的を達成しているかを見極めるのに適しているか、ということを考えてみましょう。

もしこのトレーニングが、バイアスロンの選手強化合宿であれば、雪上でスキーを装着して射撃を実施しないと、テストの意味がなくなってしまいます。また、これがボディーガードの養成コースであれば、ライフルではなく短銃で、20m程度の至近距離で動く標的を用いてテストをしたほうが良いかもしれません。

このように、あなたがテストしたい能力を正しく測定できているかということを、テストの「妥当性」という言葉で表現します。

さて、「妥当性が高い」と思われる試験内容に基づき、実際に出題される問題・課題が作成されたとしましょう。試験を実施する前に、テストがうまく機能するかを試してみたくはないですか?
あなたが設計した試験を、何人かの生徒に事前に、それも1回だけでなく、何度か繰り返して受けてもらうことにしましょう。

すると面白い結果が出てきました。テストを受けるたびに受験者の成績がまったく違うのです。ある受験者は1回目の試験ではパーフェクトに近い成績を収めましたが、2回目はその半分も点が取れませんでした。逆に1回目で散々な成績を出した別の受験者は、2回目では非常に良い成績を出しています。果たしてこの試験は、受験者が合格基準を超える能力を持っているのかを測定する仕組みとして、適切に機能していると言えるのでしょうか。

理想的には、テストを5回実施したら、「能力が判断基準を上回る人」は5回とも合格しなければ、受講者の能力を常に正しく測れているとはいえません。これをテストの「信頼性」といい、繰り返し測定した結果が安定しているかどうかを表す指標となります。

さて、「妥当性」「信頼性」を考慮して試験設計、問題作成を行い、無事に事前テストが終了したら、いよいよ合格基準を設定する段階です。もちろん事前テストを実施する以前にある程度の目安はあるでしょうが、事前テストの結果(言ってみれば、実データ)を分析して「何点を取ったら合格させるか」という基準を設定するのも、試験の作成者の重要な役割です。

まずは、
・ある得点を超えたら合格とするのか
・全体の上位何%あるいは上位何名を合格とするのか
を決めなければなりません。

前者であるならば、その合格点は何点であるべきなのか。実施毎に受験者の“でき具合”を見て判断するのか、それとも前もって決めておくのか。
後者であるならば、何%あるいは何名であるべきなのか。下位5人には追加講習を2時間受けてもらうというのも良いかもしれません。
また、合否判断の判断基準を設定する際、去年の合格基準と比べておくことも重要です。去年に比べて合格基準が高すぎると、受講者からは不満の声が上がってくるかもしれないからです。

 テストの専門家 「サイコメトリシャン」

このような指標を考慮して品質の高い資格試験を実施するために、多くの認定機関は「サイコメトリシャン」というテストの専門家に、試験の設計やデータの分析を依頼します。サイコメトリックス(Psychometrics)の語源は心理(psycho)と計量学(metrics)から来ていて、心理学や教育学の分野で盛んに研究がなされています。

特に米国では、妥当性・信頼性の低いテストを実施することが訴訟問題に発展するリスクを避けるために、数学・統計学の理論を基礎にしたサイコメトリックス分析と呼ばれる方法で、設問ごと/試験全体での分析を行います。認定機関は、前年度実施分との比較を行い、次回実施分の問題作成現場にフィードバックすることによって、恒常的にテストの品質を維持するために役立てています。

常に試験が受験者の能力を正しく評価しているのかを認定機関自らが定期的にチェックし、言い換えれば「品質の高いテスト」を提供するように努力し続けることで、受験者からも、社会からも、その価値を認められる資格試験が運営されるのです。

 日米試験事情

米国では、サイコメトリックスや教育測定学(Educational Measurement)という学問が、アカデミックの域を越えて存在し、産官学を交えた組織やコミュニティが、「試験という仕組みに求められる品質や社会的役割」を議論し実践していくために活動しています。

公的機関や大学、そして企業が共同でテストに関する哲学・技術を研究し、より妥当性・信頼性の高い試験を実施する方法論を日々開発しています。そういった長年の研究の蓄積が資格試験に関する基準になっており、試験が達成しなければならない目的を、公正かつ適切に実現するための指針となっています。

では日本の試験事情はどうでしょうか?

日本では、試験に関する科学的な考え方が米国ほど普及してはいない状況で、認定試験によっては実施年度ごとの難易度のバラツキが指摘されることもあるようです。しかし、企業や団体の説明責任という考え方とあいまって、受験者の能力を正確に測定し評価することへの認識は、確実に高まってきています。

近年「科学的基礎と教育的理念に裏付けられた新しいテスト法の考え方と評価技術の研究開発・実用化」を目指して日本テスト学会が発足しました。今年は8月18日(木)・19日(金)に第3回大会が早稲田大学西早稲田キャンパスにて行われ、産業界や行政からも多くの人が訪れました。今回は日本版の「テストの開発・実施・利用・管理に関する規準」についても活発に話し合われ、来春には日本にもテストの規準といったものが誕生することになっています。

このように日本の資格試験がテスト規準や科学的根拠を踏まえて運営されていくようになる日も、そう遠くはないような気がします。

劉 東岳
小山 聰
アール・プロメトリック株式会社

※nikkeibp.jp events SPECIALより転載

スキルアップコラムTOPへ
コピーライト個人情報保護にあたってプライバシーポリシー