(2) 生成したGAの評価結果について

 評価の安定性を検証(同一論文の再評価)

以下では,本プロジェクトで得られた実験結果を示します。
まずは,評価の安定性を確認するために行った同一論文の再評価について説明します。

目的

評価者が同じ基準で繰り返し評価できるかを確認し,評価の一貫性と後続の実験結果の信頼性を確保します。

手法

最初に提示した1編の論文を最後に再提示し,内容推測度と関心喚起度をそれぞれ5点で評価,
スライドの順序や表示順はランダムに設定しました。

結果

分散分析の結果,有意差は認められず大きな変動は見られなかったことから,評価は安定していると判断できます。

論文内容の推測しやすさ(1/2):全体傾向

ここでは,GAが論文理解に与える効果を,全体的な傾向から確認します。
GAを提示することで,学生が論文内容をどの程度推測しやすくなるのかを検証しました。

目的

GAの有無によって,論文内容の推測しやすさが変化するかを検証します。

手法

各論文について,GAを閲覧した後に「内容推測度」を5点満点で評価します。

結果

GAを閲覧することで内容推測度が有意に上昇しました(p<0.001)。ただし,交互作用も有意ですので,論文によって効果が異なることが分かります。そこで,以下の検討を行いました。

 

論文内容の推測しやすさ(2/2):著者属性別

全体傾向に続き,GAの効果が,評価者にとっての専門分野によって異なるかどうかを検証しました。
そのために,自学科の論文と他学科の論文を比較することで,分野への馴染みが推測度に与える影響を確認しました。

目的

GAの効果に「分野の馴染み」による違いがあるかを検証します。

手法

GA閲覧前後の内容推測度の変化を,評価者から見た著者属性(自学科/他学科)に分けて比較します。

結果

特に他学科の論文で内容推測度が大きく上昇し,専門外の分野でのGAの効果がより高い可能性が示されました。

論文への関心の喚起(1/2):プロンプトによる違い

内容推測度の分析に続き,論文への関心喚起について検証しました。
まずは,提示するプロンプトの違いが評価に与える影響を比較します。

目的

GAの提示が論文への関心喚起に与える影響を分析します。

手法

各論文に対して3種類のプロンプトを提示し,それぞれについて「読んでみたいと思う程度(=関心喚起度)」を5点満点で評価します。

結果

平均値はPro②がやや高い傾向を示し,さらにプロンプトと論文の交互作用が有意であったことから,プロンプトの効果は論文ごとに異なることが確認されました。

論文への関心の喚起(2/2):星取表

プロンプト別の違いに続き,関心喚起度における勝敗の傾向を整理しました。
ここでは,単純主効果が有意であった論文に注目し,各プロンプトの勝敗関係を星取表にまとめます。

目的

プロンプトごとに生成されたGAが関心喚起度に与える効果を比較します。

手法

関心喚起度においてプロンプト間の差が有意であった12論文を対象とし,比較結果が有意な場合以下のルールで得点化します。
(例:Pro①>Pro②が有意 → Pro① 1点,Pro② ー1点)

結果

Pro②は他のプロンプトに比べて負けにくく,安定した成績を示しました。
このことからPro②は無難なGAを生成しやすいプロンプトである可能性が示唆されました。

次は,実際に3種類のプロンプトから生成された画像一覧と、実験結果を踏まえた考察とまとめです。