“教育鉴赏”与课程评价的理论流派与典型模式（上） _八面来风_教育视野

　信息搜索

高级

　本站专题

更多专题...

· 语文味集锦

栏目导航 网站首页 > 教育视野> 八面来风

文章标题：《“教育鉴赏”与课程评价的理论流派与典型模式（上）》

阅读次数：5373

　版权申明：本站发布的原创文章或作品版权归我站和作者共有，如需转载，请注明出处和作者。本站所提供的所有文章及作品，如需使用，请与原作者联系，版权归原作者所有。

“教育鉴赏”与课程评价的理论流派与典型模式（上）

（程少堂2013年3月9日按：现在艾斯纳的“教育鉴赏”很时髦。我在上世纪九十年代也曾提出建构《语文教学鉴赏学》。见我在做中学老师期间发表的最后一篇文章、《中学语文》1990年第8期《开创语文教学法研究的新局面》http://www.yuwenwei.net/ReadNews.asp?NewsID=9000）

课程评价的理论流派与典型模式（上）

课程评价的研究有不同的角度，这些不同的角度反映出评价的不同面貌。本章选取模式化研究这一角度，试图对评价进行一种整体的、概观的把握。

第一节课程评价模式及其指标

一、从模式的角度看课程评价

作为一种理论研究方法，模式（model）意指一种小的模型或体系，它蕴含着一定的思想取向和结构，并表现为一定的操作规则和方法、步骤。课程的评价模式是评价人员或研究工作者依据某种教育理念、课程思想或特定的评价目的，选取一种或几种评价途径所建立起的相对完整的评价体系，它对评价的实施作了基本的说明。因此，一种评价模式通常有着一以贯之的教育或课程理念，这是一种模式区别于其他模式的根本所在。

由于20世纪60年代的课程改革带动了评价的发展，评价领域日渐繁荣，各种各样的评价思想、目的、方法、途径层出不穷。但这种理论上的繁荣容易给实践中的选择带来困惑，人们日益意识到对评价的系统化以及为一些实践中发展起来的评价方法和途径寻求理论辩护的需要。因此，自20世纪70年代始，一些评价理论家纷纷转向对评价模式的探究，即以一种系统化、整体化的观点看待评价问题，并在不同评价之间进行比较与综合，试图揭示不同模式彼此异同的根本所在，也为开发新的评价模式提供依据。模式化的研究途径由此盛行。

斯太克（Stake，1976）认为，对评价模式的分类要考虑如下八个维度：形成性——总结性；正规——非正规；个案分立——推广；结果——过程；描述性——判断性；预定式——反应式；整体性——分析性；内在的——外在的。[①]舒伯特（Schubert，1986）按照评价的不同取向，把评价模式列述为：目标为本的评价、目标游离评价、自然主义的评价、批判的评价、教师作为研究者的评价、理论化的评价、回应性评价以及从其他专业中引申出的评价模式等。[②]麦克尼尔（McNeil，1985）则以评价是以技术为取向还是以自我实现为取向或以社会重建为取向，把评价分为共识模式和多元模式两大类，前者包括泰勒的目标为本的评价及斯塔弗毕姆（D．L． Stufflebeam）的…情境—输入—过程—产品”（CIPP）评价，后者包括斯太克的全貌模式、艾斯纳的鉴赏模式以及批判性探究评价等。[③]阿尔金（M．C．Alkin）等则依据评价的性质与用途，把评价分为指令性模式与说明性模式。指令性模式包括一系列规则、规定，以及说明什么是好的、恰当的评价和怎样进行评价等指导性文件，这种模式通常是作为评价活动的范本而使用的，如政府有关教育督导的和教育评价部门颁发的评价文件；说明性模式是关于评价的一些说明或概括性论述，是对评价活动的描述、预测和解释，这类模式是为提供经验性理论而设计的，它通常是从某种角度出发，对有关评价对象的一种研究、一种理论模型，因此，有些学者认为评价与研究的含义越来越接近。[④]

评价的模式化研究为人们提供了如何实施一种特定评价的一般轮廓。但是，模式不是一种问题清单，评价的实施并非亦步亦趋地遵循模式提出的步骤而不顾学校的具体环境。学校对某一评价模式的采用，应当使得参与评价的有关各方都感到满意，且能对模式的一般价值取向达成共识。在这点上，国外目前的趋势是特别重视被评价者的观点和态度，如前述古巴和林肯的第四代评价就是一例。对于采用的模式，学校应该准备予以修正，甚至在理由正当的情况下完全放弃。这样做，也许会导致要重新考虑采用新的模式甚或创造新模式，但事实上，这往往是产生良好课程计划的关键。二、评价模式的指标

阿尔金等人认为，[⑤]衡量一个指令性评价模式应当使用如下三项指标，即方法上的经验性、价值上的可估性、用途上的目的性。事实上，一般评价模式都具有这三方面的性质，都可根据这三个方面加以衡量。

（一）方法上的经验性

方法上的经验性是指评价者所使用的观察、搜集以及描述、解释评价数据和材料的方法，在性质上应当可信、适用。评价模式的建立离不开方法的选用，恰当而有效的方法是评价成功的保证。多数评价模式的建立者是某种特定方法论或具体方法的热烈拥护者，他们认为这些方法就是评价时最为有用的。例如，许多人认为，恰当的测量和大量的数据是高质量评价的基础；有些人认为评价和实验研究很类似，因此评价应当采取实验设计的方式；而有些人认为大量的定性资料是评价的必要条件；也有人认为，只有标准参照测验才是恰当的评价。

一般而言，一个评价模式往往要结合使用几种不同方式，才能得到可靠、充分、适用的评价数据和资料。

（二）价值上的可估性

价值上的可估性是指评价得到的各种数据和资料在价值上是可以确定的。至于确定的标准以及由谁来确定，不同的模式有不同的主张。有人主张评价人员应该同时也是价值判断人员。有时，评价人员汇集各有关方面的意见作出价值判断；在有些情况下，评价人员也可以以常模或其他成功的计划为标准进行比较而作出判断；在另外的情况下，评价人员则以个人的背景、知识和经验作为价值判断的基础。也有人怀疑评价人员单方面不一定能公正地处理各有关方面的需要和尺度标准，因此，应当由各方面的代表共同组成“陪审团”，对价值标准进行集体审议；还有人认为，评价人员应该把得到的数据资料提供给每一个不同的评价听取人，让他们自己进行判断。

当前，由于人们越来越认同和接受价值的多元化，因此很少有评价再把某一种或某方面人员的价值观作为标准。一般认为，通过各方面人员共同参加审议的方式获得各种价值的共通标准，是评价成功的一条有效途径。

（三）用途上的目的性

用途上的目的性是指评价在使用上能解决什么问题、具备何种功能。在本章第一节中，我们曾讨论了评价的几种最典型的功能。由于不同的使用目的和功能，评价在信息数据收集的方法、赋值判断的标准等方面就会有所不同，从而表现为不同的评价模式。这也就是说，每种评价模式都有自己特殊的用途，满足使用者的某种具体目的。

根据斯塔弗毕姆1981年的统计，80年代伊始，就已经出现了 40多种评价模式，它们大都描述或说明了如何计划和实施评价活动。[⑥]最近，在原来的基础上，又出现了许多新的评价模式。下面，我们选取在评价史上有着特殊影响且对今天的评价领域仍发挥着主要作用的七种评价模式，进行详细探讨。这七种模式分别是：（1）泰勒（Ralph W．Tyler）的目标模式（objectives model），这种模式是从泰勒理性主义的线性课程计划方法中引申出来的；（2）普罗沃斯（M．M．Provus）的差距模式（discrepancy model），该模式强调标准与表现之间的差距；（3）斯塔弗毕姆的背景一输入一过程一成果模式（CIPP模式），这是一种改良取向的课程评价模式；（4）斯太克（RobertE．Stake）的回应模式（responsive model），该模式强调在描述课程和教学场景时，既要使用正规的资料，也要使用非正规的资料；（5）帕勒特和汉米尔顿（Malcolm Parlett and David Hamilton）的解释模式（illuminative model），该模式运用了社会人类学及相关领域的技术，把某种意义赋予一定的课程或教学情境；（6）以斯腾豪斯（L. Stenhouse）为代表的研究模式（researchmodel），该模式认为评价即研究；（7）艾斯纳（Elliot W．Eisner）的鉴赏模式（connoisseurship model），该模式来自艾斯纳的课程开发途径，它同样要赋予情境一定的意义，但使用的是艺术批评和其他质性方法的方式。

第二节课程评价的目标模式

前已述及，教育评价存在的历史虽然由来已久，但对评价进行科学的或系统的开发却是20世纪以来的事情。目标模式无疑是这一开发进程中最早的也是最完备的评价理论模型，它对20世纪的评价理论与实践产生了深远的影响，为评价领域后来的发展开辟了道路。20世纪后半叶发展起来的各种评价主张，无不是在对目标模式的借鉴与批判中成长的。它的创立者拉尔夫·泰勒也因此赢得了“教育评价之父”的美誉。

一、目标模式的背景与来源

评价的目标模式是为了解决教育实践中存在的问题而在实践过程中发展起来的一种模式。泰勒本人对此有过详细的描述。[⑦]1929年，泰勒应俄亥俄州立大学教育研究所所长查特斯（W．W．Chartem）之邀，主持该所成绩测验室的工作。当时，大学本科生退学现象严重，人们希望能通过改进教学缓解这一现象。作为课程科学化运动的先驱，查特斯要求泰勒集中精力研究本科生学程，并通过使用各种测验和测量，有效地改进本科生的教学。泰勒选择了生物学课程作为切人点，并与任课教师密切协作。

通过研究，泰勒发现，当时学校中普遍采用的典型测验，都只是让学生回忆所学的具体信息，而课程计划中原来希望学生习得的那些复杂行为，却无法得到体现。这种测验不能客观地评估课程计划的实际进展情况，学生也因此只注重那些测验中所需要的具体信息，而忽视了更重要的东西。因此，泰勒和教师们认为，应当编制新的测验来代替旧测验。泰勒提出，为了清晰、准确地了解课程计划的执行情况，新测验的编制者应该了解需要学生完成的每一类内容具体是什么，并且对教育目标应该有一定的看法。由此，泰勒与教师们一起讨论了教育目标的界说问题，并进一步扩展了测验的类型，使之不再局限于传统的多项选择。在生物学课程测验中取得的这项经验，当时也被其他学科的教师反复采用。泰勒为此撰写了《成绩测验编制的一般技术》（A Generalized Technique for Constructing Achievement Tests）一文，被收入1934年出版的《成绩测验的编制》（Constructing Achievement Tests）一书。这即是评价领域中的“泰勒原理”的出处。

由于泰勒对评价领域的贡献，1934年起，泰勒应邀主持“八年研究”的评价工作。在这一规模宏大、影响深远的实验研究中，泰勒与同事们一起，根据实验进展的需要，把评价融入整个课程与教学设计中，使评价成为课程与教学设计的一个有机环节。这不仅使得评价的目标模式更趋成熟，而且促成了泰勒对课程与教学领域的另一卓越贡献——概括出版《课程与教学的基本原理》一书，提出了课程与教学领域中的“泰勒原理”。

二、目标模式的基本内容

（一）关于评价的基本观点

在《课程与教学的基本原理》一书中，泰勒对自己的评价观作了概括的说明：

评价的过程，实质上是判定课程与教学计划在多大程度上实际实现了教育目标的过程。然而，由于教育目标本质上是描述人的行为的变化，即是说，目标的用意在于使学生的行为类型产生某些期望的变化，因而，评价就是判定这些行为变化实际发生的程度的过程。[⑧]

根据泰勒的看法，这一观点包含了两方面的内容。其一是指评价必须针对学生的行为而进行，因为教育的根本宗旨就是使学生的行为发生变化。其二是指评价活动不可能一次完成，而必须经过两次以上。这是因为评价要反映的是行为的变化，这种变化必须通过两次乃至更多评价活动的相互对比才能得以反映。因此，泰勒指出，对一项教学计划的评价不能只是根据该计划结束时学生的测验成绩来进行。一个恰当的评价至少包括两次评估：一次在课程计划实施的早期进行，另一次在后期进行，以便测量在这个期间发生的变化。

（二）关于评价的方法

从上述评价观念出发，泰勒认为，尽管传统的纸笔测验（paper and pencil tests）为收集学生行为变化的证据提供了有效的方法，但评价方法并不仅仅局限于此。泰勒指出，事实上，无论是在中小学还是在学院，凡是能获得教育目标所指各种行为之有效证据的任何途径，都可看作是评价的适当方法。比如，在评价学生的习惯和某些操作技能方面；观察是一种有效的方法；在获取学生态度、兴趣和鉴赏力方面发生变化的证据时，交谈、问卷都可作为有效的方法；收集学生的实际作品有时也是获得行为证据的有效途径：作文可作为学生写作能力的证据，图画可作为学生绘画技能或这方面兴趣的证据；甚至图书馆的借阅记录也可作为学生阅读兴趣的证据，等等。

另外，泰勒认为，抽样是有效评价可以接受的一个观念。抽样包括许多方面，如对一个学生群体进行评价时，无需知道每一个人的反应，而可以抽取其中某些有代表性的人作为样本；对一个学生写作能力的评估，也无需了解他的全部书面作业，而只需抽出适量样本进行评估。泰勒认为，抽样所得的评价结果具有推广性。

（三）关于评价的步骤

综合泰勒对评价程序或编制评价程序的表述，评价大体包含如下步骤：

1．建立课程计划的目的和目标；

2．按照行为和内容两个维度界说每一个目标；

3．确定让学生有机会表现教育目标所指行为的情境；

4．选择和编制相应的评价工具；

5．设计获取学生行为记录的方式和使用的计分单位；

6．收集反映学生行为变化的有关信息；

7．将收集到的信息与行为目标作比较。

泰勒的上述评价步骤与其评价定义是相吻合的。既然课程与教学计划的目的是为了改变学生的行为类型，那么要求评价反映行为变化的程度就是恰当的。因此，建立课程计划的目的和目标，并用行为术语对每一个目标加以界说，理应作为评价的出发点。行为目标确定之后，再为学生提供表现这种行为所需要的情境，那么目标是否达到就能清楚地检验出来了。行为目标是合理的评价标准。

事实上，泰勒的评价模式与其课程计划编制模式是同一思维类型在不同领域的应用，是一个相当完备的理论模型，二者都可以用图4-1表示。

（四）评价的功能或评价结果的使用

课程评价首要的或最重要的功能就是修订课程与教学计划。如图4—1所示，目标模式的几个步骤之间形成了一个循环的回路，在这个回路中，目标的确定、学习情境的设计、学习材料的组织等相关环节恰当与否，都可通过评价反映出来，从而为修订计划提供有效的信息。正是在这个意义上，泰勒才说：“课程设计是一个连续的过程，……它有一个重新设计、重新开发和重新评价的过程。在这种连续环中，课程与教学计划就能年复一年地得到改进。”[⑨]

评价的第二个功能是有助于进一步澄清教育目标。在课程设计阶段，有些目标可能界说得并不清楚，但界说清楚的目标是进行评价的前提和标准。因此，借助评价可以进一步澄清教育目标。

评价的第三个功能是影响教学和学习。泰勒根据研究指出，评价对于教学和学习内容的影响可能比教学大纲本身的影响还要大。这是因为人们习惯上把评价的结果看作是对教学质量成效的反映。在这个问题上，泰勒强调，学生的学和教师的教都会受到他们所预期的那种评价的影响，因此，评价一定要与课程的教育目标密切联系，否则，受重视的可能就只是评价过程，而课程目标则有可能被忽略。

评价的第四个功能是有利于对学生的个别指导。评价可以诊断学生的学习状况，并使教师和学生采取适当措施予以补救；评价的结果还可以为教师修改教学过程提供依据，使之更符合学生的学习能力和需要。

泰勒提到的评价的最后一个功能是，评价提供了判断教育是否成功的一种信息。但泰勒更关心的显然不是这点。在泰勒看来，评价的真正价值在于“判定学生实际上发生了怎样的行为变化，我们在何种程度上达成了教育目标，以及为了获得一种有效的教育计划，我们还必须作哪些进一步的改进”。[⑩]

三、目标模式的得与失

目标模式是建立在严格的“目的—手段”二分理性基础之上的。它开始于确定目标，然后用学生行为的语言来陈述目标。泰勒认为，目标要从学生、当代社会以及学科专家的建议引申出来，并经过哲学和教育心理学的筛选。评价者的任务不是探究这些课程目标的价值，而是判定目标中规定的学生行为实际实现的程度。

作为课程评价领域第一个完整的理论模型，目标模式曾在国际范围内广为流传，并一度成为评价的代名词。它所讨论的问题奠定了评价领域的基础，后来的评价模式都和它有着或多或少的联系。正因如此，它受到的褒扬和责难也最多。归纳起来，目标模式的主要特点如下。

第一，目标模式把评价关注的焦点从学生转向整个课程方案。这是目标模式比20世纪40年代前的一般评价方式进步的一个地方。40年代以前，评价仅仅被认定为对学生学业成绩的测量，对课程方案评价的依据即是测得的学生成绩，而采用的方法也多是常模测验或标准化测验。[11]目标模式则要求评价人员必须对课程方案的宗旨、目标及其界定以及方案实施的情境等都有所了解。相应地，评价的具体方法也不再局限于纸笔测验，“任何关于行为目标是否达成的有效证据，都可被看作是评价的有效方法”。因此，泰勒特别举出观察、访谈以及对学生作业与练习的评估等方法。

评价关注焦点的扩展是目标模式对评价领域的一个重要贡献。正如泰勒本人所总结的，它让“人们普遍接受了用教育评价来代替测验”的概念。[12]某种程度上说，它使得评价冲破了二三十年代盛行的效率运动的樊篱，更深地触摸到课程计划的实际层面，反映出对实践的复杂性的认识。就此看来，施瓦布后来提倡的实践理性在泰勒那里就开始了最初的努力，只不过限于所处的历史时期，泰勒只能迈出自己力所能及的一步。

第二，目标模式提供了可用于修改课程计划的反馈方式。目标模式把评价融入课程设计过程，提出了一个循环圈，认为评价应当为课程修订提供有用的信息。在这一动态过程中，教育目标、课程的内容与组织、课程的实施等，都在可以修改的范围之内，课程开发由此不断拓展和深入，课程计划不断完善。

然而遗憾的是，尽管泰勒的初衷是把评价结果用于课程计划修订的过程，但正如斯塔弗毕姆等人所说，“泰勒的评价概念——亦即目标与结果彼此相关，使人易于把注意力集中在评价结果的终结程序上。这种终结程序只有在教育方案进展完毕后，才能产生资讯（information）”。[13]因此，在实践中，目标模式几乎只用来评价课程方案的最终结果，评价也因而成为课程开发的最后一个环节。这与目标模式的本意大相径庭，从而削弱了目标模式本应具有的潜力，目标模式也因此受到众多的批评和指责。

第三，目标模式提出了用教育目标作为评价的标准。泰勒的目标模式特别强调行为目标，目标不仅是评价的起点，而且也是评价的标准。这种做法虽然简单易行，但同时，正如多数批评者指出的那样，却使课程计划陷入一种预测模式之中——评价只是将结果与预定目标相比照，而计划的其他步骤中有价值的东西以及目标以外的结果却被忽略了。目标取向因此几乎成了所有后人批判目标模式的靶子。另外，通过对目标的行为化表述，增加了目标的可操作性，评价者可以清晰而准确地判断目标达成的情况，但事实上，有些教育目标是无法用行为语言恰当地表述的。尽管布卢姆等人后来编制出了情感领域的行为目标，但相对于人类意识的复杂性，仍难免简单之嫌。

第四，目标模式把当时出现的一些新理念与既有的科学传统结合在一起。[14]在目标模式中，出现了一些新的理念。例如，用行为语言来陈述教育目标，从目标中引申出恰当的学习经验（有别于内容），对学习经验加以纵向和横向整合，以及使用反馈和循环的方式提供修订课程计划的信息，等等。然而，这些新理念被泰勒与从科学测验运动中得出的旧有观念混合在一起使用，像测量、客观性、效度、信度等概念，仍然是目标模式所强调的重要概念。[15]难怪克利巴德（H．M．Kliebard）批评泰勒：“在实际上同样面临相互冲突的教育学说时，杜威的解决方法是创造性地重组问题；泰勒则是将它们并列地放在一起。”[16]

总之，目标模式是它所处时代的产物，其得失利弊与其所处的时代是分不开的。它的产生为评价领域提供了第一个完整的理论模型，开辟了评价领域理论化的道路。该模式逻辑明了，方便实用，因而迄今为止仍对课程编制和开发人员以及一些教师具有相当的吸引力。

第三节课程评价的差距模式

一、差距模式的产生背景

1969年，美国课程论专家普罗沃斯发表《公立学校体制中正在进行的方案评价》（Evaluation of Ongoing Programs in the Public School System）一文。[17]他在文中确立起其“方案评价”（program evaluation）的基本理念，并提出了课程评价的差距模式。

差距模式产生的直接背景是20世纪60年代末美国课程方案评价的不规范。当时存在的许多课程方案评价往往只重视方案之间的比较，却不关注一个课程方案究竟由哪些方面构成，方案之间究竟有没有可比性，方案评价的本质究竟是什么。由此导致的结果是使课程评价走上歧途，这种评价非但不会促进课程改革的发展，反而误导了课程改革的进行。

课程方案评价的本质是什么？普罗沃斯写道：方案评价是一种过程，藉以：界定方案的标准；确定方案各层面与有关标准之间是否存在差距；使用所获得的差距资料来改变表现或改变方案标准。[18]在普罗沃斯看来，方案评价的本质就是方案标准（standards）与方案表现（performance）相对照的过程，通过对照找到标准与表现之间的差距（discrepancy）。这就是“差距模式”的由来。

二、差距模式的基本内容

差距模式实际上是一套确定方案标准与方案表现之差距的运作程序。在普罗沃斯看来，该程序包括五个环节或五个阶段。

（一）界定方案标准以及对设计方案的评价

在普罗沃斯看来，方案标准即是方案的目标及实现目标的条件。因此，一个完整的方案标准主要包括三个部分：第一，方案的目标；第二，实现方案目标的先决条件，包括实现目标所需要的人员、媒体、设备等；第三，实现目标所需要的活动过程。方案标准是方案设计和运作的根据，也是对方案进行评价的根据。根据方案标准对课程方案进行总体设计与规划，由此形成设计的方案。评价设计方案就是看其是否符合预定的标准。

（二）对已装配方案的评价（装配评价）

方案设计完毕后即投入实践过程。在实践过程中，根据预定标准对方案进行装配（installation），由此形成了“装配的方案”。装配的方案即预定标准的表现（performance）。对已装配的方案的评价就是将预定标准与已装配方案加以对照并寻找差距的过程。寻找差距的过程包括：是否符合方案的目标；是否具备实现方案目标的先决条件；是否达到实现目标的活动要求。通过这种评价，为下列行动提供依据：继续执行方案；修改方案；终止方案；修改预定标准。

（三）过程评价

过程评价是对指向课程最终目标或预期结果的一系列过程目标（enabling　objectives）是否达到的评价。所谓过程目标，是实现最终目标或预期结果的阶段目标，是最终目标和预期结果在过程中的分解。过程评价的过程同时是对预期目标、实现目标的先决条件、实现目标的活动过程三者间关系的重新认定过程。过程评价的重点在于判断学习活动是否产生了预期结果。

（四）结果评价

结果评价是判断方案的预期目标是否达成的过程，这是把方案的预期目标与方案的实施结果加以对照的过程。如果说装配评价和过程评价是旨在探讨方案的构成部分能否有效而稳定地存在，那么结果评价则是对方案的整体评价。<, /SPAN>

（五）效益分析

效益分析是通过对不同方案的比较，判断哪一个或哪一些方案最经济有效地实现了预期目标。这是方案比较阶段，亦是差距模式的最后阶段。该阶段的关键是找出具有可比性的不同方案。普罗沃斯认为，找出具有可比性的不同方案加以比较并不容易。[19]

综上所述，在五个阶段的评价中，除最后一个阶段，即效益分析外，每一阶段的评价都包括比较和寻找差距两个方面。通过评价作出下列选择：（1）如果符合预定目标，则进入下一阶段；（2）如果不符合预定目标，则或者重复此阶段的工作直到达成目标，或者返回前面的阶段修改预期目标或修改设计，或者终止此阶段（如图 4-2所示）。

三、差距模式的得与失

普罗沃斯是继拉尔夫·泰勒之后系统阐述课程方案的评价的著名课程学者之一。他继承了“泰勒原理”并对其作出一定程度的发展。他对方案评价本质的阐述直接源于泰勒，但他所提出的五阶段课程评价模式是对泰勒的评价模式的精致化，并在一定程度上纠正了泰勒只关注预定目标不关注过程的缺陷。差距模式与“泰勒原理”相比有了一定程度的选择性和开放性。与“泰勒原理”一样，普罗沃斯的差距模式也是源于课程实践，因而具有很强的应用价值。

但从总体来看，差距模式属于目标本位评价的范畴，它强调预定目标，强调确定的评价标准，这与泰勒的目标模式没有实质性的区别。正像目标模式一样，差距模式渗透着对“技术理性”的追求，强调对课程实践过程的有效控制，这种限制甚至阉割了课程实践丰富多彩、千变万化的能动性、创造性、主体性。

第四节课程评价的背景一输入

一过程一输出模式（CIPP模式）

一、CIPP模式的产生背景

课程评价的CIPP模式（背景一输入一过程一输出模式）是由美国著名教育评价专家斯塔弗毕姆及其同事于20世纪60年代末、70年代初系统确立起来的。1965年，美国联邦政府通过了《美国初等与中等教育法案》（America's Elementary and Secondary EducationAct，简称ESEA）。该法案提供全美各学区几十亿美元的资助，以改进文化不利阶层学生的教育，并提升整个初等及中等教育的质量。联邦政府要求凡接受该法案资助的项目都必须接受评价。斯塔弗毕姆便投入了这项规模巨大的评价工作之中。

一开始，斯塔弗毕姆及其同事所采用的评价方法是在当时的美国已经盛行了30年的泰勒评价原理，即课程评价的目标模式。根据该模式，他们首先确认每一个方案的行为目标，选择或开发测量学生表现的适当工具，在教学结束后开展测验，然后将学生的表现与方案的目标相比较，由此确定方案的价值。经过初步尝试，他们发现目标模式不适合评价ESEA所资助的有关方案：第一，教育人员很难确定方案实施后学生们的具体行为表现；第二，方案的制定者彼此间无法对那些明细的行为目标达成一致的看法，因为学生的需求是多种多样的，根本不可能找出一套共同的目标以涵盖学生们不同的发展层次与需求；第三，现有的测验不符合文化不利阶层学生的语言模式，而欲修改这些测验以符合ESEA方案评价之用又不太可能；第四，根据目标模式，只能在每项方案实施结束后的年底提交评价报告，那时就来不及协助方案工作人员在过程中找出并解决所遇到的问题。

正是基于这种经历与认识，斯塔弗毕姆及其同事认为，应确立一种超越目标模式的新的评价模式，这种模式应能提供整体的、全面的信息，以帮助方案目标的确定、研究计划的修订、方案的实施以及方案实施结果的考核，这就形成了背景一输入一过程一输出这样一个系统评价模式。

二、CIPP模式的基本内容

（一）评价的本质

斯塔弗毕姆认为，教育活动中所需的评价应是广义的，不限于确定目标是否达成。评价应该有助于方案的管理与改进。评价的最大目的在于为学校行政人员、方案领导人员以及学校教师们提供信息，以便在必要时对方案加以修正。斯塔弗毕姆曾说：评价最重要的目的不在证明而在改良（not to prove but to improve）。[20]就是说，评价最重要的目的不在于为评价对象的优劣提供证明，而在于改良评价对象，使评价对象更富成效。

1966年，斯塔弗毕姆为评价下了一个简明的定义：“评价是提供有用资料以作决定的历程。”[21]这个新的不同于泰勒的评价定义一经发表，即在当时的美国获得来自各方面的积极响应。既然评价是为改良服务的，那么，决定的种类就对应着评价的种类。就一项方案的执行而言，大致需要四种决定：规划性决定（planning decisions）——指向确定方案目标的决定；结构性决定（structuring decisions）——指向修改方案或比较方案优劣的决定；实施性决定（implementation decisions）——指向方案具体实施的决定；考核性决定（recycling decisions）——指向判断方案最终实施结果的决定。对应这四种决定，就存在四种方案评价：背景评价（context evaluation）；输入评价（input evaluation）；过程评价（process evaluation）；成果评价（product evaluation）。取这四种评价的英文的首字母，即形成所谓“CIPP模式”。

由此看来，斯塔弗毕姆的评价观是一种系统的、改良取向的评价观。在《系统评价》一书中，斯塔弗毕姆提出了评价的下列特征：[22]第一，评价是一个机构（比如学校）中正规运作的一部分，而非仅仅是创新性方案中的一项特别活动。CIPP模式或其他特殊评价途径的施行，都只是此机构中正式及非正式评价活动的一部分而已。第二，评价在方案变革方面所扮演的角色极为重要。第三，只有在现有的信息不足时，才有必要采用CIPP模式的四种评价，而并非由于这四种评价具有内在价值，就非要按程序全部进行不可。第四，应把方案的评价视为方案开发过程的有机构成。第五，评价所获得的信息不仅可以指引与方案实施有关的各机构解决其问题，而且可以将评价信息保存下来，以供公众查阅之用，同时也为判断一个特殊方案的存废是否具有充分的理由提供资料基础。第六，关于是否开始、延续、采纳或废止一项方案所作的决定，反映了各种理性及非理性的力量（如各种政治势力的力量），远非评价人员所决定的，这意味着评价人员需要本着平常心从事工作。

（二）CIPP模式的具体构成

1．背景评价（context evaluation）

背景评价系对方案出台的背景及方案目标确定的依据的评价。背景评价的主要内容包括：特定情境究竟存在哪些需求？这些需求是否普遍且重要？满足这些需求存在哪些困难？满足这些需求的可能方式有哪些？方案的目标反映这些需求的程度如何？怎样调整方案目标以真正满足特定需求？背景评价的主要方法包括：系统分析、调查、文件探讨、听证会、访谈、诊断性测验等。背景评价的主要功能是提供用以调整或建立目标与方针的基础，决定方案实施的场所。

2．输入评价（input evaluation）

输入评价系对能够达成目标的几种可能的方案设计之优劣的评价。输入评价的主要内容包括：哪种包括人员、实施程序及经费预算的方案设计更符合目标要求？除目前被认同的方案外，还有哪些替代性方案？为什么选择目前这一方案？怎样设计这一方案的实施策略？本方案的经费预算及实施进度如何？输入评价的主要方法包括：将现有的人力、物力、解决策略及程序设计列出清单，并分析其适切性、有效性及经济性；考察几种有关可供选择的方案的文献；考察获得成功的类似方案；采用“建议小组技术”（advocacy team technique），对不同方案作出审慎判断；采用小型试验室的方法，选出最佳实施策略。输入评价的主要功能在于考察各种可能的方案策略，并发展一种适用的计划，从而避免把时间、金钱浪费在一个注定会失败或浪费资源的方案上。

3．过程评价（process evaluation），

过程评价系对所确定的方案的实施过程的评价。过程评价的主要内容包括：方案的进度如何？是否按原计划实施？是否有效地利用了可用资源？方案执行的程度如何？为何需要修正？基于什么理由？方案参与人员接受并实践其角色的程度如何？实施的方案与原计划有哪些差异？方案实施过程中的经费支出情况如何？评价者与方案参与者对方案质量的整体判断如何？过程评价的主要方法包括：追踪活动中可能出现、存在的障碍，并对出乎意料之外的障碍保持警觉；描述方案实施的真实过程；与方案工作人员不断交往并观察他们的活动。过程评价的主要功能在于实施并改善方案的设计及程序，提供一份方案实施的真实过程的记录，以便日后用以解释结果。

4．成果评价（product evaluation）

成果评价系对：—个方案的成就所进行的测量、解释与判断。成果评价的目的在于判断方案符合需求的程度，并全面考察方案的效果，包括预期效果与非预期效果、正面效果与负面效果。成果评价的主要内容包括：方案是否满足了预定目标与需求？方案的实施产生了哪些预期效果与非预期效果、正面效果与负面效果？与方案有关的各种人员对结果的价值与优点作何判断？实施方案者的受益程度如何？方案的结果信息与方案的背景、输人、过程的信息有着怎样的联系？成果评价的主要方法包括：对结果的标准下一个操作性定义并对之进行测量；收集与方案有关的各种人员对结果的判断；对结果进行质与量的分析。成果评价的主要功能在于决定是否继续、中止、修正某项课程变革活动，或调整其重点。

（三）课程评价的设计方略

怎样设计课程评价？首先要理解评价设计的性质。斯塔弗毕姆认为，评价人员往往面临两难困境：一方面，他们必须在评价开始前精心设计评价计划，以便使评价能够严谨而有效地进行；另一方面，他们又必须把评价计划设计得富有弹性，以便随着评价过程的展开而对预先设计进行不断的审查与修正，以满足过程的需要。要走出这种困境，评价人员及评价委托人应当正确认识评价设计的性质：评价的设计是一种过程，而非一种成果。尽管需要对评价的目标及程序进行预先设计，但还必须对所设计的目标及程序不断进行审查及修正，以使之真正付诸实践。

斯塔弗毕姆认为，在具体设计评价计划之前，首先应当思考下列问题：第一，谁是主要的评价委托人？他们想从评价中得到些什么？为什么？第二，哪种评价（背景、输入、过程、成果）最合适？委托人认为评价该如何进行？他们所定的时限是什么？他们认为评价信息的提供对象主要包括哪些人？第三，谁可能因为评价的实施而受损？为什么？要争取哪些人的合作？第四，已有哪些现存的信息？有关的历史是什么？第五，评价在实际上会有哪些正面的效益？可能产生哪些有害的后果？如何避免？第六，从事这项评价工作的人应具备哪些资格？如此等等。[23]如有条件，应首先对这些问题进行考察，然后再具体设计评价计划并付诸实施。

斯塔弗毕姆认为，评价设计的具体内容包括如下四个方面。

1．评价任务的检查

这是确定和明晰评价任务的过程。主要内容包括：界定评价对象；确认评价委托人及信息提供对象；确认评价的目的；确定采用评价的种类（如采用背景评价、输入评价、过程评价或成果评价中的一种、几种或全部）；确定评价准则（如实用、可行、适当、准确等等）。

2．获取信息的计划

这是对获取评价信息的方法和过程的详细规划。主要内容包括：确定获取评价信息的一般策略（如调查、个案研究、建议小组或实地实验）；确定用以指导测量、分析与解释的工作假设；收集信息的途径（如抽样、工具设计及资料收集）；分析信息的方法；解释结果的方法。

3．报告评价结果的计划

这是对评价结果的报告计划。主要内容包括：报告评价结果的准备；传播评价结果的报告；进一步追踪评价结果，以增进评价的影响力。

4．实施评价的计划

这是对评价的具体实施过程的计划。主要内容包括：确定评价进度；满足人员与资源需求的计划；元评价的提供；评价设计的定期更新计划；经费预算；备忘录或合约。

以上所列举的只是设计评价计划时所应考虑的一般问题，对一项具体评价计划的设计，还应考虑该评价计划的特殊需要。

（四）元评价

“元评价”（metaevaluation）的概念最初由美国著名评价专家斯克瑞文于1972年提出。[24]斯塔弗毕姆1975年进一步发展了此概念。[25]所谓元评价，即为了保证评价的可信与有效而对评价本身所进行的评价。这是基于一定的标准而对评价本身所进行的反思与批判，以保证评价的“合理性”。元评价所探讨的内容包括对评价工作再予评价的标准、过程与技术。

有效地进行元评价的关键是确定判断一种评价优劣的共同标准。毫无疑问，任何标准都是特定价值观的体现，而不同价值观之间要达成共识往往非常困难。在20世纪80年代，曾为美国和其他国家在进行元评价时所广泛采用的一套标准是“教育方案、设计与资料评价标准”。[26]该标准是由美国“教育评价标准联合委员会”（The Joint Committee on Standards for Educational Evaluation）历经 5年研制出来的，斯塔弗毕姆曾任该委员会主席。该标准认为，一项好的评价应满足四个主要条件。

1．评价应当是“有用的”（useful）

评价的有用性意味着：评价应确认评价对象的优点与缺点；评价应提出最重要的问题；评价应适时地提交清楚的报告；评价应提供改进的方向。

2．评价应当是“可行的”（feasible）

评价的可行性意味着：评价的进行应遵循一定的评价程序；评价应当考虑政治的力量，并尽量给予合理的控制，否则，这些政治力量可能会破坏评价；对评价应当有效地予以管理。

3．评价应当是“伦理的”（ethical）

评价的伦理性意味着：评价应当建立在明确的彼此同意的基础上，以保护不同团体的权益，提供必要的合作；评价应当提供一份稳妥的报告，以显示评价对象的优缺点。

4．评价应当是“精确的”（accurate）

评价的精确性意味着：评价应当清楚地叙述评价对象的发展和背景；评价应当显示评价规划、程序及结论等的优缺点；评价应当克服偏见；评价应当提供有效及可靠的研究发现。

需要明确指出的是，元评价的标准不是固定不变的，而是随着时代精神的变迁与课程评价观的嬗变而变化的。

三、CIPP模式的得与失

CIPP模式的基本特征是改良取向（improvement-oriented）。这和泰勒的目标达成模式适成对照。泰勒的评价模式以预定目标作为评价标准，它把评价的过程视为将结果与预定目标相对照的过程，这样的评价必然是控制取向的（control-oriented），评价成为对一项方案的绩效（accountability）作出裁决的过程，至于方案执行过程中所发生的事情，则不在评价的关注之列，因而评价就不可能对方案执行过程的改良产生任何影响。CIPP模式则反其道而行之，它把过程改良视为评价的首要任务和基本特征，从而摆脱了评价的控制性格，使评价过程变得温和而富有人情。此外，CIPP模式还具有很强的系统性、可操作性，因而在实践中广受欢迎。CIPP模式与同样于20世纪70年代诞生的回应模式一样，洋溢着鲜明的关切实践、关注过程的特性。

必须指出，CIPP模式本质上是对“实践理性”的追求，它有一种迎合实践的倾向，缺少对实践的反思批判精神，而这一点是20世纪70年代所诞生的评价模式的共同特点。

第五节课程评价的回应模式

斯太克的回应模式是20世纪60年代随着课程评价的高速发展，在对目标模式进行批判反省的基础上逐渐发展起来的。该模式的出现对于课程评价领域的哲学观念和理论发展，都具有一种革新性的推动。

一、对目标模式的批判继承和全貌模式的提出

1967年，斯太克发表了题为《教育评价的全貌》（The Countenance of Educational Evaluation）的研究论文。[27]文中，斯太克批判了60年代占主流地位的目标模式的缺陷，并提出了评价的全貌模式（countenance model）。这为后来的回应模式奠定了基础。

斯太克首先继承了泰勒关于评价是确定目标达成程度的观念。但他指出，实践中所应用的目标模式存在一些弊端。就非正规的评价而言，由于过多地依赖于随意的观察、内隐的目的以及主观的判断，因而不能全面了解课程计划；但就正规的评价而言，它往往只注意到少数几个影响因素，如课程计划的目标和结果，而忽视了教育的先在因素和实施因素及它们对教育结果的影响，忽视了教育结果的复杂性，对计划的反映同样是偏狭的。因此，斯太克号召教育者和评价专家要通过大量使用正规的评价方法获得学校中所发生的事情的资料——除了有关目标是否实现的资料外，还包括其他方面的资料，如教育者计划中要做的事情与实际所做的事情之间是否吻合（即计划的课程与实际课程之间的“损耗”）、先在条件对课堂实施的影响等，从而完整地把握课程的“全貌”。由此，斯太克提出了先在因素、实施因素和结果因素三个概念，并在此基础上建立起评价的全貌模式。

先在因素（antecedents）即教学的前提条件，指“教学之前业已存在的某种条件”。例如，教学前学生的态度，即学生的能力倾向、已有经验、兴趣、积极性等，一般的教育目标及材料等。实施因素（transactions）是指教学中学生与有关的人和事物之间的际遇。例如，师生之间、学生之间的交流，电影教材的提示，班级讨论、练习、测验的管理等。结果因素（outcomes）是指教学所产生的全部影响，主要包括学生从教学过程中获得的能力、成绩、态度和积极性等，还包括教学对于教师、管理人员、辅导员的影响的测定，以及资料的消耗、教学环境的效益、费用等的数据。斯太克认为，在评价过程中，应当区分描述（portrayal）和判断（judgement），但二者都是评价所必需的。在判断之前，先要对这三种因素进行充分的描述，这是评价的基础。

在进行描述时，斯太克认为，目标模式把描述的焦点放在目标达成程度上，这大大缩小了描述的范围。评价人员应该拓展关于成就的观念，评价的途径也应该更为丰富，发展能反映完整性、复杂性和整个计划的重要性的评价方法。这样，斯太克提出，评价人员一方面要搜集“意图”资料（即计划的资料），另一方面要搜集“观察”资料（即实际发生的现象）。对“意图”资料，评价人员要分析三类因素的逻辑关联性（logical contingency），即人们所期望的东西在逻辑上是否有关联，是否一致；对“观察”资料，评价人员要分析三类因素的经验关联性（empirical contingency），即人们实际观察到的东西彼此间是否存在实际关联。在此基础上，评价人员还要分析“观察”资料与“意图”资料相符合的程度。这样就构成了斯太克所谓的“描述矩阵”。

仅仅对课程进行描述，还不足以反映评价的全貌。在斯太克看来，对描述的资料的判断是完整的评价所不可缺少的。至于判断由谁来做，斯太克采取了一种折衷调和的方案：虽然评价人员不一定能够或者应该作为最后的判断者，但他们至少是唯一有资格客观地搜集及处理他人意见和判断的人。斯太克认为，对于学校课程方案的评价，应该能够反映出一些重要的团体所持的价值观。而所谓重要团体，斯太克认为应该包括这样五类人士：社会权威人士、课程教材专家、教师、家长和学生。

斯太克认为，恰当的判断包括两个方面：第一，明确“一般标准”。所谓一般标准，即人们达成共识的优良教育的标准。标准可能因学生、教师及参与团体而产生变化，但无论如何，评价者都应阐明标准，因为明确标准是作出判断的前提。第二，实际作出判断。即对某一课程方案实际作出判断。至于判断的方式，斯太克提出既可以采用相对比较（relative comparison）的方式，也可以采用绝对比较（absolute comparison）的方式。前者是将评价的课程方案与其他方案比较，后者是将评价的方案与既定标准比较。但从形式上，仍要根据上述三种要素来进行判断。这样，依据标准对方案的判断即构成斯太克所谓的“判断矩阵”。

此外，为了完整地把握课程的意图，评价人员还需了解该方案的哲学主张和理论基础。

以上所述即构成了斯太克的全貌模式图（图4-3）。

如图所示，斯太克的全貌模式实质上是关于课程评价的一个组织框架。其中，评价者的任务是为两个矩阵（即描述矩阵和判断矩阵）搜集资料，其中每一个矩阵又细分成先在因素、实施因素、结果因素三个方面。

斯太克的全貌模式是在泰勒评价模式的基础上发展而来的。他对三个因素的分析提醒人们注意到影响教学结果的其他因素，拓宽了评价的视野，也使人认识到影响课程开发的先在因素，这与斯克瑞文的见解颇为相近。他的描述矩阵和判断矩阵使得判断建立在充分占有资料的基础上，且两种判断标准也使得评价对课程计划各部分的价值有更为明晰的判断。这些都是全貌模式相对于目标达成模式的优越之处。

但是，正如古巴和林肯所指出的，全貌描述仍是目标取向的一种评价途径，直到20世纪70年代，斯太克才从目标取向中解脱出来，更多地提倡自然的和非正规的评价技术，开发出评价的回应模式，试图为课程编制者提供他们实际需要的信息，而不再仅仅是提供评价者认为他们需要的信息。[28]因此，一些评价专家把全貌模式看作是从目标模式向回应模式过渡的桥梁。

二、回应模式的理念和特点

1973年，在瑞典的哥德堡市举行了评价发展的新趋势研讨会。会上，斯太克发表了《方案的评价：特别是回应性评价》（Program Evaluation：Particularly Responsive Evaluation）一文，提出了“回应性评价”的概念。这一概念的提出，标志着斯太克从他所指称的传统的“预定式评价”（preordinate evaluation）中完全解脱出来。

斯太克指出，传统的预定式评价把预定目标作为评价的标准，首先陈述目标，再依据目标搜集资料证据，然后查对结果与目标之间的符合程度，写出正式的研究报告。这种评价最明显的弊端是，对课程计划目标本身的合理性及其变化、目标之外的教育价值、其他方面人士的有关观念等，都不能有效地加以反映。斯太克认为，教育的价值并不一定由其结果直接显现出来。教育的价值有些是扩散的、潜伏的，是长期起作用的，这样的价值显然不可能由即时的评价反映出来。尤其重要的是，课程本身有其内在的价值，比如音乐课程、美术课程等。对这样的课程进行评价，不必以它实现了其他的工具性价值为标准，更不必找出某种可测量的结果变量来判断其价值，而只要着重看事情本身是否做好了。

斯太克认为，评价一个方案可以有不同的方法，没有哪一个方法是绝对正确的。但要使评价产生效用，有一点则必不可少，即评价应该向听取评价结果的人提供他们所关心的信息，评价者应该充分了解他们所关注的问题、兴趣和焦点。他认为，如果一项评价，（1）它牺牲某些测量上的准确性以换取对评价听取人的有用性，（2）它更关心方案的活动而不是方案的意图，（3）它更注意反映与方案有关的各方面人的意志而不仅仅是一部分人的意志，那么，这种评价就是回应式评价。

斯太克特别强调评价要回应委托人的需要和要求，认为评价的宗旨即是为特定的人提供服务，这样，如果评价人员不了解委托人的话语和旨趣，那么任何评价的结果都可能是毫无用途的。也正因如此，斯太克的评价模式也常被称为“以委托人为中心”的评价。他的后继者古巴和林肯则更明确地指出，所谓回应模式，就是以所有与方案有利害关系或切身利益的人所关心的问题为中心的一种评价。[29]

关于回应性评价的特点，斯太克是在回应性评价与预定式评价的对比中说明的，[30]主要包括以下方面。

首先，从评价的目的来看，预定式评价的主要目的是回答既定目标的实现程度；而回应性评价的主要目的是向委托人提供其所需要的信息，解答他们的疑问，探究课程计划的特点。

第二，从评价人员所涉及的范围来看，预定式评价要求评价人员严格按照特定的规划去搜集和分析资料；而回应性评价则要求评价人员探讨整个计划中所有恰当的事务和问题，适时地搜集有用的资料。因此，回应性评价所涉及的范围比预定式评价涉及的范围要宽泛。

第三，从评价契约的签定内容来看，虽然一般而言，二者都会在评价之初明确主要参与者的正式责任和义务，但是，预定式评价的契约往往是正式的、专门的，具有更多的约束性，而回应性评价的契约则是一般性的，具有更多的弹性和开放性。

第四，从评价的导向上看，预定式评价是以课程计划为导向的，根据计划来搜集资料，以便确定目标是否达成，计划的实施是否按照预定方案进行；而回应性评价往往是以委托人所关注的事项和问题为导向，课程计划的意图和预定目标不是评价的依据，而有可能是评价的对象。

第五，从评价的设计来看，预定式评价的设计要求尽可能地明确和专业化，这是因为目标是预知的，一切步骤和程序在评价之初即已安排妥当，评价的实施只要按照设计好的方案进行即可；而回应性评价的设计则具有更多的开放性，并希望设计能反映或发现委托人所关注的问题，而且，随着评价的深入，新问题的发现，评价人员可以修改原来的设计。

第六，从评价的方法论上看，按照斯太克的说法，预定式评价的方法论是实验主义的，回应性评价的方法论是自然主义的。在预定式评价中，通常会使用实验研究的模式，运用二到三种处理方法观察某些变量对学生的影响，并验证不同的假设，即使用一种“刺激一反应”模式；而回应性评价则要求在自然状态下观察、描述并解释人的行为，向委托人提供可靠的信息资料，以便计划的修改，这类似于一种“反应一刺激”的模式。

第七，从评价技术来看，预定式评价常用的技术有实验设计、行为目标、假设检验、随机取样、客观性测验、统计推论等，评价报告往往采用研究论文的格式；而回应性评价通常采用的技术则是个案研究、表现性目标（expressive objectives）、随机取样、观察、多方听证等，评价报告往往采用叙事的方式。

第八，从评价人员与当事人的沟通来看，预定式评价的沟通是为了使所有的参与者明确和实现各自的责任，了解进行评价的理由和方法，并提出一致的最后报告，因此，这种沟通往往是正式的、偶然的；而回应性评价中的沟通是为了了解自然真实的情况，因此，沟通是评价自身所要求的，且是自然发生的、非正式的。

第九，从评价的解释方面来看，预定式评价对计划的价值及观察结果的解释需要以预先拟定的目标或常模为依据；而回应性评价的解释虽然也要参考这些因素，但更要依据参与评价的各方人士的不同价值观。一般说来，回应性评价并不简单地提供单一的判断结论，而是对有关各方的价值判断都加以陈述。

第十，从评价的取舍代价来看，预定式评价为了取得客观的研究报告，往往放弃了修改课程设计的服务；而回应性评价则可能牺牲部分测量的精确性，获得评价对当事人的有用性。

第十一，从评价对消除误差的努力来看，预定式评价较为重视评价误差的消除，因此它采用客观的程序和独立的观点，以使评价结论能够经受相应的技术检验；回应性评价则强调主观性信息的重要性，不主张使用标准化的、客观的技术，因而对误差的存在持较为宽容的态度。

总之，重视评价对当事人的服务意识，重视实际的活动过程，反映多种价值观对课程计划的观照，这是回应性模式的三个主要特点。这三个特点又衍生出该模式的其他特征，并决定了模式的整个面貌。

三、回应模式的功能性结构

关于回应性模式的操作或者说功能性结构，斯太克用了一个类似于时钟的图形加以表示，这就是所谓的斯太克“评价时钟”（见图4-4）。但斯太克特别指出，该时钟并不代表一种标准的操作程序，在实际的评价中，操作究竟如何运行，要视委托人的需求和问题而定。因此，时钟所标出的顺序并不是不可改变的，有时可以按顺时针方向进行，有时可以按逆时针方向进行，有时亦可跳跃式地进行。如此看来，时钟只是提供了需要进行的操作的大体框架或一种启发。

图4-4中，每一步所代表的具体任务是：

12时：评价人员与委托人、课程计划设计人员等广泛商谈，确定评价的目的、意义，找出评价中的重要问题和事项、要评价的课程计划给人的一般印象等。这一步骤为评价的其他步骤提供良好的基础。

1时：一项课程计划通常要涉及方方面面的事情，有时，计划内部和外部之间的界线并不十分明确，这样，评价需要确定相应的范围以及相应的评价事项或问题的特征。这一步通常是评价人员与委托人协作进行的。

2时：对整个评价活动作概括性的纵览。这一步往往是根据问题而进行的宏观性说明，并没有实际资料的支持。

3时：通过与不同方面参与者的商讨，找出评价的真正目的。

4时：通过对诸多问题和事项的辨别，找出评价中最为关键和基础的问题，并给予明确表达。这是为确定应搜集哪些资料作准备。

5时：通过对各种争议问题与实际事项的反复探讨，确认要搜集的资料是否是真正需要、真正重要的。

6时：规划搜集资料的活动，包括拟定观察计划、确定观察者和观察工具、选择样本、确定对观察记录进行验证的人员等。

7时：观察并探讨各种先在因素、实施因素及结果因素，探讨计划的理论基础等。

8时：分析所得资料，找出其中的主题，以准备对计划进行描述或进行个案研究；同时，还要对计划的意向与实际观察资料间的符合程度、三种因素间的联系进行分析，作出适当的描述。

9时：通过有关各方人员对分析描述作出的各种反应，检验所得资料及作出的分析是否有效，即检验评价是否达到了向委托人提供服务的目的。

10时：对各方人员的反应进行筛选，并加以适当的组合；报告组合的结果，使各方人员都能了解这一结果，以使评价产生最大的效用。这是一个需要反复交流、沟通的过程。

11时：根据委托人的需要，准备正式的资料报告。资料报告视委托人的需要，可以以各种不同的形式呈现，如原始的观察资料、访谈录音、文字总结等。

如上所述，斯太克的评价时钟并不是详细规定评价所必需的步骤，它只是提供了一个大体的框架，表明了回应性评价的内在精神，这就是，评价人员与有关各方的实质性沟通贯穿着整个评价过程，他们的疑问和关注焦点是评价进程随时调整的依据。另外，斯太克还认为，评价有各种不同的目的，这些目的要求各种不同的评价类型。因此，与预定式评价恰恰相反，回应性评价不需要一套严格的程序，评价人员可以根据问题的需要采用相应的评价途径。也正因如此，回应性评价具有相当的适应性。

四、回应模式的得与失

回应模式的出现，一方面是课程开发对评价的进一步需要，另一方面也是评价自身发展的必然趋势。回应模式的提出，突破了传统评价中一些概念的框束，扭转了人们有关评价的理念，标志着评价领域的革新和进步。

首先，在传统评价模式中，评价的标准局限于预定的目标，评价就是探查目标实现的程度，这实际上是一种认知旨趣定向的理路。这种理路使得评价严格追求客观性、信度、效度等概念，评价的方法也倾向于设计严密的标准化测验以及常模测验等。但在回应模式中，斯太克不再把评价定位于目标的达成程度的描述，而是代之以为课程计划的修订提供有用的信息，向委托人提供有用的服务，从而使评价实现了向实践旨趣定向的转移。这种转移拓宽了评价的视野，丰富了评价的内涵，也使得评价的程序更为灵活多样。

其次，从一种有机论的教育哲学观出发，斯太克反对把教育看作是机械制作的过程，反对传统评价模式中蕴含的机械效率观念。传统的评价往往只注意到教育的工具价值，视教育为达成既定目标的工具，用即时的目标实现程度衡量一个计划的好坏。但对学生而言，教育的价值是长期的、扩散的甚至是潜隐的，即时的评价并不能明确地体现这些价值。因此，对课程计划的真正客观的评价应当是全面检查其整个结构。这种思想在全貌模式中即已表现出来。另外，斯太克还认为，与计划有着切身利害关系的人最有资格作出判断，这些判断是评价的基本依据。

第三，在回应模式中，斯太克提倡一种自然主义的、动态的评价运作方式。传统的模式把评价看作是从计划到结果一次性完结的活动，即便是有反馈，那也是用于评价的下一次循环。但在回应模式中，由斯太克的评价时钟可以看出，他并未给出一个固定的、有开始和结束的评价程序，评价人员是在评价过程中通过与其他参与者的反复沟通与即时反馈，使得评价问题不断明确，评价的计划随时调整，从而使评价逐渐逼近委托人所关注的问题焦点。

第四，斯太克把多元价值观引入回应模式。斯太克的多元价值观来自他的主观真理观。他认为，“真”如同“美”一样，是一种主观的感受，因此评价中不存在一种绝对正确的标准。这样，评价人员就应该搜集有关各方人士的观感，满足他们对计划认识的特殊需求。也正因为这种主观真理观的作用，斯太克认为，内在评价比外在评价更为有效，自我评价比他人评价更为有效。

总之，回应模式把为委托人提供服务作为评价的归宿。它更适合于一个多元的、复杂的客观世界，它的结果具有相当的弹性和应变性。一句话，回应模式代表了评价发展的方向。

第六节课程评价的解释模式

英国课程评价专家帕勒特和汉米尔顿于1972年发表了论文《作为解释的评价：方案革新研究的新途径》（Evaluation as Illumination：A New Approach to the Study of Innovative Programmes），提出了“解释性评价”（illuminative evaluation）的概念，他们的评价模式被称为“解释模式”。从时间上看，解释模式要早于斯太克的回应模式，但晚于他的全貌模式，因此，解释模式也可看作是全貌模式对传统评价模式批判的进一步延伸，它与回应模式都是在批判目标模式及吸收当时出现的众多评价新思想的基础上提出的，它们彼此之间有——些共性，同是代表着当时课程评价发展的新方向。

一、对传统评价模式的批判

在帕勒特和汉米尔顿看来，传统的目标模式以实验、测量为基本的评价手段，使用的是农业一植物学隐喻：实验者先对植物的种子进行测量鉴别（前测），然后施以不同的肥料，一段时间后，重新观察、检测种子生长和发育的情况（后测），以便了解和比较哪种肥料更为有效。传统的评价模式也遵循着相同的思路，学生被视为种子，被评价的课程方案就相当于肥料，对它们的评价要依据它们对学生成长所起的即时的、可测量的作用。因此，帕勒特和汉米尔顿把传统评价模式称作“农业一植物学”范式，并指出这种范式存在如下缺陷。

第一，变量的选择和控制、测量脱离具体的教育情境。传统的评价模式为了实现科学的所谓客观性，置教育情境的复杂联系于不顾，采用自然科学实验的控制和操作方法，选择个别可测量的变量作为评价指标。由于这种做法脱离具体的教育情境，其结果并不能保证它所允诺的客观性。

第二，假定课程方案在前后两次测量之间几乎没有变化。这是传统评价模式的一个基本假定。就是说，在评价研究过程中，为了保证测量的信度，课程方案不允许有显著的变化。这使得评价和评价者不能适应情境的实际变化。

第三，人为地、独断地限制研究范围。传统的评价模式重视客观的评价工具和手段，重视量化资料的搜集，因而忽略了其他类型的资料，这是不恰当的。因为“主观的”资料对于完整地评价一个课程方案同样是必不可少的，甚至是更重要的。

第四，忽略个别化的教育现象。为了便于预测和控制，传统的评价模式利用大样本寻求统计的通则，而对于个别的教育状况和现象，则予以排除，，因此，传统的评价模式重视的是典型的教育现象，对非典型的教育现象则不作深入研究。

第五，忽略对被评方案的多元价值的关注。传统的评价模式相信有一个适合于所有人的“客观真理”，因此，它往往只重视预定的问题和评价者得出的结沦，而忽略其他参与者所关注的问题和判断。

正是由于传统评价存在上述的缺陷，新的评价就应该针对上述缺陷加以改进。

二、解释模式的基本理念

在斯太克的全貌模式中，通过考虑教师与学生之间的相互作用以及被评价的课程在其中实施的社会背景，拓宽了评价的概念，但正如上节已经指出的，全貌模式并未彻底打破泰勒关于目标的理念。然而，正如20世纪70年代出现的其他非传统模式一样，解释模式进—步拓宽了评价的概念，更充分地显示出与目标模式的直接分歧。这种分歧不仅表现在方法上，而且表现在有关评价的基本理念上。

帕勒特和汉米尔顿吸收麦克当纳（Mac Donald）提出的“整体评价途径”（holistic approach to evaluation）思想，认为评价应该特别关注课程方案实施的整体脉络。[31]这是因为，课程方案的革新并非个别效果的机械组合，而是行动和结果的有机组合。一个单独的行动，其功能的发挥应该放到整体脉络中加以考虑。因此，评价者不应该在评价前就把某些因素确定为关注的焦点，而应将方案及其背景脉络中的各项因素都视为重要的、相关的。这样，评价的方法也就不再是对某些变量的预测和测量，而是对整个课程方案及其背景的描述和阐释。显然，这种范式是一种文化人类学的范式，它重视历史、文化和社会等因素对方案的影响。

解释模式的理念最突出地表现在帕勒特和汉米尔顿所特别强调的两个概念上，即教学体系（instructional system）和学习环境（learning milieu）。

“教学体系”这一概念旨在强调每一个教学情境及其存在的背景都是整体性的、独一无二的。传统的评价模式首先从被评价方案中得到有关的目的、目标，然后制订评价计划和编制测验工具，用以确定学生达成预定目标的程度。这种做法忽视了课程方案革新的整体性。事实上，课程方案一旦被采用，就会形成一个系统的教学体系，其中的参与者，如行政人员、教师、学生等，都会对方案中的各个因素作出自己的诠释。任何一种课程都不可能完完全全遵循计划进行实施。因此，检查学习环境自身是必要的。

所谓“学习环境”，其所体现的是教师与学生之间相互作用的一种复杂形式，它包括教师与学生所处的社会心理和物质环境，以文化的、社会的、机制的和心理的等各种方式交互作用。例如，学校中的教学组织要受到诸如法律、行政、建筑、财政等因素的制约；教师在任课中也往往持有一些假设，如学科性质、教学方法、对学生的评价等；教师也有不同的特质，如经验、对教学的态度、个人的期望等；而学生又有不同的观点、需求和动机等。这些因素的交互作用，形成独特的环境形态，使教学与学习更具特色。因此，评价人员必须仔细地探查学习环境中各种因素交互作用的形态，以便理解课程运作的真实情况。评价者的主要任务就是，通过确认诸如其中存在的紧张状态、贯穿于其中的运作前提、假设，以及教师和学生关于练习、能力的观点等，找出每一个学习环境的特别结构。

帕勒特和汉米尔顿认为，对课程方案的评价不能单独地将其与学习环境隔离开来，任何革新的课程方案都不是自足的或孤立的。一旦学习环境中引入一项新的课程方案，就会引起一系列的反应，如师生关系、同学关系、教学方法等。这些变化又会产生一些非预期的学习结果，从而影响革新的进程。帕勒特和汉米尔顿指出：

学生不只是针对呈现的内容和分配的工作去反应。相反地，他们是在交互关联的整体学习环境中调适和工作。他们同时注意潜在课程和正式课程。他们除了习得特定的学习、阅读和反应习惯外，也吸收了现实中的种种传统、信念和模式，那是整个教学过程不可避免且不断传授的。[32]

因此，学习环境的改变如何与学生的知性经验联系起来，是解释模式最为关心的事情，它正是要通过对教与学的交互作用的分析，把教学的组织、措施与学生当下的、远期的反应联结起来。

帕勒特和汉米尔顿概括了解释性评价的三个目的：

第一，探讨革新方案如何运作，如何受不同学校情境的影响，与计划有关的人认为它有哪些特点，它如何影响学生的知性工作和学业经验等；

第二，发现并陈述教师、学生等参与方案的心得和感受；

第三，识别并探讨方案革新的最大特征、相伴产生的影响以及其中重要的过程等。

可见，解释的评价要做的是探明一系列的复杂问题，协助革新者和其他相关团体了解理想效果产生的程序以及其他的有关问题。三、解释模式的实施阶段和方法选择

帕勒特和汉米尔顿强调指出：

解释的评价不是一个标准的提供方法的包裹，而是一种一般的研究策略。它的目的既是适应也是折衷。研究策略的选择不是源于研究的教条，而是来自于在任一情况下都可获致最优技术的决定：问题决定着使用的方法，而不是相反。[33]

上述说法表明，解释模式无意于为人们提供一些不变的评价方法，它提供的只是一种——般的研究策略。至：了评价的目的、规模、方法和技术等，都要视具体的评价情境而定。因此，解释的评价不排除任何可以达到最佳效果的方法。

解释模式包括三个主要的阶段：观察（observing）、探究（inquiring）和解释（explaining）。

在观察阶段，评价者充当社会人类学家的角色，仔细观察复杂的学习环境，但绝不试图控制或操纵环境。相反，观察的任务是找出其中所发生的复杂的交互作用，并对实践和活动的类型作连续的记录。在这一阶段，评价者主要依据观察，但也通过与他人，如教师和学生的访谈来确证自己的发现。

在探究阶段，评价者从观察所得的现象中确定环境中最为重要的因素，作为进一步关注的焦点，搜集相关资料。这时，教师和学生的问题变得狭窄而集中，早期观察所得的资料被重新检查，以便确认其特殊影响。评价者也有可能使用问卷和测验来获得有关教师态度和观点的特殊信息。

在解释阶段，评价者要寻找共通的原则。在这一阶段，评价者至少应该能够识别因果关系类型，并能够得到一些关于课程方案如何在实践中协调运行的陈述。要做到这些，通常需要对资料进行筛选，以便从几个不同的来源中找出确凿的证据。并且，为了解释整个类型的差别，也有可能需要寻找一些新的资料。

帕勒特和汉米尔顿强调，在评价的实际过程中，这些阶段往往是交织在一起的。观察可能获得大量的资料，但最重要的东西会逐渐显露出来，并且评价者能够理解和解释在一个特定环境中产生影响的主要类型。通过这些阶段，直接从整个环境中获得的特殊资料，逐渐地被用以阐明评价者对于课程的理解，然后，它们也同样成为其他人理解课程的依据。

在上述各阶段中，常用的资料搜集方法有：观察、访谈、问卷和测验、文件与背景资料分析等。

观察是解释模式中最常用的方法。在整个观察过程中，评价者要把观察到的各种事件、进程以及非正式的言谈等，连续地记录下来。评价者除了观察课程计划进展的日常活动外，还要观察其他相关事件，如各种会议等。有些观察记录也包括观察者与师生进行的讨论，以便澄清观察中发现的问题。在观察中要注意的是，一旦发现资料，就要立即加以组织、记录，对任何显著意义和潜在意义都要进行解释、批判。

访谈是解释模式中常用的第二种方法。运用访谈，可以了解参与者对课程方案的看法，这对于评价计划的影响是非常重要的。在访谈过程中，评价者可以向学生或教师询问类似这样．的问题：你们如何进行活动，你们对这些活动有无价值的看法，这些活动与你们过去的经验相比有何不同，等等。访谈可以有许多不同的方法，但是一定要选择能引出重要信息或意见的方法。结构化的访谈易于获得与事实有关的资料，非结构化的访谈则易于获得较潜隐的信息。访谈的对象既可用随机取样，亦可用随意取样的方法选择，选择的范围则可扩大至课程实施情境以外的人士和团体。

问卷与测验是解释模式可用的第三种方法。虽然解释模式较为重视观察与访谈的方法，但如果需要，它也不排斥问卷和测验的方法。但帕勒特和汉米尔顿指出，问卷和测验的使用要谨慎小心。一般来说，问卷和测验不能直接作为评价的依据，评价者除了要求参与者填写问卷及对他们进行测验外，还要通过其他方式了解他们对计划的观感和心得，把问卷和测验的结果放到整个背景当中去加以解释。

文件与背景资料分析是解释模式所用的第四种方法。任何一项革新方案的提出都不是偶然的。在对一个方案开始评价之前，可能已经存在一些与方案有关的资料，如促使革新方案产生的委员会报告、经费预算及来源、实施计划、会议录音、学生作业等。对这些资料的搜集、整理、分析，有助于理解整个课程方案的历史和哲学背景，也有可能从中发现评价的主题和方向以及尚待探索的问题等。四、解释模式的得与失

解释模式彻底扭转了目标模式所宣称的理念——评价就是测量课程方案达成预定目标的程度。与传统评价模式相比，解释模式不再仅把关注的焦点放在目标上，而且放在课程的实际运作上；它不再受实验或预先设计的束缚，而是采用相应的方法来适应特殊的情境；它不再是仅仅向远离教育情境的决策者提供理念和信息，而是向课程的所有参与者提供理念和信息。按照古巴和林肯的说法，解释模式以及20世纪70年代出现的其他新模式的共同特点是，“有更多的自然主义色彩和更多的适应性……它们赞同人种志的田野研究中出现的经验方法；开发用接受者的自然语言来表达的反馈资料；作出正式判断的主角也由评价者转为课程方案的参与者”。[34]

前已述及，斯太克的全貌模式已经开始了对传统评价模式的反叛。而解释模式通过鼓励更广泛地搜集各种资料并更广泛地把它们用于各种途径，显示出它对全貌模式的推进。然而，它的使用也不是没有问题的。帕勒特和汉米尔顿提醒人们，如果没有对发现结论的反复核对，这种方法就可能变成完全主观的。此外，使用这种模式的评价者必须在许多方面有相当的能力。例如，需要有良好的人际交往能力，因为／顷利地从教师和学生那里获得多种信息需要相当的机智和外交能力。对解释模式的批评也提出了关于质性资料的主观性的警告。正如马什等人所说：“帕森斯（Parsons，1976）和诺里斯（Norris，1990）提醒人们应该十分小心地使用社会人类学的方法，为此社会人类学领域中的科学家采用了严格的标准。这种严格的水平同样也适用于课程评价领域。”[35]

--------------------------------------------------------------------------------

[①] See Stake，R．E．（1976）．Evaluating Educational Programmes：The Need and the Response．Paris：OECD．

[②] See Schubert，W．H．（1986）．Curriculum：Perspective，Paradigm，and Possibility．Macmillan Publishing Company. pp．271-278．

[③] See　McNeil，J．D．（1985）．Curriculum：a Comprehensive Introduction．Little， Brown and Company. pp．206-213．

[④] 参见许建钺等编译：《简明国际教育百科全书·教育测量与评价》，教育科学出版社1992年版，第28页。

[⑤] 同上，第28--37页。

[⑥] Stufflebeam,D．L（1981）．Standards for Evaluations of Educational Programs，Projects and Materials. Joint Committee On Standards for Educational Evaluation．New York：McGraw-Hill．

[⑦] Tyler，R．W．（1983）．A Rationale for Program Evaluation. In Madaus，G． F.，Striven，M．& Stufllebeam，D．L．（eds）．Evaluation Models．Boston：Kluwer-Nijhoff Publishing．

[⑧] Tyler,R．W．（1949）．Basic Principles of Curriculum and lnstruction．The University of Chicago Press．pp.105-106．

[⑨] Tyler，R．W．Basic Principles of Curriculum and lnstruction．Chicago，IL： University of Chicago Press. p.123．

[⑩] Tyler, R．W．Basic Principles of Curriculum and lnstruction．Chicago，IL： University of Chicago Press. P.125．

[11] Marsh，C．J．& Willis．C．（1995）．Curriculum：Alternative Approaches， Ongoing Issues．A Simon & Schuster Company. p．278．

[12] Tyler, R．The Five Most Significant Curriculum Events in the Twentieth Century. Educational Leadership. December 1986/January 1987．

[13] 转引自黄光雄编译：《教育评鉴的模式》，台湾师大书苑有限公司 1989年版，第91页。

[14] Marsh，C．J．& Willis．C．（1995）．Curriculum, ：Alternative Approaches， Ongoing Issues． A Simon & Schuster Company．pp．278-279．

[15] Tyler，R．W．Basic Principles of Curriculum and lnstruction．Chicago，IL： University of Chicago Press. pp.117-120．

[16] Kliebard，H．M．（1970）．Reappraisal：The Tyler Rationale．School Review， 78．

[17] Provus，M．M．（1969）．Evaluation of Ongoing Programs in the Public School System．In Tyler，R．W．（ed．）（1969）．Educational Evaluation：New Roles andNew Means，68th Yearbook of the NSSE，Part 2．Chicago：University of Chicago Press．

[18] 黄政杰：《课程评鉴》，台湾师大书苑有限公司1990年版，第94页。

[19] 黄政杰：《课程评鉴》，台湾师大书苑有限公司1990年版，第96页。

[20] Sutfllebeam，D．&Shinkfield，A．（1985）．Systematic Evaluation. Boston， MA：Kluwer-Nijhoff．另参阅黄光雄编译：《教育评鉴的模式》，台湾师大书苑有限公司1989年版，第197页。

[21] Stufflebeam，D．L．（1966）．A Depth Study of the Evaluation Requirement． Theory into Practice，5（3），121—133．

[22] Sutfflebeam，D．& Shinkfield，A．（1985）．Systematic Evaluation．Boston， MA：Kluwer-Nijhoff．另参阅黄光雄编译：《教育评鉴的模式》，台湾师大书苑有限公司1989年版，第199-201页。

[23] Sufitlebeam，D．&Shinkfield，A．（1985）．Systematic Evaluation．Boston’ MA：Kluwer-Nijhoff．另参阅黄光雄编译：《教育评鉴的模式》，台湾师大书苑有限公司1989年版，第212--213页。

[24] Striven，M．（1972）．An Introduction to Metaevaluation．In Taylor，P．A．and Cowley，D．M．（eds.）．Readings in Curriculum Evaluation．Dubuque，Iowa：W．C. Brown．

[25] Stufflebeam，D．L（1975）．Metaevaluztion．Occasional Paper Series． Kalamazoo，Michigan：The Evaluation Center, Western Michigan University，3．

[26] Stufflebeam,D．L．（1981）．Standards for Evaluation of Educational Programs，Projects and Materials．Joint Committee on Standards for Educational Evaluation．New York：McGraw-Hill．

[27] Stake，R．E．（1967）．The Countenance Of Educational Evaluation．Teachers College Record，68，523—540．

[28] Guba，E．C．&Lincoln，Y．S．（1981）．Effective Evaluation．San Francisco： Jossey Bass．

[29] Guba，E．C．& Lincoln，Y．S．（1989）．Fourth Generation Evaluation． Newburg Park，CA：Sage．

[30] Stake，R.E．（1983）．Program Evaluation：Particularly Responsive Evaluation．In Madaus，C．F.,Striven，M．& Stufflebeam，D．L．（eds）．Evaluation Models．Boston：Kluwer-Nijhoff Publishing．

[31] MacDonald，B．(1971)．The Evaluation Of the Humanities Curriculum Project：A Holistic Approach．Theory into Practice，10(3)，pp.163-167．参见黄光雄编译：《教育评鉴的模式》，台湾师大书苑有限公司1989年版，第329页。

[32] 转引自黄政杰：《课程评鉴》，台湾师大书苑有限公司1987年版，第 180页。

[33] Quoted from Marsh，C．J．& Willis，C．（1995）．Curriculum：Alternative Approaches，Ongoing lssues．A Simon & Schuster Company．p.288．

[34] Guba，E．C．& Lincoln，Y．S．（1981）．Effective Evaluation．San Francisco： Jossey Bass．

[35] Marsh，C．J．& Willis，G．（1995）．Curricldum：Altermaive Approaches， Ongoing lssues．A Simon & Schuster Company，p.290．

, cii-font-family: 'Times New, Roman'; mso-hansi-font-family: 'Times New Roman'">，简称ESEA）。该法案提供全美各学区几十亿美元的资助，以改进文化不利阶层学生的教育，并提升整个初等及中等教育的质量。联邦政府要求凡接受该法案资助的项目都必须接受评价。斯塔弗毕姆便投入了这项规模巨大的评价工作之中。