语言认知诊断测验:产生、发展与面临的挑战

来源：微智科技网

语言认知诊断测验：产生、发展与面临的挑战

张启睿;边玉芳

【摘要】认知诊断测验是认知心理学与现代测量学相结合的产物,测量方式和测验设计方法均建立在认知理论基础上,可以提供有关知识掌握状态与技能水平的详细信息.利用测验结果采取有针对性的补救措施,可以提高学习效率.认知诊断测验已经有了长足发展,在语言领域中也有了广泛应用.但由于语言的复杂性和认知诊断测量模型的局限性,语言认知诊断测验研究还有待于进一步发展. 【期刊名称】《楚雄师范学院学报》【年(卷),期】2016(031)002 【总页数】10页(P71-79,108) 【关键词】语言;测验;认知诊断【作者】张启睿;边玉芳

【作者单位】中国人民大学犯罪学院,北京100038;北京师范大学认知神经科学与学习国家重点实验室,北京100875 【正文语种】中文【中图分类】H0

Lado于1961出版了《Language testing》，标志着语言测验成为一门学科。随后，陆续出现许多理论与方法用于评估个体的语言知识状态与语言技能水平。随着研究的深入，研究者认识到笼统的语言水平测验总分或能力分数不能实现这一目的，测验分数相同的个体，往往具有不同的知识状态和能力结构。这就需要测验能

够提供有关语言知识状态与技能水平的更为详细的个性化评估信息。学生和教师可以采取更有针对性的补习和辅导，提高语言学习效率，在这一认识激励下，伴随着认知诊断测验理论发展，语言认知诊断测验应运而生。

认知诊断测验是以认知为基础的评价方法。它依赖于如下共识:了解测验背后的认知过程，可以有效地构建测验项目、解释测验结果和评分。［1-3］认知心理学家与心理测量学家使用认知模型构建测验项目，利用认知诊断统计模型分析测验数据，通过测验结果了解个体的弱点与不足，制定出有针对性的教学与学习计划。这些特点使认知诊断测验成为新一代测验理论的代表。本文综述了语言认知诊断测验的产生、结构、现状和难点，指出未来的研究方向。（一）原有语言测验的缺陷

经典语言测验都属于标准参照测验，都在经典测验理论和项目反应理论指导下发展起来，目的是测量个体在量表中的位置，以观察是否完成了特定教学要求或达到了一定专业水平。分数要么仅代表个体在群体中的位置，缺乏知识水平的信息；要么提供了分数的知识性解释，但知识有时非常繁杂，没有基于认知理论，使个体在补习时无的放矢。为了保证不同位置能够反映出个体的不同水平，量表必须准确、可靠、有区分性，符合分数分布的一般规律；测量必须有效。这一类测验以学生的考试成绩为目标，对考生的行为感兴趣，可以称之为教育心理测量模型

（Educational Psychometric Measurement Models）［4］或标准测验理论（Standard test theory）［5］。从认知科学的角度看，这一理论存在着不足:（1）项目不一定有心理学意义。模型的好坏取决于能否较好地描述数据，不取决于是否符合认知加工过程。（2）模型的部分假设（如项目的局部性假设、项目难度的单维性假设）和认知心理学的实验结果不符。例如，在阅读理解测验中，一篇文章后有几道题目，这些题目容易造成局部依赖，与题目局部性假设不符；解题中的技能、策略、知识结构，很难说是单维的。（3）把项目和分数看作是不

可观察的“黑箱”，内容是否有效需要反复论证。［6］为了弥补这些缺陷，研究者利用认知加工模型，对认知过程作出假定，并与标准测验理论结合，从而实现对认知技能与知识结构的测量。Fischer使用IRT模型进行了认知诊断尝试，从认知的角度对项目难度进行定义，使单维IRT模型向诊断模型发展［7-8］；Tatsuoka等人使用规则空间模型估计能力，把被试归类到认知模式类别中［9］；Misley等人应用项目反应理论评估考生使用不同策略的项目。这些努力促进了语言认知诊断测验产生。［10］（二）语言能力观的演进

语言能力是语言测验的对象，语言能力观对语言测验具有深远影响，语言能力观的演进经历了2个重要阶段:

（1）结构主义的语言能力观。认为语言应该划分成小块，再描述如何拼凑在一起，产生连续的言语。［11］语言能力包括语言成分和语言技能。语言成分指构成有意义语言的各个要素，如语音、语调、重音、语素、词汇以及词汇的意义等。语言技能包括听、说、读、写。需要逐个测试语言成分和语言技能。［12］在这种语言能力观影响下，听、说、读、写的分立式测验流行起来，许多影响大的语言测试（TOEFL、GRE、剑桥英语考试）都遵循该思路安排测验。分立式测验有易于操作、评分客观的优点，但语言测试不注重对语言能力的解释，不能清晰表达知识和技能的关系，忽略语言运用的环境和语言的整体性。教师孤立地进行分项教学，学生缺乏在语言交际中综合运用语言的能力。［13］

（2）功能主义的语言能力观。Oller主张将分解测试综合起来，认为语言能力是一种无形的、各部分无差别的整体，主张运用综合测试测量运用多项语言知识的能力。在整体能力观影响下，人们开发出完形填空、翻译、写作等综合测试形式。［14］Hymes提出“交际能力”的概念，认为交际能力包括语言是否合乎语法和是否可以接受。［15］Canale和Swain认为，交际能力包括四个方面:①语法能

力（词汇、形态、句法和音位）；②社会语言学能力（社会文化规则和话语规则）；③成段话语能力；④策略能力（交际中的应变能力）。［16］Bachman认为，语言能力是把语言知识和语言使用的场景特征结合起来，创造并解释意义的能力，包括语言能力、策略能力和心理、生理运动机制三个部分。这一模型强调交际语言能力的各个部分以及它们与语用环境和语言使用者的知识结构之间的相互作用。［17］按照这种模型开发的语言测试既注重考虑个体的语言知识，同时又考虑在有意义的语境中能否恰当使用语言的能力，摆脱了分立式测试对综合性语言行为作分类式归纳、综合性测试目的不明以及题目之间相互依赖等不足。［13］这一模型被誉为“语言测试史上的里程碑”。语言测试开始注重知识和能力的关系，注重对项目背后的语言能力的解读，个体在语言环境中的认知过程开始受到重视，语言测量学家与语言心理学家开始越来越多地分享研究的成果。（三）后现代主义的影响

语言测试的科学精神，正在被越来越多地为后现代主义理念诠释。［18］科学精神强调确定性、可预测性、普遍性，后现代主义强调不确定性、暂时性、地域性和个体性。［19］在阅读理解测验中，科学精神强调文本内容理解的确定性、同一性。后现代主义认为，意义并非源于文本自身，而是产生于读者同文本之间的相互作用。对于同一文本，可以有不同的解释。［20］Alderson认为，阅读理解测试应该允许多种可能的理解，试题设计者应该在可接受范围上更加开放些。阅读能力测验应该超越文本内容的束缚，探究认知加工的内容。［21］后现代主义强调个体性，强调测验的结果不仅提供了一般轮廓，还应该针对个体提供不同的评价信息。测验应该为学习者提供详细的诊断反馈，反映学生在特定知识领域内的认知水平，给予途径或方法去帮助学生补救认知缺陷，或提高知识掌握的熟悉性。［22］McNamara把这种个人觉悟意识提高归因于“后现代主义发动的知识变革把个体的意识模式置于整个社会背景中加以重新阐释”，呼吁“重新审视语言测试研究的

重点”［23］。

（四）语言测验效度理论研究的不断深入

经典的语言测验由于缺乏效度理论的支持，在效度检验时往往以其他语言测验为标准计算校标关联效度。效度被看作是一种相关系数，容易陷入其他测验效度又如何的循环论证之中。随着效度理论研究的深入，出现了不同类型的效度，但繁多的效度表明了选择效度证据时的任意性。［24］通过探索，构念效度成为效度的核心。［25］在构念效度的基础上，出现了整体效度观。整体效度观认为，效度是一个整体概念。效度既非对测试的评价，也非对测试分数的评价，是对测试结果的解释和使用的评价。效度针对测试的特定解释和使用，同一测试分数可以有不同的解释和使用。效度只有程度的高低，不是全或无。整体效度观强调后果效度，认为效验过程就是收集、积累证据支持对测试结果的特定解释或使用。测试开发者和使用者都有效验举证的责任。［24］（P26-27）构念效度与整体效度观要求在测验设计之初就应该把握好测验目的、内容和试题的对应关系。与经典的语言测验比，认知诊断测验在测验效度控制上具有优势。Messick提出了在整体效度观指导下效验举证的方法:（1）内容分析:由相关专家判断项目与要测量构念的对应关系。（2）项目分析:用定量的方法探究相关因素对项目难度和区分度的影响，用定性的方法考察被试使用的策略，用语篇分析法研究被试的语言，并将语言和语用特征与构念定义作比较。（3）维度分析:研究测试的内部结构。通过反应数据的心理测量学模型与构念理论的拟合加以检验。（4）测试分数与其他测试和行为的关系。（5）行为差异分析:分析不同群体在不同测试任务上的差别。（6）测试结果分析:通过问卷、访谈、观察了解测试结果的准确性。［26］将语言认知诊断测验的方法与这6种方法比较，二者在多数方法上一致。因此，语言认知诊断测验能在最大程度上保证测验的构念效度。

（五）测量理论的进步和计算机技术的应用

分析和解释个体差异，仅有认知模型是不够的，必须强调测验设计，即根据测量对象的心理模型来选择、编制项目和测验。［28］测验设计是通过项目设计，引发出个体内在认知特点的外在表现，实现对内在认知特征的判断。测验设计好后，需要借助合适的测量模型，使理性的思辨获得实证性的数据。具体做法是:将各种认知变量直接融入模型，借助统计方法揭示个体认知变量的特征。认知诊断测验与传统测验的模型具有很大的不同:在传统测验中，有一套测量模型就能够解决有统计特征的个体能力定位，如真分数模型以及由此引申的信度、效度、难度、区分度计算，构成了一套解决能力定位和测验质量分析的模型。在认知诊断测验中，出现了一族模型，每一个模型都对应于特殊的对象，模型之间从表现形式到诊断功能都有较大的差异。［29］由于认知诊断测验要求较大的测验规模，加上模型公式复杂，计算繁琐，数据量大，一些计算机软件，如Statshop［30］、Arpeggio［31］、Mdltm［32］等被开发出来。（一）语言认知诊断测验的结构语言认知诊断测验通常包括四个阶段:

（1）定义认知属性:认知属性即测验要评估的内容。认知属性以及属性与项目之间存在着一定的联系规则，认知诊断测验假设项目可以被描述为一系列认知属性，如果被试正确地回答了某一项目，就意味着掌握了构成该项目的相关属性。［2］稳固的属性定义以及属性与项目的编码是确定属性掌握轮廓和解释测验结果的关键，在确定认知属性的过程中，可以从测验目的、相关的认知学习理论、测验项目的内容分析、被试的口语汇报告获得指导。［33-34］定义认知属性不仅要基于相关的认知模型，还要对知识的内容属性进行充分的挖掘。

（2）构建属性的层级关系:即确认认知属性之间的逻辑关系或心理顺序。构建属性层级关系可以借鉴认知属性确定中的方法，如学科专家确定法、口语报告法、文献分析法等。属性层次关系有四种基本类型:线性型、收敛型、分支型和无结构型。

这四种基本类型可以组合成更为复杂的网络型。［35］

（3）数据分析:基于数据估计个体认知属性掌握的轮廓。选择一定的认知诊断模型去校准测验，在不同的认知诊断模型中，数据分析的过程不同。一些认知诊断模型本质上是分类运算法则，根据认知属性掌握模式将被试分类。也有使用线性项目反应理论进行估计，根据整体熟练水平及反应特性分类。多数基于项目反应理论的认知诊断模型是模型，即假定存在着建构。校准模型的过程通常包括项目参数估计以及项目参数检验。无论选择何种估计方法，均要检查模型对项目和被试参数的收敛是否达到。如果没有收敛或产生严重的模型与数据的不拟合，就要检查所选属性、所确定的属性层级关系及所用的认知诊断模型是否合适。

（4）报告分数和诊断反馈。数据分析完成以后，要设计沟通性强、说明性高的的分数报告，报告可以分为个体报告和团体报告。个体报告报告学生在测验中的总体表现，即总体能力水平（定量报告），同时报告学生对测验的各认知属性的掌握情况（定性报告）。团体报告要给出团体的总体水平及对认知属性的掌握情况。［36］在分数报告的同时，针对弱点与缺陷，提供有针对性的补救措施。因此，一个完整的诊断报告至少包含以下信息:学习者的知识掌握状态和水平、知识或技能的优势、知识或技能的弱势以及如何对弱势进行补救学习。（二）语言认知诊断测验的研究现状

语言认知诊断的研究范式有二:（1）编制与开发新的语言认知诊断测验。（2）在现有语言测验基础上，使用新技术，获取有效的诊断性信息。多数研究沿着后一种范式进行。在认知属性确定及属性层级关系分析上，研究多采用专家小组评定与口语报告法，通过对已有测验项目内容的评定，确定语言加工所需的知识与能力。在模型选择上，多采用规则空间模型对数据进行拟合。

规则空间模型是将在测验项目上的反应划归为某种与认知技能相联系的属性掌握模式的统计方法。模型包括两部分:（1）确定Q矩阵理论，确定可能的属性掌握模

式以及在属性掌握模式下在项目上的典型反应模式；（2）建构规则空间，根据在测验项目上的反应进行模式判别。［9］模型以特定认知规则刻画测验项目，用认知规则掌握模式表征认知结构。在运用规则空间模型诊断学生的知识状态或策略时，通常将单一分数转化为对试题中涉及的认知过程与技能的掌握概率，将知识、技能和策略定义为规则或属性，不同属性的组合可以产生不同属性模式；通过在各项目上的反应找出个体的属性模式，根据属性掌握与否的组合诊断出个体的知识结构，了解个体在认知过程与技能的哪些方面已经具有良好结构，哪些部分需要完善，从而进行有针对性的补救教学。［37］

Buck等人考察了5000名日本被试参加托业考试（TOEIC）的情况。先从语言学的角度确定了27种重要属性，然后对属性进行了修改、精简。经过4次RSM分析，确定了16种技能和8种有交互作用的技能组合，这些技能包括综合分散信息的能力、应用相关内容处理文本的能力、在记忆中保存信息并进行推论的能力、利用相关背景知识处理任务的能力等。然后，利用这些技能与技能组合构建Q矩阵，将91%的被试归入相应的属性掌握模式，为被试提供诊断性报告。Buck等人运用多元回归方法验证结果，发现这些属性解释了被试表现中97%的变异。［38］Buck等人又研究第二语言测验（日本学生的英语测验）中听力理解简答题。首先，从语言学的角度分析出完成这些题目所需要的多种技能。经过两次RSM分析，最后确定了15种技能和14种有交互作用的技能组合，将96%的被试成功归入相应的属性掌握模式，为被试作出诊断分析。［33］Kasai应用规则空间模型分析英语托福测试中的阅读理解测验，利用专家评定等方法从托福阅读理解测验中分析出16种认知属性，把属性划分为4个类别:（1）与整篇文章相关的属性；（2）与位置信息相关的属性；（3）与选择正确选项相关的属性；（4）与考试策略相关的属性。尽管托业考试和托福考试在阅读理解测验上的测试目的、能力要求与篇章设置不同，但都涉及语言阅读理解的相关内容。［39］Scott等人使用规则空间模型

对托福阅读理解考试进行分析，得到的认知属性与Kasai存在区别。Scott等人归纳了24种认知属性，通过分类，总结出8种认知属性，分别是:（1）与问题类型相关的属性；（2）与文本结构相关的属性；（3）与定位必要信息相关的属性；（4）与获得正确选项相关的属性；（5）与语言特征相关的属性；（6）与测验形式相关的属性；（7）与背景知识相关的属性；（8）与高级认知技能相关的属性。［40］虽然属性不同，却未影响三个研究结果的准确性，它们在被试属性掌握模式上的判归率都在90%以上，表明规则空间模型可以用作语言测验的诊断方法，同时也说明认知属性界定的重要性。认知属性不同，可以得到不同的结果。这就为后来的补救教学提供了难度:如果认知属性定义粗糙，则诊断信息作用有限，直接影响补救教学效果；如果认知属性定义详细，数目繁多，就为诊断模型及数据分析提出了较高要求。

在国内，徐式婧对《使用汉语水平认定考试》中的听力理解测验进行认知诊断研究，分析852名被试在C.TEST［A-D级］测验18个听力理解题目上的反应。首先，综合了3名对外汉语教学专家和12名对外汉语专业研究生的意见，借鉴了前人的研究，确定了被试作答18个听力理解测验题目所需的9种听力理解微技能，利用规则空间模型将大部分被试成功地归入68种属性掌握模式。在此基础上，为被试提供关于听力理解技能掌握情况的诊断报告。［41］王静运用规则空间模型对在阅读理解题目上的反应作诊断性评价。他们基于文献整理、2名对外汉语教学研究专家的建议以及10名有对外汉语教学经验的教师的意见，确定了作答全部阅读理解题目所需的8种阅读理解微技能，采用软件对776名被试进行了参数估计，将被试成功地归入50种理想的反应模式中，归类比率为90%，最终为被试提供了能表明阅读理解微技能掌握情况的诊断报告。［42］也有的研究者采用先确定认知属性再编制诊断测验的范式。刘慧采用自编测验的方式，利用规则空间模型对汉语为第二外语的留学生汉语颜色词学习情况进行诊断研究。［43］李小兰结合运用

知识空间理论和规则空间模型，在专家帮助下确定了汉语听力理解技能结构，编制了汉语作为第二语言的“中级汉语听力理解技能测验”。对306名中级水平的汉语学习者施测后，运用分类诊断功能成功地将94%的被试归类，并探讨了技能结构、被试数量、被试水平对研究结果可能造成的影响。［44］

规则空间模型是在语言认知诊断测验研究中广泛使用的方法。规则空间模型实现了认知分析与诊断补救的结合。但是，在实际应用中，使用规则空间模型也存在着一定的障碍。首先，规则空间模型的Q矩阵理论十分严格。由邻接矩阵到可达矩阵，再到缩减矩阵、被试属性矩阵、理想反应模式矩阵，每一步的衔接都十分严密，对Q矩阵的层次性、顺序性、清晰性的要求十分严格。这在数学等逻辑思维领域容易实现，在语言领域就比较困难。其次，规则空间模型建立的基础是项目反应理论，要根据项目反应理论理论软件算出每名被试的能力值，因此对样本量有要求，样本量小会影响诊断的结果。再次，规则空间模型没有用参数来刻画项目与其所测属性间的关系。仅用Q矩阵来表明项目测量了何种属性、未测量何种属性，并没有用参数来说明项目的难易与所测属性的关系，项目所测的认知属性是否完备，在模型中也没有一个评价的标准。因此，一些研究者尝试将新的认知诊断模型运用到语言测验中去。

目前，运用于语言认知诊断测验的其他模型有DINA模型、属性层次方法（AHM）、融合模型（FM）、广义诊断模型（GDM）等。DINA模型克服了规则空间模型的局限，对属性的层级关系要求不严格，考虑了学生在实际解题中可能存在的失误或猜测成分，形式更加灵活。DINA模型是比较简单的认知诊断模型，在满足诊断目的前提下，参数越简单，模型拟合就越好。［45］陈艳梅利用了DINA模型，选用PISA的阅读公开题目，研究初中三年级学生的语文阅读能力。在293名被试中，77.1%掌握了阅读能力的全部三个属性，17.4%只掌握了部分属性，5.5%全未掌握。［46］研究从微观层面对阅读能力的发展进行了评价，为

教师和学生提供了指导。融合模型对认知属性的层级关系要求亦不严格，还可以提供比DINA模型更加丰富的信息。在融合模型的项目反应函数中，包括两个与能力相关的参数αj、θj，分别是技能掌握参数和对Q矩阵中未指定的重要技能的残余能力的掌握程度，还包括3个与项目有关的参数πi、rik、ci，分别代表项目i的难度参数、项目i中属性k的区分度参数以及项目i反应函数依赖于Q矩阵之外的其他技能的程度。这些参数弥补了规则空间模型的不足。Lee和Sawaki采用扩展的认知诊断模型、融合模型、潜在类别分析模型分析ESL阅读和听力测验的数据，比较了几个模型的优劣，发现融合模型是一个很成功的认知诊断模型，符合有效的认知诊断模型应具备的三个条件，即对学生的知识状态进行估计、刻画项目与各属性的关系、模型参数可以识别。［47］Jang应用融合模型对LanguEdge阅读课程测验进行了研究。首先通过出声思维分析和测验项目内容分析确定了9种主要的阅读理解技能。然后根据确定的9个阅读技能属性对LanguEdge阅读理解测验题目中所涉及的阅读技能属性进行属性与项目之间的矩阵构建，表1是属性与项目对应关系图。由表1可见，在使用融合模型对阅读技能属性检验时，属性与项目之间的对应关系相对于规则空间模型而言是松散的。一个项目中涉及到的属性之间并不需要一个严格的层级结构。这为测量语言中并行存在的复杂认知加工提供了途径。

Jang使用融合模型估计被试的阅读技能掌握模式。通过对后验掌握模式概率分布的分类，对每一被试的每项阅读技能，都可以提供掌握（概率大于0.60）、未掌握（概率小于0.40）以及不确定（概率在0.60到0.40之间）三种评定。将结果汇总，采用掌握概率条形图形式将最终诊断报告提供给被试。Jang随后考察了被试对诊断报告的评价。40%的学生反映报告中的技能掌握模式非常准确地反应了阅读技能现状。根据诊断报告，Jang进行了辅导。通过一段时间辅导后，39%的学生表示辅导作用非常有效，50%的学生表示辅导有一定的作用。研究取得了初

步的成效，也验证了融合模型在语言认知诊断测验中的有效性。［48-49］黄海峰采用融合模型对HSK初、中等考生的数据进行诊断分析:采用探索性因素分析提取6个因子，以6个因子作为认知属性，根据项目在各因子上的载荷值大小把载荷矩阵转换为项目与属性关系的Q矩阵，也取得了较好的结果。［50］但融合模型的联合正确诊断率还不很理想。［51］Douglas研究表明，融合模型的正确诊断率受测验认知属性的个数以及属性间的相关程度影响。认知属性个数越少，正确诊断率就越高；认知属性之间的相关越高，正确诊断率也越高。［52］因此，该模型更适宜于认知属性不太多（5个左右）、属性之间相关高的认知诊断测验。除以上两个模型外，还有人使用广义诊断模型（GDM）进行语言诊断测验。［32］［53］广义诊断模型的优点在于使用要求不严，适用范围广泛，不仅可以分析二分的观测数据，还可以分析多分的观测数据，既可以分析二分的潜变量，也可以分析顺序或连续的潜变量。

语言是一个复杂的过程。语言测验具有自身的特点。研究者在创建新的语言认知诊断模型的同时，也针对语言测验的特点，开展一些相应的研究。在语言测验中，常使用短文作为测验内容，这就不可避免地会遭遇到含篇章题组形式的项目，进而产生局部依赖。刘文将题组反应理论与广义诊断模型相结合，探讨局部依赖和题组内项目数量对二分广义诊断模型与多分广义诊断模型的影响。结果表明，随着题组内局部依赖程度的增加，诊断的准确性下降。题组内项目的多少对于诊断的准确性也有影响。［54］

综上所述，语言认知诊断研究已经逐步开展起来。但由于语言现象的复杂性和统计测量技术本身的，这些研究还处于探索阶段，离大规模的普及还有一定距离。（一）语言认知诊断测验研究的难点

语言认知诊断测验目前更多地停留在研究和中小规模实测阶段，在大规模考试中的应用并不多见。什么原因使语言认知诊断测验的发展步履蹒跚？语言认知诊断测验

研究有如下难点:

（1）缺乏可操作的认知理论模型。语言认知诊断研究并不缺乏测量模型，但测量模型与语言认知学习理论之间存在着较大的脱节。复杂的模型（如统一模型）虽然能很好地容纳语言认知心理研究的结果，参数也能精确地解释心理特质，但参数估计等技术难以解决，常常出现无法识别参数的情况。简单的模型（如DINA）的参数估计技术容易解决，但参数不能很好地解释心理现象。即便是被誉为最为成功的认知诊断测量模型――融合模型，也不能处理认知属性太多、属性之间高度相关的情况。语言认知心理学家无法提供可操作的语言认知学习理论。以语言习得为例，较为流行的是联结主义模型。［55］该模型认为，语言习得是学习者通过语言材料获取语言知识并储存于心理词典中。心理词典中有形、音、义三种表征系统，词汇在心理词典中呈分布式表征，词汇在头脑中不是以单一概念的方式储存，而是以语义特征、句法特征、语音特征的形式分别储存在不同的表征系统中。新词和已有词汇在语义、字形、语音特征上是否匹配，决定了新词的学习速度。联结主义模型通过特征单元激活、抑制与联结能有效地表达语言行为。联结主义模型可以解释很多语言现象，其合理性也被计算机模拟证明。但是，将联结主义模型转变为可操作的认知属性以及认知属性的层级关系就有困难。在一些认知模型里，有的认知加工成分无法变成认知诊断测验中可操作的认知属性。

（2）在现有语言测验的基础上提取认知诊断信息存在着“瓶颈”。由于开发新的语言认知诊断测验困难重重，多数研究是在现有语言测验的基础上，利用认知诊断技术分析出有用信息。对这种研究范式，有以下质疑:①认知受试题内容的影响大，不同的试题可能出现不同认知加工模式，这在阅读测验中尤为明显。阅读过程严重地依赖于文本，受测验项目编排形式的影响也大。这样，针对同一认知过程有不同的认知加工模式，这对补救措施安排带来很大困惑。②原有测验题目的难度分布。由于原有测验并非为认知诊断设计，在项目难度分布上，原有测验会根据测验需求，

有意安排测验难度。例如，在过关性测验中，题目的难度会降低，测验里含有大量的难度低的题目，干扰了认知诊断信息的提取。③原有测验与认知诊断测验的编制原理存在着差异。

（3）在定义认知属性和创建认知属性层级关系时具有主观性。人们广泛使用专家小组评定法，在同一专家小组内部，会出现意见不一致的情况，这就给认知属性打上了主观烙印。以周霞和徐式婧研究为例［41］［56］，对象都为汉语二语听力理解测验，能力水平要求类似。在定义认知属性和创建认知属性层级关系时，都采用专家小组评定操作程序，但结果不同，前者确定了9种认知属性，后者确定了8种认知属性，认知属性中有4种不一致，属性的层级关系也不一致。究竟哪一个真实描绘了汉语二语听力理解能力的结构？在下结论时需要慎重。

（4）补救措施的合理性需要证实。Jang对考生和教师的访谈发现，不足主要集中在诊断报告上。一位教师对补救措施提出了质疑，认为尽管知道学生的优势和缺陷，但由于学生的阅读能力存在着差异，教师无法也无时间对每一个学生做个别辅导。一些诊断信息过于细微，偏于认知，缺乏操作性，不具有教学指导意义。有考生咨询，在诊断报告上，已经掌握的部分，是否不再需要进行同类知识点的测量以及相同能力的培养？有的考生质疑认知属性的划分，认为阅读技能不能被区分得如此细致，因为很多阅读需要将多种技能进行综合。［49］

另外，语言认知诊断测验在实施中还存在认知属性的粒度、题目数量与技能的对应关系、同一属性需要测试多少题目、纸笔测验题目无法涵盖所有认知属性等问题。（二）语言认知论断未来的研究方向

尽管语言认知诊断测验还存在着难点或问题，但是，作为一种新兴的测验理论，仍然具有许多优点和光明前景。未来研究应该做好如下工作:

（1）加强认知心理学与心理测量学的结合。语言认知诊断测验的未来在于第一种研究范式，它将给语言测验理论和应用带来性的进展。随着认知心理学研究的

深入，可以用于认知诊断的语言认知模型会不断涌现。应该结合语言学习过程，对语言认知模型进行可操作性的修改和补充。

（2）开发适用性强的认知诊断测量模型和计算机统计软件。在进行语言认知诊断研究时，会遇到语言认知诊断模型的晦涩难懂和计算机统计软件纷繁复杂的问题，巨大的模型与冗长的程序往往会让认知心理学家望而却步。因此，应该致力开发出实用性强的测量模型与计算机程序。

（3）加强诊断报告的设计。语言认知诊断测验的价值体现在对个体补救学习的帮助上。诊断信息只告诉个体“哪里弱”，补救报告要告诉个体“如何强”。研究者要结合补救教学的实际，针对诊断出的问题，设计出操作性强、指导性高的补救意见。

（4）加强语言认知诊断测验与计算机辅助测验、计算机自适应测验的联合。以往的语言测验，往往未涵盖语言认知的整个过程，计算机技术为语言认知诊断测验提供了广阔的操作平台。借助计算机技术，可以克服纸笔测验的缺陷，如测验内容无法覆盖所有知识点，补救措施滞后导致补救效果低等。计算机技术还可为诊断测验提供非语言的却影响语言过程的诊断信息，如注意力、动机、文化差异等，还可以提供项目反应时间、答案选项变动等多种信息。

（5）加强群体的语言认知诊断研究。Tatsuoka等应用RSM比较20多个国家的8年级学生参加TIMSS-R数学考试情况。由专家确定完成测验所需的23种技能，99.5%的被试被成功归类，并为被试作出诊断性评价，发现不同国家的学生在技能掌握和认知上有很大差异。语言具有深刻的民族性。［57］Worlf认为，语言影响认知。［58］因此，可以利用语言认知诊断测验研究使用不同语言、有不同文化背景的人的语言认知学习，揭示语言认知的群体特征。

总之，认知诊断理论是为了弥补标准测验理论在描述个体知识与技能掌握方面的不足而发展起来的新一代测验理论。［5］认知机制与测量模型是认知诊断理论发展

的两大动力。今后，要将语言认知心理学的最新成果进行可操作化转变，根据语言测验特点，选择合适的认知诊断模型，将语言认知诊断测验研究推向深入，开创语言测验的美好未来。

【相关文献】

［1］Gao L.，Rodgers T.Cognitive-psychometric modeling of the MELAB reading items［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［2］Gierl，M.，Leighton，J.P.，＆Hunka，S.M.Exploring the logic of Tatsuoka’s rule-space model for test development and analysis［J］.Educational Measurement：Issues and Practices，2000，（3）.

［3］National Research Council.Knowing what students know：The science and design of educational assessment［M］.Washington，DC：National Academy Press，2001. ［4］桂诗春.认知与语言测试.基础教育外语教学研究［J］.2003，（12）.

［5］Mislevy R.J.Foundations of a new test theory［A］.In：N Frederiksen et al.Eds.Test theory for a new generation of tests［C］.Hillsdale NJ：LEA.19-39.

［6］Snow，R.Lohman，D.Implications of cognitive psychology for educational measurement［A］.In Linn（ed）：Educational Measurement，［C］.3 Edition.N.Y：ColierMacMillen，19.

［7］Fischer，G.H.The linear logistic test model as an instrument in educational research［J］.Acta Psychologica，1973，（6）.

［8］ Fischer，G.H.Logistic latent trait modelswith linear constraints［J］.Psychometrika，1983，（1）.

［9］Tatsuoka，K.K.Rule space：An approach for dealing with misconceptions based on item response theory［J］.Journal of Educational Measurement，1983，（4）. ［10］Misley，R.J.，Verhelst，N.Modeling item responses when different subjects employ different solution strategies.Technical Report［N］.RR-87-47-ONR，Educational Testing Service，Princeton，NJ，1987.

［11］Baker，D.Language Testing：A Critical Survey and Practical Guide［J］.London：Edward Ar-nold，19.

［12］Lado R.Language Testing：the construction and use of foreign language tests［M］.London：Longm an.

［13］李传益.语言能力观对语言测试的影响.咸宁学院学报［J］.2009，（5）.

［14］Oller，J.W.Issues in Language Testing Research［M］.Rowley，Mass：Newbury House，1983.

［15］Hymes，D.Foundations in sociolinguistics：an ethnographic approach［M］.London：Tavistock publications，1974.

［16］Canale，M.，Swain，M.Theoretical bases of communicativ eapproaches to second language teaching and testing［J］.Applied linguistics，1980，（1）.

［17］Bachman，L.F.，Palmer，A.S.Language testing in practice［M］.Oxford：Oxford University Press，1996.

［18］Lewy，A.Postmodernism in the field of achievement testing［J］.Studies in Educational Evaluation，1996，（22）.

［19］Grenz，S.J.A Primer on Postmodernism［M］.Michigan，US：William B.Eerdmans Publishing Co，1996.

［20］Rosenau，P.M.Post-Modernism and the Social Sciences：Insights，Inroads and Intrusions ［M］.Princet on：Princeton University Press，1992.

［21］Alderson，J.C.Assessing Reading［M］.Cambridge：Cambridge University Press，2000.

［22］Rupp，A.A.Unique characteristics of cognitive diagnosis models［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［23］McNamara，T.Language assessment as social practice：Challenges for research［J］.Language Testing，2001，（18）.

［24］Kane，M.T.Current concerns in validity theory［J］.JEM，2001，（4）.

［25］Anastasi，A.Psychological Testing（6th ed.）［M］.New York：Macmillan，1988. ［26］Messick，S.Validity of psychological assessment：Validation of inferences from person’s responses and performance as scientific inquiry into scoring meaning［J］.American Psychologist，1995，（9）.

［26］Bachman，L.F.Statistical Analyses for Language Assessment［M］.Cambridge：CUP，2004.

［27］Weir，C.J.Language Testing and Validation［M］.Palgrave：Macmillan，2005. ［28］Embretson，S.E.Cognitive psychology applied to testing［A］.In F.T.Durso（eds.），Handbook of applied cognition［C］.New York：Wiley＆Sons，1999.

［29］Fu，J.，Li，Y.Cognitively diagnostic psychometric models：An integrative review［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［30］Almond，R.G.，Yan，D.，Matukhin，A.，＆Chang，D.StatShop testing（ETS Research Memorandum No.RM-06-05）［M］.Princeton，NJ：Educational Testing Service，2006.

［31］DiBello，L.，＆Stout，W.Arpeggio documentation and analyst manual（Ver.3.1.001）（Computer software）［M］.St.Paul：MN：Assessment Systems Corporation，2008. ［32］von Davier，M.Multidimensional latent trait modeling（mdltm）（Computer software）［M］. Princeton，NJ：Educational Testing Service，2006.

［33］Buck，G.，Tatsuoka，K.K.Application of the rule-space procedure to language testing：Examining attributes of a free response listening test［J］.Language Testing，1998.

［34］Leighton，J.P.，Gierl，M.J.Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’thinking processes［J］.Educational Measurement：Issues and Practices，2007，（2）.

［35］Leighton，J.P.，Gierl，M.J.，＆Hunka，S.The attribute hierarchy method for cognitive assessment：A variation on Tatsuoka’s rule-space approach［J］.Journal of Educational Measurement，2004，（41）.

［36］涂冬波，漆书清，戴海琦，蔡艳，丁树良.教育考试中的认知诊断评估，考试研究［J］. 2008，（4）.

［37］余嘉元.运用规则空间模型识别解题中的认知错误［J］.心理学报，1995，（2）.

［38］Buck，G.，Tatsuoka，K.，＆Kostin，I.The subskills of reading：Rule-space analysis of amultiple-choice test of second language reading comprehension［J］.Language Learning，1997，（47）.

［39］Kasai，M.Application of the rule-space model to the reading comprehension section of the Test of English as a Foreign Language（TOEFL）［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，1997.

［40］Scott，H.S.Cognitive diagnosis perspectives of a second language reading test［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，1998.

［41］徐式婧.C.TEST听力理解测验的诊断性评价研究［D］.硕士学位论文.北京语言大学，2007. ［42］王静.C.TEST阅读理解测验的诊断性评价研究［D］.硕士学位论文.北京语言大学，2008. ［43］刘慧.规则空间模型在留学生汉语颜色词掌握模式诊断中的应用［D］.硕士学位论文.北京语言大学，2006.

［44］李小兰.知识空间理论与规则空间模型在汉语听力理解技能测验编制中的应用［D］.硕士学位论文.北京语言大学，2006.

［45］Dibello，L.V.，＆Stout，W.Guest Editors’Introduction and Overview：IRT-Based Cognitive Diagnostic Models and Related Methods［J］.Journal of Educational Measurement，2007，（4）.

［46］陈艳梅.初中三年级学生阅读能力评价研究［D］.硕士学位论文.江西师范大学，2009. ［47］Lee，Y.W.，＆Sawaki，Y.An application of three cognitive diagnosis models to ESL reading and listening assessments：Latent class analysis，general diagnostic model，and

fusion model［Z］.Manuscript in preparation，2008.

［48］Jang，E.E.A validity narrative：Effects of reading skills diagnosis on teaching and learning in the context of NG TOEFL［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，2005.

［49］Jang，E.E.Cognitive diagnostic assessment of L2 reading comprehension ability：Validity arguments for Fusion Model application to LanguEdge assessment［J］.Language Testing，2009，（1）.

［50］黄海峰.基于融合模型的汉语作为第二语言阅读之认知诊断研究.博士学位论文［D］.北京语言大学，2010.

［51］Hartz，S.A Bayesian framework for the unified model for assessing cognitive abilities：Blending theory with practicality［D］.Unpublished doctoral dissertation，University of Illinois，Urbana-Champaign，2002.

［52］Douglas，J.，de la Torre，J.，Chang，H.，Henson，R.，＆Templin，J.Skills diagnosis with latent variable models［M］.Symposium presented at the annual meeting of the National Council on Measurement in Education，San Francisco，CA，2006. ［53］Von Davier，M.A general diagnostic model applied to language testing data（ETS Research Rep ［Z］.No.RR-05-16）.Princeton，NJ：Educational Testing Service，2005. ［54］刘文.题组认知诊断方法模拟与初中语文测验的认知诊断研究［D］.博士学位论文.北京师范大学，2011.

［55］McClelland，J.，Rumelhart，D.An interactive activation model of context effects in 1etter perception：Part 1.An account of basic findings［J］.Psychological Review，1981，88.

［56］周霞.HSK（中级）听力理解测验的诊断性研究［D］.硕士学位论文.北京语言大学，2009. ［57］Tatsuoka，K.K.，Corter，J.E.，＆Tatsuoka，C.Patterns of Diagnosed Mathematical Content and Process Skills in TIMSS-R Across a Sample of 20 Countries［J］.American Educational Research Journal.2004，（4）.

［58］Whorf，B.L.Language，thought，and reality：Selected writing of Benjamin Lee Whorf［M］. New York：Wiley，1956.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文