生成语法讲座系列 序言+第一讲:简介
生成语法讲座系列
序言
“Syntax Error”。1992年的春天,有个老头子在南方画圈儿的时候,我在北方的一个高中里学着使用APPLE-II苹果机。每次程序写错,运行的时候都会提示syntax error。我只认识error,什么是syntax,我不知道。老师说,出现这个提示,就说明程序的语法错误。原来syntax是“语法”的意思。可英语老师说,语法是grammar。也许,syntax说的语法,是计算机专用的术语吧。
十几年过去了,当我拿到Radford的English Syntax这本书的时候,还觉得是系统讲授英语grammar的呢。翻开一看,一大堆的树形图,还有乱七八糟的符号,张道真的语法书上从来没有这样写过。原来syntax和grammar还真不一样,高中时代的错觉,一直到了这时才慢慢的被澄清,我也被导师带领着,慢慢走入生成语法的大门。一路走来,越往前走似乎越是渐入佳境,基础知识好比沿途的风景,“上车睡觉,下车看庙,定点拍照,回去一问什么都不知道”的跟团旅行只能是耽误功夫。总觉得自己的基础知识还很欠缺,因此决定慢慢整理一个系列讲座,就像坛子里的叶城他们一样,藉此把一些最最基础的东西夯实。
既如此,后面的系列里肯定会有很多错误和含混不清的地方。希望各位前辈不吝赐教,是以为序。
第一讲:简介:什么是syntax,什么又是“生成”?
接着序言里面的问题,什么是syntax呢?按照维基百科给出的定义,syntax就是句法,关注自然语言句子结构中的原则和规律。句法学当然也就是针对这些构成句子的原则和规律进行研究的学科[1]。针对语法进行研究,最关键的当然是针对句子。教英语的洪老师说,黄蓉写的作文很好,没有语法错误;郭靖比较笨,作文里语法错误连篇。这里洪老师说的“语法错误”,实际就是指句子的句法错误。I with you talk very glad是一个不好的英语句子,“很高兴我说话和你”是一个不好的汉语句子。之所以它们不好,就是因为没有符合英语句子和汉语句子的构成规则。也许你会说,还有语篇(discourse)呢,语篇也有语法啊。没错,句子之上还有语篇,句子之下还有词汇(lexicon)。可是在语篇之前,无论我们是长大后学习外语,还是小时候自己准备说母语,都是从句子开始的。至于词汇,那是构成句子的必要元素,研究词汇,就要去关注词汇学(lexicology)和形态学(morphology).在syntax里,我们关注的对象就是句子。
Syntax跟生成语法有什么关系?既然syntax是研究句子的,对句子的研究就有不同的角度。简而言之,生成语法是从句子如何产生的角度来研究句子结构的。在图书馆里可能还看到有功能句法,构式句法等等,那些都是从其它的角度研究句子结构的。关于生成语法的介绍,在第二讲进行。下面简单说说句法的关注对象和基本的研究方法。
句法研究关心的对象当然就是句法现象。什么是句法现象呢?比如助动词的使用,关系小句的结构,翻身代词的用法,等等。对这些句法现象的关注,有个从一般化
(generalization)到假设(hypothesis)的过程。这个过程里面需要的技术(technique)是测试(test)。通过对大量语料的观察,因其共性会得出一个假设,该假设经过测试,我们可能会发现这个假设其实不完善,需要修正。修正之后的假设再经过测试,得到进一步的假设,如此往复,最后得到一个结论,这个结论应该已经上升到了理论(theory)。图释如下:
test test test
(1)H1-------->H2--------->H3...--------->Hm(theory)
这样的过程,和数学或者其它科学的研究过程是类似的。在得到理论之后,就可以通过该理论预测(predict)其它的结果。比如,在统计学的回归分析中,通过对采集的一组资料(sample)进行研究,要找到变量A和变量B的相关性。把采集的数据放到坐标系中,看看它们的分布情况,如果看上去大约是线性关系,那么可以通过计算得出形如y=ax+b的方程式(不考虑误差,虽然误差很重要)。这时a和b都是常数,那么通过这个方程式就能预测,如果变量x处在采集范围外的某一个数值,相应的y应该是多少。前面得到回归直线方程的过程就是采用某种“技术”(technique),后面的预测,就是说明的过程。
在生成语法中也是一样。举一个很简单的例子:某种语言里的助动词。你在读这篇小文的时候,当然已经知道什么是英语中的助动词,哪几个词是助动词。现在假设有一个我们都不太了解到语言,叫叽里呱啦语。下面有几个叽里呱啦语的例句和对应的英文翻译:
(2)Eht nam uhz i koob etirw .
The man will a book write .
The man will write a book.
对照英语和叽里呱啦语的每个词,叽里呱啦语里第三个词uhz对应英语助动词will,也许这个词是叽里呱啦语的助动词。我们可以得出第一个假设H1:
(3)假设I:叽里呱啦语陈述句的第三个词都是助动词。
这个假设能不能成为理论(theory)而具备指导意义?还需要验证。考察下面的(4)
(4)Eht llat nam uhz i koob etirw .
The tall man will a book write
The tall man will write a book.
很显然,(4)里面的第三个单词是nam,英语man的意思,不是助动词。如此一来,句子(4)符合语法习惯并打破了(3)的假设,于是,(3)不能成立,需要对其进行修正。我们注意到(2)和(4)两个句子的共性,即,助动词uhz出现在两个名词短语之间(eht nam和i koob;eht llat nam和i book),而第二个名词短语后面是动词,那么,我们修正一下(3):
(5)假设II:叽里呱啦语中,出现在两个名词词组中间的是助动词。
这样是不是就可以推而广之了吗?不可以。因为我们还可以通过观察找到反例。后面的修正过程这里不说了,主要的方法和思路通过上面的例子,应该可以看得明白了。
生成语法讲座第二讲:乔姆斯基和生成语法
生成语法系列讲座第二讲:乔姆斯基和生成语法
图片出处:http://www.lausti.com/articles/languages/piraha3.html
======================
镜头I:2006年暑假,我有幸见到两个加州大学的语言学教授(名字就不说了),吃饭的时候谈及我在学习生成语法,一个老兄说,stop here. Chomsky is totally wrong。他说,你看看老乔的弟子,Givon,还有Cinque,都先后背叛了老乔,趁着现在还早,赶快更改方向吧。他还说,要是老乔死了,生成语法就完蛋了。
======================
镜头II:也经常听到、看到一些人,甚至是知名的学者说,生成语法从问世开始到现在,老乔一个劲儿地在否定自己的理论,每次否定都是性地。现在又在搞什么最简方
案,把前面自己说的话又都给否定了。他们说的老乔好像很笨啊,不符合大丈夫行事原则:说一是一,说二是二。
======================
镜头拉回来,就看生成语法。
王小波引用昆德拉的一句话:人类一思考,上帝就发笑。也正是因为人类能思考,千百年来就想方设法要把一些事情想明白,虽然并不是那么简单。我总是主观地觉得,从有语言的那天开始,就有人琢磨语言是怎么回事了。乔姆斯基,即Noam Chomsky,也即前面后面说的“老乔”,正是一位语言的思想者,从1950年代挑战Skinner为代表的行为主义语言学开始,逐渐发展出生成语法。有关乔姆斯基的介绍,网上到处都是,这里不赘述,google一下即可。老乔的生成语法,并不等同于“汉语语法”、“祖鲁语语法”等描述性的具体的语言的规律,而是针对人类的语言。换句话说,老乔的生成语法要回答的问题,不是针对某种具体语言做出是什么样子的描写,而是对为什么人为什么会说话其他动物不会说话的“常识”做出科学理论的回答[1]。再进一步说,生成语法实际上是在研究人的思维,是在研究一种Faculty of Language。生成语法要回答的问题即所谓的“柏拉图三问”:
(1)人类的语言知识是什么?
(2)这种语言知识是怎么获得的?
(3)又是如何运用的?[2]
近年,在最简方案(Minimalism)里,又增加了两问:
(4)人类的语言是怎么进化来的?
(5)人类的语言系统和其它生物系统具有哪些共同的属性?
上面的这五个问题,在其他语言学理论或研究中,都不是要回答的问题。因此,“不能站在传统语言学或汉语语法研究的理论立场上来评价生成语法,只能以生成语生成语法”[3]。
图片出处:http://www.npr.org/templates/story/story.php?storyId=5541370
老乔怎么会想到生成语法?这个,在他1959年发表的Review of Verbal Behavior一文中有所体现。他的这篇文章中学界“一石激起千层浪”。行为主义的语言理论遭到了致命的打击。有兴趣的可以阅读一下那篇文章中的第11部分,也就是最后一部分(文章网址http://www.chomsky.info/articles/1967----.htm )。我简单地解释一下。一个好多人都会问到问题是,为什么小孩子掌握语言(母语)很快,而成年人去学习第二语言或者外语的时候,经常是拼了老命也达不到native speaker的程度?而且,一个中国的小孩子
如果放到美国,从小在英语的环境下长大,他会说出流利地英语;如果把他放在太平洋的某个小岛上,他会掌握那个小岛上的某个小小的语言。北京的小孩子,出生后就把他放到,由讲粤语的人带大,那么如果他不学普通话的话,恐怕回到北京的时候听不懂任何北京方言。由此考虑,儿童习得第一语言跟成人学习外语或第二语言,应该有本质的差别。另一方面,一个河北农村没有受过任何教育、大字不识一个的老人,会流利地用汉语(当地方言)表达自己的思想,而且他说出来的句子(正常生活中使用的句子),都是符合汉语特点的,比如,动词在宾语前面,定语在名词前面,强调句的“是”字不会放错位置等等。用乔姆斯基的话说,这个人虽然没有读书接受教育,但具有母语者所都具有的“语法能力”(grammar competence)[4]。
老乔区别了语言能力(Language competence)和语言表现(language performance)。所谓语言能力就是母语者关于其母语所具有的与生俱来的能力,是一种“知识”;而语言表现则是人们真正在使用者们语言是的水平。平时总听到有人埋怨:欧阳锋这个人不会说话。“不会说话”并不是说某某人没有语言能力,而是说他在运用该语言的时候,水平低一些。老乔关心的不是后者,而是接下来的一个问题:语言能力的实质是什么?
曾几何时,语言被人们认为是“软件”的东西,但老乔却把语言归到“硬件”里面,也就是说,语言是大脑的一部分,是生物性的[5],是固化在大脑里面的心智的一部分。这个内化的语言系统,就是老乔说的I-language。老乔认为,正式因为这个内化的语言系统,才使得小孩子不必花费多大气力就可以很快掌握其母语。因此,老乔的终极目标就是描绘出这个语言系统的内部,也就是常说的“生成语法”(Universal Grammar,简称UG)。注意,这里的“语法”不同于传统意义上的语法。说到这里,插一句题外话:“学语言”和“学语言学”,这两个概念可能不是容易被大众区分清楚的。我在韩国学生成语法,曾经用过的一本书叫L. Haegeman在1990年代写的English Grammar: a Generative
Perspective,被别的同胞看到了,大呼小叫地说,你这个人怎么跑到韩国来学英语语法了?隔壁一个柬埔寨的老兄知道我是在这里主要研究comparative syntax,一本正经地说,他觉得韩国不是提高英语语法和英语水平的好地方,建议我到英美国家去。开始的时候我还分辨几句,后来就不做声了,爱说什么说什么吧,反正我不是为了提高英语水平才到这个非英语国家的。
现在假定UG存在,那么,一个具体语言的产生可能是按照下面的过程来的:首先在人脑中有个词库(Lexicon),词库里的一些词被挑选出来(这个称之为numeration),然后进入句法运算(syntactic operation),结果是产生了“句子”[6](句法运算的过程叫derivation),通过两个接口(interface),跟语义有关的送到语义部门(semantic component)产生语义表现(semantic representation),跟声音有关的送到语音部门(phonetic form component)产生语音表现(phonetic form representation),这时,我们能够听到句子被人说出来了。关于这个过程,我说的很简单,想要看详细的说明,可以参考任意一本syntax相关的书籍,简图如下。
人类头脑中的UG是一样的,不是说中国人脑袋里的UG是made in china的,美国人脑袋里的UG是made in USA的[7]。正因为这样,UG才U(universal,普遍)。现在新的问题又出现了:大脑里只有一个UG系统,怎么会能产出不同语言的具体语法呢?这涉及到了老乔的UG理论的两大构成部分:原则(principles)和参数(parameters)。
所谓原则,是生下来大脑中就存在的、不必后天干涉的,或者可以把它们叫做“遗传的一部分”。既如此,原则具有普遍性,也就是任何一个语言都应该具有这种普遍性。怎么理解“原则”的概念呢?邓思颖举了一个例子。比如,语言的结构性是“原则”之一。因为无论你讲什么语言,你讲出来的语言都有结构,不存在没有结构的语言。“原则”实际上说的是语言的共性。除此以外,每个语言还有个性,毕竟英语和日语有很多地方不一样。这些不一样,正式参数所造成的。每个语言都有每个语言的参数,比如英语里wh疑问句,wh词要出现在句首,而汉语、日语的wh疑问句,不必有此移动。再入,一般情况下汉语可以省略主语和宾语,英文却不可以省略主语,意大利语可以省略主语但不可以省略宾语,等等。参数,是每个小孩子需要学习的,参数的设定,有点像一排开关(但语言的参数开关不是很多),每个开关设定不同的值(要么开,要么关),得到的具体语言会不一样。学过计算机或者电路的朋友们很容易理解,n个开关,会造成 2n 个结果。
那么原则和参数是什么关系呢?邓思颖给出了一个很形象的说明:假定每家每户都有一张音乐光碟,里面有N首音乐,每家每户也都同时拥有一个光碟播放机可以播放这N首音乐。音乐光碟,里面的音乐,还有播放机都是固化的,不可以被用户修改的,这就是“原则”。用户能够操作的,就是调整音乐的播放顺序。比如郭靖家按照1-2-3-…-N的顺序播放;杨康家按照2-4-6-8-…的顺序播放,老顽童家按照N-…-3-2-1的顺序播放,这就是参数。决定参数的数值就叫参数设定。
那么参数设定能够证明吗?或者说我怎么知道我们家孩子现在设定参数呢?这里,语言学家给出了两大类证据,一个是正面证据(positive evidence),另一个是负面证据(negative evidence)。每一大类有各自分为两种,直接证据(direct evidence)和间接证据(indirect evidence)。简单地说明如下:
直接正面证据:你怎么说,我就怎么说;
间接正面证据:你这么说不对,我告诉你对的,你以后就不这么说了。
直接负面证据:改正说错的地方;
间接负面证据:你不这么说,我也不这么说;
关于这些“证据”,总是容易要人搞混。A. Radford(2004)所著的Minimalist Syntax这本书的23-25页有详述,我这里仅仅举一例。小孩子听到大人们都说,“吃饭”,“睡觉”,“坐车”,从来没听到过大人说“饭吃”,“觉睡”,“车坐”,由此,这个小孩子以后也不可能说出“奶喝”这样名词在动词前面的话来。
到这里还有个大问题没解决,就是我们怎么才能知道大脑里面的那个内部语言机制到底是什么,UG到底又是怎么样的。这个当然是生成语法所要研究的。自从1950年代以来,很多很多语言学家投身于这方面的研究。乔姆斯基当然是领路人。老乔给出了研究的方法。对老乔自己而言,他并不会很多外语,好像只是懂一点意大利语,法语和西班牙语水平不高,所以他是从英语本身出发,通过对英语语法的深入分析和考察,往上推出UG的一些规律。这样从单个语言入手当然是可行的,因为UG可以作用于每个具体语言。还有一种跨语言比较法,现在也有不少人在做。通过不同语言,尤其是参数差异比较大的语言的对比,试图发现一些规律。总而言之,研究UG的方法,就是一个倒推法,自下而上,剥离万紫千红的语言表面,去探究语言的核心区域----其实也就是探寻人脑思维----毕竟我们不允许把N多的人脑打开进行物理研究。
黄蓉看到这里的时候,已经有点坐不住了,她对我说,你前面说的这些都没有用。因为在前面的某一段里,你写的是“现在假定UG存在”。到底有没有UG你都不知道,就在这里大讲特讲UG的规律啊,原则啊,参数啊什么的,你要是研究了半天,发现人类大
脑里根本没有UG怎么办?呵呵,是啊,上一段说了,我们的研究方法是“倒推法”,我们先做了一个很大的假设H0:那就是UG存在。之后从H0出发,整理出一系列的推论,再有这些推论结合语言的实际返回去验证H0。当然很有可能N年以后一个叫做“基斯姆乔”的人发表了一篇超重量级的论文:生成语法的理论完全错了,根本不存在UG。也就是H0根本就不成立。即便是这样,也没关系,至少可以说明,走UG这条路研究语言的本质,研究人类的思维走不通,后人不必再走了。之所以乔姆斯基在过去的几十年里大幅度地修改他的理论,不怕完全地否定从前,也正是基于这种理念。对于思维的探索,目前看来没有边界,要往前走的路还长,要做的事还很多。下一讲将简单地介绍一下乔姆斯基生成语法的发展历程,看看他是怎么“自我否定”的。
============================
注释:
[1] 宁春岩为吴刚所著《生成语法研究》所做序言,第二页。
[2] 同上。
[3] 同上。
[4] 见A. Radford(2004)著Minimalist Syntax一书的P7。
[5] 见Chomsky (1995)。
[6] 之所以“句子”加引号,是因为这时候的句子还不一定就是我们听到、看到的句子。
[7] 这样的说法不太确切,按照Chomsky的说法,人类头脑中与生俱来有一个innate language faculty,而UG是描述这种内部语言机制的理论。为了简便,我直接使用UG了。
生成语法讲座 第三讲:生成语法的发展简介
生成语法讲座 第三讲:生成语法的发展简介
生成语法(generative grammar)创立五十多年以来,确实处在不断地变化中,而它的变化,可能远比其他理论的发展变化大得多,好多都是“性”的。关于生成语法的发展历程,网上搜索一下有很多,甚至连百度百科也有收录。详细地可以参考一下温宾利《当代句法学导论》,吴刚《生成语法研究》。我这里仅仅简单地叙述一下发展历程,为后面做一点点铺垫。
1970年代以前,句法的研究基本处在转换--生成语法
(Transformational-Generative Grammar,简称T-G)阶段,在这一时期,理论模式主要包括3个部分:短语结构规则(Phrase Building Rules),转换规则(Transformational Rules),形态音位规则(Morphophonemic Rules)。假定我们看到下面的句子:
(1)The man hit the ball.
我们发现,句子有主语the man,有动词hit,有宾语the ball。主语和宾语的都是名词短语,由冠词和名字构成。既如此,我们用下面的形式表示:
(2)NP D+N
VPV+NP
SNP+VP+NP
其中D是determiner,指示词,用来表示冠词the;S表示句子;表示“转写为”。这样的结构还可以用树形图来表示:
(3)
这样的分析方法看上去很好很清晰,但是稍微复杂一点的句子,用这样的规则就很麻烦。因为,并不是每个S都是由NP跟VP构成的,还可能是两个S通过and相连构成;而NP也不一定都是由T和N构成,还可能有形容词A或者形容词短语AP加在T和N之间(比如the beautiful batterfly),等等。
下面我们假设有这样的句子:
(4)a. The man will hit the ball.
b. The man has been teaching English (for a long time).
上例中的两个句子都含有助动词(auxiliary),而且(4b)还含有时间状语for a long time。如果套用(3)的树形图模样,那么,句子S下面就应该分别分三个岔和五个岔,简画如下:
(5)
(6)
上面的(5)和(6)我都画成了平板型(flat)的图,当然也可以按照(3)那样
画出有层次的。不过我这里要表明的是,理论上一个句子可以有无限长,可以有无限个成份,虽然实际生活里不会出现无限长的句子,但至少可以做到很长,比如“郭靖觉得老顽童知道杨康晓得穆念慈清楚华筝认为黄蓉喜欢他自己”[1]。那么,每个句子都有一个相对的结构,比如有的SS +and+ S,有的句子SNP + VP,有的句子SNP+VP+PP等等,这样的研究方法冗余度太高了。
另外,我们再考察下面的句子:
(7)John will read the book in the kitchen this afternoon
a.and Mary will do SO tonight.
b.And Mary will do SO in the garage tonight.
c.And Mary will do SO, too.
很显然,(7)里面的三个句子中的SO所指代的内容都不一致,这点高中学生都可以看出来。在用TG规则解释的时候,会有一点点问题,因为(7)a、b、c中SO指代的成分都不同,但a、b、c的表面结构是相同的。再看一例:
(8)John is a Chinese student of English, and Mary is an Italian one.
这里划线的one指代的是student of English,很显然这不是NP,因为如果是NP的话,前面还要有冠词。
从上面的(7)(8)来看,句子是有层次的,替换的时候,同一个代名词所代替的内
容和成分也都不同,这也说明了T-G语法的局限性很大。基于这点,加之冗余度较高,乔姆斯基在1980年代摒弃了T-G的理论,提出了“管辖和约束理论”,也就是Government and Binding Framework,简称“GB理论”。
乔姆斯基1981年发表了Lectures on Government and Binding一书,其后管约论迅速发展,生成语法的研究进入了一个硕果累累的阶段。1995年,乔姆斯基大刀阔斧地对管约论进行“改革”,提出了全新的一套理论框架----最简方案(Minimalist Program,简称MP),在最简方案里,人们惊讶地发现,管约论中大部分重要理论框架都被删改得体无完肤,比如移位(movement)也被认为是一种合并(merge)。当今生成语法研究大都在MP框架下进行,但是由于管约论和MP千丝万缕的联系,管约论对刚刚进入生成语法圈子的研究者来说,还应当算是必修课。如果一上来就“最简”的话,“最简”的基础都没有,毕竟乔姆斯基现在仍然在不断地对MP这个理论框架进行充实填补,而作为比较成熟的理论,管约论对我们来说是很重要的基础,现阶段只有搞清楚了GB里面的一些核心概念,才能更容易理解为什么在MP中会有某种某种更改。
接下来的讲座中,我们从GB的最基本概念入手,一步一步地学习生成语法。
============================================================================
个人认为比较不错的参考的书籍列在下面:
中文书籍:
1. 温宾利:2002,《当代句法学导论》,外研社出版。定价16.9元
2. 邓思颖:2003,《汉语方言语法的参数理论》第一章到第三章。北大出版社出版,16元
英文书籍:
1. Liliane Haegeman, 1991. Introduction to Government and Binding, Basil Blackwell
2. Cheryl A. Black, A Step to Step Introduction to GB Theory of Syntax (这个已经传到论坛上了,在http://www.linguistics.com.cn/bbs/thread-38295-1-1.html可以下载。)
===================================================================
[1] 嵌套的关系子句,理论上可以无限长,但Charles Yang研究发现人类大脑最多能接受的只能有七重,这和大脑的掌管记忆的部分有紧密的关系。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 7swz.com 版权所有 赣ICP备2024042798号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务