【立委按】腥风血雨的中外股市震荡,并不能遮盖科技革命对人类生活的震撼效应和光芒。最近科学和技术领域分别出了两个大事件:一是科学界用LIGO探测仪探测到了很多亿年前的黑洞引力波,为人类揭示宇宙奥秘开启了新的一扇大门(“我思故我在”:人类智力的有限不因宇宙的无穷而停步)。第二件是所谓VR(虚拟现实)技术的逐渐成熟,把人类从改变世界的幻想破灭中,拉回到虚拟世界的创造,其应用前景无可限量,风投界趋之若鹜(此乃“我感故我在”:庄周梦蝶,人生如波,虚拟现实,现实虚拟,终不过是体验的积淀而已)。还有一项不亚于上述两项科技突破的技术进步,结构分析器Parser, 可能给人类带来同样的震撼与实惠。自然语言Parser为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的parsing语言技术的来临多做科普宣传。
快餐文化的信息时代,没有重复和冗余,就没有信息传播,哪怕是冒着审美疲劳的风险。从五年前发的关于英语汉语Parsers研发及其体验的小品文如 【科普小品:文法里的父子原则】 、【立委科普:语法结构树之美】和【立委科普:语法结构树之美(之二)】至今,林林总总已有百多篇,有些重要的论点和有趣illustrations似乎在即兴的随意文风里湮没了,已经回答过的问题不断被重新发现和以不同角度解答。如今,英语分析器大功告成,汉语parser也到了登顶的最后冲刺,我自己钟爱的世界语也已到位,指挥上马的其他欧亚主要语言(德法意荷俄、西班牙、葡萄牙、土耳其、阿拉伯,日韩越泰、菲律宾)也在路上,重编此文,分享解构语言奥妙的喜乐,汗水多于创造,欣慰多于豪迈,前景一片光明。
一、开场词
引用如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。
摘自:【立委科普:语法结构树之美】
二、语言的奥秘:解构
话说这语言学里面有一门学问叫文法。学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗。奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一批文法学家,试图见人所不能见,用树形图来解剖语言的结构。天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的树形结构表示法(representations)取长补短,乃是以特氏为框架,适当辅以乔氏的短语结构而成。
语句呈现的是线性的字符串(口语是线性语流),而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果(所谓 parsing)。
上面这个树形图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。
三、句法分析器(parser)是语言技术的核武器
自然语言理解(Natural Language Understanding)的关键就是要模拟人的理解机制,研制一套解构系统(叫做 parser),输入的是语句,输出的是语法结构树。在这样的结构树的基础上,很多语言应用的奇迹可以出现,譬如机器翻译,信息抽取,自动文摘,智能搜索,等等。
三、婀娜多姿,风情万种
我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。
The practical end is to extract knowledge or facts or sentiments from language.
增补汇编自五年前的三篇博文:【科普小品:文法里的父子原则】 、【立委科普:语法结构树之美】 & 【立委科普:语法结构树之美(之二)】
【相关博文】
《新智元:有了deep parsing,信息抽取就是个玩儿》
泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索
http://blog.sciencenet.cn/blog-362400-956011.html 此文来自科学网李维博客,转载请注明出处。
上一篇:《新智元笔记:汉语使动结构与定中结构的纠缠》