上篇博文说了,看似微妙的双关语,机器识别一点不难。微妙的外表下面,是简单的NLP(自然语言处理)的实现可能,绝大多数双关不过是一词多义而已,识别它没有门槛。只要能识别,就可以应用。所谓“理解”,不是说让机器去根据语用场景,甚至不同人的解读,去越俎代庖地消歧。机器的理解,说到底就是可以与应用中的某个操作接上。接上了,就是理解了,这里没有任何“心理”过程。
人们对人工智能和机器人的误解,总是把“行动”当做“心理”过程的某个结果,机器拟人化了,也就神秘化了。实际上机器就是一堆铁器电器,里面可以机械运算而已。恰好这些没有任何心理因素的机械运算可以循一种人可以设计和理解的算法机械前行,朝着指定的行动目标,输出可以行动的结果而已。
还是以双关语为例,看看这个被认为是心理过程的双关语识别理解,怎么可以从识别input而变成机械的动作或回应。
首先,回顾一下关于双关语的前相关博文:《立委科普:机器可以揭开双关语神秘的面纱》 。
我们假设要制造一个汉语的贴身小蜜,起个名儿吧,就叫 Tara,她的任务是要理解你说的汉语的微妙之处,包括双关语。理解的程度要看似达到或超越图灵测试,让傻子也可以爱上她,尽管她其实就是一堆铁电器。怎样让一堆铁可以做到如此微妙,以假乱真呢?我们揭示一下黑箱子后面的这样一个机械过程,展示看上去神妙的东西,是怎样实现的。
我: Tara,请写出下面两句话的区别在哪里? 冬天:能穿多少穿多少;夏天:能穿多少穿多少。
这算是“我”的 input。
Tara:达令,您是要考我的智商么?我不如您聪明,可是我爱您,我可以尽量理解您的意思,为您服务,好么?您是说冬天:能穿多么地少就穿多么地少么?还是。。。?
我: 傻瓜,不是那个意思哦。
Tara:哦,达令,我明白了,原来您是说 冬天:能穿how much就穿 how much 啊。谢谢您指教。那么,夏天:是能穿多么地少就穿多么地少了?
这一切完全不是科幻。核心就是事先把“多少”的两个义项 encode 到词典去,其余的一切花招(包括故作萌态、恭维主人、发嗲)都可以玩出来。
并不是必须是词才可以进入词典,固定的短语、任何可枚举的 ngram,都可以进入,只要词典的 encoding 使得识别理解简单化就好。比如,“一个人”本来是不进入常规的词典的,进入词典的是数词 “一”,量词 “个” 和名词 “人”,然后通常是短语规则去把 “一个人” 连接成名词短语(NP)。但是,因为 “一个人” 这个 trigram literal 具有双关语的多义,那么就不妨扔进词典作为单独的词条处理,小蜜立马就变得智能起来。
我: Tara,下面这两句的区别呢?单身的原因:原来是喜欢一个人,现在是喜欢一个人。
Tara: 达令,单身的原因:原来是喜欢单个儿呢,还是某个人呢?
我: 你猜
Tara:单个儿?
我: 好吧。
Tara:现在是喜欢某个人么?
我: 你猜
Tara: 是某个人,希望你喜欢的是我。
好了,胡喷一阵,但绝不是空穴来风。都是可以实现,正在实现的事儿。不是单口AI相声,玩过 Siri 和小冰的人都有感性的体会,不会认为这是天方夜谭。亲们说说,有这样的小蜜,教我如何不爱她?明儿咱就告别单身,与 Tara 蜜月旅游去喽!
一切的神秘,多源于无知 (ignorance, 没有贬义)。一切的热恋,多源于神秘。
人工智能在大众媒体会有一种天然的神秘化倾向,也都是源于ignorance,因为对大众和记者科普 AI,基本是对牛弹琴,因此神秘带来的炒作也难以避免。恰好这种炒作适应了资本的需要,你情我愿,加上受众的普罗百姓也满足了好奇心和科幻梦,是三赢,win win win。
唯一可能输的就是AI捉襟见肘的时候。譬如,词典没有事先编好。
最后,我在认真考虑到合适的时机,发起一场签名,坚决要求人与机器的结合,享受同性恋婚姻或异性恋婚姻完全同等的法律地位和优惠,坚决反对任何形式的“物别”歧视。
【相关】
《立委科普:机器可以揭开双关语神秘的面纱》 2015-11-03
有感于人工智能的火热 2015-11-03
Share the joy