人工智能取代人类？先搞定汉语再说吧

科学大院 2023-06-10

点击上方“科学大院” 可以订阅哦！

人工智能真的能够在短期内取代人类吗？

科幻电影中人工智能如此火热，现实的企业中也都打出人工智能的牌，提出可以智能分析、智能处理。

众多学者提出了这样观点：电影中的智能是真正的智能，现实中的智能是伪智能。

他们提出的小i机器人、图灵机器人、智齿机器人等所谓的人工智能，都不过是变相的关键词匹配，深蓝下棋机器人更是受到了众人的拍砖。

面对来自各方的质疑，笔者对目前的人工智能进行如下分析。

笔者认为：

无论是下棋机器人的枚举算法，还是现在某公司问答机器人的高级关键词匹配技术，都不是真正的人工智能；真正的人工智能要能够理解用户的真实表达。

只有正确理解了用户的真实表达，才能进行各种行动。如：一个家庭助理的机器人只有在能够正确理解命令的情况下，才可以正确执行扫地、洗碗、叫外卖等任务。

当然这时做一个遥控器也可以，按不同按键执行不同的任务。

但人类日常的活动千变万化，不可能把所有任务都做成遥控器，如：不可能把所有的菜都做成遥控。当然这时也可以放一个输入菜名的键盘，但是任何的表达还是不及语言迅速。

所以理解用户的真实表达是人工智能的核心问题。

人类理解对方的意图主要是从表情动作和语言方面。笔者认为语言更为重要。

表情和各种动作，对于非人类也可以进行表达，对家中的宠物就可以表达喜怒哀乐；更重要的是语言的表达更为直接明确。

市面上都多机器人虽然也可以进行简单的对话，但它们还是不算真正的智能。为何这么说？我们先来看一下自然语言理解的层次。

图中是目前自然语言理解的技术层次，我们看中间的虚线，上方涉及到一点点的句法，句法的大部分在下方。

以虚线为界，虚线之上的通常认为是浅层，虚线之下的认为是深层。

请注意，这里讲的是语言学知识的浅层和深层。浅层的这种语言模型见效很快，门槛很低，基本上可以摆脱语言学家，工程师自己可以玩，有数据就可以玩，或者是标注，找一些中专生就可以玩。

然而深层的语言学知识，有些地方可能说不清楚，可能众说纷纭，但是浅层解决不了的问题，最终要通过深层来解决。实现各种各样的智能系统，大家都认为“善解人意”应该是一个最起码的条件，一个绕不过去的条件。

实现它的一个重要的方法就是深层次的分析。

我们先对图中的各个部分做一个简单介绍，分词是中文自然语言处理的第一步。

很多企业其实只做了这一步操作，分词以后直接把关键用来进行检索，之后把答案返回用户就OK了。这就是大多数企业所谓的人工智能。

当然有相当一部分企业还是做了第二部，词法分析。词法分析主要任务如下：

1.处理重叠词、离合词 2.处理切词歧义 3.处理未定义词 4.词性标注

重叠词比如：将高高兴兴、快快乐乐之类的词汇还原为高兴、快乐，离合词则是将洗了个澡还原为洗澡。切词歧义主要处理汉语独有的语法歧义现象，如：“他从马上掉下来了”。

其中“马上”可以作为一个词，但显然在句中它不能作为单独的词进行处理。词法分析中作为重要的任务是词性标注，就是将一个句子切分后的词标注出词性。

这时，很多人工智能将句子开头的名词作为主语，随即将其标记为句子的主题。

主题的标注是进行多轮对话的基础，如标注了句子的主题是询问天气，那么我们随即会知道，我们需要反问用户时间和地点两个变量，才能告诉他今天的天气。

然而，这种方法局限性很大，首先，句子的开头名词不见得是句子的主语，句子主语也不见得就是主题。由此可见，这种处理的误差极大。

在一些设计好的问题上，的确奏效，比如：车票如何购买？句子开头的名词“车票”确实是句子主语，也是句子的主题。也可以由此反问用户，“您要去哪？”“您什么时候走？”等问题。

但对于大多问题，这种处理方法没有用。“中国国家主席是谁？”句子中的“中国”显然不是主语，询问的主题是国家主席，也不是“中国”。

同时，对于重叠词、离合词的处理目前已一些解决办法，但是对于歧义词和未登录词的处理如果不进行深度的语义分析很难有效果。

为了提高对问题主题的分析，一些走在前面的公司，应用了浅层次的句法分析。其主要任务是在词性标注的基础上，根据句式模型标注出句子的主、谓、宾、定、状、补语。

标注了句子的成分显然对分析句子起到了一定作用。目前，市面上99%的企业的人工智能都停留在这一步了。深层的句法分析则是根据不同的理论体系，构建一个词与词之间依存关系的结构网络。

再者，词法和句法分析，这两个主要是为了建立句法和语法树，为其它的算法做一些辅助。语义分析，指的是将给定的自然语言（包括篇章和句子）转化为反映其意义的某种形式化表示，也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言，做到人与机器的互相沟通。

从应用的角度，如果能够理解信息发布者要表达的观点或者需求，还是将极具价值的。

我们通常的口语语法主要有三类错误：

第一类，由于口语中存在以下现象：句子的开始位置不确定，说话过程中的自我修正、重复、犹豫、省略、组织无序等现象；

第二类，语音识别系统导致的发音变异现象使得识别出来的关键词发生错误；

第三类，用户通常对长词汇的某个部分印象深刻，导致检索关键语义类概念的错误。

举例说明：如果任务要顺利进行，用户必须能够很好的识别《喜羊羊与灰太狼》，但是一方面语音识别后，“喜洋洋”这个词显然要比“喜羊羊”的出现频率要高，而“羊羊”通常也是一种非法的语法搭配，浅层次的词法分析肯定不能对其进行错误纠正。

语义分析的结果，通常是将整个句子标注成为一个特定结构存储到一个XML中，如上述的《喜羊羊与灰太狼》会将其标注为movie_name。如：“万万没想到、爸爸哪去是本年度电影中最好的。”口语的表达识别后不会有顿号、更不会有书名号，如果没有语义层次的分析，“万万没想到爸爸哪去”是一个可以说的通的语法，计算机会误以为用户是要找爸爸。如果谓语“是”没有发音清楚，“本年度电影中最好的”很可能成为下一句的定语。

语义分析后，更高级的语言学分析，是语用分析。它把语句中表述的对象和对对象的描述，与现实的真实事物及其属性相关联。找到真实具体的细节，把这些细节与语句系统对应起来形成动态的表意结构。语用分析对人工智能技术有着重大的理论意义和实用价值。

（内容来源于《高科技与产业化》，科学大院已获得授权）

大院热门文章top榜

点击文章标题，可直接阅读哦~

1、为何你不应该反对转基因？百余名诺奖得主联名发声

2、纪念吴征镒院士：原本山川极命草木

3、纳尼，室温超导体来了！？

4、武汉特大暴雨洪涝，罪魁祸首竟然是Ta？

5、科学家，怎么对表？

6、“整装”待发，FAST“大锅”的那些小事儿

7、黑子“消失”，新一轮“冰河期”要来了？

8、天文之美|繁星竟然走过这样的路！