以计算为目的,归纳出语言的五方面主要特性:
(1)分层性;(2)分裂性;(3)递归性;(4)组合复杂性;
(5)歧义的局部可约束性;
(1)篇章 (2)段落 (3)大句 (4)小句 (5)内嵌 (6)分词歧义 (7)单句,并联句,形容词句,连动句等 (8)多动词 (9)动词多义 (10)动词多模式 (11)语言实体 (12)命名实体组合 (13)介词组合结构处理 (14)多语言实体分析 (15)语言实体分割 (16)串联串,并联串的分析 (17)并联串,串联串的关系分析 (18)问句和特殊句子中的问词点和特殊检验点的定位 (19)面向翻译的句子模式转换 (20)翻译习惯的调整和优化 (21)翻译生成
同层中存在不同类型的子现象,需要分裂 ,
如:层(10)中,动词的“普通模式”,“把、被”模式, 连动模式,其他模式等,进行并列处理;
有些动词可带子句,而子句本身又可同样递归。 如:语句“我知道你吃了早饭”中的语串“你吃了早饭”,就是动词“知道”的一个动词模式的子句;
每个层N(N=4,5,6..10)个分裂,经过M(M=12,13..)层排列组合,就得到上亿语言现象(5^12约等2.4亿)。经过c(c=2,3,..)次递归,就产生海量语言现象,即人们常说的语言的"组合爆炸"问题。
在每层的各分裂局部,根据丰富的上下文,就可用权值来准确体现一个语串的各歧义的局部差别;语句分析的同时,计算权值并累加,获得最优局部以及全局最优分析树。 此权值体系是N×M复杂度的。
“分层、分裂、递归”的条件跟实际语言现象都是对应的,我们称这些条件为“语言逻辑点”,约为N×M×c(5×12×4 = 240)个,共同形成一个“语言逻辑框架”,就是我们工程的核心。
(1)“程序模块的多层调用”对应“分层性” (2)“单个模块的多种子模块”对应“分裂性” (3)“模块大跨度调转调用”对应“递归性” (4)分析树全存在内存中,就有了丰富的上下文来把握语言细节 (5)局部差异清晰且容易把握,利于建立完备的权值体系。
(1): 采用“自上而下方式”,体现了“全解”和“一体化”,避免了传统理论的各种难点;将语言分析和歧义消解同步进行,变级数问题为线性问题,彻底解决了“组合爆炸”问题。 (2)既无“规则系统”的海量规则,又无“统计体系、神经网络体系”的海量语料,工程量小,系统成熟快。 (3)可以很方便的进行“知识图谱、推理、决策”等知识计算,此模型就是一个真正的语义模型。
(1)程序代码40万行左右,语义词库200万条左右; (2)经过大量复杂语料测试(全通过),语言分析准确度可以实用,运行速度是普通系统的近100倍,并且能有很大的潜力; (3)基本形成了一个高性能的语言分析平台;
以上一些想法会存在一些不足之处,请老师们或同行不吝赐教。谢谢!