"语言逻辑框架"简介


一: 语言现象的重新认识


     以计算为目的,归纳出语言的五方面主要特性:
(1)分层性;(2)分裂性;(3)递归性;(4)组合复杂性;
(5)歧义的局部可约束性;



1:分层性 :


     语言的问题可按多层次进行分解,依次处理:
 
	(1)篇章			
	(2)段落			
	(3)大句			
	(4)小句			
	(5)内嵌			
	(6)分词歧义			
	(7)单句,并联句,形容词句,连动句等			
	(8)多动词			
	(9)动词多义			
	(10)动词多模式			
	(11)语言实体			
	(12)命名实体组合			
	(13)介词组合结构处理			
	(14)多语言实体分析			
	(15)语言实体分割			
	(16)串联串,并联串的分析			
	(17)并联串,串联串的关系分析			
	(18)问句和特殊句子中的问词点和特殊检验点的定位
	(19)面向翻译的句子模式转换			
	(20)翻译习惯的调整和优化
	(21)翻译生成		

2: 分裂性:


     同层中存在不同类型的子现象,需要分裂 , 如:层(10)中,动词的“普通模式”,“把、被”模式, 连动模式,其他模式等,进行并列处理;


3: 递归性:


     有些动词可带子句,而子句本身又可同样递归。 如:语句“我知道你吃了早饭”中的语串“你吃了早饭”,就是动词“知道”的一个动词模式的子句;


4: 组合复杂性


     每个层N(N=4,5,6..10)个分裂,经过M(M=12,13..)层排列组合,就得到上亿语言现象(5^12约等2.4亿)。经过c(c=2,3,..)次递归,就产生海量语言现象,即人们常说的语言的"组合爆炸"问题。


5:歧义的局部可约束性


     在每层的各分裂局部,根据丰富的上下文,就可用权值来准确体现一个语串的各歧义的局部差别;语句分析的同时,计算权值并累加,获得最优局部以及全局最优分析树。 此权值体系是N×M复杂度的。


二: 新颖的处理架构


1: “语言逻辑框架”


     “分层、分裂、递归”的条件跟实际语言现象都是对应的,我们称这些条件为“语言逻辑点”,约为N×M×c(5×12×4 = 240)个,共同形成一个“语言逻辑框架”,就是我们工程的核心。


2:在计算机程序中很自然地实现“语言逻辑框架”

     
   	(1)“程序模块的多层调用”对应“分层性”		
   	(2)“单个模块的多种子模块”对应“分裂性”	
	(3)“模块大跨度调转调用”对应“递归性”		
	(4)分析树全存在内存中,就有了丰富的上下文来把握语言细节
	(5)局部差异清晰且容易把握,利于建立完备的权值体系。

3:显著优点

     
	(1): 采用“自上而下方式”,体现了“全解”和“一体化”,避免了传统理论的各种难点;将语言分析和歧义消解同步进行,变级数问题为线性问题,彻底解决了“组合爆炸”问题。
	(2)既无“规则系统”的海量规则,又无“统计体系、神经网络体系”的海量语料,工程量小,系统成熟快。	
	(3)可以很方便的进行“知识图谱、推理、决策”等知识计算,此模型就是一个真正的语义模型。

4:系统现状

     
	(1)程序代码40万行左右,语义词库200万条左右;	
	(2)经过大量复杂语料测试(全通过),语言分析准确度可以实用,运行速度是普通系统的近100倍,并且能有很大的潜力;
	(3)基本形成了一个高性能的语言分析平台;

三:


     以上一些想法会存在一些不足之处,请老师们或同行不吝赐教。谢谢!







返回首页