Lert 语言分析技术

一：语言现象的重新认识

以计算为目的，归纳出语言的五方面主要特性：
(1)分层性；(2)分裂性；(3)递归性；(4)组合复杂性；
(5)歧义的局部可约束性;

1：分层性 :

语言的问题可按多层次进行分解，依次处理：

 
	(1)篇章			
	(2)段落			
	(3)大句			
	(4)小句			
	(5)内嵌			
	(6)分词歧义			
	(7)单句，并联句，形容词句，连动句等			
	(8)多动词			
	(9)动词多义			
	(10)动词多模式			
	(11)语言实体			
	(12)命名实体组合			
	(13)介词组合结构处理			
	(14)多语言实体分析			
	(15)语言实体分割			
	(16)串联串，并联串的分析			
	(17)并联串，串联串的关系分析			
	(18)问句和特殊句子中的问词点和特殊检验点的定位
	(19)面向翻译的句子模式转换			
	(20)翻译习惯的调整和优化
	(21)翻译生成

2：分裂性：

同层中存在不同类型的子现象，需要分裂，如：层(10)中,动词的“普通模式”，“把、被”模式，连动模式，其他模式等，进行并列处理；

3：递归性：

有些动词可带子句，而子句本身又可同样递归。如：语句“我知道你吃了早饭”中的语串“你吃了早饭”,就是动词“知道”的一个动词模式的子句；

4：组合复杂性

每个层N(N=4,5,6..10)个分裂，经过M(M=12,13..)层排列组合，就得到上亿语言现象(5^12约等2.4亿)。经过c(c=2,3,..)次递归，就产生海量语言现象，即人们常说的语言的"组合爆炸"问题。

5：歧义的局部可约束性

在每层的各分裂局部，根据丰富的上下文，就可用权值来准确体现一个语串的各歧义的局部差别；语句分析的同时，计算权值并累加，获得最优局部以及全局最优分析树。此权值体系是N×M复杂度的。

二：新颖的处理架构

1: “语言逻辑框架”

“分层、分裂、递归”的条件跟实际语言现象都是对应的，我们称这些条件为“语言逻辑点”，约为N×M×c(5×12×4 = 240)个，共同形成一个“语言逻辑框架”,就是我们工程的核心。

2：在计算机程序中很自然地实现“语言逻辑框架”

   	(1)“程序模块的多层调用”对应“分层性”		
   	(2)“单个模块的多种子模块”对应“分裂性”	
	(3)“模块大跨度调转调用”对应“递归性”		
	(4)分析树全存在内存中，就有了丰富的上下文来把握语言细节
	(5)局部差异清晰且容易把握，利于建立完备的权值体系。

3：显著优点

	(1): 采用“自上而下方式”，体现了“全解”和“一体化”，避免了传统理论的各种难点；将语言分析和歧义消解同步进行,变级数问题为线性问题，彻底解决了“组合爆炸”问题。
	(2)既无“规则系统”的海量规则，又无“统计体系、神经网络体系”的海量语料，工程量小，系统成熟快。	
	(3)可以很方便的进行“知识图谱、推理、决策”等知识计算，此模型就是一个真正的语义模型。

4：系统现状

	(1)程序代码40万行左右，语义词库200万条左右；	
	(2)经过大量复杂语料测试(全通过)，语言分析准确度可以实用，运行速度是普通系统的近100倍，并且能有很大的潜力；
	(3)基本形成了一个高性能的语言分析平台；

三：

以上一些想法会存在一些不足之处，请老师们或同行不吝赐教。谢谢！

"语言逻辑框架"简介

一：语言现象的重新认识

1：分层性 :

2：分裂性：

3：递归性：

4：组合复杂性

5：歧义的局部可约束性

二：新颖的处理架构

1: “语言逻辑框架”

2：在计算机程序中很自然地实现“语言逻辑框架”

3：显著优点

4：系统现状

三：

返回首页

联系方式：

email: liujy@ustc.edu; phone : 13683646552;

"语言逻辑框架"简介

一： 语言现象的重新认识

1：分层性 :

2： 分裂性：

3： 递归性：

4： 组合复杂性

5：歧义的局部可约束性

二： 新颖的处理架构

1: “语言逻辑框架”

2：在计算机程序中很自然地实现“语言逻辑框架”

3：显著优点

4：系统现状

三：

返回首页

联系方式：

email: liujy@ustc.edu; phone : 13683646552;

一：语言现象的重新认识

2：分裂性：

3：递归性：

4：组合复杂性

二：新颖的处理架构