摘 要:本文主要通过对朝鲜语文本语料的词频统计和分析,列出词频统计表,绘出齐夫对数分布曲线,并与齐夫定律的分布曲线相比较,判断出吻合度,对齐夫定律进行朝鲜语适用性的验证研究。
关键词:词频;排序;齐夫定律;朝鲜语适用性
1 词频的定义与发展
(1)表达意义的基本原子单位是词。例如house一词使人脑海里浮现一幅景象:一幢有房顶的长方形建筑。当house一词出现在一篇文本中时,读者便会依据其上下文去联想“房子”的意象。所谓词频是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重 ……阅读全文