珍珠岩推荐阅读:
白手起家的年轻夫妻艰辛创下百万家产连载一yc
分词技术定义:搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。都非常熟悉的百度是中文分词技术的领先者。在中文搜索引擎领域,国内与国际的搜索引擎效果上相关不远。
中文分词是指把中文的汉字序列切分成有意义的词。也有称之为切词。
老师说:无论中外搜索引擎,分词技术都属于搜索引擎的核心技术。因为他直接关系到搜索收录的数据分类和搜索呈现。而对于我们做网络营销的来说,了解搜索引擎的分词技术,对于我们做网络营销,失误的几率就会比较低。那不用怀疑,效果就会好。
那么中文分词对搜索引擎影响有多大呢?
搜索引擎的排序是按照相关度排序,那中文分词的准确与否,肯定直接影响到中文搜索引擎排名,所以,要做好seo,必须掌握中文分词技术,确定准确关键词,才能确定好信息标题,及内容,为有一个好的排名打好基础。反过来说,中文分词技术越成熟的平台,搜索呈现越好,用户就越多,那我们才能去那些平台发布信息,效果也就越好。
中文分词技术是相对于计算机来说,那么计算机针对信息进行的分词的处理过程就是分词算法,目前有三大类:
一,基于字符串匹配的分词方法,
又叫机械分词方法,顾名思义只要找到一个字符串即匹 配成功(识别出一个词),按照扫描方向的不同,分为 正向匹配,逆向匹配,这点比较人性化。按照不同长度优先匹配的情况可以分为最大(最长)匹配和最小(最短)匹配 按照是否与词性标注过程相结合又可以分为单纯分词方法 分词与标注相结合的一体化方法 综合起来, 常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
4)上述各种方法相互组合,比如将1)和2)组合成双
向匹配法,
一般说来,逆向匹配的切分精度略高于正向匹配,遇 到的歧义现象也比较少,歧义这个词大家都能理解就不多说。
机械分词只是分词系统的一种初分手段,还需通过利 用各种其它的语言信息来进一步提高切分的准确率。 主要有这两种方法:
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;
另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
二、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达 到识别词的效果,其基本思想就是在分词的同时进行句法和语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统,句法语义子系统、总控部分。
工作原理:在总控部分的协调下,分词子系统可以获得有关词,句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
三,基于统计的分词方法
工作原理:定义两个字的互现信息,计算两个汉字x、 y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时便可认为 此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无