网址优化知识汇总

SEO如何做好分词技术?分词如何满足搜索引擎?什么是百度分词?SEO是否接触到一些分词组件?从百度分词来看,不难看出分词是根据词义、词频、确定搜索引擎来捕捉单词。汉语分词一般有:字符串匹配、统计分词、词义切分。第一种是字符串匹配的分词技术,也称为机械分词法。直截了当地说,这是扫描字符串。如果查询页面中字符串的子字符串和字串相同,则将其视为匹配。这类分词一般会加入启发式规则,如正向/反向最大化匹配、长词优化等。优点:匹配速度快,实现过程简单缺点:难以区分歧义词,匹配不准确案例:基于字符串匹配的分词装置是一个基于字符串匹配的分词实例:成都、成都网、促销公司、成都网络公司,正向最大值匹配:从左到右匹配关键词,反向最大匹配:从右到左匹配关键词与最短路径分割:搜索引擎提取文本中的第二个最小字数:统计分词是基于词性和统计特征的手工标注,并对中文进行建模。即根据观测数据(标记语料库)对模型参数进行估计,即训练。在分词阶段,用该模型计算各种分词的概率,以概率最大的分词结果作为最终结果。常见的序列标注模型是HMM和CRF。优点:处理歧义和未知词的效果比基于字符串匹配的效果好:需要大量的手工标注数据,相邻词出现的次数越多,分词速度越慢,就越有可能形成一个单词。因此,词与词同时出现的频率或概率可以更好地反映词的可信度。可以计算语料库中相邻共存词组合的频率,并计算出它们之间的相互信息。定义了两个词的互现信息,并计算了两个汉字X和Y的相邻共现概率。这些相互信息反映了汉字组合的紧密程度。三是词义切分:机器发音确定的分词方法主要用于处理歧义。

本文来源:故事seo 本文链接:http://www.seogushi.cn/seozs/1678.html