网站优化seo中需要注意的百度的中文分词三点原理

admin 网站优化 2022-02-11 03:55:30 网站优化 seo"

百度中文分词算法：指搜索引擎为了更好的辨别用户的需求，并且为了快速提供给用户需求性信息而使用的算法。

搜索引擎要在单位时间内处理千万亿级的页面数据量，因此搜索引擎拥有一个中文词库。比如百度现在大约有9万个中文词，那么搜索引擎就可以对千亿级的页面进行分析，按照中文词库进行了分类。

百度分词基本有三种分法

1、基于理解：傻瓜式匹配，小于等于3个中文字符百度是不进行切词的，比如搜索“大学堂”。

2、基于统计：百度把一个词标红的原因：标红的词一般是一个关键词，你搜索“学”字的时候，百度它自认的把“学习”也当成了一个关键词，所以出现“学习”这个词标红，这就是百度分词法：基于统计分词。

3、基于字符串匹配（百度的分词法：正向最大切词法）

最大与最小（最大匹配：一直匹配到没词可配；最小匹配：匹配出词了就停止匹配，再从另一个词开始匹配）比如：百度搜索“湖南大学堂屋顶”，百度的一个分词算法我们把它当成一个黑盒子，我们通过一些输入关键词，根据百度的输出结果来判定百度的分词算法。正向与反向（正向：从前往后配；反向：从后往前配）（湖南大学堂屋顶）正向分法：湖南大学堂屋顶（刘强大地方法）正向分法：刘强大地方法。反向分法：方法大地刘强。而在这个词语当中“大地”不是一个词。