举个例子,搜索引擎在获取到用户提交的关键词后,就是一种与用户的关键词字符串相匹配的技术,即把一个词切成几个词,比如启蒙博客SEO技术,可以分为启蒙、博客、seo、技术。
百度分词算法
为什么我们需要分词?因为搜索引擎本身只是一台机器,他不能像人一样思考。它只能使用一些算法来计算网页。
分词算法有两种常见的工作方式
1.用户搜索和匹配。
举个例子,如果我们在百度中搜索一个词“手机回收”,那么百度会先把这个词分成两个词:手机和回收。从网页中删除“手机”一词,仅保留带有“手机”一词的结果,然后从过滤后的网页中过滤掉带有“回收”一词的页面。然后,用户根据页面分数对结果进行排序。
2. 网页主题的计算
正如之前的启蒙博客所提到的,百度蜘蛛只是一台机器,它不能像人一样思考,而且在处理文章的时候,百度蜘蛛也会通过分词来处理文章,比如文章中出现的手机这个词出现得更频繁,也就是所谓的关键词密度,那么这个页面也会被定性为手机上的文章。
搜索引擎使用分词算法来计算网页,
如果我们能合理地使用分词算法进行网页布局,网页就会有很好的分数。