网站首页 SEO培训 SEO顾问 品牌案例 公司介绍 SEO术语 常见问题 联系我们
您所在的位置:首页 > 搜索引擎 > 正文

搜索引擎中文分词

作者:奇商 来源:www.qisir.com 日期:2022/6/8 13:36:02 人气:11 评论:0 标签:中文分词

分词技术是搜索引擎核心技术之一,最早的分词技术大部分都是基于英文进行分词的,因为英文中具有天然的空格很容易区分关键词。但是中文中很多单个的字词是无意义的,所以Google国外搜索引擎进驻中国后遇到了本土化技术瓶颈。百度率先突破了中文分词技术,并取得了客观的成果。今天奇商就跟大家谈一谈中文分词技术。

以“上海奇商公司是上海最好的SEO公司吗”这句话作为案例,搜索引擎分词可以先按照2个汉字开始切词,能顾切出一下关键词:上海、海最、最好、好的、的S、SE、EO、O公、公司、司吗,这样的结果。我们能够看到这些结果有有些关键词是有语意的,有些关键词是无语意的。那么这个时候百度公司将辞海的关键词导入到百度的原始词库,以上关键词针对百度词库进行匹配,无语意的关键词就会被剔除。接着搜索引擎会进行三分法切词,能够切出“最好的”这个关键词。但是辞海中没有这个关键词,所以百度等搜索引擎原始词库中也没有这类关键词,这个时候搜索引擎会每天或固定时间针对词库中没有的关键词,用户搜索量却很多的关键词进行收集添加到词库中,新词就诞生了。很多SEO为了能够让自己的独特关键词(往往是品牌词)能够被搜索引擎识别,会选择在百度等搜索引擎中大量搜索,出发百度等搜索引擎这一机制。

中文分词中有很多关键词是不收录的,专业术语叫停止词(也叫停用词),比如中文中经常遇到的感叹词“吗”、“啊”、“呀”等,再比如“的”、“了”、“是”等这类关键词基本上广泛存在互联网各个网页中,所以进行重新排序是无意义的会耗费掉搜索引擎大量资源,因此编辑文章的时候尽可能少的使用这类汉字。

本文网址:http://www.qisir.com/Search/3.html
上一篇:没有资料