分类
SEO技术

搜索引擎分词技术不能承受之轻

连续几天未写点东西了,感觉对不起用户,对不起百度,对不起谷歌。今天不管怎么样都要写点。刚才想到了搜索引擎的分词技术,就写这个吧。

之前看过的分词技术,有所谓的正向匹配,反向匹配,还有最大或最小一个程度的区别。先不管这些专业术语。我随便想了一个词,打死人。这三个字可以当作是三个词,打死,死人,打死人。在百度输了一看,吓死个人,不是打死人。前两个是百度自己的打死人的视频和图片。没分词。后面的有打死,有打死人两种分法。谷歌的结果是统一分为打死人整体一个词。我的SEO狂人呢,怎么切分?狂人+SEO?

百度和谷歌的分词技术差别很大。据说是百度的词库更好,但是谷歌分法更完善。不管怎么分,我倒认为,必须让用户配合搜索引擎进行搜索。就类似于打死人这类词语。谁知道你是想搜什么呢?打死?打死人?死人?

实际上,百度也和谷歌一样收录了足够多的以打死人这三个字作为整体的一个词的网页,但是第三名新浪网页却切分为打死和人这两个词。

更多的用户去百度和谷歌找东西,都没有登录。或者可以尽量让更多的用户登录,来个性化搜索。因为目前看来,只有用户登录了你才知道他是谁,靠IP和s是不行的。或者,就算用户登录了,用户提供的资料不是很完善,你还是不知道用户是谁。或者,你可以记录用户的查询,然后判断他的个性,而不用让用户自己来输入什么资料。但是,多少用户登录了呢?

这样看来,不能把希望放在让用户登录这个条件上了,或者用户登录确实让解决这个个性化搜索很简单很好实现。那怎么办?普通用户连site和domain这些语法都没用过,他们也不对这些东西感兴趣。最理想的情况是某些用户配合搜索引擎,在自己输入的多个词语之间加上空格。空格这个键可以用两个大拇指来敲打,应该不是很麻烦。问题是,怎么改变用户的这个行为?要知道,百度改变了中国大多数网民的搜索习惯是耗费了多少能量的

还有个问题,就算用户很明确的高速搜索引擎我输入的是两个词,中间有空格。这两个词,谁轻谁重?更多的概率是用户可能把重要的词先输入,然后输入空格和第二个词。但是难免另外很大一部分用户不按照个主次顺序来。那怎么办?这个问题,我没有想到解决办法。只有一个思路,就是不按输入先后顺序来决定重要程度,按照这两个词的火热程度来决定。或者这不是一个很好的方法。

百度和谷歌目前没有明确的提出建议,让用户怎么搜,也没有官方说明前面的词比后面的词权重高。当然,普通用户也不会管你这些东西。那,搜索引擎的技术,如何提高?如何质变?如何去突破目前的瓶颈?难道还是只靠抓取更多的网页来提供在用户眼前?要知道,互联网上重复的垃圾的网页已经是个天文数字了。暂且不说需要改进算法,追求更精细的排名,至少看来,应该把删除垃圾和重复网页看得比抓取更多网页要重要

分词技术目前看来,还不堪重任。百度的词库或许是比谷歌强大,不过还是赶不上人的大脑。就算你百度把所有的汉字拿来任意的排列组合然后有了10000亿个词语,又怎么样?你还是不知道用户输入打死你是想找什么。悄悄告诉你,用户是想打死你,因为他没搜到自己想要的东西。