第一站 - 轻松上网从此开始!

上网第一站

当前位置: > SEO >

Python无监督抽词 SEO如何快速正确分词

时间:2012-09-28 17:49来源:网络 作者:yangyang 点击: 我来投稿获取授权
以下内容来自网络或网友投稿,www.swdyz.com不承担连带责任,如有侵权问题请联系我删除。投稿如果是首发请注明‘第一站首发’。如果你对本站有什么好的要求或建议。那么都非常感谢你能-联系我|版权认领
如何快速正确分词,对于SEO来说,是提取tags聚合,信息关联的好帮手。 目前很多分词工具都是基于一元的分词法,需要词库来辅助。 通过对Google黑板报第一章的学习

  如何快速正确分词,对于SEO来说,是提取tags聚合,信息关联的好帮手。

  目前很多分词工具都是基于一元的分词法,需要词库来辅助。

  通过对Google黑板报第一章的学习,如何利用统计模型进行分词。

  本方法考虑了3个维度

  凝聚程度:两个字连续出现的概率并不是各自独立的程度。例如“上”出现的概率是1×10^-5,”床”出现的概率是1×10^-10,如果这两个字的凝聚程度低,则”上床”出现的概率应该和1×10^-15接近,但是事实上”上床”出现的概率在1×10^-11次方,远高于各自独立概率之积。所以我们可以认为“上床”是一个词。

  左邻字集合熵:分出的词左边一个字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”过去”这个词,前面可以用“走过去”,“跑过去”,“爬过去”,“打过去”,“混过去”,“睡过去”,“死过去”,“飞过去”等等,信息熵就非常高。

  右邻字集合熵:分出的词右边一个词的信息量,同上

  

     下面是一个利用Python实现的demo(转自:?mod=viewthread&tid=20) (责任编辑:admin)

织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发布者资料
第一站编辑 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2012-05-22 19:05 最后登录:2014-08-08 03:08
栏目列表
推荐内容
分享按鈕