广告服务

 找回密码
 立即注册
1-1-1框架
查看: 390|回复: 23

个性化阅读的过去、现在和未来(二) 实作

[复制链接]

3万

主题

0

好友

9万

积分

管理员

Rank: 9Rank: 9Rank: 9

发表于 2014-1-25 17:44:47 |显示全部楼层
  以Reddit算法为依托,针对资讯或社会化数据做出不同分类的榜单,即热文列表。
  具体如何做?
  如何计算Interest Graph?
  让用户以自己的新浪微博、豆瓣、Google(Reader)等Social帐号登录;
  什么是LDA?
  2005年9月上线的作为本模式的最优秀代表,就深刻地教育了 mashup 开发者,原来链接检测混搭 适当的A-List 有如此高的信息过滤效率。
  待续。
  这个模式非常好理解。只不过,我定义之所以叫链接“检测”,是因为链接并不显著,或在正文中隐藏,或在 Tweets 中隐藏,需要你特地提取出来。
  Techmeme 在 Blog 时代称雄一时。到了 Twitter 时代,后起之秀是 TweetMeme,上线之初,它并没有像 Techmeme 一样大放光彩,但随着 Twitter的如日中天,它终于爆发了,它的 Alexa全球排名已经抵达在500名左右。
  郑昀 报道
  它所用到的两个技巧倒是经常看到:
  参考《基于LDA的Topic Model变形》或《LDA模型理解》。比较通俗的解释可以看这篇SEO的:《Latent Dirichlet Allocation (LDA)与Google排名有着相当显著的相关性》。
  二、基于重复文字检测的聚合模式
  收集用户初始数据。此时有两种方式。
  热门资讯聚合有几种方法,郑昀以前在一、二里都讲过:
  本模式一般是广泛收集新闻信源,标记不同的权重度,做成扫描列表;然后通过爬虫抓取最新的新闻。通过对最近一段时间内的新闻计算文本相似性,可以获知哪些文章的相似度高于预设阈值,那么就说明这些文章是近似一个话题,可以合并。
  第一篇:《个性化阅读的过去、现在和未来(一)概述》;
  的战略就是直接从Social Graph+Interest Graph切入,通过将Google Reader、Twitter、Facebook等拥有Interest Graph图谱的社会化数据导入,从而获得用户初始的兴趣爱好及社会化关系,由此引发阅读推荐,有效避免了推荐引擎的“冷启动”问题。如果用户不提供这些账号,Zite 需要你选择一些话题,然后就开始给你呈现相关的内容,这就和郑昀上一篇文章所介绍的2005~2007年活跃的个性化推荐没什么区别了。据说,国内已经有一家公司在做类似的产品,最近就会推出。
  四、Seeds模式
  用户一旦输入(或叫“绑定”)自己的社会化帐号,后台根据已收集好的数据,立刻开始计算Interest Graph。
  那么可以采用改进后的LDA算法,区分并且去除了容易造成主题混淆的关键词,只考虑主题明晰化的关键词。
  拿到Twitter、GR、新浪微博的类似Firehose(Streaming API)接口,提前存储大多数用户的社会个性化阅读的过去、现在和未来(二) 实作化数据;
  第一种,授权式:
  不能让链在这里断掉,所以必须鼓励用户再次分享、推荐、共享、收藏到其他社会化渠道。
  即Latent Dirichlet allocation(硬翻译为 潜在狄利克雷分布或隐含狄利克雷分配)。关联关键词:Topic Modeling。
  三、Reddit模式
  [ 关键词:原文/来源链接]
  从代码层次上如何具体做,我就不说了。(注:你要是手头没工具包,也没做过NLP,也可以参考这么一个工具ROST CM。)
  Google News和百度新闻的新闻聚合,都属于本模式。它们可以通过检测近期发布的资讯之间的内容重合度,能将同一个主题的资讯合并在一起,也就是以文本相似性为技术基础的。
  一、基于链接检测的聚合模式
  获得用户OAuth授权后,获得用户(以及他的好友的)timeline,实时分析其潜在阅读喜好,构建Interest Graph。
  前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起。下面着重说一下在现如今如何做个性化阅读。
  去年曾经有一位rickjin在新浪微博上如是说,颇有参考价值:
  这是一种第三方应用深入某个 Social Media的常见刺探式统计方法。事先选定一个key users集合(比如创始人以及其他核心用户,被称之为“seeds”),然后从这批用户开始扫描建立Social Graph,通过统计inbound links和好友关系,得出被扫描的social media的不同指标的排行榜,这就是Spinn3r rank所用到的手法。这种模式并不限于计算Top Users。
  第二种,预先计算式:
  前一篇:《个性化阅读的过去、现在和未来(一)概论》,今日继续此话题。
  让新鲜且投票数还不足够多的文章能快速突破进入热门榜单,是很重要的。所以郑昀曾经在《榜单类应用我所喜欢的算法》中写道:“Reddit算法是我最喜欢用的算法。这个算法的解释参见我的文章:《Hacker News与Reddit的算法比较》”。
  第二篇:《个性化阅读的过去、现在和未来(二)实作》。
  在郑昀撰写的《从Social Media海量数据中寻找专家的五大手法》中,SPEAR模式认为:“专家应该是发现者,而不是趋势的跟随者。experts应该是第一批收藏和标记高质量文章的人,从而召社区内其他用户的围观。用户发现优质内容越早,表明该用户专业程度越高。所以,要区分“Discoverers”和“Followers”。”正是通过log10 的使用,使得早期的投票(即Discoverers)获得更大的权重。比如,前10票获得的权重,与11到101票所获得的权重是一样的。
  郑昀认为,可以把计算一个(微博/twitter)的Interest Graph视为短文本分类问题。
成人用品 www.2s.tv
回复

使用道具 举报

0

主题

0

好友

461

积分

中级会员

Rank: 3Rank: 3

发表于 2014-7-9 07:13:48 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

545

积分

高级会员

Rank: 4

发表于 2014-7-9 07:13:48 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

524

积分

高级会员

Rank: 4

发表于 2014-7-9 07:13:48 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

692

积分

高级会员

Rank: 4

发表于 2014-7-24 20:50:19 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

713

积分

高级会员

Rank: 4

发表于 2014-10-9 03:44:58 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

713

积分

高级会员

Rank: 4

发表于 2014-10-9 03:44:58 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

356

积分

中级会员

Rank: 3Rank: 3

发表于 2014-11-12 08:18:21 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

566

积分

高级会员

Rank: 4

发表于 2014-11-12 08:18:21 |显示全部楼层
回复

使用道具 举报

0

主题

0

好友

629

积分

高级会员

Rank: 4

发表于 2014-11-12 08:18:21 |显示全部楼层
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|成人用品

GMT+8, 2020-3-29 13:50 , Processed in 0.850445 second(s), 186 queries .

网站地图

回顶部
http://www.xxmm888.com/article-25369.html
男女性爱情趣的激发妙招
http://pbz068.cn/thread-5436-1-1.html
http://mlq876.cn/thread-3060-1-1.html
http://aul235.cn/thread-5161-1-1.html
http://krc911.cn/thread-9697-1-1.html
http://vvn641.cn/thread-2759-1-1.html
http://yut211.cn/thread-8450-1-1.html
http://gkb950.cn/thread-8262-1-1.html
http://wfy259.cn/thread-4903-1-1.html
http://qfz360.cn/thread-8949-1-1.html
http://qgu278.cn/thread-3888-1-1.html
http://www.xxmm888.com/article-3888.html