免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2260 | 回复: 13
打印 上一主题 下一主题

从5000个标题中找出类似的归类 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2009-03-11 20:15 |只看该作者 |倒序浏览
一个原创的帖子 给转了很多地方, 转的时候可能会把标题作了点改动, 但是他们其实说的一个事情.
比如 龙芯GCC团队专访 => 给龙芯GCC团队作了个专访, 龙芯GCC团队的专访, 转载 龙芯GCC团队专访


要求在尽可能准的找出这样相似的标题前提下, 速度也要快.
最后将相似标题结果分组返回

请各位大大出手,,不用代码,只要说下思路就可以.

论坛徽章:
0
2 [报告]
发表于 2009-03-11 20:19 |只看该作者
这要语义分析,属于自然语言理解,不是那么容易的

论坛徽章:
0
3 [报告]
发表于 2009-03-11 20:21 |只看该作者
这不是跟搜索引擎累似?

论坛徽章:
0
4 [报告]
发表于 2009-03-11 20:24 |只看该作者
提取特征词,按照特征词比对,这应该是最简单的方法了吧。

论坛徽章:
0
5 [报告]
发表于 2009-03-11 22:12 |只看该作者

回复 #4 cugb_cat 的帖子

不说怎么取,,,但说比对,,循环很多的

论坛徽章:
0
6 [报告]
发表于 2009-03-11 22:47 |只看该作者
纯粹的机器搜索办不到。一般是机器 + 人肉。你见过谁用 Google 搜索从来不分析每条结果的摘要的?

论坛徽章:
1
天秤座
日期:2014-04-27 07:42:20
7 [报告]
发表于 2009-03-12 06:11 |只看该作者
楼主事要做什么项目?我这里有现成的产品。至于这个思路,实在是太过庞大,没法给你简单的说

论坛徽章:
0
8 [报告]
发表于 2009-03-12 09:17 |只看该作者
提取出特征词后,用索引

论坛徽章:
0
9 [报告]
发表于 2009-03-12 09:25 |只看该作者
汗你们想的太复杂了。。title的长度都不长的,,和这里的题目长度差不多的

目前只是检测title,body说实话我没想好。

我目前检测5000条title平均用了90秒左右,我的方法不是很精确,但还能凑活,但我感觉还能再提速,我不希望是语言的技巧导致的提速,我希望能看到逻辑算法导致的提速,我觉得要想突破就是在如何节约循环次数上。

@langue 精确度没那么高要求

@A.com 现成产品,我没兴趣买,如果你有兴趣交流这个问题可以PM我你的联系方式,比如msn,我们可以在线沟通。


刚才跑了下程序,,循环次数5000+184538

论坛徽章:
0
10 [报告]
发表于 2009-03-12 09:31 |只看该作者
之所以放弃取特征词

按照中文分词,大体有几种,词语最大长度,正向,反向,字典,语义

无论哪一种,都不适合网络新闻,因为网络热门语言称出不穷, 即便能拿到,暂时当它拿的都对, 但是title长度太少, 特征码不够, tf,df的计算方式不适合这样短小的比较

整体速度我认为也不会比我现在的快
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP