忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 4217 | 回复: 9

[C++] 有没有什么好的搜索引擎的框架,能拿来用的,推荐一下哈。 [复制链接]

论坛徽章:
89
水瓶座
日期:2014-04-01 08:53:31天蝎座
日期:2014-04-01 08:53:53天秤座
日期:2014-04-01 08:54:02射手座
日期:2014-04-01 08:54:15子鼠
日期:2014-04-01 08:55:35辰龙
日期:2014-04-01 08:56:36未羊
日期:2014-04-01 08:56:27戌狗
日期:2014-04-01 08:56:13亥猪
日期:2014-04-01 08:56:02亥猪
日期:2014-04-08 08:38:58每日论坛发贴之星
日期:2015-08-28 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-10-22 17:41 |显示全部楼层

论坛徽章:
22
狮子座
日期:2013-12-31 10:48:0015-16赛季CBA联赛之四川
日期:2016-01-17 18:38:3715-16赛季CBA联赛之吉林
日期:2016-04-18 14:43:1015-16赛季CBA联赛之北控
日期:2016-05-18 15:01:4415-16赛季CBA联赛之上海
日期:2016-06-22 18:00:1315-16赛季CBA联赛之八一
日期:2016-06-25 11:02:2215-16赛季CBA联赛之佛山
日期:2016-08-17 22:48:2615-16赛季CBA联赛之福建
日期:2016-12-27 22:39:272016科比退役纪念章
日期:2017-02-08 23:49:4315-16赛季CBA联赛之八一
日期:2017-02-16 01:05:3415-16赛季CBA联赛之广夏
日期:2016-01-05 20:02:21程序设计版块每日发帖之星
日期:2015-12-22 06:20:00
发表于 2017-10-22 20:14 |显示全部楼层
回复 1# fender0107401

                    你想爬网站数据?
          目前流行的爬虫框架是基于 python 的。

论坛徽章:
89
水瓶座
日期:2014-04-01 08:53:31天蝎座
日期:2014-04-01 08:53:53天秤座
日期:2014-04-01 08:54:02射手座
日期:2014-04-01 08:54:15子鼠
日期:2014-04-01 08:55:35辰龙
日期:2014-04-01 08:56:36未羊
日期:2014-04-01 08:56:27戌狗
日期:2014-04-01 08:56:13亥猪
日期:2014-04-01 08:56:02亥猪
日期:2014-04-08 08:38:58每日论坛发贴之星
日期:2015-08-28 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-10-22 21:42 |显示全部楼层
zhujiang73 发表于 2017-10-22 20:14
回复 1# fender0107401

                    你想爬网站数据?

我这边有一大堆的数据,想自己搞个搜索引擎玩玩。

之前自己利用数据库的索引功能做了一个,速度也挺快的,但是打算找找有没有其他的方案。


论坛徽章:
22
狮子座
日期:2013-12-31 10:48:0015-16赛季CBA联赛之四川
日期:2016-01-17 18:38:3715-16赛季CBA联赛之吉林
日期:2016-04-18 14:43:1015-16赛季CBA联赛之北控
日期:2016-05-18 15:01:4415-16赛季CBA联赛之上海
日期:2016-06-22 18:00:1315-16赛季CBA联赛之八一
日期:2016-06-25 11:02:2215-16赛季CBA联赛之佛山
日期:2016-08-17 22:48:2615-16赛季CBA联赛之福建
日期:2016-12-27 22:39:272016科比退役纪念章
日期:2017-02-08 23:49:4315-16赛季CBA联赛之八一
日期:2017-02-16 01:05:3415-16赛季CBA联赛之广夏
日期:2016-01-05 20:02:21程序设计版块每日发帖之星
日期:2015-12-22 06:20:00
发表于 2017-10-22 22:09 |显示全部楼层
fender0107401 发表于 2017-10-22 21:42
我这边有一大堆的数据,想自己搞个搜索引擎玩玩。

之前自己利用数据库的索引功能做了一个,速度也挺快 ...

数据挖掘 ?  

论坛徽章:
89
水瓶座
日期:2014-04-01 08:53:31天蝎座
日期:2014-04-01 08:53:53天秤座
日期:2014-04-01 08:54:02射手座
日期:2014-04-01 08:54:15子鼠
日期:2014-04-01 08:55:35辰龙
日期:2014-04-01 08:56:36未羊
日期:2014-04-01 08:56:27戌狗
日期:2014-04-01 08:56:13亥猪
日期:2014-04-01 08:56:02亥猪
日期:2014-04-08 08:38:58每日论坛发贴之星
日期:2015-08-28 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-10-22 22:46 |显示全部楼层

是啊,我最近每天都鼓捣自己喜欢的东西。

最近专注于机器学习之类的东西。


论坛徽章:
39
巨蟹座
日期:2013-10-25 10:53:02程序设计版块每日发帖之星
日期:2016-01-27 06:20:00每日论坛发贴之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之佛山
日期:2016-02-04 21:11:3615-16赛季CBA联赛之佛山
日期:2016-02-05 00:55:2015-16赛季CBA联赛之福建
日期:2016-03-18 12:13:4015-16赛季CBA联赛之辽宁
日期:2016-03-24 21:38:2715-16赛季CBA联赛之福建
日期:2016-04-12 15:21:2915-16赛季CBA联赛之山东
日期:2016-04-17 12:00:282016科比退役纪念章
日期:2016-04-23 00:51:2315-16赛季CBA联赛之新疆
日期:2016-04-25 10:55:45程序设计版块每日发帖之星
日期:2016-07-02 06:20:00
发表于 2017-10-23 03:42 |显示全部楼层
没啥特殊需求就用elasticsearch吧。

论坛徽章:
89
水瓶座
日期:2014-04-01 08:53:31天蝎座
日期:2014-04-01 08:53:53天秤座
日期:2014-04-01 08:54:02射手座
日期:2014-04-01 08:54:15子鼠
日期:2014-04-01 08:55:35辰龙
日期:2014-04-01 08:56:36未羊
日期:2014-04-01 08:56:27戌狗
日期:2014-04-01 08:56:13亥猪
日期:2014-04-01 08:56:02亥猪
日期:2014-04-08 08:38:58每日论坛发贴之星
日期:2015-08-28 06:20:00每日论坛发贴之星
日期:2015-12-28 06:20:00
发表于 2017-10-23 19:59 |显示全部楼层
windoze 发表于 2017-10-23 03:42
没啥特殊需求就用elasticsearch吧。

多谢推荐。

论坛徽章:
18
处女座
日期:2016-04-18 14:00:45牛市纪念徽章
日期:2015-07-07 14:25:2615-16赛季CBA联赛之北京
日期:2016-06-03 17:11:5815-16赛季CBA联赛之天津
日期:2016-12-12 10:44:2315-16赛季CBA联赛之佛山
日期:2017-02-20 18:21:1315-16赛季CBA联赛之江苏
日期:2017-08-04 17:00:4715-16赛季CBA联赛之上海
日期:2017-08-22 18:18:55
发表于 2017-10-25 10:21 |显示全部楼层
windoze 发表于 2017-10-23 03:42
没啥特殊需求就用elasticsearch吧。

+1

论坛徽章:
3
亥猪
日期:2013-08-28 12:50:23白羊座
日期:2013-11-25 12:55:50酉鸡
日期:2014-02-12 10:46:13
发表于 2017-11-22 10:49 |显示全部楼层
本帖最后由 joepayne 于 2017-11-22 10:54 编辑

楼主应该是想搞个基于文本检索的搜索框架,这个前两年用的比较多的开源的东东是lucence,java写的,其内部有现成的关于NLP的插件,也可以做一些配置,保证有些文本(文章)可以被检索出来,ES也一般是与Lucence结合来使的。其核心也就两个东西,一个分词,一个倒排,前者保证有可能被检索到,后者保证效率

如果想做一个跟搜索引擎更接近的东西,可以往推荐或者排序上靠,自个儿写model,当然这个需要有用户交互的数据,自个儿开发推荐引擎,自个去调优

论坛徽章:
0
发表于 2017-11-22 11:22 |显示全部楼层
ES就是外皮,里面包装的还是就是lucence,另外一个类似的solr.
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP