获奖公布: 有奖回复:chenxing2 Heguangwu 请以上获奖人员在5月20日前将姓名、电话、邮箱、公司、职务、快递地址站短给hyukhae079408,以便尽快给大家发放礼品。 话题背景:
看标题算是个有趣的问题,今天主要就算法逻辑展开讨论,
某产品运营狗受大神启发,开启自己的机器学习初体验模式,在此,援引一小部分思路:
1.作为一个从没看过红楼梦的人,我的大致思路是这样的:用开源的分词工具把全书分词(python的jieba分词),然后统计词频。把出现频次超过100次的词语找出来,人工去掉一些可能因为文章内容造成前后出现不一致的人名、地名;
2.然后每一章按照2中的词频表,看这一章中出现这些词语的频次;
3.前80回、后40回各选15回作为机器学习的数据,让机器学习这些章节的用词特点,然后推算其他章节的用词特点是属于前80回呢、还是后40回;
4.如果机器根据这些用词特征推算的是否属于后40回的结果跟实际的结果吻合,那么就说明后40回的写作风格跟前80回有很大不同,很可能是两个人写的;
以上,只是产品同学,作为初学者的浅尝辄止,如果你有更好的思路和逻辑,欢迎拍砖。这可能跟你是否读过《红楼梦》没多大关系,本次讨论,主要就算法和机器学习展开讨论。
讨论问题:(任选其一)
1.如何用算法学习判定“红楼梦(下)”原作者?您是否有更好的思路。
2.如何做好机器学习、数据挖掘工作?需要设计哪方面的语言和算法学习?(可引荐相关专业图书,以及具体算法的学习) 3.机器学习应该准备哪些数学预备知识?
讨论时间:2017年3月13日—4月13日
活动奖励:
活动结束后,我们将会选取1个精彩回复,送DTCC2017大会入场券一张。
选取3个回复,送社区春季版运动帽衫
DTCC 2017 来啦!
随着云计算和大数据时代的来临,数据正在以前所未有的速度成为各个领域价值创造的核心驱动力。
在此背景下,国内最受关注的数据库技术盛会——2017第八届中国数据库技术大会(DTCC2017)将于2017年5月11-13日如约而至。本届大会以“数据驱动•价值发现”为主题,汇集来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。大会共设定2大主场和20个技术专场,将吸引5000多名IT人士参会,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。
官网链接:http://dtcc.it168.com/
购票链接:http://dtcc.it168.com/goupiao.html
欢迎扫码关注DTCC官方微信,获取最新信息!
|