论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2015-08-18 10:29 |只看该作者 |倒序浏览

现有一组关键词表，如下：

会计一个月工资多少钱
挖掘机一个月工资多少钱
化妆师一个月工资多少钱
美容师工资多少钱
育婴师工资多少钱
化妆师工资多少钱
咖啡师工资多少钱
理财工资分配
会计工资分配
银行工资分配
如何进行工资分配
......

同类关键词的最长后缀是一样的，想根据关键词后缀来进行分组，最终效果如下：

会计一个月工资多少钱 >> 一个月工资多少钱
挖掘机一个月工资多少钱 >> 一个月工资多少钱
化妆师一个月工资多少钱 >> 一个月工资多少钱
美容师工资多少钱 >> 工资多少钱
育婴师工资多少钱 >> 工资多少钱
化妆师工资多少钱 >> 工资多少钱
咖啡师工资多少钱 >> 工资多少钱
理财工资分配 >> 工资分配
会计工资分配 >> 工资分配
银行工资分配 >> 工资分配
如何进行工资分配 >> 工资分配
......

关键词总共有4w个，咋实现...

关键词

文库|博客

ssfjhh

富足长乐

论坛徽章:: 4

2楼 [报告]

发表于 2015-08-18 11:21 |只看该作者

本帖最后由 ssfjhh 于 2015-08-18 11:22 编辑

会计工资分配 >> 工资分配
银行工资分配 >> 工资分配

复制代码

要是再来个“工商银行工资分配”，该怎么算呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

substr函数

腰缠万贯

论坛徽章:: 26

3楼 [报告]

发表于 2015-08-18 15:26 |只看该作者

回复 1# GoGo闯

育婴师工资多少钱
化妆师工资多少钱
咖啡师工资多少钱

最长后缀是

师工资多少钱

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sxcong

家境小康

论坛徽章:: 0

4楼 [报告]

发表于 2015-08-18 18:30 |只看该作者

分词都是要先有词典的
代码相对容易，可以参考开源的ik之类
分词的工具，一般直接用elasticsearch

评分

参与人数 1	信誉积分 +5	收起理由
substr函数	+ 5	赞一个! 分词都是要先有词典的

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

icymirror

小富即安

论坛徽章:: 4

5楼 [报告]

发表于 2015-08-19 12:34 |只看该作者

如果确定是词后缀的话，也许可以通过逆序数据后建立一个树来进行分类．
比如：
会计一个月工资多少钱　＝＞　钱少多资工月个一计会
然后，
一个字一个节点建立树，每个节点上加一个本节点被访问几次．
钱少多资工月个一计会
钱少多资工月个一机掘挖
这两个数据建立的结构就是：
从"钱"到"一"的访问次数都是２，后面的是１．
然后，在叶子结点上把原始字符串记录上．
这样，把所有数据都加入进这个树之后，就可以设定一个阈值来进行划分了．
比如：可以设定为当一个节点访问５次以上才作为共同结点，这时候，下级的所有叶子可以在这一个结点合并在一起．
然后，当所有节点过滤完成之后，把内容输出就可以了．
因为排出路径的同时，数据也已经是按照对应的词分组了．

评分

参与人数 1	信誉积分 +10	收起理由
ssfjhh	+ 10	很给力!

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

bskay

丰衣足食

论坛徽章:: 11

6楼 [报告]

发表于 2015-09-07 15:43 |只看该作者

哈哈,这个问题我一般这样做的,
先造一个词库,然后把这好几万数据都处理一下,如果有的条目没有找到后缀,就把后缀打印出来,手工(活自动)加到词库
然后再跑一次,直到没有例外

人脑加电脑.手动加自动,不全自动也不全手动

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

icymirror

小富即安

论坛徽章:: 4

7楼 [报告]

发表于 2015-09-07 23:22 |只看该作者

我的解决方案对应的代码如下：
其中，假定所有词保存在"data.txt"文件中，并且，每个词一行。
然后，在main中调用时，以长度3(可以直接把3更换成需要的次数)作为关键词出现的最低标准。

def addWordToTree(word, statistics):
"""
Add a word element into statistics tree
"""
sequence = word[::-1]
start = statistics
for item in sequence:
if start.has_key(item):
start[item][0] += 1
else:
start[item] = [1, {}]
start = start[item][1]
def readData(filename):
"""
Read data from specified data file
"""
result = {}
with open(filename, "r") as handle:
for line in handle.readlines():
line = line.strip()
addWordToTree(line.decode("utf-8"), result)
return result
def filterData(data, key, status, bar = 4):
"""
Filter built words tree with expected bar
"""
for item in data.keys():
if data[item][0] < bar:
for subItem in data[item][1]:
buildResult(data[item][1][subItem][1], key, status, item + subItem)
else:
filterData(data[item][1], key + item, status, bar)
return status
def buildResult(data, key, status, content):
"""
Build filtered result, [::-1] is used to ensure key and value in correct direction
"""
if len(data) == 0:
if status.has_key(key[::-1]):
status[key[::-1]].append(content[::-1])
else:
status[key[::-1]] = [content[::-1]]
else:
for item in data.keys():
buildResult(data[item][1], key, status, content + item)
def main():
data = readData("data.txt")
result = {}
filterData(data, "", result, 3)
for key, value in result.iteritems():
print "=" * 80
print key.encode("utf-8")
print "-" * 60
for item in value:
print item.encode("utf-8")
if __name__=="__main__":
main()

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 一个关键词分组的问题

一个关键词分组的问题 [复制链接]

评分

评分

浏览过的版块