免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › 高手帮忙写一个文件匹配的脚本[有难度]

12 / 2 页下一页

最近访问板块

发新帖

查看: 7291 | 回复: 10

上一主题

下一主题

高手帮忙写一个文件匹配的脚本[有难度] [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2013-08-04 22:38 |只看该作者 |倒序浏览

本帖最后由 initrdimg 于 2013-08-04 22:38 编辑

如题: 把a文件的内容关键字和b文件内容进行匹配, 打印匹配的内容和不匹配的内容(最好用python 和bash shell ).本人愚笨没有写出来.请大家帮忙啊.谢谢
A 文件                                        b 文件
爱你                                           我爱你
一万                                           一万年
年                                              年年有余
                                                恋爱
                                                匹配
结果文件如下

匹配成功:
======
我爱你
一万年
年年有余

未成功:
--------
恋爱
匹配

文库|博客

论坛徽章:: 0

2楼 [报告]

发表于 2013-08-04 22:47 |只看该作者

没有人顶.自己顶一个.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

3楼 [报告]

发表于 2013-08-04 23:53 |只看该作者

问了 oschina.net 高手提示.在此感谢. chinaunix 人气不火了吗?
勉强写出来了.
http://www.oschina.net/question/1176204_120663

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

卯兔
日期:2013-08-15 13:17:31

处女座
日期:2014-01-10 11:35:23

双子座
日期:2014-01-25 02:16:06

4楼 [报告]

发表于 2013-08-05 00:45 |只看该作者

本帖最后由 sunny7476 于 2013-08-05 12:32 编辑

回复 3# initrdimg

这个求的速度有点快哈，，，刚看到，这是我的版本，文件A和文件B就是你列出的那些内容：

#!/usr/bin/env python
# coding=utf-8
fileA=open("A",'rb').readlines()
fileB=open("B","rb").readlines()
match = []
nomatch = []
for eachlineB in fileB:
for eachlineA in fileA:
if eachlineA.rstrip() in eachlineB.rstrip():
match.append(eachlineB.decode("utf-8").rstrip() )
for check in fileB:
if check.decode("utf-8").rstrip() not in match:
nomatch.append(check.decode("utf-8").rstrip() )
print (match)
print ("===========")
print (nomatch)

复制代码

结果为：

['我爱你', '一万年', '年年有余']
===========
['恋爱', '匹配']

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 13

双鱼座
日期:2013-10-23 09:30:05

数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00

程序设计版块每日发帖之星
日期:2016-03-09 06:20:00

2015亚冠之塔什干火车头
日期:2015-11-02 10:07:45

2015亚冠之德黑兰石油
日期:2015-08-30 10:07:07

数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00

数据库技术版块每日发帖之星
日期:2015-08-05 06:20:00

2015年迎新春徽章
日期:2015-03-04 09:57:09

辰龙
日期:2014-12-03 14:45:52

酉鸡
日期:2014-07-23 09:46:23

亥猪
日期:2014-03-13 08:46:22

金牛座
日期:2014-02-11 09:36:21

5楼 [报告]

发表于 2013-08-05 08:20 |只看该作者

fgrep搞起啊

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2013-08-05 09:04 |只看该作者

本帖最后由 hothat007 于 2013-08-05 09:14 编辑

回复 4# sunny7476

问一下，decode("utf-8").rstrip()这句能解释一下吗？
windows下2.7.3没有运行成功

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2013-08-05 10:47 |只看该作者

本帖最后由 hothat007 于 2013-08-05 11:03 编辑

回复 4# sunny7476

好像有bug

没跑通你的代码，
fileA：
爱你
一万
年
fileB:
是吗
我爱你
一万亿
几年前
恋爱
匹配

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

卯兔
日期:2013-08-15 13:17:31

处女座
日期:2014-01-10 11:35:23

双子座
日期:2014-01-25 02:16:06

8楼 [报告]

发表于 2013-08-05 12:31 |只看该作者

回复 6# hothat007

decode("utf-8").rstrip()是为了将中文显示在终端中，rstrip是为了去除换行符。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

卯兔
日期:2013-08-15 13:17:31

处女座
日期:2014-01-10 11:35:23

双子座
日期:2014-01-25 02:16:06

9楼 [报告]

发表于 2013-08-05 12:34 |只看该作者

回复 7# hothat007

已修改，Python3可用，Python2只是没显示出中文。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

10楼 [报告]

发表于 2013-08-05 19:00 |只看该作者

回复 9# sunny7476

我是把fileA读过来的东西先strip处理一下，然后在进行for循环查找，请问您是如何修改的呀

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Python › 高手帮忙写一个文件匹配的脚本[有难度]

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP