- 论坛徽章:
- 1
|
原始数据如下:
7624 FD5C6C419D95FD79E0B42394EC6B97A6 01-7月 -15 【超级店长】亲,您在我们店买的东西很赞吧,记得来我们店铺给个好评哦,感谢了,祝亲生活愉快~【天纵佛珠】 4277128692
616 1C172C7EBE0B8809E88DACC5434EE27C 01-7月 -15 尊敬的张元新,您好!您的订单12706553287已到款。【当当】不会以订单异常为由让您点击链接办理退款。谨防诈骗! 4277128693
2558 07B481637AE5278538B2CBC7A5C2D05A 01-7月 -15 尊敬的代理商:13890088350,您好!我们[天天乐购]给您推荐168位待装机商户【当当】;您已申请:1家;已完成:62家;已分配:0家;已转为有效商户:1家。剩余积分:3120分。谢谢! 4277128694
616 8DB57342C830C1DEF1A1036E1FD5D657 01-7月 -15 尊敬的吴迪,您好!您的订单12709025847已到款。【当当】不会以订单异常为由让您点击链接办理退款。谨防诈骗! 4277128695
616 C6C0239F94119DA3E6C0536037A58C87 01-7月 -15 尊敬的张吉论,您好!您的订单12709029608已到款。【当当】不会以订单异常为由让您点击链接办理退款。谨防诈骗! 4277128696
399865 8AE868D15D90C40DA6EE6E57209256FE 01-7月 -15 您有1个[马上送]订单 4277128697
[下单时间]08:01
[送达时间]09:01之前
[收货地址]凤凰园 19楼15层
173352 2BE1E2BFEB68AE46BED3FFEC552D3D2B 01-7月 -15 验证码:4858。为了您的帐号安全,验证码请勿转发给他人 4277128698
7624 8BA2F41874F31EF80C7C275FF18AD22B 01-7月 -15 【超级店长】亲,您在我们店买的东西很赞吧,【嘟嘟美嘟嘟丶】记得来我们店铺给个好评哦,感谢了,祝亲生活愉快~ 4277128699
047496 7D824256A88461A5E0C97844896D5D6F 01-7月 -15 【厚诚商贸】亲,您的宝贝已抵达常州市,请注意查收,有问题联系客服,如满意请点亮5颗星星,感谢您的支持 4277128700
7624 889D6BBA3B007D138B66FBD380F8F95C 01-7月 -15 【超级店长】亲,您在我们店买的东西很赞吧,记得来我们店铺给个好评哦,感谢了,祝亲生活愉快~ 4277128701
7624 6712194F3D4A18EBFA0B295E8FD4371C 01-7月 -15 【超级店长】亲,您在我们店买的东西很赞吧,【厚诚商贸】记得来我们店铺给个好评哦,感谢了,祝亲生活愉快~ 4277128702
初步清洗后的数据如下:
FD5C6C419D95FD79E0B42394EC6B97A6 01-7月-15 【超级店长】*【天纵佛珠】 1
1C172C7EBE0B8809E88DACC5434EE27C 01-7月-15 【当当】 1
07B481637AE5278538B2CBC7A5C2D05A 01-7月-15 [天天乐购]*[当当] 1
8DB57342C830C1DEF1A1036E1FD5D657 01-7月-15 [当当] 1
C6C0239F94119DA3E6C0536037A58C87 01-7月-15 [当当] 1
8AE868D15D90C40DA6EE6E57209256FE 01-7月-15 [马上送] 1
8BA2F41874F31EF80C7C275FF18AD22B 01-7月-15 【超级店长】*【嘟嘟美嘟嘟丶】 1
7D824256A88461A5E0C97844896D5D6F 01-7月-15 【厚诚商贸】 1
889D6BBA3B007D138B66FBD380F8F95C 01-7月-15 【超级店长】 1
6712194F3D4A18EBFA0B295E8FD4371C 01-7月-15 【超级店长】*【厚诚商贸】 1
二次处理,根据商家签名去重,根据*多个签名拆分换行,数据大致如下:
FD5C6C419D95FD79E0B42394EC6B97A6 01-7月-15 【超级店长】 1
FD5C6C419D95FD79E0B42394EC6B97A6 01-7月-15 【天纵佛珠】 1
1C172C7EBE0B8809E88DACC5434EE27C 01-7月-15 【当当】 1
07B481637AE5278538B2CBC7A5C2D05A 01-7月-15 [天天乐购] 1
07B481637AE5278538B2CBC7A5C2D05A 01-7月-15 【当当】 1
8AE868D15D90C40DA6EE6E57209256FE 01-7月-15 [马上送] 1
8BA2F41874F31EF80C7C275FF18AD22B 01-7月-15 【超级店长】 1
8BA2F41874F31EF80C7C275FF18AD22B 01-7月-15 【嘟嘟美嘟嘟丶】 1
7D824256A88461A5E0C97844896D5D6F 01-7月-15 【厚诚商贸】 1
889D6BBA3B007D138B66FBD380F8F95C 01-7月-15 【超级店长】 1
6712194F3D4A18EBFA0B295E8FD4371C 01-7月-15 【超级店长】 1
6712194F3D4A18EBFA0B295E8FD4371C 01-7月-15 【厚诚商贸】 1
有没有MapReduce的大神可以解救?
需求:逐行读取A文件每一行的内容,读取每一行的同时匹配文件B中的所有筛选需求,同时满足所有要求则输出文件C。
文件B筛选需求:加密的手记号码:6712194F3D4A18EBFA0B295E8FD4371C(32位数字字母混合字符)时间:01-7月 -15(这个中间含有空格) 商家签名: 【超级店长】*【厚诚商贸】(【】[]《》<>括号及括号里面的内容。)匹配到商家签名 在行尾追加标识符 1
[a-zA-Z0-9]{32}
(\\d{1,4}[\\/]\\d{1,2}[\\/]\\d{1,2})
\\《.*?\\》
\\<.*?\\>
\\【.*?\\】
\\[.*?\\]
这样以后再有新的需求,只需要在B文件上面修改增加,添加新的筛选的内容标准就行了
|
|