论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2018-09-05 10:17 |只看该作者 |倒序浏览

现在有两个pandas数据框：
data1，有三列
start  end strand
   -1 38    W
   60  235    W
235  418    W
454  500    W
   -1 43    C
   79  262    C
262  437    C
459  500    C

data2，有两列
start strand
   39    W
   56    W
   61    W
119    W
187    W
220    W
455    W
483    W
   14    C
   42    C
   64    C
   78    C
156    C
192    C

现在想根据data1过滤data2，条件是，在strand这一列值相同的情况下，data2的第一列应在data1的前两列的范围内，例如：
39，其strand=W,其值不存在于[-1,38],[60,235],[235,418],[454,500]任意一个范围内，因此过滤掉data2的这一行

请问这个该怎么做？

文库|博客

christmas1102

小富即安

论坛徽章:: 4

2楼 [报告]

发表于 2018-09-07 12:55 |只看该作者

本帖最后由 christmas1102 于 2018-09-07 13:02 编辑

# -*- coding: utf-8 -*-
a=[];b=[];c=[];d=[];e=[];f=[]
with open(r'E:\data1.txt','r+') as f1:
for line1 in f1.readlines():
line1 = line1.rstrip("\n")
a.append(line1.split())
f1.close()
with open(r'E:\data2.txt','r+') as f2:
for line2 in f2.readlines():
line2 = line2.rstrip("\n")
b.append(line2.split())
f2.close()
for i in range(1,len(a)):
if a[i][2] == 'W':
c.append([int(x) for x in a[i][:2]])
elif a[i][2] == 'C':
e.append([int(x) for x in a[i][:2]])
for i in range(1,len(b)):
if b[i][1] == 'W':
d.append(int(b[i][0]))
elif b[i][1] == 'C':
f.append(int(b[i][0]))
#---------------------------------
print(b[0][0] + "\t" + b[0][1])
for i in d:
for j in range(len(c)):
if i in range(c[j][0],c[j][1]+1):
print("%d\t\t %s" % (i,'W'))
for i in f:
for j in range(len(e)):
if i in range(e[j][0],e[j][1]+1):
print("%d\t\t %s" % (i, 'C'))

复制代码

E盘data1.txt
E盘data2.txt

草稿无简，凑合着用吧

评分

参与人数 1	信誉积分 +5	收起理由
elaine2017	+ 5

查看全部评分

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

sunlove521

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2020-02-24 18:25 |只看该作者

#!/usr/bin/env python3

#f1 = open('data1.txt')
f2 = open('data2.txt')
find_max = {}
for i in f2:
find_max = {}
i = i.strip()
line = i.split()
a = int(line[0])
b = line[1]
find_max[a] = [a,b]
# print (find_max[a][0])
f1 = open('data1.txt')
for x in f1:
      x = x.strip()
      line1 = x.split()
      d = int(line1[0])
      e = int(line1[1])
      f = line1[2]
      if d < find_max[a][0] < e and find_max[a][1] == f:
         find_max[a] = [a,b]
         print (find_max.values())

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

返回列表

Chinaunix › 论坛 › 程序设计 › Python › 如何根据一个数据框的值过滤另一个数据框

如何根据一个数据框的值过滤另一个数据框 [复制链接]

评分