Chinaunix

标题: 如何根据一个数据框的值过滤另一个数据框 [打印本页]

作者: elaine2017 时间: 2018-09-05 10:17
标题: 如何根据一个数据框的值过滤另一个数据框
现在有两个pandas数据框：
data1，有三列
start  end strand
   -1 38    W
   60  235    W
235  418    W
454  500    W
   -1 43    C
   79  262    C
262  437    C
459  500    C

data2，有两列
start strand
   39    W
   56    W
   61    W
119    W
187    W
220    W
455    W
483    W
   14    C
   42    C
   64    C
   78    C
156    C
192    C

现在想根据data1过滤data2，条件是，在strand这一列值相同的情况下，data2的第一列应在data1的前两列的范围内，例如：
39，其strand=W,其值不存在于[-1,38],[60,235],[235,418],[454,500]任意一个范围内，因此过滤掉data2的这一行

请问这个该怎么做？

作者: christmas1102 时间: 2018-09-07 12:55
本帖最后由 christmas1102 于 2018-09-07 13:02 编辑

# -*- coding: utf-8 -*-
a=[];b=[];c=[];d=[];e=[];f=[]
with open(r'E:\data1.txt','r+') as f1:
for line1 in f1.readlines():
line1 = line1.rstrip("\n")
a.append(line1.split())
f1.close()
with open(r'E:\data2.txt','r+') as f2:
for line2 in f2.readlines():
line2 = line2.rstrip("\n")
b.append(line2.split())
f2.close()
for i in range(1,len(a)):
if a[i][2] == 'W':
c.append([int(x) for x in a[i][:2]])
elif a[i][2] == 'C':
e.append([int(x) for x in a[i][:2]])
for i in range(1,len(b)):
if b[i][1] == 'W':
d.append(int(b[i][0]))
elif b[i][1] == 'C':
f.append(int(b[i][0]))
#---------------------------------
print(b[0][0] + "\t" + b[0][1])
for i in d:
for j in range(len(c)):
if i in range(c[j][0],c[j][1]+1):
print("%d\t\t %s" % (i,'W'))
for i in f:
for j in range(len(e)):
if i in range(e[j][0],e[j][1]+1):
print("%d\t\t %s" % (i, 'C'))

复制代码

E盘data1.txt
E盘data2.txt

草稿无简，凑合着用吧

作者: sunlove521 时间: 2020-02-24 18:25
#!/usr/bin/env python3

#f1 = open('data1.txt')
f2 = open('data2.txt')
find_max = {}
for i in f2:
find_max = {}
i = i.strip()
line = i.split()
a = int(line[0])
b = line[1]
find_max[a] = [a,b]
# print (find_max[a][0])
f1 = open('data1.txt')
for x in f1:
      x = x.strip()
      line1 = x.split()
      d = int(line1[0])
      e = int(line1[1])
      f = line1[2]
      if d < find_max[a][0] < e and find_max[a][1] == f:
         find_max[a] = [a,b]
         print (find_max.values())

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)

Powered by Discuz! X3.2