1 234 / 4 页下一页

请问pyhon开多线程费内存吗 [复制链接]

fandatou

白手起家

论坛徽章:: 0

21楼 [报告]

发表于 2006-12-11 15:21 |只看该作者

不明白，我就是开5个线程去抓网页，抓下来后正则分解写数据库，然后返回。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

ghostwwl

小富即安

论坛徽章:: 4

22楼 [报告]

发表于 2006-12-12 17:33 |只看该作者

木头说得对，不然你有的链接有问题，那个线程死在那里占着cpu不放

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fandatou

白手起家

论坛徽章:: 0

23楼 [报告]

发表于 2006-12-14 01:07 |只看该作者

抓网页和写数据库都用try包围起来了。跑一些比较快的网站也cpu也是很高，回头弄个本地webserver试试看看开300个线程如何。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

phpbird

稍有积蓄

论坛徽章:: 0

24楼 [报告]

发表于 2006-12-15 22:16 |只看该作者

应该是你写的程序的问题。
贴出来看看

[ 本帖最后由 phpbird 于 2006-12-15 22:18 编辑 ]

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shhgs

家境小康

论坛徽章:: 0

25楼 [报告]

发表于 2006-12-19 13:48 |只看该作者

不知道Perl的线程是怎么回事，不过Py的线程，我只是说线程，不会占用那么多的内存。但是如果你用线程递归计算Hanoi塔，那么占用100G，我也不会觉得奇怪。

Py的线程是混合线程。所谓混合线程是指，就OS的角度看，Py解释器只有一个线程，所谓Python的多线程，实际上是解释器水平实现的。因此多核CPU，SMP之类的，对Py来说是白费劲。但是，Py的多线程也并不是完全没有例外。block的IO的时候，解释器就是以多线程方式运行的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

shhgs

家境小康

论坛徽章:: 0

26楼 [报告]

发表于 2006-12-19 13:57 |只看该作者

估计是gabbage网页占了内存空间。

Py的垃圾回收机制和Java的有点类似。只要还有内存，他就不回收。所以用得多也正常。

我倒是从来不做垃圾回收。不知道gc.collect是不是能起作用。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

星尘细雨

家境小康

论坛徽章:: 0

27楼 [报告]

发表于 2006-12-19 21:31 |只看该作者

5个程序占用100%, 开300个不一样占100%嘛。。。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

fandatou

白手起家

论坛徽章:: 0

28楼 [报告]

发表于 2006-12-19 23:41 |只看该作者

抓网站的代码在这里

def openurl(id):
url ="""http://""" + str(id) + """.xxx.com"""
print url
try:
html_date = urllib.urlopen(url).read()
#print html_date
except:
print 'find a error'
pass
else:
logfile='log/' + str(id) +".html"
open(logfile,'w').write(html_date)
error_re=re.compile(r"""(数据库暂时没有您要查找的数据)""")
companyinfo_re=re.compile(r"""<font style="font-size:12pt">(.*?)</font>""", re.S|re.M)
Mobile_re=re.compile(r"<td align=center>手机:</td>.*?<td align=center>(.*?)</td>", re.S|re.M)
Fax_re=re.compile(r"<td align=center>传真:</td>.*?<td align=center>(.*?)</td>", re.S|re.M)
clear_re= re.compile( r"(<.*?>| |\s+|\n|\t|\r|\\|/|')")
info_re=re.compile(r"(企业类型|.....|管理体系认证):</b></td>.*?<t.*?>(.*?)</td>", re.S|re.M)
db_user = ""
db_pw = ""
db = MySQLdb.connect("localhost", db_user, db_pw ,"。。。")
c = db.cursor()
if error_re.search(html_date):
print "数据库暂时没有您要查找的数据"
open('error.log','a').writelines(str(id)+"\n")
return
try:
if info_re.finditer(html_date):
companyinfo_group=companyinfo_re.search(html_date)
temp_info=companyinfo_group.groups()[0]
company_info=clear_re.sub('',temp_info)
mobile_group=Mobile_re.search(html_date)
mobile=clear_re.sub('',mobile_group.groups()[0])
print mobile
Fax_group=Fax_re.search(html_date)
Fax=clear_re.sub('',Fax_group.groups()[0])
print Fax
company_dict={"":""}
for m in info_re.finditer(html_date):
info_cat=m.groups()[0]
name=clear_re.sub('',m.groups()[1])
company_dict[info_cat]=name
print "%s %s %s " % (info_cat , "," ,name)
insert_data="insert into company (Company_ID.....) values ('" + str(id) + "' ..... +"')"
c.execute(insert_data)
open('work.log','a').writelines(str(id)+"\n")
return
else:
print "open url error"
open('error.log','a').writelines(str(id)+"\n")
return
except:
print "数据有错误"
open('error.log','a').writelines(str(id)+"\n")
return
#print url