忘记密码   免费注册 查看新帖 |

ChinaUnix.net

  平台 论坛 博客 文库 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
最近访问板块 发新帖
查看: 2411 | 回复: 2

程序员们花了 14 个小时寻找疫苗流向 [复制链接]

论坛徽章:
6
金牛座
日期:2015-09-22 17:38:01亥猪
日期:2015-09-28 16:18:152015亚冠之胡齐斯坦钢铁
日期:2015-09-30 11:44:0115-16赛季CBA联赛之四川
日期:2015-12-10 17:35:5515-16赛季CBA联赛之八一
日期:2016-06-14 10:48:10shanzhi
日期:2016-06-17 17:59:31
发表于 2018-07-23 17:25 |显示全部楼层
这篇文章是我在一个 IT 技术社区 v2ex 看到的,作为一个技术人,看到有技术人通过技术的方式为疫苗事件做点什么,很是欣慰与自豪,为此必须自发帮助扩散下,让更多人知道的同时,也希望更多有能力的技术人参与进来,原帖子见这里:
https://www.v2ex.com/t/473163

前言
1. 什么是第二类疫苗
第一类疫苗,是指政府免费向公民提供,公民应当依照政府的规定受种的疫苗,包括国家免疫规划确定的疫苗,省、自治区、直辖市人民政府在执行国家免疫规划时增加的疫苗,以及县级以上人民政府或者其卫生主管部门组织的应急接种或者群体性预防接种所使用的疫苗;
第二类疫苗,是指由公民自费并且自愿受种的其他疫苗。
常见的二类疫苗有:口服轮状病毒疫苗、甲肝疫苗、HIB 疫苗、流感疫苗、狂犬病疫苗等。
2. 这次事件的起因是? 长春长生又是什么角色
长春长生是一家药企,但是在最近的事件中,被发现所造疫苗连续造假
  • 7 月 15 日 药监局发现长春生产的狂犬疫苗出了问题。没收了 GMP 证书
  • 7 月 20 日 长春生产的吸附无细胞百白破联合疫苗因 [效价测定] 项不符合规定,收到了《吉林省食品药品监督管理局行政处罚决定书》,没收库存的“吸附无细胞百白破联合疫苗” 186 支。

但是这个家药企的历史背景更是劣迹斑斑,详情请自行查阅的<疫苗之王>
本次涉事的不止长春长生,还有长生生物、武汉生物、江苏延申、深圳康泰、民海生物等
也一并列入分析情况,涉事的是二类疫苗(不太清楚一类疫苗的情况,能力有限,先从二类疫苗开始)
本文的主要目的是通过已经公示的情况来查看一下长春二类疫苗在各省份的情况
方便各位进行参考和自检
3. 数据采集源
因为有一些实在太难找了,只能两年来看一下情况,并且不考虑增补名单
所以我本人自己的整理并不完整,所以,所有数据和代码已经全部同步到 GitHub:
有需要可以自取或者完善告诉我,
4. 采集关键词

  • 省名  第二类疫苗  采购
  • 省名  第二类疫苗  公示
  • 省名  第二类疫苗  产品及价格
  • 省名  第二类疫苗  供应商
  • 省名  第二类疫苗  中标目录
  • 省名  第二类疫苗  参考价
  • 省名  第二类疫苗  入围结果


5. 采集结果整理如下

  • 北京市,来源:北京市 2018-2019 年免疫规划用第二类疫苗采购项目
  • 天津市,来源:天津市 2018-2020 年第二类疫苗集中采购项目拟中标 /拟中选结果
  • 上海市,来源:2018 年度上海市第二类疫苗集团采购项目中标目录
  • 重庆市,来源:重庆市第二类疫苗供应商入围采购-采购结果预公示
  • 河北省,来源:河北省疾病预防控制中心 2018 年度第二类疫苗省级集中采购项目中标公告
  • 山西省,来源:2018 年度山西省第二类疫苗集中采购入围企业产品及价格
  • 辽宁省,来源:辽宁省第二类疫苗平台招标采购公告
  • 吉林省,来源:2017 年度吉林省第二类疫苗集中采购企业产品议价结果名单
  • 黑龙江省,来源:黑龙江省 2018 年第二类疫苗挂网采购中标企业产品及价格审核结果
  • 江苏省,来源:江苏省第二类疫苗集中采购中标产品(这个还花了我 19.9 在百度文库买的,艹)
  • 浙江省,来源:浙江省 2018 年第二类疫苗中标目录
  • 安徽省,来源:安徽省 2018 年第二类疫苗集中采购目录
  • 福建省,来源:福建省 2018 年第二类疫苗集中采购目录_湄洲岛
  • 江西省,来源:1228 江西省 2018 年度第二类疫苗入围品种目录
  • 山东省,「找不到」
  • 河南省,来源:2017 年河南省二类疫苗供应商入围资格采购项目中标结果公告
  • 湖北省,来源:2017 年湖北省第二类疫苗集中采购成交产品
  • 湖南省,来源:湖南省第二类疫苗集中采购文件
  • 广东省,来源:2018 年度广东省第二类疫苗成交品种目录
  • 海南省,来源:海南省第二类疫苗品种目录(第一批)
  • 四川省,来源:2017 年度第二类疫苗挂网阳光采购结果
  • 贵州省,来源:贵州省第二类疫苗集中采购报价解密结果
  • 云南省,来源:云南省疾病预防控制中心二类疫苗公开招标入围项目入围公告
  • 陕西省,来源:陕西省 2018 年二类疫苗集中采购项目入围供应商磋商结果
  • 甘肃省,来源:甘肃省第二类疫苗供应资格采购项目中标公示
  • 青海省,来源:所有的第二类的价格信息全部转到:223.220.250.135:8038  无法查看
  • 台湾省,暂无
  • 内蒙古自治区,2018 年内蒙古自治区第二类疫苗集中采购入围企业产品及价格
  • 广西壮族自治区,2017 年度广西壮族自治区第二类疫苗直接挂网采购拟入围产品目录(电子版)
  • **自治区,实在找不到
  • 宁夏回族自治区,2016 年宁夏回族自治区第二类疫苗公开招标预中标结果
  • 新疆维吾尔自治区,《自治区 2017 年第二类疫苗入围品种及价格目录》 20170828.xls
  • 香港特别行政区,暂无
  • 澳门特别行政区,暂无

综上, 除去港澳台 , 山东,青海以及**以外,只拿到了 30 个省级行政区的二类疫苗数据公示情况
单单是去检索,下载的过程,就足足花了 7 个多小时。作为政府需要公示的数据,
没想到获取的过程这么困难和艰辛
  • 某些政府网站先登录才可以下载
  • 有些政府网站被菠菜了
  • 搜索框有,但是没得按
  • 有些只有图片
  • 有些只在公告出现过
  • 找不到信息的有

    • 山东省,只看到新闻说建了可追溯的展示平台,不知道怎么追。。
    • 青海省,所有的第二类的价格信息全部转到:223.220.250.135:8038  无法查看
    • **,神秘的力量导致无法搜索

如图,最终获取到 27 个省份的数据
640.jpg
6. 数据整理
由于不是专业的医药人士,所以统一把数据整理成以下的 csv 格式
通用名,来源,生产企业,申报企业,省,中标年份name,src,create_company,report_company,prov,year
各项含义如下:
  • 通用名 :药名  -> name
  • 来源:国产 /进口 -> src
  • 生产企业 ->  create_company
  • 申报企业:如果为空再填充为生产企业 ->  report_company
  • 省  ->  prov
  • 中标年份 ->  year

又因为整理非 XLS 的文件消耗大量的时间
暂时也得先延后,先把成型的数据集提取
6401.jpg 目前处理结果如下
  • 数据标准 csv(14)
    吉林省,四川省,天津市,宁夏回族自治区,安徽省,山西省,广东省,新疆维吾尔自治区,江苏省,江西省,海南省,贵州省,辽宁省,黑龙江省,
  • 等待整理的数据(13)
    上海市,云南省,内蒙古,北京市,广西省,河南省,浙江省,湖北省,湖南省,甘肃省,福建省,重庆市,陕西省,
如图所示 ,
6402.jpg
  • 亮绿色是容易获取的数据
  • 暗绿色的可以获取的数据
  • 黑色则是没有数据


7. 数据分析
直接采用 pandas+echart 进行处理
首先把所有的 csv 整合,共有 1529 条数据
对所有的生成企业进行统计分析
count    167.000000mean       9.143713std       15.839281min        1.00000025%        1.00000050%        3.00000075%        9.000000max       98.000000
共 167 个厂家,其中中位数是 3,最高是 98,很明显这是一个偏态分布。  顺手看一下箱线图
6403.png
也就是说,绝大多的数的药,都被大厂垄断。我们输出前 10 个看看
生产厂家 | 数量---|---北京科兴生物制品有限公司|98        长春长生生物科技有限责任公司| 91        华兰生物疫苗有限公司|72        玉溪沃森生物技术有限公司|57        上海生物制品研究所有限责任公司|56        大连雅立峰生物制药有限公司|51        长春生物制品研究所有限责任公司|50        华北制药金坦生物技术股份有限公司|46辽宁成大生物股份有限公司|44        北京智飞绿竹生物制药有限公司|43
长春长生位列第二。
我们再来看看各个省份中,长春长生等占据的百分比
[{'name': '天津', 'value': 14.0625}, {'name': '辽宁', 'value': 17.647058823529413}, {'name': '黑龙江', 'value': 13.274336283185843}, {'name': '安徽', 'value': 9.75609756097561}, {'name': '新疆', 'value': 16.94915254237288}, {'name': '江苏', 'value': 14.563106796116504}, {'name': '江西', 'value': 12.179487179487179}, {'name': '山西', 'value': 16.52173913043478}, {'name': '吉林', 'value': 17.857142857142858}, {'name': '贵州', 'value': 14.17910447761194}, {'name': '广东', 'value': 13.445378151260504}, {'name': '四川', 'value': 16.93548387096774}, {'name': '宁夏', 'value': 17.5}, {'name': '海南', 'value': 14.285714285714285}]
长春长生等在 14 个有数据的省份供应商中均占有一席之地
  • 亮红色 接近 20%
  • 暗红色 接近 10%
  • 黑色是没数据
    6404.jpg
结合它的销售策略来看,(这个图是从它官网下载所得)
6405.jpg
销售的情况比它想象的要好呢,
在这 14 个省份里面,每 10 种疫苗,就有一种来自长春长生们的手中。
8. 后续
做到这里已经到了夜晚的 11 点
从早上 9 点坐到现在,花了整整 14 小时,却才整理了一半的省份
北京,上海,浙江等大省缺连数据都找不全,需要人工去校对,
许多省份还偷偷把公示的数据强行加上了 登陆认证的权限,
对于一个以网络为生的我十分吃力,获取这些信息十分吃力
对于普通人而言,那就更加无从下手了,直到现在药监局迟迟没回应,
可能他们也发现了,寻找这些疫苗药物,真的比较困难吧。

论坛徽章:
131
操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57数据库技术版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:052022北京冬奥会纪念版徽章
日期:2015-08-07 17:10:57IT运维版块每日发帖之星
日期:2016-05-11 17:06:49操作系统版块每日发帖之星
日期:2016-05-11 17:06:57综合交流区版块每日发帖之星
日期:2016-05-11 17:07:05操作系统版块每日发帖之星
日期:2016-05-11 17:06:57程序设计版块每日发帖之星
日期:2016-05-11 17:06:57
发表于 2018-07-25 08:13 来自手机 |显示全部楼层
有狗看门,小编不容易啊

论坛徽章:
17
技术图书徽章
日期:2018-08-22 12:54:20技术图书徽章
日期:2018-08-22 12:53:5715-16赛季CBA联赛之北京
日期:2018-08-17 18:43:3315-16赛季CBA联赛之上海
日期:2018-07-25 11:55:2615-16赛季CBA联赛之青岛
日期:2018-07-10 14:13:18IT运维版块每日发帖之星
日期:2016-07-14 06:20:00每日论坛发贴之星
日期:2016-06-10 06:20:00综合交流区版块每日发帖之星
日期:2016-06-10 06:20:00黑曼巴
日期:2016-06-08 11:29:1815-16赛季CBA联赛之同曦
日期:2016-06-07 17:47:2815-16赛季CBA联赛之山东
日期:2016-04-18 10:23:102016猴年福章徽章
日期:2016-02-18 15:30:34
发表于 2018-07-25 11:58 |显示全部楼层
好像现在新贴都不能通过那个快捷链接出来了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

第67期:Neo4j图数据库平台架构最佳实践
【微学堂】10月18日 20:00(周四)

当下,数据的规模和类型每时每刻都在呈几何级数的增长,仅能够管理大量的数据是不够的,关键是能从海量数据中发掘出有用的信息,特别是数据之间的关联,能高效存储和处理数据之间关联的新型数据库为图数据库。 本讲座将介绍Neo4j图数据库的基本概念、设计特点、架构和经典应用场景实战分享。

进入课堂>>
  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:wangnan@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP