最近北京这疫情又起来了,我闲着没事,就想看看能不能扒点北京死亡病例的详情出来,看看能不能分析点别误会,我不是想搞事情,就是纯粹的技术研究,满足一下好奇心。
我先是各种搜,把能找到的官方通报都翻了一遍,像什么北京卫健委的通报、新京报的报道,全都没放过。然后一条一条地整理,看看能不能找到共同点。
第一步:信息搜集我把搜到的信息都复制粘贴到一个txt文件里,然后用Python写了个简单的脚本,把里面的关键词提取出来。关键词包括年龄、性别、既往病史、出现症状的时间等等。
- 年龄:主要集中在80岁以上,确实是老年人风险比较高。
- 性别:男女都有,但是男性好像稍微多一点。
- 既往病史:高血压、脑梗、老年痴呆,基本上都是有基础病的。
- 症状出现时间:这个不太好统计,信息太少,但是大部分都是在确诊前几天出现症状。
搜集来的信息肯定没那么规整,所以我要手动清洗一下。把重复的信息删掉,把一些模糊的信息补充完整。比如,有的通报里只说了“高龄”,我就根据上下文推测了一下,估计都是80岁以上。
第三步:简单分析数据量太少,分析不出啥特别有用的东西。但是大概能看出来,高龄、有基础病的老年人,感染新冠的风险确实比较高。
第四步:结果记录我把整个过程都记录下来了,包括我用的搜索关键词、整理的信息、写的Python脚本等等。以后万一要用到,也能方便回顾。
总结这回实践没啥特别的技术含量,就是体力活。但是也让我对新冠病毒有了一个更直观的认识。以后还是要好好保护自己,尤其是家里有老人的,更要多加注意。
希望这回分享能给大家带来一点启发,也欢迎大家一起交流讨论。
还没有评论,来说两句吧...