你好,欢迎来到开原资讯
微信
腾讯微博
新浪微博
RSS
首页 > 科技 > >近3万篇!科研界开放迄今最大冠状病毒文献集 微软等多家机构参与
近3万篇!科研界开放迄今最大冠状病毒文献集 微软等多家机构参与
时间:2020-03-18 22:36:59   来源:网络    编辑:匿名 阅读:64次

原标题:近3万篇!科研界开放迄今最大冠状病毒文献集 微软等多家机构参与 来源:前瞻网

近日,为了更好地开展新冠病毒方面的研究与合作,近日科技界、学术界正式宣布了一个公开数据集CORD-19。

据悉,这是目前全球最大COVID-19研究数据集,内含截至3月13日的所有新型冠状病毒的论文。

它包含针对文本进行优化的文本处理工具包SciSpacy、在科学文本上进行预训练的BERT模型SciBERT、开放研究语料库和API等,汇集了共计超29,000篇文献。其中,约1.3万篇有关COVID-19和冠状病毒家族。

据相关人员介绍,新数据集中的文章将是机器可读的。这意味着可以轻松地对他们进行解析,以用于机器学习目的。而且随着新论文发表在预印本网站bioRxiv和medRxiv以及同行评审期刊上,该数据集将会每周进行更新。

该数据集还进行了分类,包括哪些是商业用途的(9000篇),哪些是非商业用途的(1973篇)。

该项目由艾伦AI研究所、Chan Zuckerberg Initiative(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软以及美国国立卫生研究院国家医学图书馆(NLM)等机构组成,与美国白宫科学技术办公室(OSTP)合作创建。据悉,中国科学家贡献了大量研究和数据。

此前,全球已有包含美国、意大利、韩国、英国等在内的11个国家和地区要求相关机构开放这些数据集,以供研究。

目前来看,CORD-19数据集代表了迄今为止用于数据挖掘的最广泛的冠状病毒文献集(机器可读),使全球的AI研究社区有机会应用文本和数据挖掘方法来查找此内容中的问题的答案。

除了公开数据集,上述机构还共同发起了COVID-19开放研究数据集挑战赛,每项任务奖励1000美金,旨在激发社区使用CORD-19来寻找有关COVID-19大流行的新见解,包括该病毒的自然史、传播和诊断,先前流行病学研究的经验教训等。挑战赛包括十大任务,具体从潜在风险因素、环境稳定性、样本任务、病毒遗传学、疫苗和特效药等方向展开。


合作媒体
发型设计
电影网
爱卡汽车
网站法律顾问:ITLAW-雄律师