知行编程网知行编程网  2022-07-25 17:00 知行编程网 隐藏边栏 |   抢沙发  5 
文章评分 0 次,平均分 0.0

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

来自 | 机器之心   作者 | 魔王

paperai 利用 AI 技术发现和综述医疗 / 科学论文。 


在研究领域,每天都会涌现大量论文,如何发现优秀论文并快速获取信息是一个难题。最近,有开发者开源了一个 AI 支持的文献发现和综述引擎 paperai,可用于医疗 / 科学论文。

GitHub 地址:https://github.com/neuml/paperai

paperai 可以自动执行繁琐的文献综述工作,使研究人员不必为此耗费精力,从而能够聚焦自己的核心工作。该工具运行 query 筛选出符合特定标准的论文,并执行基于问答提取技术的 report 功能,从一组医疗 / 科学论文中找出关键问题的答案。

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目


 如上图所示,paperai 运行 query 和 report,得到问题的答案,并在论文中标注出来。

据介绍,paperai 已被用于分析 COVID-19 开放研究数据集 (CORD-19),并在 CORD-19 Kaggle 挑战赛中获得了多个奖项。

paperai 背后的 AI 技术

paperai 使用 Python 构建,并使用 FastText + BM25 创建句子嵌入索引。

详情参见:https://towardsdatascience.com/building-a-sentence-embedding-index-with-fasttext-and-bm25-f07e7148d240

paperai 模型利用句子嵌入索引和 SQLite 数据库处理文章。

具体而言,模型将每篇文章解析成多个句子,并和文章元数据一起存储进 SQLite 数据库,然后基于整个数据库构建 FastText 向量。句子嵌入索引仅使用标记文章,从而帮助输出最具相关性的结果。

用户可以通过多个入口点与模型进行互动:

  • paperai.report:为一系列 query 构建 markdown 格式的报告。对于每条 query,模型显示最匹配的文章,并用高亮形式标示出与 query 嵌入搜索最具相关性的文章部分。

  • paperai.query:在终端运行一条 query。

  • paperai.shell:在终端运行多条 query。


项目作者展示了 paperai 在 CORD-19 挑战赛中的应用:

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

 

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目


如何安装和使用

GitHub 项目详细介绍了 paperai 的安装和使用方法。

安装

最简单的方式是通过 pip 和 PyPI 安装:


也可以直接从 GitHub 安装 paperai,推荐使用 Python 虚拟环境,支持 Python 3.6+:


构建模型

用户可以利用以下代码为 SQLite 数据库构建索引:


模型将存储在 ~/.cord19。

构建报告文件

调用报告的示例如下:


报告支持多种格式:Markdown(默认格式)、CSV 和标注格式(即在原始 PDF 文件上显示标注结果)。

运行 query

最快速的方式是启动 paperai shell:


将出现提示。query 会被直接输入到控制台中。

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong>完<strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong></span></strong></span></strong></section><pre><pre><section style="letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="letter-spacing: 0.544px;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;"><span style="color: rgb(0, 0, 0);"><strong><span style="font-size: 16px;font-family: 微软雅黑;caret-color: red;">为您推荐</span></strong></span></section><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">一个算法工程师的日常是怎样的?</p><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">彻底搞懂机器学习中的正则化<br  /></p><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">13个算法工程师必须掌握的PyTorch Tricks</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">吴恩达上新:生成对抗网络(GAN)专项课程</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">从SGD到NadaMax,十种优化算法原理及实现</section></section></section></section></section></section></section></section></section>

论文千千万,如何发现和综述新研究?这里有个利用AI技术的热门开源项目

本篇文章来源于: 深度学习这件小事

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享