


literature search design and implementation based on paradise

指导教师: 闫宏飞 副教授



本文基于天网实验室的platform for applying, researching and developing intelligent search engine (paradise)搜索引擎平台,通过以从抓取的计算机网络方向的2500多篇论文为数据,搭建成一个论文搜索系统,最终目的是通过论文之间的引用关系,获得其他引用这篇论文的作者对这篇论文的评价,形成一个小的评价段落,以及impact-based summaries,从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。我们首先从上面抓取了文章之间的引用关系,然后通过一个算法获得对一篇文章评价的候选句子集,根据这些句子的重要程度进行排序,获得一个评价短文。并且构建了一个语言模型,通过这些候选句子集对原文的句子进行评分,取得分最高的几个句子,获得原文基于影响的概括。


搜索引擎, 论文评价, 语言模型, kl-divergence算法, 基于影响的概括


in this paper, based on the paradise (platform for applying, researching and developing intelligent search engine) and the data of 2500 papers in area of computer network, we construct a search engine of papers. our goal is to get the comment and impact-based summaries of one paper based on the reference relations between the papers. we firstly get candidate sentences which comment on the previous paper and generate a citation context. then we construct a language model, through the citation context, we can score the sentence in the previous paper, and get the impact-based summaries.

search engine, paper comment, language model, kl-divergence scoring, impact-based summaries


第1章 引言... 5

1.1研究背景... 5

1.2工作内容... 2

1.2.1抓取所需要的论文数据... 2

1.2.2获得一篇论文的评价并较好的显示出来... 2

1.2.3获得一篇论文基于影响的总结段落... 3

1.2.4基于paradise平台搭建搜索平台... 3

1.3实验的意义... 3

第2章 数据的收集... 5

2.1如何提取数据... 5

2.2数据抓取的过程... 6

2.3数据的存储及解析... 7

第3章 生成评论集... 10

3.1获得评价的候选句子集... 10

3.2获得评论段落... 11

第4章 建立模型并生成基于影响的概括... 13

4.1建模之前我们所有的数据... 13

4.2建模算法... 13

4.3算法的实现... 14

4.4获得基于影响的概括... 15

第5章 搭建搜索引擎... 16

5.1 paradise结构简介... 16

5.2修改索引部分... 17

5.3修改前台部分... 18

5.4系统示意图... 19

5.4.1主界面... 19

5.4.2搜索结果界面... 20

5.4.3评论界面... 21

第6章 实验结果与分析... 22

6.1实验结果... 22

6.2具体分析... 22

第7章 后续工作... 26

第8章 致谢... 27

参考文献... 28

