数据库与智能信息检索实验室 (DBIIR).

@ Info, RUC

概览

数据库与智能信息检索实验室 (Database & Intelligence Information Retrieval Lab, 简称为DBIIR) 是由杜小勇教授所领导的, 专注于解决Web中非规范知识获取问题和Web数据的大数据管理和分析问题的研究型实验室。 本实验室是数据工程与知识工程教育部重点实验室的重要组成部分,隶属于中国人民大学信息学院计算机系。

在成立之初,DBIIR实验室便将“What You Get Is What You Want”确立为所有研究人员努力追求的理想目标。 这个目标源于实验室的研究动机,也源于当今互联网发展的迫切需要。 现在Web已经成为人们获取知识的主要手段,但从Web中获得人们想要的知识其实十分困难,原因在于Web上知识的非规范性和搜索引擎智能程度不高。 为解决上述问题,实验室的总体研究思路是从提高互联网本身的智能和搜索引擎的智能两方面着手。 基于此,实验室目前有如下四个研究小组从事相关的研究工作:(1) 数据库小组; (2) 数据挖掘小组; (3) 交互式分析与搜索小组;(4) 知识图谱小组。

当前研究课题

  • 垂直领域智能问答   陈跃国 —— chenyueguo@ruc.edu.cn,信息楼500
    智能问答系统是人工智能领域的重要研究课题。它的功能是为用户的问题找到具体的答案。 例如,用户问题:“旅游过程中手机不小心掉进海水里了怎么办?”, 那么智能问答系统给出的答案:“请不要尝试开机或按下关机键。擦干手机表面的水渍,然后将手机放置到强力吸水环境(如活性炭、大米、防潮剂)中 48 小时,干燥后尝试开机”。常见的智能问答系统以开放领域为主,答案的相关度往往上不去。我们以垂直应用为背景,为企业解决如果构建大规模的问答对,以及如何利用已有的问答对精准回答用户的提问。在问题理解和检索中,我们用到了垂直领域的知识图谱。研究工作涉及自然语言处理、信息检索和机器学习方面的技术。

  • 政府治理大数据行为知识图谱研究  陈跃国 —— chenyueguo@ruc.edu.cn,信息楼500
    互联网很多领域存在大量的欺诈行为。我们的研究关注于互联网金融领域,将用户多渠道的行为数据关联成行为知识图谱。进而,在海量行为网络上,研究群体欺诈行为识别算法,支撑异常行为模式发现的数据探索系统,以及大规模行为图谱的数据管理系统。参与研究的同学将接触到真实应用场景中的用户行为数据,研究高性能的特征提取方法,在真实应用中积累一手数据科学研究经验。

  • 大数据分析系统   陈跃国 —— chenyueguo@ruc.edu.cn,信息楼500
    大数据分析是支撑各类大数据应用的基础,我们研究的关键问题是如何在大数据背景下,尤其是在分布式的Hadoop集群上高效地支持大规模的查询和分析。我们对已有的Spark和Presto等开源系统进行了深入的剖析,围绕如何将数据更高效的装载到Hadoop集群中、如何让小查询更快速的执行、如何根据查询负载自适应地优化数据存储等关键技术对现有系统进行了优化,开发了ParaFlow和Rainbow等系统。大数据分析系统的研究需要一定的工程能力和编程语言基础,同时一些机器学习的技术也能融入其中。

  • 基于RDF知识图谱的探索式搜索技术研究  陈跃国 —— chenyueguo@ruc.edu.cn,信息楼500
    RDF知识图谱蕴含丰富的实体和关系,为用户获取知识提供了一种新的途径。然而,面对规模庞大的、多领域的RDF知识图谱,用户通常会因为不熟悉信息空间或者不清楚搜索意图的原因,难以通过简单的查询检索到理想的结果。因此,本项目研究如何通过探索式搜索的方式,协助用户逐步调整和改进搜索目标,进而更有效地从庞大复杂的RDF知识图谱中找到感兴趣的内容。本项目涉及到信息检索、推荐系统以及人机交互等领域的关键技术,主要研究内容包括:1)面向实体的检索算法研究;2)面向实体的推荐算法研究;3)面向移动设备的交互方式研究。

  • 面向政务治理的大数据共享融合关键技术研发及验证  卢卫 —— lu-wei@ruc.edu.cn,信息楼500
    国务院发布的《政务信息系统整合共享实施方案》,标志着大数据成为我国重大战略。政务大数据及其在政务治理的应用是《纲要》、以及2017年国务院发布的《政务信息系统整合共享实施方案》和即将启动的“大数据国家重大工程”的核心任务。实现上述目标亟待解决的一个关键技术问题:多源异构系统中长期出现的孤岛效应造成了数据的非一致、非完整、非准确而形成语义鸿沟,导致语用缺失,难以共享融合和深度分析挖掘。而现有基于机器学习的数据融合算法还无法有效解决数据不一致、缺失、错误等质量问题。为此,本课题拟利用众包这一新兴的群体计算模式,与基于机器的图谱构建算法有机地结合起来,研究基于群智的政务知识图谱构建与自演化技术,实现高准确度的多源异构数据融合,并提供实时的政务知识检索与导航,满足政府数据共享共用的要求。

  • 海量RDF数据管理系统  陈晋川 —— csjcchen@gmail.com,信息楼500
    RDF(Resource Description Framework)是W3C提出的一个规范,被广泛用于概念描述和信息建模。目前,RDF已被广泛用于Wikipedia, Google知识图谱等项目中。据统计,目前互联网上RDF三元组数量已达到了520亿,并且仍在飞速增长中。RDF的研究已成为学术界和产业界共同的热点。本项目的目标是管理海量的RDF数据,包括存储、查询以及追加式更新,以及发现海量RDF数据模式生成与演化的规律。项目采用NewSQL+HDFS的云计算架构,使得系统具备良好的水平扩展以及高效的查询处理能力。