数据库组 @ DBIIR

Where Data Learn to Fly.

概览

相关研究工作:(1) 图数据管理技术; (3) 空间数据库检索; (3)分布式数据库系统构建和数据分析。

团队老师:杜小勇 卢卫

团队学生:王童童 彭哲 赵展浩 程一舰 丁鹏傑 林玉婷 杨霖

电子邮箱:uqwlu@ruc.edu.cn

当前研究课题

  • 图数据的存储与管理
    已发表相关论文:TKDE'2018    ICDE'2017
    现实世界中的一切事物都处在联系之中,如人际关系、电脑网络、地理数据、分子结构模型等,无一不处在纷繁复杂的联系之中,这种联系形成了一种互相关联的图数据。为了更直观、更方便地对金融、企业以及政务等数据等之间存在的各种各样的关系进行分析,我们对这些数据进行了图谱的构建工作,形成基于特定领域的知识图谱,并在其上做了各种数据分析、如频繁模式挖掘等,用于辅助各种复杂的分析应用和决策支持。而大规模关联数据中的联系比较复杂,但是若要在关系型数据库中使用结构化形式来表现这种联系,处理起来比较繁琐,并且随着数据的不断增长,其访问性能将日趋下降。因此,我们需要对图系统做出研究,包括存储管理、事务调度以及容错管理等。

  • 在度量空间中使用SQL进行高效的相似度检索
    已发表相关论文:PVLDB'2018    VLDB J'2017
    相似度查询应用十分广泛,典型的应用包括从文档集中识别出相似标题的文章,在大型数字媒体库中寻找相似的图片和音乐等。近年来,随着数据量的快速增长以及数据呈现出的多样性特征,人们越来越关注为不同类型的数据设计一种统一的索引结构及其查询处理技术,以提高相似度查询的可用性和性能。因此我们设计了一种利用标准 SQL 来处理度量空间下相似度查询的通用解决方案。我们设计的 MSQL 是第一个使用 SQL 来处理度量空间下相似度查询的通用解决方案,用户只需要供查询对象、阈值,选择相似度函数就可以找到与查询相似的对象。为了加快查询处理,MSQL供了基于标准内置索引B+树的统一索引构建方案,且该索引构建方案和度量空间下的数据类型无关。于此同时MSQL结合了各种查询优化技术,以显著降低CPU和I/O开销。 此外我们设计并成功实现了分布式系统下度量空间中的相似度检索工具 MSQL+。

  • 面向TDSQL的联机分析研究与系统构建   
    已发表相关论文:WWW J'2018
    面向腾讯分布式数据库系统TDSQL(Tencent Distributed MySQL)的联机分析研究与系统构建。该课题是通过合理改造开源大数据处理引擎,并结合分布式查询优化和分布式缓存技术,开发能够支持高可扩展性和强容错的大数据分析与查询处理系统,从而实现大数据环境下的流水日志的经营分析、监控统计等功能。主要的研究问题包括分布式数据库、分布式查询优化、分布式数据迁移等。由于分布式系统是当前一个热点研究方向,我们的工作将在该领域做出一定贡献。

  • 图数据库管理系统测评基准的制定
    在“中国制造2025”、“德国工业4.0”和“美国工业互联网”等国家级战略陆续实施的背景下,高端制造业大数据技术实现蓬勃发展,其中,高端制造业图数据库管理系统具有鲜明的多样性和复杂性,因此,为高端制造业的图数据库管理系统制定一套统一的测评基准和测试工具成为迫在眉睫的事情。我们以工业BOM(Bill of Material)图为基础,充分调研各高端制造行业对BOM图的管理和使用情况,并通过数据模型分析与设计、数据生成器设计与实现、查询负载生成器设计与实现、基准测试及迭代优化等步骤和方法,从图数据的结构特点出发(包括顶点的异构、联系的多样、顶点/联系的内部属性、时序等),根据查询结果选择率,合理生成多类查询负载实例(包括产品快照查询、产品质量追踪、结构属性比较、结构聚合查询等),最终制定一套评价标准,对图数据库性能做量化评估。同时,该部分工作作为国家重点研发计划“面向高端制造领域的大数据管理系统”中任务“高端制造大数据管理系统标准规范、评测基准和测试工具研制”的一部分开展研究工作。

系统实现

  • MOOC(2017-present)
    相关链接:Paper
    The experiment platform of "An Introduction to Database System" under MOOC mode is used to assist MOOC teaching.First,the students fill in the relevant information and sign up for a teaching class. After the relevant teachers pass the examination, the students can log in the system to select and answer the questions. After the students have answered and submitted the corresponding questions, the experimental platform will automatically give scores in real time and return the final scores to them. By collecting the submitted answet and the behavior of students when they are answering questions , the system provides the teachers with the analysis of the whole and the individuals of the class, and display these visually.



  • MSQL+ (2018)
    相关链接:Paper
    Similarity search is a primitive operation in various database applications. For example, by issuing a similarity query, it is able to identify articles with similar titles, or find gas stations near specific locations. We designed MSQL+, a plugin toolkit encapsulated with a set of SQL statements to answer similarity queries in metric spaces. This toolkit can help existing RDBMS to effectively and efficiently handle with big data due to the following three advantages. First, MSQL+ enables users to find similar objects by submitting SELECT-FROM-WHERE statements so that it can be easily integrated into existing RDBMS. Second, MSQL+ works in a more general data space. Objects of any type can be indexed by B+-trees and the query processing can be boosted by using index seeks, as long as the similarity function is metric. Third, MSQL+ supports the parallelization of both pre-processing and query processing in distributed RDBMS. Paper on this work is accepted by PVLDB'18.



科研成果

  • Wei Lu, Xinyi Zhang, Zhiyu Shui, Zhe Peng, Xiao Zhang, Xiaoyong Du, Hao Huang, Xiaoyu Wang, Anqun Pan and Haixiang Li. MSQL+: A Plugin Toolkit for Similarity Search under Metric Spaces in Distributed Relational Database Systems. (Accepted by PVLDB 2018)
  • Wei Lu, Yanyan Shen,Tongtong Wang, Meihui Zhang, H. V. Jagadish, Xiaoyong Du, Fast Failure Recovery in Vertex-centric Distributed Graph Processing Systems, TKDE 2018
  • Tongtong Wang, Hao Huang, Wei Lu, Zhe Peng, and Xiaoyong Du. Efficient and Scalable Mining of Frequent Subgraphs Using Distributed Graph Processing Systems. DASFAA (1) 2018: 891-907
  • Tongtong Wang, Chuitian Rong,Wei Lu, Xiaoyong Du, A Survey on Distributed Graph Processing Systems, Journal Of Software, 2018
  • Haixiang Li, Zhanhao Zhao, Yijian Cheng, Wei Lu*, Xiaoyong Du, Anqun Pan, Efficient Time-interval Data Extraction in MVCC-based RDBMS, WWW Journal 2018
  • Zhanhao Zhao, Feiran Huang, Xiaoli Wang,Wei Lu, Xiaoyong Du, A SQL-Based Solution for Fast Graph Similarity Search, Journal Of Software, 2018
  • Wei Lu, Jiajia Hou, Ying Yan, Meihui Zhang, Xiaoyong Du, Thomas Moscibroda. MSQL: efficient similarity search in metric spaces using SQL[J]. Vldb Journal, 2017(3):1-26.
  • Zhe Peng, Tongtong Wang, Wei Lu, Hao Huang, Xiaoyong Du, Feng Zhao, Anthony K. H. Tung. Mining frequent subgraphs from tremendous amount of small graphs using MapReduce[J]. Knowledge & Information Systems, 2017(3):1-28.
  • Hao Huang, Qian Yan, Yao Zhao, Wei Lu, Zhenguang Liu, Zongpeng Li. False data separation for data security in smart grids. Knowl. Inf. Syst. 52(3): 815-834 (2017)
  • Chuitian Rong, Chunbin Lin, Yasin N. Silva, Jianguo Wang, Wei Lu, Xiaoyong Du. Fast and Scalable Distributed Set Similarity Joins for Big Data Analytics. ICDE 2017:1059-1070
  • Qian Yan, Hao Huang, Yunjun Gao, Wei Lu, Qinming He. Group-Level Influence Maximization with Budget Constraint. DASFAA (1) 2017: 625-641
  • 卢卫,程一舰,赵展浩,杜小勇.MOOC模式下数据库系统概论课程实验平台的建设与实践[J]. 计算机教育,2017(11).
  • 张晓莹,卢卫,程一舰,赵展浩,杜小勇.面向慕课的在线SQL自动评测系统及应用 CPEC 2017
  • 侯佳佳,黄斐然,卢卫*,杜小勇,张孝. 度量空间下基于SQL的相似度查询处理方法.第34届中国数据库学术会议(NDBC2017 萨师煊优秀论文)
  • 卢卫, 杜小勇, MOOC模式下数据库系统概论课程实验平台的建设与实践, 计算机教育, 2017
  • 杜小勇卢卫, SPOC报告:我们的实践与浅见,计算机教育, 2017
  • Wei Lu, Tongtong Wang, Min Jiao, Xiaoying Zhang, Shan Wang, Xiaoyong Du, and Hong Chen, Predicting Student Examinee Rate in Massive Open Online Courses, DASFAA Workshop 2016
  • Hao Huang, Song Wang, Shuangke Wu, Yunjun Gao, Wei Lu*, Qinming He, Shi Ying, Mining Arbitrary Shaped Clusters and Outputting a High Quality DEXA 2016
  • Yanyan Shen, Gang Chen, H.V. Jagadish, Wei Lu, Beng Chin Ooi, Bogdan Marius Tudor, Fast Failure Recovery in Distributed Graph Processing Systems, VLDB 2015