卞昊穹

bianhaoqiong at gmail dot com
研究方向:数据库系统,大数据分析
喜欢旅行和做饭

教育背景

2012.09 - 现在 中国人民大学,DBIIR实验室,数据库组

  • 博士研究生,毕业课题: 海量日志数据的高性能查询分析关键技术研究与实现.
  • 导师:杜小勇教授
  • 2015.9 - 2016.10 俄亥俄州立大学,交互式数据系统组

  • 联合培养博士生,访问课题:交互式数据分析.
  • 外方导师:Prof. Arnab Nandi
  • 2008.09 - 2012.06 河海大学

  • 工学学士,计算机科学与技术专业.
  • 研究

    2016.11 - 现在 大宽表的自适应数据布局优化

  • 本课题正在进行当中,旨在采用动态自适应的宽表存储来支持HDFS上的大规模、高性能数据分析.
  • 2015.01 - 2016.10 基于列排序和列复制的宽表布局优化

  • 在很多互联网公司中,大规模的日志数据和用户画像数据在HDFS上以列存储格式存放以供分析。 通过调整列的存放顺序和复制经常被访问的列,查询负载的整体I/O性能可以提高50%以上。 该工作的论文被SIGMOD'17接收。 [PPT], [论文], [源码].
  • 2014.10 - 2014.12 海量高吞吐日志数据的实时索引、入库与查询

  • 诸如互联网访问日志之类的日志数据具有规模大、增长快的特点, 如何将大量的数据在秒级的时间内入库并支持实时的查询分析是一个很大的挑战。 通过借鉴部分LSM-Tree(广泛应用于Hbase等key-value存储中)的思想, 我们提出了一个高性能的索引方案,可以支持单节点每秒500万条以上的互联网访问日志索引和入库, 以及入库数据上的多维度实时查询分析. [论文].
  • 2013.06 - 2014.07 SQL-on-Hadoop系统基准测试

  • 本工作在内部称为B52项目。项目首先在52台物理服务器上搭建了OpenStack(人大行云)。 然后在行云上使用TPC-DS和TPC-H基准(300GB-3TB)对主流的SQL-on-Hadoop系统,包括Hive, Hive on Tez, Shark, Spark SQL, Impala和Presto进行了测试。测试所用的集群规模包括25, 50, 100和200节点. 我的工作包括:云平台搭建,SQL-on-Hadoop系统部署和调优. [PPT (中文)], [论文1], [论文2].
  • 项目

    2013.12 - 2014.12 Sleeve: 多线程Pipeline计算框架

  • 尽管目前有很多分布式的计算平台,例如Hadoop、Spark、Storm等, 但有时候我们只需要一个高效的多线程程序来充分释放出一台计算机应有的计算能力, 便可以快速完成我们的计算任务。然而编写一个正确高效的多线程程序很多时候并非易事。 Sleeve便是这样一个易用的多线程计算框架,它提供类似Hadoop MapReduce的函数式编程接口, 通过Sleeve,用户可以快速实现多线程程序,并将多个线程组装成流水线进行高效的并行计算. [海报].
  • 2013.05 - 2013.06 MetKB: RDF知识库扩充工具

  • 例如Yago和DBPedia之类的RDF数据集可以被看成一个知识库,用来支持实体搜索、知识探索等上层应用。 然而这些数据集通常是静态的,并且更新周期很长。 以至于新出现的知识没有在数据集中出现,从而无法被上层应用使用。为了解决这个问题, 我们设计了MetKB来自动从网络上抓取HTML表格并和知识库中已有的实体进行匹配。 匹配成功的表格中的可能包含一些新的知识,这些知识被用来扩充RDF知识库。 [论文].
  • 2013.02 - 2013.05 分布式SparQL查询引擎

  • 目前RDF数据集已经达到数十甚至数百GB的规模并且还在不断增长。 SparQL是目前RDF数据的标准查询语言,单台计算机已经难以存储巨大的RDF数据集并进行SparQL查询处理。 我们使用RDF-3x(当时性能最好的单机RDF查询引擎)作为节点上的存储和查询引擎设计了一个分布式的SparQL查询引擎, 从而提高了大规模RDF数据的查询性能. [论文].
  • 实习

    2014.08 - 2015.04 微软亚洲研究院,系统与算法组

  • 导师:闫莺
  • 获奖:明日之星优秀实习生
  • 主要工作:
    • Bing搜索日志分析平台的数据布局优化 (已应用),
    • Azure上的大数据系统自动部署.
  • 论文

    SIGMOD'17 Wide Table Layout Optimization based on Column Ordering and Duplication [论文]
  • Haoqiong Bian, Ying Yan, Liang Jeff Chen, Yueguo Chen, Xiaoyong Du, Thomas Mascibroda
  • SOCC'15 Poster Taming Big Wide Tables: Layout Optimization based on Column Ordering [海报]
  • Haoqiong Bian, Ying Yan, Liang Jeff Chen, Yueguo Chen, Thomas Moscibroda
  • APWeb'15 A Fast Data Ingestion and Indexing Scheme for Real-time Log Analytics [论文]
  • Haoqiong Bian, Yueguo Chen, Xiongpai Qin, Xiaoyong Du
  • BPOE'14 (VLDB'14 Workshop) A Study of SQL-on-Hadoop Systems [论文]
  • Yueguo Chen, Xiongpai Qin, Haoqiong Bian, Jun Chen, Zhaoan Dong, Xiaoyong Du, Yanjie Gao, Dehai Liu, Jiaheng Lu, Huijie Zhang
  • 华东师范大学学报(自然科学版),No.5,2014.09 Spark上的等值连接优化 (中文) [论文]
  • 卞昊穹, 陈跃国, 杜小勇, 高彦杰
  • CIKM'13 Demo MetKB: Enriching RDF Knowledge Bases with Web Entity-Attribute Tables [论文]
  • Haoqiong Bian, Yueguo Chen , Xiaoyong Du, Xiaolu Zhang
  • IEEE BigData Congress'13 Efficient SPARQL Query Evaluation In a Database Cluster [论文]
  • Fang Du, Haoqiong Bian, Yueguo Chen, Xiaoyong Du
  • 竞赛

    第二届中国大数据技术创新大赛 (2014) 数据库赛题第一名
  • 赛题:海量互联网日志的高性能索引方案.
  • 卞昊穹(队长), 赵丽萍, 程鳌, 贾培申
  • 第一届中国大数据技术创新大赛 (2013) 数据库赛题第一名
  • 赛题:电信询呼网络黑洞的实时监测.
  • 卞昊穹(队长), 陈峻, 张慧杰
  • 美国数模 (ICM)'11 二等奖
  • 赛题:电动汽车的环境和经济影响以及它们的广泛使用是否合理和可行
  • 杨郭, 卞昊穹, 张晨语
  • 技能

  • 开车,做饭.
  • 数据库系统和Key-value存储系统设计.
  • SQL-on-Hadoop系统部署和调优.
  • 良好的团队协作和独立研究能力.
  • 良好的英语交流和写作技能.
  • 熟练使用Java和C/C++实现系统和功能,接触并使用过Scala, JavaScript, Python和C#.
  • 熟悉嵌入式软硬件开发和物联网技术.