添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

2017年12月20日,【统计学论坛】在清华大学伟清楼209成功举办。本报告邀请了宾夕法尼亚州立大学统计系的杰出教授林共进先生。本次讲座由清华大学统计学研究中心副教授李东老师主持。

林教授本次报告的内容涵盖了多个方面,主要内容是引入Ghost Data(幽灵数据)。林教授通过截取几部电影的片段来说明Ghost Data的由来,从新的视角发现电影中蕴含的数据思维。电影《The Six Sense》中的小男孩可以看到幽灵,在真实世界虽然大多数人不相信世幽灵或者鬼魂的存在,但有些人确实能凭借阴阳眼看到常人看不见的东西,曾有科学给出解释说是因为这些人眼睛能接收的光的频段比普通人要宽,对应到观测不到Ghost Data,我们便可以借鉴这个思想通过一些方法将“频率调宽”把隐藏的信息挖掘出来,这个过程可以形象地类比为“统计显微镜”。之后林教授用《神探夏洛克》电影中狗不吠这个现象说明案件的凶手应该是被害者的熟人,说明某些缺失数据也携带了大量信息,用汤姆克鲁斯电影《明日边缘》说明了加速学习过程的重要性。林教授认为Ghost Data主要分为virtual data(虚拟数据)、missing data(缺失数据)、pretend data(做作数据)、simulation data(模拟数据)和highly sparse data(高度稀疏数据)。引入Ghost Data的概念后,林教授介绍了一些如何处理该类数据的方法,如t-covering、因果推断等,并介绍了因果推断中不同的随机化方法导致的不同实验结果。林教授着重介绍了模拟数据应该具有的一些特点,如generality、representation、interested extremes、illusion。

林共进教授

最后林教授将传统统计方法如何应用到大数据、如何判断随机数的随机程度等问题和大家一起进行探讨。同时林教授用电影中蕴含的数据思维告诉我们应该拓宽视野了解不同领域的内容,勤于思考,敢于创新。

左起:顾冲教授、林共进教授、李东副教授
Posted in 学术活动 , 新闻动态 #post-11915 ntry-header

为了更好的帮助青年统计学者,积极推动统计专业博士生提高专业知识,提升专业素养,清华大学统计学研究中心于2017年12月18日在清华大学召开“2017清华大学统计学博士生论坛”。

来自清华大学、北京大学、乔治亚大学、北京航空航天大学等近40位学者参与论坛。来自清华大学的龚欢、黄伟清、姜瑛恺等11位同学针对自身的研究方向、研究成果以及研究过程中遇到的问题做了现场阐述。在场学者们各抒己见、踊跃发言,专家学者们点评精彩、妙语连珠。

龚欢-Quasi-Maximum Likelihood Estimation of DAR Models with Heavy-Tailed Likelihoods
黄伟清-Accounting for Tumor Heterogeneity in Identification of Driver Patterns in Cancer Genomes
姜瑛恺-A Bayesian Approach to Sufficient Dimension Reduction
杨洋-The Generalized Theme Dictionary Model
余丽姗-Identifying Important Articles from Wikipedia for Medical Knowledge Graph Construction
李祺-Discovering RNA Interaction Network by Integrating Sequence Characteristics and Expression Profiles of RNAs
单娜阳-Literature Review for Trans-eQTL Analysis and Some New Insights from Hapmap3 Dataset
蒋斐宇-Inference for Augmented Double Autoregressive Models with Null Volatility Coefficients
李艺超-Simultaneous Topology and Loss Tomography via a Theme Dictionary Mode
林毓聪-从维基百科中大规模提取疾病关系
徐嘉泽-Technical Term Recognition via Advanced Word Dictionary Model

博士生论坛给在读博士学者们提供了学术沟通的平台,也为统计学师生搭建了交流分享的桥梁,统计学中心将会以此为开端,把博士生论坛打造成品牌系列活动,给同学们提供更多切磋技艺的机会,提高专业技能。

Posted in 学术活动 , 新闻动态 #post-11913 ntry-header

为促进国内外生物统计学者的交流和合作,清华大学统计学研究中心于2017年12月14日在清华大学舜德楼510会议室召开“2017清华大学统计遗传与生物信息专题研讨会”。研讨会由清华大学统计学研究中心助理教授侯琳博士发起并组织。

侯琳——统计学研究中心

来自宾夕法尼亚大学、耶鲁大学、清华大学、北京大学、复旦大学、厦门大学以及中国科学院等国内外高校和研究所的多位专家学者出席了会议。

与会专家学者

研讨会上,专家学者就微生物组学,癌症基因组,单细胞RNA-seq数据分析,全基因组关联分析,生物网络聚类、图模型等研究问题做了深入的交流和讨论。此外,清华大学生物信息学教育部重点实验室的研究生也积极参与口头报告、墙报展示和讨论等环节。

与会人员合影

报告内容:

1.     Graphical model selection with latent variables-邓明华-北京大学

2.     Mathematical Modeling of Dendritic Cell Population Dynamics in the Immune System-Zuoheng Wang-耶鲁大学

3.     Functional module analysis in multiplex networks-张淑芹-复旦大学

4.     Discovering RNA regulation network via a joint analysis of RNA sequence characteristics and gene expression-邓柯-清华大学

5.     Analysis of Global mutation waves in cancer genomes-侯琳-清华大学

6.     A Bayesian statistical analysis of stochastic phenotypic plasticity model of cancer cells -胡杰-厦门大学

7.     Multi-sample Estimation of bacterial abundances in metagenomics data-Hongzhe Lee-宾夕法尼亚大学

8.     Reconstruction of cell development complex trajectories based on single-cell RNAseq data-万林-中国科学院数学与系统科学研究院

9.     Estimating the total genome length of a metagenomics sample using K-mers-花奎&张学工-清华大学

10.  Network based analysis of GWAS data-吴蒙蒙&江瑞-清华大学

Posted in 学术活动 , 新闻动态 #post-11912 ntry-header

2017年12月12日,【统计学论坛】在清华大学伟清楼209成功举办。本次报告邀请到爱荷华州立大学的王丽教授。报告由清华大学统计学研究中心的杨立坚教授主持。本次报告的主题是“对时空数据的半参数回归方法”。

王教授首先分享了PM2.5数值、交通拥堵程度和水银浓度三个案例,发现如果用传统的线性回归或广义线性回归的方法分析数据,拟合的效果不够理想。这是因为实际数据通常具有异质性和动态特征,并且存在着观测值的分布不均匀、分布区域不规则和数据量过大等问题。

于是,王丽教授提出了时空变系数模型(SVCM),即把回归模型中的系数变为关于地理位置或其他相关因素的一个函数。拟合该模型的传统方法有Bayesian方法和地理权重方法(GWR)。王教授提出了一种新的拟合方法—Bivariate Penalized Splines over Triangulation方法(BPST)。她介绍了该方法的理论推导和具体性质。接着展示了一个模拟案例,发现BPST方法的拟合效果要比GWR方法好很多。

最后,王教授介绍了检验模型拟合优度的方法并提出了SAR-VCM和STVCM两种拓展模型。她指出,半参数回归模型对时空数据十分适用,BPST方法可以解决数据分布不均匀和分布区域不规则等问题,并且还要深入研究有效的算法来分析大范围的时空数据。

与会人员合影
Posted in 学术活动 , 新闻动态 #post-11911 ntry-header

为了促进多学科学者间的学术交流和合作,更好地推动医疗信息学的发展,清华大学统计学研究中心于2017年12月1日在清华大学FIT楼召开“第一届清华大学医学信息学与医疗大数据研讨会”。

研讨会现场

来自清华大学计算机系、自动化系、医学院、工业工程系、数据科学研究院,解放军总医院以及清华大学统计学研究中心等近60人专家学者参加了本次研讨会。

与会专家学者

作为本次研讨会的发起者及组织者,清华大学统计学研究中心助理教授俞声老师强调,医学信息学作为医疗大数据产业与研究中重要的一环是一个多学科交叉的领域。希望能有更多的机会和平台,通过沟通和交流来促进研究工作,共同推进学科的发展和进步。

俞声-统计学研究中心 《Enabling phenotypic big data with PheNorm》
李睿-医学院 《医学影像和人工智能》
邓柯-统计学研究中心 《Statistical methods in medical big data analysis》
报告学生剪影
Posted in 学术活动 , 新闻动态 #post-11909 ntry-header

2017年11月27日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。报告邀请到北京大学兼华盛顿大学生物统计系周晓华教授。周教授身兼北京大学北京国际数学研究中心生物统计及生物信息实验室主任,北京大数据研究院中医大数据中心主任,北京大学医疗与健康大数据中心副主任等多个职位。周晓华教授的研究主要集中在医学检验、因果推断分析、缺失数据、脑科学、卫生经济卫生服务等领域,致力于发展新的统计方法。本次报告由清华大学统计学研究中心邓柯副教授主持。

本次报告由清华大学统计学研究中心邓柯副教授主持。

报告的主题是“在对照组异构的随机化试验中,对二值响应变量的因果推断”。

周教授首先介绍了问题的背景。在因果推断中,一个常用的假设是个体处理效应稳定假设(Stable Unit Treatment Value Assumption, SUTVA)。SUTVA假定每个个体的潜在变量值(potential outcome)不会受到其他个体的处理分配(treatment assignment)的影响,并且要求对任一个体,每种处理不能有多种版本。通常假定只有试验组和对照组,并且每组只有一个版本。在有些实际情况中,要求对照组的个体不接受治疗是不现实的。相反,他们会选择不治疗或接受不同版本的治疗。这样原来的假设就不成立,也导致了对照组异构的现象。

周晓华教授

周教授结合实际,以“自闭症治疗方案的因果推断问题”为切入点,对个体进行分类讨论并对数据建模。分配到试验组的个体有选择治疗和不选择治疗两种情况。而对照组的个体分成3种:不接受治疗,接受和试验组治疗方案一样的治疗,以及接受其他治疗方案。

周教授指出,治疗方案的因果效应在统计学意义下是不可识别的,原因是参数的个数较多。但是如果用一些不等式约束,把不可识别的参数消去,则可以得到因果效应的估计值的上下界。由此,在得到的区间是有信息的情况下,可以得出治疗方案是有作用的结论。

在提问环节,与会学者提出了若干可以推广问题的想法:1. 把响应变量扩展到实数空间(连续型变量)。2. 加上协变量(covariate)可以对估计更精准。3. 估计因果效应的上下界本质上是个优化问题,即在可行域内求解因果效应的最大最小值。希望以此切入,引发统计学科进一步深刻的研究和思考。

与会人员合影
Posted in 学术活动 , 新闻动态 #post-11908 ntry-header

2017年11月24日,【统计学论坛·特邀报告】在清华大学伟清楼209成功举办。报告邀请到复旦大学统计系朱仲义教授。这次报告由清华大学统计学研究中心杨立坚教授主持。

论坛主持人杨立坚教授
复旦大学朱仲义教授

本次报告的主题是“基于分位数回归的面板数据的聚类”。朱教授首先提出,在面板数据分析中,我们经常用固定效应(fixed effect)来刻画个体效应。根据假设个体斜率(slope)是齐次(homogeneous)的,来改善斜率的估计。然而,无论是在统计学中,还是在经济领域,将齐次的斜率(slope)分组,此限制条件较为苛刻。其次,朱教授介绍了在面板数据分析中有很多方法可以将斜率分组来解释,比如:混合模型(mixed model),加罚模型(penalized model),K-means方法等。与条件均值模型(mean model)比较而言,分位数回归缺少可加性,处理起来相对困难。他还补充介绍了面板数据和纵向数据的区别和联系。接着,朱教授详细介绍了利用面板数据模型对个体分组(类似于聚类),他指出,这种方法的难度在于处理内生的固定效应(fixed effect)项,如果忽略这个因素则估计有偏。他提出了一种类似K-means的方法来对个体分组。这是一种新的两步法迭代算法,利用复合分位数进行聚类,充分利用不同分位数的信息,找到一最佳分位数进行分组。该算法第一步:先估计每个个体,处理固定效应项;第二步:分组后对系数最小化目标函数。

最后,朱教授给出了参数估计量的渐进理论性质,并且展示了其在模拟数据和实际经济增长数据中的表现。

与会人员合影
Posted in 学术活动 , 新闻动态 #post-11907 ntry-header