广告

生物统计学,开源和BI–弗兰克哈尔采访

我在大约六个月内与Frank Harrell相符,但不得不在整洁的论坛对文章的回应之后平兴他 R 在里面 纽约时报。在开源r的流行情况下迷失了迁移,一个VP来自专有的统计软件市场领导者SAS:“我认为它为想要自由,易于获得的代码的高端数据分析师提供了一个利基市场......我们拥有建造发动机的客户飞机。我很高兴他们进入喷气式飞机时不使用免费软件。“弗兰克致命的是:”SAS学院认为,SAS学院认为非同伴审查的软件与其他人不能再现的分析方法的隐藏实施。应该建造飞机发动机时可信赖。“Touché。

我写的关于弗兰克 以前的 信息管理 article,在与他见面后,在用户回归策略短期课程之后!2007年在阿米亚艾姆岛。甚至在该会议之前,我觉得我很好地了解他。我一直使用他的HMISC和Design R包裹,并定期从他的信息中学习 Wiki.。弗兰克是我宗教信仰的十几个或如此尊敬的R论坛参与者之一 - 无论主题如何。弗兰克和我的年龄差不多,但他是老师,我是学生。

除了他作为R ender的地位,弗兰克有“方面”作为Vanderbilt University的生物统计学和部门主席教授,在北卡罗来纳州博士学位后,在博德比尔特大学的博士和弗吉尼亚州的职业职位。他的研究旨在利用各种适应多变量预测建模,并试图使编织成生物医学研究织物的严格的卫生统计思想。预防糟糕的研究也是他职业生涯的一个共同的线程。弗兰克的vitae肯定了他作为一个领先的学术生物统治家的地位。

广告

弗兰克的愚蠢统计智慧非常适合BI。 基于证据的管理 (ebm)源于医学和痴迷,评估使用的研究设计的优点 证据层次结构。他是一个设计的Stickler,以减少分析的偏见,以便研究人员可以自信地得出结论是 相关的 用b但是 造成的 B. Frank的产品和分析保守主义推动学生和研究人员在统计上进行右转。事实上,我认为业务中的所有建模将在弗兰克哈尔弗兰克哈尔的预测建模策略上提供定期的撤退。

弗兰克也是统计计算的领导者。他对R项目的HMISC和设计方案捐款提供了分析师和统计学家,为R. Frank的统计学编程分析提供了丰富的统计成果,在计算中的Roots非常深刻,从1960年代后期作为一名年轻学生的贡献开始然后预先发布的SAS软件平台。他在统计计算中的演变似乎是现在正在获得动力的开源运动的隐喻。

我与弗兰克的通信提供了机会要求他对OpenBi论坛进行采访。他慷慨地接受了,在非常短的顺序中转向我有时沉重的问题的悔改。以下是我们的问题和答案会话的文本。我相信读者将从弗兰克的回答中学习。

 

1. 您的大部分工作侧重于医疗保健/医学研究的统计分析和流行病学领域,这使我们已经为评估研究的“证据等级”提供了“证据等级”。 “证明”干预措施的效果有多重要?

它非常重要,因为任何评估干预措施的疗效的任何非实验方法都必须在指定模型方面涉及更加“权利”。不担心随机临床试验中未测量变量的自由永远不会被遗忘。

2. David Sackett将基于证据的医学(EBM)定义为“目前对个人患者的关心做出决定的尽责,明确和明智的使用......将个体临床专业知识与系统研究的最佳临床证据相结合”您如何表征当前ebm状态?

我的大部分工作都与EBM间接涉及。 ebm的当前状态不是我们可以采取很多骄傲的东西。第一,甚至寻求真正证据的医疗,手术,草药和替代治疗的数量是可怕的。其次,一些EBM本身并不是证据。很多EBM涉及在Meta分析中使用粗糙的非患者特异性数据,或者它涉及无根据的推断。一些国家数据如医院的不必要死亡人数的估计是通过的研究,而不是设计的。在未来,我们将继续看到ebm进步,但直到激励和法规发生变化,许多疗法都不会得到充分研究。让我还添加了在许多情况下,个性化设计的数据库可能导致多变量分析,提供比20研究的荟萃分析更好的答案,每个贡献只有粗略的边缘摘要。

3. 在他收到的书中超克丘纳斯,耶鲁经济学家伊恩艾瑞斯注意到在许多学科的专家上的分析的预测优势,观察到“与自我参与专家不同,统计回归没有自负或感受。”你的经历和思想有关专家对医疗保健的分析吗?

这个问题在医学决策和认知心理学文献中得到了很好的解决,支持艾尔斯。多变量可以最佳地利用连续变量,可以处理比人类更多的变量。

4. BI可以定义为使用数据,技术,方法和分析来测量和提高业务流程的性能。越来越多的公司正在使用随机化的实验方法作为BI倡议对两者策略和从调查结果学习的基础。您是否可以评论随机测试和其他复杂设计的好处,作为援助学习?

我最近了解了这一趋势,也很满意。业务精心设计的观测和实验研究的好处将与医学中的相同:更好的可靠性和结果的普遍性。没有仔细设计,偏差会破坏任何分析。

5. 作为统计学规划医疗保健研究,您非常关注充足的样本大小。在商业中,预测建模通常享受数十万甚至数百万个案例的奢侈品 - 但通常没有随机分配给治疗组。样本丰富性如何改变商业分析?您会为有数百万记录分析的商业建模者提供什么警告?

由于我们在其他领域看到的过度拟合,数据量大大降低了不可再现性的问题。不幸的是,随着样本大小的增加,偏差是恒定的,因此大型数据库与减少偏差无关,除了提供更允许调整更多混淆变量的样本大小以外的偏差。

6. Statistician Rudolf Beran已经提供了一个现代的统计定义,作为“数据分析算法”。他还指出,统计数据的研究随着时间的推移而变化,现在具有三种不同的竞争利益:1)使用概率模型(和随机化)来分析行为; 2)计算上有效的统计算法而不担心概率模型; 3)数据分析,通常没有随机化。我可能是天真的思维,这些声音可疑地像1)我们在学校学到的传统概率和统计数据; 2)机器学习知识发现;并且,3)探索性数据分析。 (历史上,BI焦点在3)上以3)为中心,但现在,1)和2)在发挥和增长的情况下进一步得多。)你的想法?

首先,柏兰省略了几个重要的统计领域,包括实验设计,对测量的改进,偏见的侦探工作,并将所有变化源和不确定性的源融合到分析中。除此之外,我认为你是对的。在许多情况下,概率模型可以在许多情况下被揭示,尽管使用通常涉及概率模型的完整贝叶斯模型进行了最佳分析。

7. 使用统计学习技术进行数据挖掘已经在业务中爆炸。然而,许多这些技术的自动化似乎违反了传统统计人的故意方法。您会对先前使用像多个和逻辑回归的统计技术的努力营销预测建模员会怎么样,但现在已经转向随机森林和渐变提升,以满足他的大部分预测需求?他是一个非常善的分析师,仔细交叉验证他的充分训练/调整/测试数据集,并保守地解释他的引导结果。

我会在一定程度上区分田地,无论他们是否正在努力了解对现象的理解或他们是否正在努力预测结果。对于后者,您提到的更新方法可能导致预测的准确性,使得等于更耗时的综合建模方法。但新技术并不总能产生非常可取的模型或正式推论。

8. 在2008年6月的挑衅性杂志文章中“理论结束:数据繁殖使科学方法过时,”作者克里斯安德森面临着大规模数据,“假设,模型,测试”方法来确定科学的因果关系变成过时。思考是,与卑鄙的信息,相关性就足够了。你的意见?

这是我看来的完全虚假。看着巨大基因组学和蛋白质组学实验的小产量,依赖于复杂的实证分析而不会引导生物学理论。即使在国家情报界发生的大规模数据挖掘的小产量甚至是庞大的数据挖掘(例如,通过大规模筛选未选择的电话和电子邮件数据,宪法的可疑支持)。我的赌注是“旧式”人类智慧远未过时的国家情报。

9. 您是一名实践统计日,专注于统计计算和图形。您能否告诉我们您用于您的工作的统计计算平台的演变?平台本身有助于塑造你的方法吗?你可以简要触摸SAS,S-Plus和R吗?开源统计软件有哪些好处?

统计计算平台对我的工作和思想产生了重大影响。我开始与SAS,是20世纪60年代后期核心开发团队以外的第一个SAS用户之一。我开发了使用低级,繁琐的程序,语言的许多SAS程序。我陷入了SAS回归语法陷阱,使分析师可能对连续变量承担线性。我还在提出低分辨率非信息统计图形。在1991年在Mayo Clinic访问Terry Thernem并看到S的演示后,我立即成为S-Plus用户。我开发了软件,通过使用回归样条来估计预测器转换的标准部分回归建模。我开始使用比尔克利夫兰的统计图形哲学。当S-Plus开发人员做出决定时使系统不那么可靠,他们的决定花费了几百小时的工作模块重新编程,我开始注意R. R的开源模型具有巨大的益处,首先是巨大的益处他们是一个令人难以置信的统计学家社区和其他量化民间r的令人难以置信的速度和改善。

10。 您是R开源社区的尊敬的“成员”之一。您的回答和意见是在论坛的最高方面举行的,您的HMISC和Design Packages为社区提供了丰富的统计和报告的大家。 r最近是NY时代令人满意的物品的主题。你能在过去五年中对统计世界的影响和开放源模型的影响评论吗?

影响很大,那个难怪知道在哪里开始。新的预测性建模程序,贝叶斯建模,强大的回归,模型验证,缺少数据估算和新图形模型的爆炸已经影响了研究人员未结合到他们首先学习的统计包的定量研究领域。在主要统计和机器学习研究中使用R加速了研究。研究人员可以提出新方法,快速测试它们(包括在模拟循环内),然后花更多时间在工作的方法上。

11. Your 回归建模策略 书必须阅读认真的预测建模从业者,以及 您的课程具有相同的名称 应该需要继续教育。在课程中,您在健康/医学科学中存在许多有缺陷的分析的例子。您还为各种最糟糕的实践“骂”,例如分类连续变量,推测线性度和逐步回归的不分利用使用。您认为统计分析不良的普及是在增长吗?如果是这样,它是否与使用(和滥用)预测建模软件有关?应该/应该什么?

感谢您的客气话。由于统计分析的非统计学家的数量增加,普遍存在的增长。质量分析实践的最大敌人是确认偏见(发现支持个人偏见或仅仅推进职业的分析)以及很少有分析师了解我们从数据中学到的微妙之处的事实不是“真实”,因此它可能很容易的意义噪音或可以通过我们不明白的偏差来解释。当分析师从广泛的数据分析中发出“发现”时,她不太可能记住谚语“拿出报纸中读的一切盐。”她没有看到不可靠,选择性或偏见的报告之间的平行和过度分析或过度解释数据。再次回归国家情报,我们知道酷刑甚至不会导致预期的结果。在数据分析中,数据可以折磨,直到他们告诉我们我们想要听到的内容,但这种忏悔并非如此。最终,分析师需要测试他们用来找到真正有效的所有策略,通过严格验证他们的发现和预测,以了解发现的发现是否复制并查看数据挖掘中所示的预测性歧视是否强大。步。然后,研究人员可以做出更加难以确定预测和观察到的关系的工作意味着什么,或者是数据中偏差的结果。

分享

更多来自信息管理