400-658-0098

新闻资讯

资讯动态

当前位置: 首页 > 资讯动态 > 案例分析

联系我们Contact Us

苏测检测技术有限公司

电 话:400-658-0098

邮 箱:manager@sucetest.com

网址:www.sucetest.com

总 公 司 地  址  :中国(山东)自由贸易试验区济南片区龙奥北路1311号质检大厦6楼

华东分公司地址:江苏省南京市鼓楼区小市街道北祥路67号泛悦城市广场T2栋710室

华中分公司地址:河南郑州惠济区南阳路192号升龙汇金广场A座1802

华北分公司地址:山西省太原市小店区亚日街环亚时代广场B座23层


解析大数据测试基准测试——TPC-H或TPC-DS

2022-12-30 14:24:23


大数据测试

随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据测试具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity的挑战。如何客观地比较不同数据管理系统,即大数据测试基准的选择,成为一个重要的研究课题。

  事务性能管理委员会(TPC)是目前知名的数据管理系统评测基准标准化组织。在过去二十多年间,该机构发布了多款数据库评测基准,如TPC-A、TPC-D、TPC-H和TPC-DS,在业界得到了广泛应用[2]。BigBench和BigFrame是对TPC-DS进行多样化的数据扩充的测试基准。近年来,Apache开源社区针对Map/reduce架构开发了多款性能测试用例,如TestDFSIO、teraSort。国内对大数据测试基准的研究起步较晚,尚未建立起的测试基准。目前由中国信息通信研究院牵头,联合中科院计算所及国内外知名公司和机构共同制定的大数据测试基准正在金罗密布的测试中[3]。

  为了方便企业选择合适的大数据测试基准,本文将在分析总结现有成果的基础,进一步讨论大数据测试基准应该具有的要素;并以此为基础,对比现有的大数据测试基准;然后讨论TPC-DS测试基准。

  一、大数据测试基准的选择

  企业在选择大数据测试基准时,首先应考虑基准与其自身业务的相关性。

  1. 与其自身业务的相关性

  它主要描述测试基准设定的应用场景是否与企业的实际业务场景类似,如基于社交网络应用的评测基准与银行系统的应用场景就没有什么相关性。不相关的基准,测试结果再好,也没有实际意义。相关性还要考虑测试基准所采用的数据模型是否代表数据仓库的发展方向,如基于星型模型的开发要比基于传统的关系模型开发更加有效。

  当然,一套行之有效的大数据测试基准包含许多其它要素。Jim Gray及金澈清等学者[4]已经对度量选取、模拟数据生成器、工作负载设定、审计等要素进行了详细论述。除此之外,本文还认为测试基准的健壮性、SQL标准的兼容性和通用性/可移植性也是重要的要素。

  2. 模拟数据生成要具有真实性

  它描述了测试基准是否仿真真实应用场景,所产生的模拟数据是否与真实数据相似。

  3. 工作负载的设定具有可扩展性

  它描述该评测基准是否适用于不同规模的计算机系统,许多评测基准会使用标度因子来决定模拟数据的规模,通过调整标度因子来得到不同规模的工作负载。

  4. 度量的选取的可理解性

  它衡量该评测基准是否易于为用户理解,不易为用户理解的基准的可信程度也较低。

  5. 客观性与公正性

  众所周知,在竞技比赛中,一个人不能既是运动员又是裁判员。测试基准好比竞技比赛中的裁判员,应该由中立的第三方机构制定。事实也证明,在各个领域受欢迎的测试基准都是有第三方机构设计的。过去20多年的经历证明TPC系列基准是数据库领域为广泛接受的基准。除此之外,第三方机构的审计也是评测结果的客观性与公正性的重要手段。

  6. 健壮性

  测试基准要足够健壮,不能轻易被“hack”,这对测试结果的公平性非常重要。例如对TPC-H的前身TPC-D,通过物理化视图,Oracle的性能比Micosoft的SQLServer高100倍,这些显然是不公平的。因此TPC组织规定TPC-H测试中物理化视图是不和法的。但是除非是专业人员,一般用户很难判定测试过程中视图有没有被物理化。TPC-DS在健壮行方面要好很多,因为它的SQL本身比较复杂,也比较多,Hack起来相对困难,并且只hack几个SQL对整体性能提高有限。

  7. SQL标准兼容性

  SQL是ANSI为统一各个数据库厂商之间的编程差异定义的标准,已发布SQL86、SQL92、SQL99、SQL2003等版本。这些标准已经被主流的商用(例如Oracle、DB2、SQL server)以及开源的数据库产品(例如MySQL、mSQL和PostgreSQL)的广泛采用。对整个数据库产业的发展起到了巨大的推动作用。大数据是个新兴的领域,它的发展不能完全抛弃原有的应用。如果不能全面支持SQL标准,现有系统的移植非常困难,学习曲线就会变长。

  8. 通用性/可迁移性

  通用性描述是否可在不同数据库系统和架构上实现的评测基准。测试基准不应该规定实现的细节,而只需要定义测试规范。DBMS只要遵循规范得到正确的结果,就是合理的测试,无论其基于Map/Reduce、Spark还是其他的技术,也不管其底层存储是用HDFS、HBASE还是其他方式。


近期浏览:

相关产品

相关新闻

  400-658-0098

总公司地址:中国(山东)自由贸易试验区济南片区龙奥北路1311号质检大厦6楼

         营业执照信息公示

热推信息 · 企业分站 · 网站地图 · RSS · XML

Copyright © 苏测检测技术有限公司 备案号:鲁ICP备2021000456号-1 技术支持: 华企祥云

主营区域: 山西 太原 江苏 南京 山东 济南 河南 郑州 广州 深圳