金年会网页版在线登录·助你解锁万物智联新机遇 —— YMatrix 超融
发布时间:2024-05-19 09:33:33 来源:金年会官方在线登录 作者:金年会手机网页版登录

新闻中心

  的主题演讲。在本次演讲中,介绍 YMatrix 超融合数据库的发展历程及现阶段的技术痛点,深入阐释了万物智联时代数据库的最佳形态。本文根据现场演讲内容整理而成。

  这十来年,我们见证很多大数据和数据库产品的潮起潮落、兴衰变迁,我们开始反思数据库的本质是什么,特别是万物智联和数字化转型时代,数据库的形态应该是什么样的?这些反思催生了 YMatrix,目标是打造为万物智联和数字化转型时代而生的数据库。

  万物智联时代,时序是最重要的新变量。为此我们选择了时序数据库切入,然而和其他时序数据库明显不同,我们是超融合时序数据库,不单支持时序,还可以支持关系、JSON、GIS、文本等。

  经过两年多对产品的打磨,YMatrix 已经在全球最大的 IoT 时序场景落地,在该企业每天写入的数据超过十万亿个数据点,同时还有高并发的查询。大家试想一下,一方面有数据的疯狂写入,同时还要支持高并发查询,在有限的资源下,相互之间会竞争 CPU、IO 等资源,非常有挑战。

  通过我们优秀的工程师团队不懈地努力,大幅优化了写入以及资源使用率后,我们搞定了这个场景,客户非常满意。现在我们可以自信地说 YMatrix 已经穿透了时序场景,而 5.0 将更多的研发重心放在了“超融合”。

  过去 20 多年出现过很多优秀的产品,他们或者是性能卓越,或者是功能强大,或者是易用性极佳。即便是到了今天,用户仍在选择数据库时,不得不在功能、性能、易用,这三者之间进行权衡和取舍。

  有的数据库性能卓越,但是易用性欠佳;有的数据库支持关系数据,但是不支持时序;有的数据库支持时序,但是不支持分析和 Machine Learning 等等,而我们认为应该是更多的融合,而不是权衡和取舍。举例来说,智能手机成功地将电线、GPS、照相机以及存算能力融合在一起,这种融合不单开创一个全新的消费电子领域,也改变了人们的工作和生活方式。

  与此类似,超融合数据库也是 N 合一,把多种不同数据库品类的常用功能整合在一起。这里的 N 是指场景的不同,可以是 1、2 或 3,甚至更多。这种融合不是简单功能上的堆砌,而是真正提供一个数据基座的基础设施级别的数据库。当然,这样的融合本身不会带来产业的巨变,它更像是催化剂,能够催化和加速各行各业的数字化革新。

  这里我们以数据模型及处理模型来分类,按照数据模型有关系数据库、时序数据库、图数据库等,而处理模型又可以进一步细分,如处理类型有 OLTP 和 OLAP,时效性有批处理系统和流处理系统,这两大分类最早常见于大数据领域。近几年随着流和数据库更多的整合,流数据库也受到越来越多人的关注。按照处理模式是否已知可以分为数据仓库和数据湖。

  可以看到数据库的品类非常的多,这一方面说明了数据库是丰富多彩的,同时也给用户带来了选择困惑。

  现在工业 4.0 和智能制造备受关注。以工业场景为例,在工业场景里有很多重要的信息化系统,譬如有制造执行系统 MES、仓储管理系统 WMS、质量管理系统 QMS,这些信息化系统大多使用关系型数据库,常见的有 SQLServer、MySQL 和 Oracle。这些数据库很多都是跟随着信息化系统进入企业的。

  随着智能制造的发展,企业希望构建设备的智能管理和运维,为此需要耗时数月选型时序数据库,引入时序数据库,以解决时序数据的采集、存储和监控等问题。常见的时序数据库产品有 OpenTSDB、 InfluxDB 等。

  时间的推移下,数据会不断地积累,形成历史数据,这些历史数据中蕴含着丰富的价值。为了挖掘这些价值,促进企业的数据驱动实现决策支持,我们需要搭建 BI 和选型数据仓库,常见的数据仓库和分析型数据库有Greenplum、Clickhouse 和 Hadoop 等。机器学习在工业里面使用了很长时间,近年来随着大数据的发展,基于大数据模型的机器学习算法,精度更高,因此企业希望引入基于大数据的机器学习模型,叠加工业激励模型去实现企业的降本增效。

  为此需要引入 Spark、TensorFlow 机器学习平台, 这一趋势会随着需求不断发展而继续。譬如,当需要解决文本检索的时候,引入 Elasticsearch 或 Solr;当需要解决地理位置数据处理,需要引入 ArcGIS;当需要解决文档数据时,引入 MongoDB。

  每一次的选型,少则需要耗时一两个月,多则耗时半年甚至一年以上。很多时候还会发生选型时测试是好的,一旦上生产却问题频出,很多企业放弃选型或者是重新选型。

  选型的结束并不是工作的结束,而是更多工作的开始,每一种产品都需要运维、监控、报警、导入、导出、备份、恢复、高可用、权限管理等。诸多产品的叠加,运维的复杂度就会更高。一旦出现问题,就会造成生产和交付出现问题,并且每一种产品都有学习成本,诸多产品的学习成本叠加在一起就会更高,而使用不当是很多问题的关键。

  这么多的数据库,数据库的本质是什么?如果我们抛除掉所有的概念以及技术细节,数据库的本质就三件事情:接数据、存数据和用数据。

  过去很多不同的数据库都是在使用不同的方式去解决这三个最本质的问题。所谓天下大事,合久必分,分久必合。上世纪十年代,数据库趋势以和为主,而 21 世纪的头十几年,数据库以分为主要趋势,面向细分场景去开发数据库,以解决该场景下的问题,所以形成了很多的数据库品类。

  当时有一点卖方市场的意思,重要的是要看数据库的开发人员能够开发出什么样的产品来给业界使用,而用户更多的是组合不同的产品来去解决自己全场景的问题。

  为什么会这样?主要还是由于事物发展到不同阶段造成的。不管是硬件技术、分布式数据库技术还是开源软件,相对都比较早期,积累和沉淀比较薄弱,在面向细分场景可以有效地降低复杂度,提升成功的概率。

  近几年,数据库领域融合趋势渐显,出现了诸如 HTAP、湖仓一体等热词。我们不禁要问,融合的尽头是什么?作为数据库人,是继续一个问题、一个问题的解决当下,还是以终为始,思考终局?更重要的是,用户想要的到底是什么样的数据库。

  用户其实并不关心 TP、AP、批流、湖仓,用户想要的是一款强大的数据库,可以解决最根本的数据问题。有数据就可以往里面写,想用可以随时用。用户更希望把精力放在数据自身的价值和业务价值上,而不是数据库的价值。所谓批流之分,湖仓之分只是阶段性的产物。

  采用 YMatrix 超融合数据库,只需要选型一次,也只需要运维一个产品,选型成本和用户运维成本会大幅地降低。一旦完成选型后,当新需求出现时,无需再耗费数月去选型一个专用数据库,只需要研究在 YMatrix 中如何实现该功能。

  同样以工厂场景为例,我们来看使用 YMatrix 数据库的客户旅程感受。首先是工厂的信息化系统,信息化系统使用的是关系型数据库,而 YMatrix 本身是一个严格意义上的关系型数据库,和 PostgreSQL 的接口完全兼容,可以使用标准的 SQL 进行建模、写入和查询。熟悉 SQL 的人一看便知。

  在关系数据或者 OLTP 场景下, YMatrix 推荐使用 Heap 存储引擎,怎么做也是非常简单,只需要在建表时使用using heap即可,其他的所有工作会由数据库来自动实现。一旦建模完成,查询和写入都可以使用标准 SQL 实现。

  当需要建设设备智能运维系统时,无需再去选型专用时序数据库,只需看如何在 YMatrix 实现,方法和前面一样,使用标准 SQL 进行建模、写入和查询。

  只有一点区别,建模时使用 MARS2 存储引擎。MARS2 是我们专门为时序场景打造的存储引擎,性能非常的好。当需要构建报表或者建设 BI 系统时,也无需耗时再去选型专用的分析型数据库,只需使用 YMatrix 提供的强大数据分析能力。

  如上图所示,该 SQL 使用了窗口函数来计算跳变差值。经常用于安全和报警等场景下,可以看到,短短 10 几行 SQL 就可以实现强大的业务价值。

  上图是另外一个例子,大概 20 行左右的 SQL,用于计算所有车辆的全天驾驶循环,通常会用在高级分析和机器学习模型训练中。

  这两个 SQL 主要想演示 YMatrix 强大数据分析能力,寥寥几行 SQL 就可以快速提供业务价值。如果和 BI 软件的集成,可以让业务人员直接挖掘数据价值。

  我们看一下上图,是用户自定义函数,类似于存储过程,可以直接在数据库内执行。函数体是用 Python 来实现,在里面可以调用任意 Python 代码。例子中可见,使用了 pandas 流数据库,同时也调用了用户自己编写的 metric,最后一行调用了 metric.forecast 函数,以实现模型的训练和预测。

  这意味着你可以在数据库内执行任意的 Python 代码来去实现原地数据分析,也意味着整个 Python 生态为你开放,更意味着无限的数据分析可能,功能强大,感兴趣的朋友可以好好地研究一下。

  YMatrix 还支持其他数据库功能,譬如文本检索、JSON 和 GIS 等,使用方法非常简单。使用标准 SQL 建模、写入、查询,只需要在建模的时候使用正确的数据类型即可。

  下图,我们展示了一个 SQL 示例,用于计算过去 24 小时内,在某个点周边两公里的所有 ATM 机,提款超过 2000 元的所有交易。

  这是一个非常复杂的业务需求,但是我们使用了 6 条 SQL 在 YMatrix 里即可完成这个业务场景。

  我们可以对比一下两种不同的客户体验,一种需要试点、选型、学习、适配,耗时数月以上;另外一种使用 YMatrix 当下立即开发,并且全部使用标准 SQL,学习曲线 倍以上的效率提升。

  YMatrix 超融合数据库 + 现代 SQL 可以实现无限可能。YMatrix 强大功能远不至此,随着使用的深入,经常会惊喜地发现原来这样的功能已经实现。这里列举几个常用的,譬如:用户透明分区,无需用户再去手动分库分表,冷热分级存储、物化视图、索引、压缩等。

  值得强调的是,YMatrix 还支持 ACID,确保数据不丢、不错、不重。很多时序数据库和分析型数据库都不支持 ACID,无法确保数据的正确性。

  采用超融合架构,可以有效地节省设施成本及运维成本,提升开发效率并降低人才门槛。我们知道在数字化转型时代,最稀缺的人才是复合型人才,教育和培训很难快速地满足业内对于复合型人才的需求。通过降低人才门槛可以有效地缓解这一问题,所以使用 YMatrix 超融合解决方案可以大幅地降低行业专家驾驭数字技术的难度,真正的为行业转型赋能。

  过去两年来,我们和很多客户及同行进行交流,大家都认可超融合数据库的价值,但是也有两点顾虑,一是能不能实现,二是即使实现了,性能会怎么样?

  性能可以说是数据库领域永远具有吸引力的话题,因为性能数字清晰直观,孰优孰劣,孰强孰弱,一目了然。特别是近来很多厂商去参加性能的打榜、打擂,有一点的意思。

  但这也是好事,说明技术是在不断地进步。然而我们也注意到,绝大多数的厂商仍然是在打单榜、打细分的场景。现在数据库竞争已经到了深水区,单靠某个细分场景上,20-30% 性能优势甚至是一倍的优势,已经难以再获得用户的青睐,而需要铁人三项甚至是十项全能。

  YMatrix 非常看重在用户全场景之下的性能表现,包括写入、时序查询、单表分析、多表分析、 Machine Learning、OLTP 。


金年会网页版在线登录 上一篇:智算中心紧跟这拨大行情! 下一篇:智能硬件行业分类及面临的发展机遇、竞争格局、市场规

金年会网页版在线登录