开篇：写给致力于大数据技术发展的志同道合者

互联网 | 编辑: 朱晓宇 2016-09-01 00:00:00转载

我们是星环科技的大数据研发部门，是国内专注于大数据平台技术研发的团队，大数据领域平均工作经验超过3年，一支有技术理想的团队。

写在开头，我们是谁?

我们是星环科技的大数据研发部门，是国内专注于大数据平台技术研发的团队，大数据领域平均工作经验超过3年，一支有技术理想的团队。

为什么我们要创建大数据开放实验室的公众号?

1. 复杂的大数据技术栈

提到大数据，很多人可能都听说过4V - Big Volume, Big Velocity, Big Variety, Big Value，大数据从业人员的工作内容也都和这4个V中的某些内容密切相关。

相比较传统的数据库技术，大数据的技术栈在过去几年取得非常迅速的发展，尤其是Hadoop和Spark已经构建了一个庞大的技术生态圈。

文件系统方面，除了传统的行式存储，还有新的列式存储格式如ORC，Parquet，以及一些新型的用SSD或者内存加速的存储，如Transwarp Holodesk以及Tachyon。此外，还有Ceph等新型文件系统。

在文件系统之上，各种存储引擎也迅速发展，如NoSQL类的HBase，MongoDB，CouchDB，它们在一些大数据场景下表现的非常出色(如高并发，文档存储等)，而放弃另外一些特性，如事务和SQL支持;不过近年也涌现出一些新的NoSQL存储引擎，重新拾起来SQL和事务，如VoltDB，CockroachDB，以及Transwarp Hyperbase。

计算引擎的发展更是日新月异，可以按照批处理/交互式/流式/迭代式做个大体的分类。批处理引擎在大数据领域发展的最快，MapReduce，Spark，Tez等已在大规模商用;交互式分析引擎的代表有Dremel，Presto，Impala等，目前还处于未能完全证明商用能力，但是在快速发展并且验证的阶段;流式引擎这两年发展很快，Spark Streaming/Flink/Storm/Samza是其中的代表;迭代式引擎有Graphx，Pregel，以及Transwarp Graphene等。

数据分析领域，各种工具更是层出纷纭，如Hive，Mahout，MLlib，R，Kylin等，除了开源技术，我们研发的Transwarp Inceptor是国内经过商业检验的比较优秀的大数据分析工具。

数据集成和调度工具也有很多的开源项目涌现出来，如Oozie，Azkaban，Crunch，Sqoop，Flume，Kafka等等。

因为这么复杂的技术栈，以及各种层出不穷的新技术，开发者会面临着极大的学习成本，以及很困难的选型考量。如何选择更合适的技术方案，如何做基于大数据的新的应用的开发，如何去管理和运维大数据产品，这是新技术时代的主要问题。因此，我们希望通过大数据开放实验室，将我们掌握的一些技术/原理等传播给读者，分享我们的经验和教训，共同促进大家对大数据技术的掌握和理解。

2. 曲折反复的发展趋势

为了处理大数据的4个V，大数据的技术栈变得非常繁杂，同时各个技术的发展趋势在过去几年也有一些有意思的变化。如MPP并行计算和分布式批处理计算的方向上分分合合，低延时计算架构的演变，以及NoSQL数据库的演进路线。

传统的并行数据库(如MPP架构)和基于MapReduce/Spark的分布式批处理的计算模式，在2010年左右曾经发生过比较激烈的技术方向辩论(http://database.cs.brown.edu/papers/stonebraker-cacm2010.pdf，http://www.cs.princeton.edu/courses/archive/spr11/cos448/web/docs/week10_reading2.pdf )，而后几年，Cloudera的分析引擎Impala又将Share Nothing 的MPP(Massive Parallel Processing)处理风格引入，分歧的双方似乎又回到了起点。不过随着Spark等类似的内存计算引擎的兴起以及完善，

MPP的技术又被抛弃，并且涌现出来性能和可扩展性更好的数据分析引擎，如Transwarp Inceptor，Presto以及SparkSQL，分布式批处理又再次和MPP技术方向分道扬镳。

为了解决Big Velocity，满足IoT等场景的需求，实时和低延时处理的计算架构在快速的发展过程中，如何处理批处理和交互式分析之间的平衡，也不断推进这计算架构的演进。最经典的莫过于Lambda架构，同时也是使用比较广泛的架构;此外Twitter的SummingBird支持以批处理或者流处理模式，或者混合模式以统一的方式来执行代码，也是个比较新颖的架构。

NoSQL数据库发展也非常有意思，早期因为传统数据库处理速度慢，事务过于复杂，SQL编译过重等原因，不能满足很多场景的需求，各种NoSQL数据库快速发展起来，如HBase，Cassandra，MongoDB等，API编程开始流行。然而随着时间推移，各个NoSQL数据库发现了API编程的缺陷以及功能缺失导致的适用场景首先，又开始走回SQL之路，如Cassandra和MongoDB;此外，不支持事务的架构又不能保证2~3年后是否会因为不满足业务需求而过时，也是NoSQL数据库的一个隐忧。因此，图灵奖得主大神Michael Stonebraker预测NoSQL数据库最终将和SQL数据库融合：SQL数据库们通过增加对非结构化数据的处理，如JSON的支持来提升业务场景的可适应性;而NoSQL数据库则开始加入SQL的支持和分布式事务(参见Michael Stonebraker的演讲“What Does ‘Big Data’ Mean and Who Will Win?”)。在这点上，Transwarp Hyperbase早已经开始了这个技术融合，基本完成了SQL支持/分布式事务以及非结构化数据处理能力的打造。

技术的发展趋势往往不是那么一往无前，而是一直不停的迭代，然后论证，然后互相影响，并可能出现一些方向上的变化。大数据技术也同样如此，对于从业人员来说，在设计一个新系统的时候往往需要考虑到今后一定时间的发展趋势，并接合着业务来推进系统的演进。这也是我们创建开发实验室的第二个原因：与广大从业人员一起对大数据发展的历史故事进行梳理，分析对未来技术的趋势的看法，然后在细分领域寻求突破，以更好的适应这个大数据时代。

3. 星环大数据技术的布道者

星环专注于大数据技术超过3年，目前Transwarp Data Hub包含4个组件来分别解决大数据的4-V技术问题。Inceptor解决了Big Volume上的ETL和Analytics的问题，Stream针对Big Velocity提供了基于SQL的解决方案，Hyperbase融合了对结构化数据和非结构化数据的处理能力，从而可以满足Big Variety的需要，Discover帮助用户来挖掘出big data里面的Big Value。

TDH走的是非开源路线，因此在技术传播上没有开源项目对大众影响深远。我们认为技术的共享不应该有边界，因此希望通过这个公众平台，将我们研发的有意思的功能，模型，方案等新技术，通过比较合理的方式与外界共享，并通过这个平台构建一个积极反馈的闭环。

我们的愿景

以技术之名，做一个有价值的大数据技术深度分享的平台;

以原创为主，做一个有深度的创新思维的技术社区;

欢迎有技术理想的朋友们加入我们。

关于大数据开放实验室

大数据开放实验室是一个丰富的大数据学习和大数据资讯平台，由行业内顶尖大数据公司星环科技运营，每周都会放送一定数量的博文干货，小到各种大数据技术扫盲贴，大到各种大数据前沿技术分析文，另外还有一些大数据热门产品的内部窥探，大数据未来的发展动向等一系列非常具有市场参考价值的文章。除此之外，大数据开放实验室也是一个大数据技术交流和分享的圈子，用户可以在该公众号留言，提出自己的想法或问题，届时会有管理员进行回答，后期甚至会有详细的针对该问题或想法的博文放送，欢迎关注“大数据开放实验室”。

关注公众号“大数据开放实验室”，获取最新技术干货。

每日精选

2026 618好物推荐：值得买省心选放心购

2026 618好物推荐：值得买省心选放心购

标签： 618| 好物推荐| 3C数码好物推荐| 2026-06-10
小米17系列全家桶：从入门到旗舰一文看懂怎么选

随着小米17T、17T Pro两款海外机型正式登陆国内市场，小米17系列的产品矩阵已扩充至7款，今天我们就从最拉胯到最值得买，一次性给你排得明明白白，帮你找到最适合自己的那一款。

标签：小米| 小米17| 小米17T| 2026-06-08
iOS 27系统解读：国内半残核心升级竟是闹钟

对国内用户而言，iOS 27则是个没有灵魂的半残系统，核心的AI功能依旧缺失，能够促使用户更新的核心功能，居然是期盼已久的工作日闹钟。

标签：苹果| iOS27| 国行版| AI| 2026-06-09
618AI轻薄本优选，华硕无畏14SE 2026学习办公两宜

作为华硕无畏系列主打高选购价值的主力机型，华硕无畏14SE 2026锚定大众刚需，凭借标配2.5K高清护眼屏幕、均衡处理器配置、扎实机身做工以及完善的续航拓展能力，成为适配学生党和职场新人的热门机型。

标签：华硕| 华硕无畏14SE| 轻薄本| 2026-06-09
当我把老板的行程安排成生产队的牛马

老板是公司里的一个职位，当我把老板的行程安排成生产队的牛马，他就会知道，没有什么事是容易的。

标签：荣耀600| 荣耀600Pro| 2026-06-09
联想斗战者锋7000X台式机开售，RTX 5060Ti 5499元起售！

PChome 6月9日消息，联想旗下斗战者品牌锋7000X台式机现已上市，产品定位全民超能台式机，首发价5499元起。凭借RTX 5060Ti甜品级独显以及3年免费上门服务，成为家用、娱乐装机的新选择。

标签：联想| 斗战者锋7000X| 台式机| 2026-06-09
2K 320Hz电竞屏，蚂蚁电竞ANT273PQL PRO首发2199元

PChome 6月9日消息，HKC旗下蚂蚁电竞新款ANT273PQL PRO显示器开售。这款27英寸电竞产品主打高刷竞技体验，官方常规售价2299元，目前首发特惠价2199元，但底座与机械臂需要消费者单独购买。

标签：蚂蚁电竞| ANT273PQLPRO| 电竞屏| 显示器| 2026-06-09
vivo X Fold6新增并行模式同屏运行四应用

据vivo韩伯啸透露，在全新的vivo X Fold6中，原子工作台将迎来全新升级，新增的并行模式更注重多任务使用方式。

标签： vivo| vivoXFold6| 并行模式| 2026-06-09
360Hz高刷+圆偏光护眼，AOC Q27G4SL6/WS电竞显示器

PChome 6月9日消息，AOC推出爱瞳系列全新Q27G4SL6/WS显示器，这款27英寸Fast IPS电竞屏，融合360Hz超高刷新率与圆偏振光护眼技术，兼顾强悍电竞性能与健康用眼体验，目前产品已上架。

标签： AOC| Q27G4SL6/WS| 2026-06-09
机械革命星耀15 AI轻薄本6月16日发售，售价6999元起

PChome 6月9日消息，机械革命2026款全新轻薄本星耀15现已登陆京东平台，定价6999元，并于6月16日正式开售。主打AI性能、轻薄机身与超长续航，与星耀14形成尺寸互补，覆盖更多用户需求。

标签：机械革命| 星耀15| AI轻薄本| 2026-06-09