[译]别老扯什么 Hadoop 了，你的数据根本不够大！（@刘江总编）
什么是“大数据”？
免费大数据和数据科学学习资源
Spark Summit 2013 演讲稿
大数据版的 Hacker news
SparkR - R 的 Spark前端
腾讯大规模 Hadoop 集群实践（翟艳堂）
[PPT] 深入浅出 Spark (@CrazyJvm)
系列文章：Apache Spark 源码走读（@徽沪一郎）
[PPT] 深入浅出 Spark (@CrazyJvm)
Spark Summit 2014 幻灯片 & 视频
Hadoop、Spark、HBase 与 Redis 的适用性讨论（数据视野）
Spark GraphX 在淘宝的实践（黄明、吴炜）
Spark Internals (@JerryLead)
Python 大数据处理工具
《大数据日知录：架构与算法》
内存计算技术哪家强？Spark vs HANA (@吴朱华)
基于 MongoDB 和 Spark 实现电影推荐系统 (Sandeep Parikh)
[PDF] 大数据时代 feed 架构 (@TimYang)
《大数据日知录：架构与算法》
Spark 技术解析及其在百度的应用实践 (仲浩)
[PDF] Hadoop 源代码分析 (@童燕群)
[译] Spark 论文《大型集群上的快速和通用数据处理架构》（修正版）
55 个大数据可视化分析工具 (黄超)
《Apache Spark 源码剖析》
Spark SQL 1.3.0 概览 (@连城404)
[译] Spark 编程指南（Python 版） (@cholerae)
大数据技术栈之配置 & 发布系统 (@祝威廉二世)
Clusterize.js - 一个轻松显示大数据集的 JS 插件 (NeXTs)
Pinot：LinkedIn 开源的实时数据分析系统
小数据分析师学 Python 之 Seaborn（二）：定量数据的线性模型 (@一航天飞机)
[译] 怎样利用 Spark Streaming 和 Hadoop 实现近实时的会话连接 (Tao Meng)
[译] PayPal 高级工程总监推荐阅读的 100 篇大数据论文 (张玉宏)
如何选择满足需求的 SQL on Hadoop 系统 (@DataScientist)
Spark 性能调优 (田毅)
贾扬清：希望 Caffe 成为深度学习领域的 Hadoop (周建丁)
《Apache Spark 设计与实现》 (JerryLead)
Spark 与 Flink：对比与分析 (卢亿雷 & 彭远波)
开源大数据处理工具汇总（上） (大数据女神-诺蓝)
大数据全栈式开发语言 Python (佟达)
SequoiaDB Connector for Apache Spark (Tao Wang)
LinkedIn 开源高可用 Hadoop 工具集 Gradle (张天雷)
Go 的单例模式 (@谢权Spark)
Apache Calcite：Hadoop 中新型大数据查询引擎 (楚晗)
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
DHIS 2：穷人的大数据
[译] 2015 Bossie 评选：最佳开源大数据工具
基于用户画像大数据的电商防刷架构
Spark PySpark 数据类型的转换原理：Writable Converter
单表 60 亿记录等大数据场景的 MySQL 优化和运维之道
我所理解的大数据个性化推荐
Spark 如何解决常见的 Top N 问题
Spark SQL 编程指南（Python）
[PPT] 硅谷大数据公司 Palantir 产品技术解读
Spark Streaming 源码解析系列
Hadoop 压缩实现分析
《Python 金融大数据分析》
基于 Spark 的机器学习经验
[译] Spark 操作指南
Spark 中实现基础的 PageRank
大数据 / 数据挖掘 / 推荐系统 / 机器学习相关资源
基于大数据的用户画像构建
[译] 大数据系列之 Streaming 模式基础知识
Spark MLlib 实现的广告点击预测：Gradient-Boosted Trees
Hadoop-2.6.0-chd5.4.8 在 CentOS 7 minimal 搭建全过程
Spark MLlib 实现的中文文本分类 Native Bayes
将 Spark 中的文本转换为 Parquet 以提升性能
Gearpump：基于 Akka 的大数据实时处理引擎
Spark Streaming 实践和优化
《Spark 官方文档》集群模式概览
Apache Flink 官方文档翻译开源项目
[译] 十大炫酷大数据项目
《Hadoop 2.X HDFS 源码剖析》
Spark 在美团的实践
Hadoop NameNode 高可用 (High Availability) 实现解析
Spark 入门实例指南
【小牛学堂】免费大数据实战服务器集群-实战云内测申请中
秒级处理海量数据，浙江移动大数据平台是怎么做到的？
Spark 在金融领域的应用：日内走势预测
从日志统计到大数据分析（十六）：元
这些年，你不能错过的 Spark 学习资源
搭建 IPython + Notebook + Spark 开发环境
开发交流会：当轻架构前端撞上高性能大数据后台（深圳，5 月 29 日）
开发交流会：当轻架构前端撞上高性能大数据后台（深圳，5 月 29 日）
大数据资源整理
基于 Spark 的文本情感分析
Spark Streaming 使用 Kafka 保证数据零丢失
使用 Docker 搭建本地 Hadoop 集群
基于 Docker 搭建 Hadoop 集群之升级版
大数据环境下互联网行业数据仓库/数据平台的架构之漫谈（续）
零基础学习 R 语言数据分析
一文读懂 Hadoop、HBase、Hive、Spark 分布式系统架构
大数据分页方案
三个月入门数据分析
MOBIN-大数据
玩转大数据
大数据方案选型
跟我一起学 Hadoop YARN（一）
打开 Spark 的正确姿势
Spark Streaming + Elasticsearch 构建 App 异常监控平台
博客虫大数据
闲话国内大数据发展简史 & 产业化落地
机器学习与大数据
搭建 Spark 源码研读和代码调试的开发环境
Big Data Full Stack
Spark与个性化推荐
Spark 中进行聚合时的特殊场景
有赞大数据实践：敏捷型数据仓库的构建及其应用
这样搭建 Spark 学习环境效率似乎更高
金融学如何应对人工智能和大数据？
MySQL 如何存储大数据
雅虎开源 TensorFlowOnSpark
Spark Streaming 将乱序消息有序存储，离线保证 exact once 语义
大数据技术博客的独家号
大数据架构
Spark 分布式的基础：通信系统 rpc
中华万年历大数据平台演进
Spark 与 HBase 的整合
连蒙带猜学习大数据 hive 和 kylin 篇
一个大数据屌丝的一天
Apache Spark 内存管理详解
写给大数据开发初学者的话
Flink 原理与实现：Table & SQL API
Spark 自己的分布式存储系统：BlockManager
我用 6.5 万条公开数据分析了一下人民眼中的人民的名义
机器学习与大数据
请你停下了花几分钟读一读 Spark 的代码
美团的大数据平台架构实践
机器学习与大数据
大数据环境下该如何优雅地设计数据分层
10GE Hadoop 网络设计
Flink 原理与实现：Aysnc I/O
[译] 工程师及数据科学家的大数据学习路径
Spark 源码解析：DStream
Awesome Flink
vue-recyclerview：Vue 超大数据列表解决方案
揭秘网易大数据实践与基于微服务的应用架构设计实践
Akka 和 Spark 的恩怨情仇
基于 Spark 的大规模机器学习在微博的应用
[译] 从零开始系统规划大数据学习之路
《Spark：大数据集群计算的生产实践》
基于大数据平台的实时质量监控平台的架构设计
给 Spark 开发者介绍下 Flink：Flink vs Spark
《大数据之路》
Spark 机器学习的加速器：Spark on Angel
Spark 内存管理的前世今生（上）
基于 HBase 的大数据存储的应用场景分析
玩转大数据
Spark 内存管理的前世今生（下）
Spark 自己的内存管理：Tungsten 探秘
大数据实时日活计算之 Bloom Filter
Spark SQL 在饿了么的应用实践
如何快速成为数据分析师？
携程机票大数据架构最佳实践
Go 在万亿级大数据平台开发中的实战
深入解析 Spark 中的 RPC
大数据Spark
Spark 技术在唯品会财务系统重构中的实践总结
基于 Hadoop 大数据分析应用场景与实战
工业互联网大数据通信协议详解
彻底搞懂 Spark 的 shuffle 过程
Spark 写 Redis 实践总结
大数据架构分布式系统
流计算框架 Flink 与 Storm 的性能对比
[译] Pachyderm 介绍：建造一个现代的 Hadoop
机器学习与大数据
当时空大数据遇上 WebGL，数据变成可操作的信息
如何成为一名数据分析师：数据的初步认知
[译] 李飞飞等人提出 MentorNet：让深度神经网络克服大数据中的噪声
大数据量、海量数据处理方法总结
Hulu 大数据架构与应用经验
机器学习与大数据
2017 年大数据技术的回顾与展望
基于 Hadoop 生态 Spark Streaming 的大数据实时流处理平台的搭建
VR/云计算/大数据/区块链/AI，这么多技术热点你该怎么选？
Linux 运维工程师的大数据安全修炼手册
浅谈大数据平台基建的逻辑
Apache Spark 2.0 作业优化技巧
浅谈 BI 与数据分析的可视化
从业务数据分析到机器学习应用的一次经历
处理大数据集的建议
实时大数据分析引擎 ClickHouse 介绍
机器学习与大数据
大数据挖掘机器学习人工智能的维恩图战争
大数据生态
大数据生态
用最短的 CSS 样式，勾勒大数据演示屏
大数据测试过程、策略及挑战
数据分析工具漫谈
京东推荐系统架构揭秘：大数据时代下的智能化改造
使用 Alluxio 统一结构化大数据
大数据开发平台 (Data Platform) 在有赞的最佳实践
[译] Flink 创始人谈流计算核心架构演化和现状
大数据时代下的数据挖掘基础
Spark Streaming 和 Flink 详细对比
面向数据分析的道与术
Spark 内存管理模型详解
一个数据分析师眼中的数据预测与监控
Spark 的 PIDController 源码赏析及 backpressure 详解
[译] Flink 与 Storm 的主要区别
360 大数据中心平台化的演进与实践
Flink 在唯品会的实践
数据科学概论与大数据学习误区
美图大数据平台架构实践
[译] Uber 的实时数据分析系统架构
换个姿势入门大数据
《大数据平台基础架构指南》
大数据在环境保护中的应用
JStorm 到 Flink 在今日头条的迁移实践
大数据生态
阿里如何实现秒级百万 TPS？搜索离线大数据平台架构解读
大数据不是你想的那样
大数据技术在舆情服务领域的应用
大数据推荐系统实时架构和离线架构
大数据不就是写 SQL 吗？
从 Spark MLlib 到美图机器学习框架实践
从面试官的角度谈谈大数据面试
阿里巴巴为什么选择 Apache Flink？
敏捷大数据与敏捷 AI
基于 Kerberos 的大数据安全方案
使用 Flink 解救多线程 Scala 应用
Flink 零基础实战教程：如何计算实时热门商品
从 0 到 1 学习 Flink：Apache Flink 介绍
[译] 这 8 个 Python 小细节，让你在大数据领域如鱼得水
从 0 到 1 学习 Flink：Data Source 介绍
高校大数据团队
SparkSQL Catalyst 解析
[译] 一文读懂 R 中的探索性数据分析
是时候学习真正的 Spark 技术了
Hadoop YARN 在字节跳动的实践
如何使用 Spark 快速将数据写入 Elasticsearch
Flink 源码解析之从 Example 出发：读懂集群任务执行流程
小米大数据：借助 Apache Kylin 打造高效、易用的一站式 OLAP 解决方案
一点资讯 SparkSQL 查询引擎实践
大数据在保险行业的应用
Flink Forward China 2018 大会幻灯片
数据分析解决商业问题学习笔记
使用 Spark Pivot 处理复杂的数据统计需求
大数据学习路线指导
对 Flink 流处理模型的抽象
基于大数据的用户标签体系建设思路和应用
大数据误区
《从 0 到 1 学习 Flink》：Flink 读取 Kafka 数据批量写入到 MySQL
贾扬清：AI，从大数据问题演进到高性能计算问题
大数据工程师
基于 Binlog + Flink 实现多表数据同构/异构方案
Flume 在有赞大数据的实践
《对比Excel,轻松学习Python数据分析》
周涛：浅析大数据与人工智能
一篇让人脸红的 Python 数据分析
百 PB 级 Hadoop 集群存储空间治理
初识 Hadoop
大数据实战经验分享
[译] 每位数据分析师应该要知道的基本数据分析技术
转岗大数据？
大数据手稿笔记
JupyterLab 数据分析必备 IDE 完全指南
Kylin 在小米大数据中的应用
[译] Flink 2.0 前瞻
[译] Apache Flink 是如何管理好内存的？
大数据从哪里来？
360 深度实践：Flink 与 Storm 协议级对比
一条 SQL 在 Apache Spark 之旅（上）
360 大数据中心总监：如何制定可奏效的数据安全体系
让 pandas 处理大数据速度变快的三个技巧
为啥 Spark 的 broadcast 要用单例模式
Spark-SQL 在字节跳动的应用实践
Apache Flink 1.9 重大特性提前解读
Zeppelin：让大数据插上机器学习的翅膀
驳 “Hadoop 快不行了”
大数据平台常见开源工具集锦
一份超详细的 Spark 入门介绍
从 0 开始学大数据：Hive 性能优化篇
比 Hadoop 快至少 10 倍的物联网大数据平台，我把它开源了
大数据 SQL Boy 脱坑指南
妈妈再也不用担心，我学不会大数据 flink 啦
过往记忆大数据
从大数据的角度来谈谈运维监控这件事儿
大数据分析工程师面试集锦（二）：Scala
个推大数据金融风控算法实践
还在用 livy 吗？大数据连接器 Linkis 开源啦
Flink 在自如 IM 的应用
过往记忆大数据
端到端一致性，流系统 Spark/Flink/Kafka/DataFlow 对比总结
大数据正当时，理解这几个术语很重要
推荐中如何对大数据背景下的物品进行相似度计算
靠转型大数据涨薪的日子一去不复返了
漫谈大数据
从 Spark 的数据结构演进说开
一文让你彻底了解大数据实时计算引擎 Flink
基于 Flink 实现的商品实时推荐系统
面试系列（六）：说说 Spark 的 failover 容错机制
大数据与人工智能
Flink 实战剖析
零基础学 Flink：监控 on Prometheus & Grafana
Flink 流式计算在节省资源方面的简单分析
使用 Spark 和 Delta Lake 构建近实时数据仓库
《Python 数据分析与挖掘实战》
Flink 实战剖析
数据分析的价值
Apache Flink 初探
选方向？大数据的职位你了解多少
Spark SQL 在字节跳动的核心优化实践
《R 语言：实用数据分析和可视化技术（原书第2版）》
漫谈大数据平台架构
[译] Hadoop 霸主地位不保？看看大数据领域的六年巨变
大数据组件 All-in-One 的 Docker 镜像
Flink 如何生成 ExecutionGraph
大数据平台架构设计探究
智能威胁检测：基于 Spark 的 SOC 机器学习检测平台
你必须掌握的 Python 数据分析工具之 Numpy
Flink 中的一把锁
Spark Streaming 数据限流简述
你必须掌握的 Python 数据分析工具之 Pandas
大数据生态
[译] Flink 1.10 重磅发布
首次公开！廖雪峰的大数据开发精品视频 + Xmind 学习路径图
首次公开！廖雪峰的大数据开发精品视频 + Xmind 学习路径图
《大数据智能：数据驱动的自然语言处理技术》
携程 Hadoop 跨机房架构实践
OPPO 基于 Apache Flink 的实时数仓实践
Spark 3.0 终于支持 event logs 滚动了
廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程，终终终于免费啦！
廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程，终终终于免费啦！
廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程，终终终于免费啦！
Stream SQL 的执行原理与 Flink 的实现
大数据生态
Spark 实践：物化视图在 SparkSQL 中的实践
大数据和人工智能工程上的一些点
为什么腾讯 QQ 的大数据平台选择了这款数据库？
Apache Flink 1.11 功能抢先看
基于 Kubernetes 实现的大数据采集与存储实践总结
漫谈大数据
Spark SQL 小文件问题在 OPPO 的解决方案
大数据生态
过往记忆大数据
微博基于 Flink 的机器学习实践
王者荣耀背后的实时大数据平台用了什么黑科技？
王者荣耀背后的实时大数据平台用了什么黑科技？
基于 Spark 的大规模推荐系统特征工程
网易大数据用户画像实践
从 0 到 1 实现一款轻量级大数据分析系统
如何基于 Flink 生成在线机器学习的样本？
Impala 在网易大数据的优化和实践
Flink StateFun 2.0 浅谈
优酷大数据 OLAP 技术选型
[译] 6 种数据分析实用方法，终于有人讲明白了
Datapane：Python 数据分析报告生成库
[译] 使用 .NET 5 体验大数据和机器学习

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

BigDataLinks.md

BigDataLinks.md

Files

BigDataLinks.md

Latest commit

History

BigDataLinks.md

File metadata and controls