Skip to content

Latest commit

 

History

History
349 lines (349 loc) · 56.5 KB

BigDataLinks.md

File metadata and controls

349 lines (349 loc) · 56.5 KB
  1. [译]别老扯什么 Hadoop 了,你的数据根本不够大!(@刘江总编)
  2. 什么是“大数据”?
  3. 免费大数据和数据科学学习资源
  4. Spark Summit 2013 演讲稿
  5. 大数据版的 Hacker news
  6. SparkR - R 的 Spark前端
  7. 腾讯大规模 Hadoop 集群实践(翟艳堂)
  8. [PPT] 深入浅出 Spark (@CrazyJvm)
  9. 系列文章:Apache Spark 源码走读(@徽沪一郎)
  10. [PPT] 深入浅出 Spark (@CrazyJvm)
  11. Spark Summit 2014 幻灯片 & 视频
  12. Hadoop、Spark、HBase 与 Redis 的适用性讨论(数据视野)
  13. Spark GraphX 在淘宝的实践(黄明、吴炜)
  14. Spark Internals (@JerryLead)
  15. Python 大数据处理工具
  16. 《大数据日知录:架构与算法》
  17. 内存计算技术哪家强?Spark vs HANA (@吴朱华)
  18. 基于 MongoDB 和 Spark 实现电影推荐系统 (Sandeep Parikh)
  19. [PDF] 大数据时代 feed 架构 (@TimYang)
  20. 《大数据日知录:架构与算法》
  21. Spark 技术解析及其在百度的应用实践 (仲浩)
  22. [PDF] Hadoop 源代码分析 (@童燕群)
  23. [译] Spark 论文《大型集群上的快速和通用数据处理架构》(修正版)
  24. 55 个大数据可视化分析工具 (黄超)
  25. 《Apache Spark 源码剖析》
  26. Spark SQL 1.3.0 概览 (@连城404)
  27. [译] Spark 编程指南(Python 版) (@cholerae)
  28. 大数据技术栈之配置 & 发布系统 (@祝威廉二世)
  29. Clusterize.js - 一个轻松显示大数据集的 JS 插件 (NeXTs)
  30. Pinot:LinkedIn 开源的实时数据分析系统
  31. 小数据分析师学 Python 之 Seaborn(二):定量数据的线性模型 (@一航天飞机)
  32. [译] 怎样利用 Spark Streaming 和 Hadoop 实现近实时的会话连接 (Tao Meng)
  33. [译] PayPal 高级工程总监推荐阅读的 100 篇大数据论文 (张玉宏)
  34. 如何选择满足需求的 SQL on Hadoop 系统 (@DataScientist)
  35. Spark 性能调优 (田毅)
  36. 贾扬清:希望 Caffe 成为深度学习领域的 Hadoop (周建丁)
  37. 《Apache Spark 设计与实现》 (JerryLead)
  38. Spark 与 Flink:对比与分析 (卢亿雷 & 彭远波)
  39. 开源大数据处理工具汇总(上) (大数据女神-诺蓝)
  40. 大数据全栈式开发语言 Python (佟达)
  41. SequoiaDB Connector for Apache Spark (Tao Wang)
  42. LinkedIn 开源高可用 Hadoop 工具集 Gradle (张天雷)
  43. Go 的单例模式 (@谢权Spark)
  44. Apache Calcite:Hadoop 中新型大数据查询引擎 (楚晗)
  45. 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈
  46. DHIS 2:穷人的大数据
  47. [译] 2015 Bossie 评选:最佳开源大数据工具
  48. 基于用户画像大数据的电商防刷架构
  49. Spark PySpark 数据类型的转换原理:Writable Converter
  50. 单表 60 亿记录等大数据场景的 MySQL 优化和运维之道
  51. 我所理解的大数据个性化推荐
  52. Spark 如何解决常见的 Top N 问题
  53. Spark SQL 编程指南(Python)
  54. [PPT] 硅谷大数据公司 Palantir 产品技术解读
  55. Spark Streaming 源码解析系列
  56. Hadoop 压缩实现分析
  57. 《Python 金融大数据分析》
  58. 基于 Spark 的机器学习经验
  59. [译] Spark 操作指南
  60. Spark 中实现基础的 PageRank
  61. 大数据 / 数据挖掘 / 推荐系统 / 机器学习相关资源
  62. 基于大数据的用户画像构建
  63. [译] 大数据系列之 Streaming 模式基础知识
  64. Spark MLlib 实现的广告点击预测:Gradient-Boosted Trees
  65. Hadoop-2.6.0-chd5.4.8 在 CentOS 7 minimal 搭建全过程
  66. Spark MLlib 实现的中文文本分类 Native Bayes
  67. 将 Spark 中的文本转换为 Parquet 以提升性能
  68. Gearpump:基于 Akka 的大数据实时处理引擎
  69. Spark Streaming 实践和优化
  70. 《Spark 官方文档》集群模式概览
  71. Apache Flink 官方文档翻译开源项目
  72. [译] 十大炫酷大数据项目
  73. 《Hadoop 2.X HDFS 源码剖析》
  74. Spark 在美团的实践
  75. Hadoop NameNode 高可用 (High Availability) 实现解析
  76. Spark 入门实例指南
  77. 【小牛学堂】免费大数据实战服务器集群-实战云 内测申请中
  78. 秒级处理海量数据,浙江移动大数据平台是怎么做到的?
  79. Spark 在金融领域的应用:日内走势预测
  80. 从日志统计到大数据分析(十六):元
  81. 这些年,你不能错过的 Spark 学习资源
  82. 搭建 IPython + Notebook + Spark 开发环境
  83. 开发交流会:当轻架构前端撞上高性能大数据后台(深圳,5 月 29 日)
  84. 开发交流会:当轻架构前端撞上高性能大数据后台(深圳,5 月 29 日)
  85. 大数据资源整理
  86. 基于 Spark 的文本情感分析
  87. Spark Streaming 使用 Kafka 保证数据零丢失
  88. 使用 Docker 搭建本地 Hadoop 集群
  89. 基于 Docker 搭建 Hadoop 集群之升级版
  90. 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈(续)
  91. 零基础学习 R 语言数据分析
  92. 一文读懂 Hadoop、HBase、Hive、Spark 分布式系统架构
  93. 大数据分页方案
  94. 三个月入门数据分析
  95. MOBIN-大数据
  96. 玩转大数据
  97. 大数据方案选型
  98. 跟我一起学 Hadoop YARN(一)
  99. 打开 Spark 的正确姿势
  100. Spark Streaming + Elasticsearch 构建 App 异常监控平台
  101. 博客虫大数据
  102. 闲话国内大数据发展简史 & 产业化落地
  103. 机器学习与大数据
  104. 搭建 Spark 源码研读和代码调试的开发环境
  105. Big Data Full Stack
  106. Spark与个性化推荐
  107. Spark 中进行聚合时的特殊场景
  108. 有赞大数据实践:敏捷型数据仓库的构建及其应用
  109. 这样搭建 Spark 学习环境效率似乎更高
  110. 金融学如何应对人工智能和大数据?
  111. MySQL 如何存储大数据
  112. 雅虎开源 TensorFlowOnSpark
  113. Spark Streaming 将乱序消息有序存储,离线保证 exact once 语义
  114. 大数据技术博客的独家号
  115. 大数据架构
  116. Spark 分布式的基础:通信系统 rpc
  117. 中华万年历大数据平台演进
  118. Spark 与 HBase 的整合
  119. 连蒙带猜学习大数据 hive 和 kylin 篇
  120. 一个大数据屌丝的一天
  121. Apache Spark 内存管理详解
  122. 写给大数据开发初学者的话
  123. Flink 原理与实现:Table & SQL API
  124. Spark 自己的分布式存储系统:BlockManager
  125. 我用 6.5 万条公开数据分析了一下人民眼中的人民的名义
  126. 机器学习与大数据
  127. 请你停下了花几分钟读一读 Spark 的代码
  128. 美团的大数据平台架构实践
  129. 机器学习与大数据
  130. 大数据环境下该如何优雅地设计数据分层
  131. 10GE Hadoop 网络设计
  132. Flink 原理与实现:Aysnc I/O
  133. [译] 工程师及数据科学家的大数据学习路径
  134. Spark 源码解析:DStream
  135. Awesome Flink
  136. vue-recyclerview:Vue 超大数据列表解决方案
  137. 揭秘网易大数据实践与基于微服务的应用架构设计实践
  138. Akka 和 Spark 的恩怨情仇
  139. 基于 Spark 的大规模机器学习在微博的应用
  140. [译] 从零开始系统规划大数据学习之路
  141. 《Spark:大数据集群计算的生产实践》
  142. 基于大数据平台的实时质量监控平台的架构设计
  143. 给 Spark 开发者介绍下 Flink:Flink vs Spark
  144. 《大数据之路》
  145. Spark 机器学习的加速器:Spark on Angel
  146. Spark 内存管理的前世今生(上)
  147. 基于 HBase 的大数据存储的应用场景分析
  148. 玩转大数据
  149. Spark 内存管理的前世今生(下)
  150. Spark 自己的内存管理:Tungsten 探秘
  151. 大数据实时日活计算之 Bloom Filter
  152. Spark SQL 在饿了么的应用实践
  153. 如何快速成为数据分析师?
  154. 携程机票大数据架构最佳实践
  155. Go 在万亿级大数据平台开发中的实战
  156. 深入解析 Spark 中的 RPC
  157. 大数据Spark
  158. Spark 技术在唯品会财务系统重构中的实践总结
  159. 基于 Hadoop 大数据分析应用场景与实战
  160. 工业互联网大数据通信协议详解
  161. 彻底搞懂 Spark 的 shuffle 过程
  162. Spark 写 Redis 实践总结
  163. 大数据架构 分布式系统
  164. 流计算框架 Flink 与 Storm 的性能对比
  165. [译] Pachyderm 介绍:建造一个现代的 Hadoop
  166. 机器学习与大数据
  167. 当时空大数据遇上 WebGL,数据变成可操作的信息
  168. 如何成为一名数据分析师:数据的初步认知
  169. [译] 李飞飞等人提出 MentorNet:让深度神经网络克服大数据中的噪声
  170. 大数据量、海量数据处理方法总结
  171. Hulu 大数据架构与应用经验
  172. 机器学习与大数据
  173. 2017 年大数据技术的回顾与展望
  174. 基于 Hadoop 生态 Spark Streaming 的大数据实时流处理平台的搭建
  175. VR/云计算/大数据/区块链/AI,这么多技术热点你该怎么选?
  176. Linux 运维工程师的大数据安全修炼手册
  177. 浅谈大数据平台基建的逻辑
  178. Apache Spark 2.0 作业优化技巧
  179. 浅谈 BI 与数据分析的可视化
  180. 从业务数据分析到机器学习应用的一次经历
  181. 处理大数据集的建议
  182. 实时大数据分析引擎 ClickHouse 介绍
  183. 机器学习与大数据
  184. 大数据挖掘机器学习人工智能的维恩图战争
  185. 大数据生态
  186. 大数据生态
  187. 用最短的 CSS 样式,勾勒大数据演示屏
  188. 大数据测试过程、策略及挑战
  189. 数据分析工具漫谈
  190. 京东推荐系统架构揭秘:大数据时代下的智能化改造
  191. 使用 Alluxio 统一结构化大数据
  192. 大数据开发平台 (Data Platform) 在有赞的最佳实践
  193. [译] Flink 创始人谈流计算核心架构演化和现状
  194. 大数据时代下的数据挖掘基础
  195. Spark Streaming 和 Flink 详细对比
  196. 面向数据分析的道与术
  197. Spark 内存管理模型详解
  198. 一个数据分析师眼中的数据预测与监控
  199. Spark 的 PIDController 源码赏析及 backpressure 详解
  200. [译] Flink 与 Storm 的主要区别
  201. 360 大数据中心平台化的演进与实践
  202. Flink 在唯品会的实践
  203. 数据科学概论与大数据学习误区
  204. 美图大数据平台架构实践
  205. [译] Uber 的实时数据分析系统架构
  206. 换个姿势入门大数据
  207. 《大数据平台基础架构指南》
  208. 大数据在环境保护中的应用
  209. JStorm 到 Flink 在今日头条的迁移实践
  210. 大数据生态
  211. 阿里如何实现秒级百万 TPS?搜索离线大数据平台架构解读
  212. 大数据不是你想的那样
  213. 大数据技术在舆情服务领域的应用
  214. 大数据推荐系统实时架构和离线架构
  215. 大数据不就是写 SQL 吗?
  216. 从 Spark MLlib 到美图机器学习框架实践
  217. 从面试官的角度谈谈大数据面试
  218. 阿里巴巴为什么选择 Apache Flink?
  219. 敏捷大数据与敏捷 AI
  220. 基于 Kerberos 的大数据安全方案
  221. 使用 Flink 解救多线程 Scala 应用
  222. Flink 零基础实战教程:如何计算实时热门商品
  223. 从 0 到 1 学习 Flink:Apache Flink 介绍
  224. [译] 这 8 个 Python 小细节,让你在大数据领域如鱼得水
  225. 从 0 到 1 学习 Flink:Data Source 介绍
  226. 高校大数据团队
  227. SparkSQL Catalyst 解析
  228. [译] 一文读懂 R 中的探索性数据分析
  229. 是时候学习真正的 Spark 技术了
  230. Hadoop YARN 在字节跳动的实践
  231. 如何使用 Spark 快速将数据写入 Elasticsearch
  232. Flink 源码解析之从 Example 出发:读懂集群任务执行流程
  233. 小米大数据:借助 Apache Kylin 打造高效、易用的一站式 OLAP 解决方案
  234. 一点资讯 SparkSQL 查询引擎实践
  235. 大数据在保险行业的应用
  236. Flink Forward China 2018 大会幻灯片
  237. 数据分析解决商业问题学习笔记
  238. 使用 Spark Pivot 处理复杂的数据统计需求
  239. 大数据学习路线指导
  240. 对 Flink 流处理模型的抽象
  241. 基于大数据的用户标签体系建设思路和应用
  242. 大数据误区
  243. 《从 0 到 1 学习 Flink》:Flink 读取 Kafka 数据批量写入到 MySQL
  244. 贾扬清:AI,从大数据问题演进到高性能计算问题
  245. 大数据工程师
  246. 基于 Binlog + Flink 实现多表数据同构/异构方案
  247. Flume 在有赞大数据的实践
  248. 《对比Excel,轻松学习Python数据分析》
  249. 周涛:浅析大数据与人工智能
  250. 一篇让人脸红的 Python 数据分析
  251. 百 PB 级 Hadoop 集群存储空间治理
  252. 初识 Hadoop
  253. 大数据实战经验分享
  254. [译] 每位数据分析师应该要知道的基本数据分析技术
  255. 转岗大数据?
  256. 大数据手稿笔记
  257. JupyterLab 数据分析必备 IDE 完全指南
  258. Kylin 在小米大数据中的应用
  259. [译] Flink 2.0 前瞻
  260. [译] Apache Flink 是如何管理好内存的?
  261. 大数据从哪里来?
  262. 360 深度实践:Flink 与 Storm 协议级对比
  263. 一条 SQL 在 Apache Spark 之旅(上)
  264. 360 大数据中心总监:如何制定可奏效的数据安全体系
  265. 让 pandas 处理大数据速度变快的三个技巧
  266. 为啥 Spark 的 broadcast 要用单例模式
  267. Spark-SQL 在字节跳动的应用实践
  268. Apache Flink 1.9 重大特性提前解读
  269. Zeppelin:让大数据插上机器学习的翅膀
  270. 驳 “Hadoop 快不行了”
  271. 大数据平台常见开源工具集锦
  272. 一份超详细的 Spark 入门介绍
  273. 从 0 开始学大数据:Hive 性能优化篇
  274. 比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了
  275. 大数据 SQL Boy 脱坑指南
  276. 妈妈再也不用担心,我学不会大数据 flink 啦
  277. 过往记忆大数据
  278. 从大数据的角度来谈谈运维监控这件事儿
  279. 大数据分析工程师面试集锦(二):Scala
  280. 个推大数据金融风控算法实践
  281. 还在用 livy 吗?大数据连接器 Linkis 开源啦
  282. Flink 在自如 IM 的应用
  283. 过往记忆大数据
  284. 端到端一致性,流系统 Spark/Flink/Kafka/DataFlow 对比总结
  285. 大数据正当时,理解这几个术语很重要
  286. 推荐中如何对大数据背景下的物品进行相似度计算
  287. 靠转型大数据涨薪的日子一去不复返了
  288. 漫谈大数据
  289. 从 Spark 的数据结构演进说开
  290. 一文让你彻底了解大数据实时计算引擎 Flink
  291. 基于 Flink 实现的商品实时推荐系统
  292. 面试系列(六):说说 Spark 的 failover 容错机制
  293. 大数据与人工智能
  294. Flink 实战剖析
  295. 零基础学 Flink:监控 on Prometheus & Grafana
  296. Flink 流式计算在节省资源方面的简单分析
  297. 使用 Spark 和 Delta Lake 构建近实时数据仓库
  298. 《Python 数据分析与挖掘实战》
  299. Flink 实战剖析
  300. 数据分析的价值
  301. Apache Flink 初探
  302. 选方向?大数据的职位你了解多少
  303. Spark SQL 在字节跳动的核心优化实践
  304. 《R 语言:实用数据分析和可视化技术 (原书第2版)》
  305. 漫谈大数据平台架构
  306. [译] Hadoop 霸主地位不保?看看大数据领域的六年巨变
  307. 大数据组件 All-in-One 的 Docker 镜像
  308. Flink 如何生成 ExecutionGraph
  309. 大数据平台架构设计探究
  310. 智能威胁检测:基于 Spark 的 SOC 机器学习检测平台
  311. 你必须掌握的 Python 数据分析工具之 Numpy
  312. Flink 中的一把锁
  313. Spark Streaming 数据限流简述
  314. 你必须掌握的 Python 数据分析工具之 Pandas
  315. 大数据生态
  316. [译] Flink 1.10 重磅发布
  317. 首次公开!廖雪峰的大数据开发精品视频 + Xmind 学习路径图
  318. 首次公开!廖雪峰的大数据开发精品视频 + Xmind 学习路径图
  319. 《大数据智能:数据驱动的自然语言处理技术》
  320. 携程 Hadoop 跨机房架构实践
  321. OPPO 基于 Apache Flink 的实时数仓实践
  322. Spark 3.0 终于支持 event logs 滚动了
  323. 廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程,终终终于免费啦!
  324. 廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程,终终终于免费啦!
  325. 廖雪峰历时 3 个月打磨出价值 1980 的数据分析教程,终终终于免费啦!
  326. Stream SQL 的执行原理与 Flink 的实现
  327. 大数据生态
  328. Spark 实践:物化视图在 SparkSQL 中的实践
  329. 大数据和人工智能工程上的一些点
  330. 为什么腾讯 QQ 的大数据平台选择了这款数据库?
  331. Apache Flink 1.11 功能抢先看
  332. ​基于 Kubernetes 实现的大数据采集与存储实践总结
  333. 漫谈大数据
  334. Spark SQL 小文件问题在 OPPO 的解决方案
  335. 大数据生态
  336. 过往记忆大数据
  337. 微博基于 Flink 的机器学习实践
  338. 王者荣耀背后的实时大数据平台用了什么黑科技?
  339. 王者荣耀背后的实时大数据平台用了什么黑科技?
  340. 基于 Spark 的大规模推荐系统特征工程
  341. 网易大数据用户画像实践
  342. 从 0 到 1 实现一款轻量级大数据分析系统
  343. 如何基于 Flink 生成在线机器学习的样本?
  344. Impala 在网易大数据的优化和实践
  345. Flink StateFun 2.0 浅谈
  346. 优酷大数据 OLAP 技术选型
  347. [译] 6 种数据分析实用方法,终于有人讲明白了
  348. Datapane:Python 数据分析报告生成库
  349. [译] 使用 .NET 5 体验大数据和机器学习