通过项目驱动的面试招聘你下一个数据分析炽星
进化多目标优化与耙选择
1.5 年的 Spark 知识总结为 8 个技巧
10 个数据分析师可能会遇到的常见问题——以及如何回答它们
提升检索增强生成系统性能的 10 种方法
10 位女性分享在 IT 和数据领域的工作经验
TDS23-MEM
学习-DBT-简易方式-7d9f773d25ea?source=collection_archive---------6-----------------------
2023 年十大令人困惑的 XGBoost 超参数及其调优技巧.md
10 个决策树比 1 个更好-719406680564.md
10 个示例学习 Python 的 JSON 模块 - 793e62309d64.md
10 个令人兴奋的项目创意，使用大型语言模型（LLMs）来丰富你的作品集-970b7ab4cf9e.md
10 个最常见却令人困惑的机器学习模型名称-e70595eef514.md
[10 个最常被问的 Python 列表问题在 Stack Overflow 上的链接。](docs/2-0007.md)
2023 年提高数据科学技能的 10 个简单方法-af274dc513da.md
10 个关于 Julia 的知识点，我希望早知道的-3104ce7e3a2c.md
未来十年将塑造数据科学家角色的 10 个趋势-759cdda3a442.md
10 个提高 Pinns 的实用提示和技巧-1a5dd7b86001.md
10 种向 Pandas 数据框中添加列的方法-ccadf7306d89.md
11 个帮助我获得第一个数据科学职位的实用技巧-be5d2036d49.md
[11 个你可能忽视的有用 Pandas 功能点 - 原文链接](docs/2-0014.md)
12 个用于数据科学的思维模型-f2e2133d85ea.md
12 个 Python 装饰器，助力你的代码提升到新水平-a910a1ab3e99.md
[像专业人士一样测试你的预测的 12 种方法](docs/2-0017.md)
2023 年你需要了解的 13 个数据流行词-87d8d908e5b6.md
130 毫升技巧和资源，经过精心策划，历时 3 年，并附赠免费电子书 7832ca4a37ef.md
14 种让你的 Pandas 工作流飞快的技巧-b00ff0ac9267.md
16、8 和 4 位浮点格式 - 它是如何工作的？
python-mocking-in-production-1924953c8a14?source=collection_archive---------12-----------------------
2 个最佳 SQL 技巧，用于查找表中的重复值-1197618dcc74.md
2 种有效的方式将数据从本地迁移到云端-b3c3b03837f0.md
2023 年你需要知道的 2 个重要 SQL CASE WHEN 示例-cb5d50e59daa.md
2 个简单步骤减少 Pandas DataFrame 的内存使用 - b654565d654.md
2 个任务提升你的 Python 数据处理技能-3daf6c1c0528.md
20 个令人惊叹的 Julia 技巧和窍门，帮助高效程序员-5fedbfd00f73.md
20 个示例，掌握 Python Pandas 中数据框的合并技巧-22ffcd6059d1.md
2023 年回顾：总结后 ChatGPT 时代以及对 2024 年的展望-bb4357a4e827.md
8 个大多数数据科学课程没有教授但你应该知道的内容（第一部分）- 812e691c9430?source=collection_archive---------1-----------------------
2d-矩阵-变换-计算机-视觉-80b4a4f2120f.md
3 个常见的时间序列建模错误你应该知道的-a126df24256f.md
3 种提升大型语言模型的简单方法-68670fde9ffa.md
3 个简单技巧优化 Pandas DataFrames-b8bdbd50253.md
[比较两个 Pandas DataFrames 的三种简单方法](docs/2-0036.md)
3-easy-ways-to-include-interactive-maps-in-a-streamlit-app-b49f6a22a636.md
你应该了解的 3 个 PostgreSQL 基本函数-b2a96e301ac0.md
[3 门免费课程以跟上最新的 ChatGPT 趋势](docs/2-0039.md)
3 种有效使用 ChatGPT 和 GPT-4 进行更好编码的方法-7fb94e86be3e.md
3 个重要的 SQL 优化技术-d6da3e9c8442.md
3 种智能方式利用 ChatGPT 加速你的下一个数据科学项目-8c3e1c5aea18.md
3 个初级数据科学家应做的职业决策-728b20991120.md
3 个关于 Python 数据结构的必知概念-641e6f6207fc.md
3 个强大的 Python 库，帮助部分自动化 EDA，并让你开始你的数据项目。
3-powerful-tricks-to-work-with-date-time-data-in-python-67c2d3834338.md
3 个关于 astype 和 to_datetime 在 Pandas 中的实际区别 fe2c0bfc7678.md
2023 年数据科学作品集需要的 3 个项目-56623fc18c31.md
你希望翻译的是文件名吗？请确认。
3-python-用于高效解决特定数据处理任务的操作-551c8ed41c02.md
3 种快速简单的方法来使用 Pandas 可视化你的数据-4cac57fb4c82.md
3 个提升编程的快速技巧-760e06afd0c6.md
你应该注意的 3 个静默的 Pandas 错误 - 80d0112de6b5.md
3 种简单而强大的方式，这种 AI 技术将彻底改变数据管理。
3 种简单方法在 Python 中创建瀑布图-1124f7afc90f.md
3 个可能削弱你 SQL 查询性能的微妙错误-47e897688977.md
3 种季节性及其检测方法-4e03f548d167.md
3 个使用 Matplotlib 创建的独特图表，你可能之前没有见过的-421ab8cdd36f.md
3-使用 SQL 的 CASE WHEN 语句的场景-51e8e2829218.md
3 个处理日期时间数据的实用 Pandas 提示-424afbec628b.md
3 种在 Python 中使用 Altair 构建地理地图的方法-77c8e0781538.md
3 种方法将 matplotlib 图表嵌入 HTML 页面 - 8e11fa66a4b0.md
[在非数据科学岗位上积累数据科学经验的三种方法 - 在非数据科学岗位上积累数据科学经验的三种方法](docs/2-0063.md)
扩散模型：它们是如何扩散的？
探索 Linux 容器中叠加文件系统的力量
最佳 ChatGPT 插件
从零开始训练 BERT 的终极指南：最终篇
从交叉职能机器学习项目中获得的 20 个经验教训
寻找机器学习团队候选人时应关注的 20 种软技能
2023 年的预测：AI 研究的下一步是什么？
使数据团队成功的决策
车辆路径问题：精确与启发式解决方案
成功数据共享的 3 条不可变规则
2024 年值得期待的 3 项音乐 AI 突破
高斯混合模型（GMM）的 3 个应用场景
34% 更快的整数到字符串转换算法
数据可视化中的 3D 和动效
使用 Open3D 进行 3D 数据处理
3D 深度学习 Python 教程：PointNet 数据准备
使用 DeepSDF 进行 3D 生成建模
室内建模的 3D 点云形状检测
《LiDAR 城市模型的 3D Python 工作流程：一步步指南》
使用 Python 进行 3D 地理空间数据集成：终极指南
4 个历来最有用的 pandas groupby 技巧
4 个你需要了解的自主 AI 代理
4 位量化与 GPTQ
4 个初学者应避免的常见 Python 错误
评估行业应用中的大型语言模型的 4 个关键因素
4 种易于实现的高影响力调整方法，用于超级提升你的 Python 代码性能
4 种简单方法立即提升你的数据可视化
4 个提高数据可视化技能的必备资源
作为 Python 初学者，你必须掌握的 4 个关键技巧
选择数据可视化颜色调色板的 4 个必备工具
4 种更快的 Pandas 数据分析替代方案
4 个失败的物理信息神经网络的想法
数据驱动世界中你应该理解的 4 个重要统计理念
4 个 Pandas 函数用于 DataFrame 的逐元素比较
4 个 Pandas 一行代码解决特定任务的高效方法
如何批判性地评估你遇到的下一个数据科学项目
在处理机器学习模型之前，你应该问自己 4 个问题
4 个快速且简单的步骤来美化 R Markdown
一步步解决 4 个实际问题的指南：使用变压器和 Hugging Face
我不会签署“生存风险”新声明的四个理由
改善数据治理团队的 4 种革命性方法
4 个你可能不知道的有用 BigQuery SQL 函数
LangChain 中的 4 种问题回答方式
4 种编码具有高基数的分类特征的方法——带 Python 实现
最大化利用你的数据科学学位的 4 种方法
使用 Python 量化肥尾的 4 种方法
使用 Python 将数据写入 Parquet 的 4 种方法：比较
这 5 种 SQL 技术涵盖了 ~80% 的实际项目
5 个令人惊叹的 Python 隐藏功能 — 第一部分
数据共享的 5 个好处
5 种最佳 Python 合成数据生成器及如何在数据不足时使用它们
5 个阻碍机器学习应用的挑战
每个数据科学家都应该知道的 5 种变点检测算法
5 种代码优化技术，提高程序运行速度
分析师和数据科学家的 5 个常见数据治理痛点
数据科学作品集的 5 个错误
5 种简单有效的 Python 日志使用方法
5 个简单的 Python 特性，你可以立即开始使用以编写更好的代码
我在 Spotify 学到的初级数据科学家五大重要课程（第一部分）
我在 Spotify 学到的初级数据科学家 5 个重要课程（第二部分）
5 种适用于 R 的极佳数据管道编排工具
5 个函数是管理数据所需的全部工具
5 种公司可以立即实施的生成 AI 应用场景
5 个有用的提取与加载实践，帮助获得高质量原始数据
5 个促进数据科学家/分析师参与的想法，而不至于在会议中窒息
5 个激励人心的学习资源，帮助我保持在数据分析的前沿
你从未知道的 5 个 Jupyter 小技巧
5 个我在数据科学生涯中仅发现了 2 年的 Jupyter Notebook 技巧
5 个从测试 Databricks SQL Serverless + DBT 中获得的经验教训
5 个 MLOps 成熟度级别
庆祝地球月的 5 个机器学习项目作为开发者
每个数据科学家都应该避免的 5 个错误
5 个更多超棒的 Python 隐藏功能 — 第二部分
5 个你需要了解的强大 Python 库，用于增强你的 EDA 过程
5 个区分资深开发者和初级开发者的 Python 技巧
每个数据科学家都应该刻在脑海中的 5 个问题
提升您的 MLflow 模型实验的 5 个快速技巧
作为数据专业人士展示你工作的 5 条建议
5 个迹象显示你的数据建模不佳
你已经成为高级 Pandas 用户的 5 个迹象
你已经成为高级 Pythonista 的 5 个迹象，你可能都没意识到
使数据管理成功的 5 项技能
使用 Python 构建美丽条形图的 5 个步骤
5 步骤用 Python 绘制美观的折线图
用 Python 展示地理空间数据同时变化的 5 种可视化方法
生成型 AI 改变了公司处理数据的方式（以及没有改变的方式）
使用 Python 实现开放封闭原则的 5 种方法
在 Pandas 中应用 if-else 条件语句的 5 种方法
获取你下一个数据项目的有趣数据集的 5 种方法（非 Kaggle）
50,000 家零售店关店在即：拥抱数据驱动和以客户为中心的方法
Tableau 中的 6 种高级可视化
6 个毁灭你数据科学生产力的坏习惯
6 个你应该了解的与索引相关的 Pandas 操作
数据科学代码中需避免的 6 个常见错误
你可能会犯的 6 个尴尬的 Sklearn 错误及如何避免它们
2023 年你必须学习的 6 个新兴数据科学库，以提升你的技能
区分资深开发人员与初级开发人员的 6 个 Python 最佳实践
使数据可靠性成为习惯的 6 个步骤
6 种聚类方法 — 概述
6 个值得更多关注的数据科学库
Python 中 * 和 ** 的 6 种用例
为数据科学团队建立最佳实践的 6 种方法
从 Pandas 切换到雷电般快速的 Polars 并永不回头的 7 个简单步骤
使用 Python Pandas 掌握分类数据操作的 7 个示例
AI 并没有威胁我们的工作！这里有 7 个值得关注的前沿职位，预计到 2030 年会崭露头角
使用 ChatGPT 创建完整产品的 7 个经验教训
7 种最常用的特征工程技术
7 条数据科学家的 Scikit-Learn 最佳实践
你已经成为一个高级 Sklearn 用户的 7 个迹象
7 步骤帮助你让 Matplotlib 条形图更美观
7 种营销数据科学的应用
7 种用 Python 处理多变量分类数据的可视化方法
监控大型语言模型行为的 7 种方法
2023 年 8 款最佳数据版本控制工具
8 个 ChatGPT 提示，用于频繁执行的 Pandas 操作
我没有放弃成为数据科学家的梦想的 8 个理由，以及你也不应该放弃的原因
8 种建模季节性的方法
攻读数据科学硕士学位前你必须考虑的 8 件事
高效数据可视化的 8 个技巧
在大学 HPC 集群上训练模型的 9 个技巧
91% 的机器学习模型随着时间的推移会退化
评估检索增强生成（RAG）的 3 步法
使用策略梯度强化学习进行 A/B 优化
像专家一样进行 A/B 测试：掌握统计测试选择的艺术
使用 R 和 brms 对学校毕业生结果进行贝叶斯比较
贝叶斯选择餐厅的方法
面向初学者的应用科学介绍
初学者友好的 MLOps 介绍
从零开始构建检索增强生成（RAG）应用程序的初学者指南
构建高质量机器学习数据集的初学者指南
《线性规划及单纯形算法初学者指南》
LLM 微调的初学者指南
初学者指南：通过蒙特卡罗模拟理解 A/B 测试性能
一种更好的符号回归方法，通过明确考虑单位
更好的分析功能发布影响的方法
一种更好的在没有数据的情况下获得结果的方法
线性代数的全景视角：方程组、线性回归和神经网络
线性代数的鸟瞰图：基础知识
线性代数鸟瞰图：映射的度量——行列式
线性代数的全景视角：为什么矩阵乘法是这样的？
语言模型简史
神经网络简介：一个分类问题
SciKit 管道简要介绍
精度和召回率的商业视角
一种优雅的方式来有效解决旅行推销员问题
深入了解 Colab 的新更新和增强功能
云迁移策略：5 步检查清单
时间差(0)与常数-α蒙特卡洛方法在随机游走任务中的比较
使用 BigQuery 和 Looker Studio 进行队列分析的完整指南
数据驱动的客户获取完整指南
数据分析家庭实验室启动完整指南
推荐系统离线评估的完整教程
使用 Python 完整的文字处理
ML 实验跟踪工具的全面比较
一本全面的 OpenStreetMap 入门指南
分布式数据并行（DDP）的全面指南
《SQL 中公共表表达式的全面指南》
时间序列预测中交互项的全面指南
构建企业级 Plotly Dash 应用程序的全面指南
使用 Pandas 进行数据处理的全面指南
高斯溅射的全面概述
回归评估指标的全面概述
基于数据驱动的方法来减少员工调查长度
《垄断游戏的数据驱动策略模拟》
一个关于作物产量和价格预测的数据科学课程项目，我至今不感到羞愧
一个使用 ChatGPT 代码解释器的数据科学项目
量化空间连续性的面向数据科学家的变异函数教程
数据科学家探索性数据分析的必备指南
数据科学家提高 Python 代码质量的指南
Makefile 教程
数据科学家的 Python 类型指南：提升代码清晰度
首席数据科学家的日常生活
高级数据科学家的日常
自然语言处理中的知识图谱：十年回顾
深入探讨自编码器及其与 PCA 和 SVD 的关系
对 K-means 的深度解析，适合不太懂技术的读者
深入探讨 Visual Transformer (ViT) 模型的代码
深入探讨统计期望的科学
归纳偏差的一个童话故事
医疗 AI 的基础模型
卫星图像基础模型
基于自然法则的人本中心 AI 框架
分析流失的框架
构建生产就绪特征工程管道的框架
《温和介绍：通过 LangChain 链接 LLMs、代理和工具》
贝叶斯深度学习的温和介绍
补充对数-对数回归的温和介绍
《深入浅出 JAX 中的深度强化学习》
《初学者友好的生成式 AI 介绍》
GPT 模型简介
对开源大型语言模型的温馨介绍
可调整神经网络的温和介绍（第一部分）
《可操控神经网络简介（第二部分）》
对分析流处理的温和介绍
一个好的描述就是你所需要的一切
《生产就绪的 RAG 应用的 12 种调整策略指南》
机器学习中的 21 种特征重要性方法和包指南（附代码）
关联规则挖掘指南
高效训练管道构建指南
构建高性能实时数据模型指南
使用预测模型进行实时推断指南
Matplotlib 子图形创建复杂多面板图的指南
机器学习实际数据收集指南
使用 BigQuery 的窗口函数指南
制胜自评指南
在数据科学领域建立职业资本的一个高度被低估的方法
MLOps 的关键起点：探索其核心组件
初学者的最大似然估计（附 R 代码）
通过示例了解精益数据管道
处理大数据集的小技巧，适用于有限内存
一种机器学习方法预测胶质母细胞瘤患者的 MGMT 甲基化状态
机器学习工程师的必备工具
机器学习与优化算法的结合
数据建模与设计的成熟度模型
对分析流处理的简要介绍
一种新的工程类型
预测概率分布的新方法
迈向负责任的 AI 生成内容之路
没有冷启动问题的高效推荐系统
高效查询流式数据的方法
关于 DALL·E2 的哲学与艺术视角
人工智能技能缺口的（哲学）视角
在 Kubernetes 上进行快速实验的流程
评估业务分析中的正负未标记（PU）分类器的实用方法
ChatGPT 和 Bard 的免费版本实用比较
使用 QGIS 进行地理空间数据分析的实用介绍
实用介绍 LLMs
顺序特征选择的实用介绍
强化学习实践者指南
数据网格的前奏
进行统计测试所需的基础概念简介
《线性代数入门》
线性代数入门：第二部分
统计估计与推断基础
一种经过验证的方法，用以记住数据科学概念，直到你需要的时候
从 Google Maps 空气质量 API 获取空气污染数据的 Python 工具
《Pythonista 的语义内核入门》
《网格基础可视化的快速清晰概述》
自然语言处理模型的归一化快速指南
Python 中美丽散点图的快速指南
严格设计机器学习实验的快速指南
快速入门 PostgreSQL 连接和数据导入 Pandas
《快速入门指南：如何根除模型偏见》
魔方与 Markov 链
一个学术研究（以及其他数据类型）的推荐系统！
对变换器的悼歌？
倾向评分建模方法回顾
从备用零件构建的无服务器查询引擎
使用机器学习进行层次时间序列预测的简单方法
一个简单的 ML 项目 CI/CD 设置
理解 R 中 apply() 函数的简单指南
对量子增强支持向量机的简单介绍
管理基于云的机器学习训练的简单解决方案
一个简单的 TensorFlow 和 TensorFlow 对象检测 API 的逐步安装指南
改善数据科学面试的简单方法
加速你的 Python 代码的简单方法 — 保持更新
实施 dbt 模型单元测试的简单（但有效）方法
一位站点搜索工程师的日志：在 Elasticsearch 查询构建中应对相关性挑战
一个数据科学人士可以喜爱的利益相关者分析
准确检测峰值和谷值的逐步指南。
成为成功的数据分析顾问的逐步指南
从零开始构建有效的数据质量策略的逐步指南
开发基于地图的应用程序的逐步指南（第一部分）
如何使用 React 构建 Web 应用
使用 React 为你的网页应用添加互动性
逐步指南：稳健的机器学习分类
BigQuery 中的行和列访问策略逐步指南
选择和运行自己生成模型的逐步指南
治疗与反应的故事
可能影响你的决策树和随机森林的微妙偏差
带有地理空间计算的可持续供应链模板（Python）
实验分析的表格微积分
自然语言处理的分类法
一种通用的提示工程路线图：背景支架框架（CSF）
方差、协方差、相关性和因果关系的视觉解释
视觉学习者指南：解释、实现和解读主成分分析（PCA）
视觉麦克风？从图像中提取音频的革命性技术
Cᵥ 话题连贯性解释
差分隐私的 ABC
通过使用端到端机器学习平台加速构建机器学习模型
使用 Graphcore IPU 和 PopSparse 库加速块稀疏矩阵乘法
使用 FP8 加速 PyTorch 训练工作负载 — 第一部分
使用 Python 访问和可视化数字高程模型
访问你的个人数据
实现大型语言模型的更大自我一致性
在混乱背景下通过思路引导和并行知识图谱检索实现结构化推理
什么是 ACID 事务？
神经网络与深度学习的激活函数
适应现有的 LLM 项目以使用 LangChain
添加一行 SQL 语句以优化你的 BigQuery 表格
检索增强生成（RAG）
向 Matplotlib 图形中添加插图坐标轴
在 Scikit-Learn 中使用自定义 Transformers 进行高级数据准备
高级维度减少模型简明解析
使用 Python 进行高级 GUI 界面设计
高级指南：通过自动批处理输入来避免 Microsoft Translator API 的最大字符限制
提高软件代码质量的高级 JavaScript 函数
高级提示工程
高级 Python：点运算符
高级 Python：函数
高级 Python： metaclasses
高级 RAG 01：从小到大的检索
使用深度学习进行高级时间序列异常检测在 PowerBI 中
时间序列预测与分类中的深度学习进展：2023 年冬季版
AI 编程：谷歌 Bard 是一个优秀的 Python 开发者吗？
AI 意识展开
AI 驱动的洞察：利用 LangChain 和 Pinecone 与 GPT-4
AI 熵：AI 生成内容的恶性循环
AI 前沿系列：人力资源
AI 前沿系列：供应链
AI 生成的合成数据
AI 行动：指导新抗生素的发现以对抗多药耐药细菌
AI 在物流中的应用：利用计算机视觉优化集装箱装载率
AI 音乐源分离：如何运作以及为何如此困难
AI 驱动的个人语音助手用于语言学习
人工智能搜索算法：深入了解最受欢迎的算法
AI 初创公司趋势：来自 Y Combinator 最新一批的洞察
AI 电话 — 多模态模型的对决
人工智能培训外包给人工智能而非人类
AI 不会取代翻译员
Airflow 2.7 现已发布
如何在 Airflow DAGs 中跳过任务
人工智能在政府反腐败中的积极作用
AI 的句子嵌入，揭密
大型语言模型，ALBERT——用于自监督学习的轻量级 BERT
混叠：你的时间序列在对你撒谎
所有语言并非（tokenized）平等
了解上下文学习的所有信息
关于向量数据库及其如何增强你的 LLM 应用，你需要了解的一切
构建你的第一个 LLM 应用所需知道的一切
开发大型语言模型所需了解的一切
关于 Dask 数据框分区大小的几乎所有信息
数据驱动故事讲述的替代可视化
p 值标准的替代方法（带 R 代码）
线性回归的易懂推导
通过推文对我们邮政服务的 AI 驱动分析
一种替代的大型数据集特征关系可视化方法
使用 Python 分析顶级科技 YouTube 频道
轻松掌握 SQL 中的移动平均和累积总和
加速你的 dbt 在 BigQuery 上的运行的简单方法
进入 HuggingFace 的切入点
使用 Transformer 的序列建模示例
VGG 的实现
An imPULSE to Action: A Practical Solution for Positive-Unlabeled Classification
强大的优化技术简介：模拟退火
协方差和相关性的介绍
深度学习在序列数据中的应用介绍
大型语言模型加载简介
OpenAI 函数调用简介
《Pandas 用户的 Polars 介绍》
对 ChatGPT 等模型如何工作的直观理解
逆倾向加权在因果推断中的直观解释
赠献给我的物理学博士学位。
2024 年 Microsoft Fabric 概述
使用 InterpretML 分析 NYC Yellow Taxi 乘车记录
分析工程学介绍
使用 Python 分析北极冰趋势
分析在 Power BI 和 DAX 查询中聚合数据的性能
用 E-utilities 和 Python 分析科学出版物
使用自然语言处理和知识图谱分析您的网站
分析加州电动汽车的采纳率
分析 Chess960 数据
从数据科学的角度分析 FC 巴塞罗那的防守
使用 Python 分析地理空间数据
使用 Python 分析地理空间数据（第二部分 - 假设检验）
使用 ChatGPT 代码解释器分析人道主义数据的非结构化 Excel 表格
基于 LLM 的聊天机器人应用程序的结构：单体架构与微服务架构模式
SQL 窗口函数的结构
动物收容所分析实践：Shelter Animals Count 的影响
使用 Plotly Express 动画地图
用 Python 动画化空间移动
使用自动编码器方法在 TensorFlow 和 Keras 中进行异常检测
使用 Sigma 规则进行异常检测：构建您自己的 Spark 流处理检测
使用 Sigma 规则进行异常检测（第一部分）：利用 Spark SQL 流处理
使用 Sigma 规则的异常检测（第二部分） Spark 流-流连接
使用 Sigma 规则进行异常检测（第三部分）基于布隆过滤器的时间相关性
使用 Sigma 规则进行异常检测（第四部分）：Flux 电容器设计
使用 Sigma 规则进行异常检测（第五部分）：Flux Capacitor 优化
异常根本原因分析 101
另一种（符合性）预测概率分布的方法
蚁群优化算法的实际应用
拟人化 AI：人类在错误的地方寻找同理心
Apache Spark MLlib 与 Scikit-learn：构建机器学习流水线
Apache Spark 优化技术
API 101：后端的秘密通道
Apple M2 Max GPU 对比 Nvidia V100、P100 和 T4
应用强化学习 III：深度 Q 网络（DQN）
应用强化学习 IV：DQN 的实现
应用强化学习 V：用于连续控制的归一化优势函数（NAF）
应用强化学习 VI：用于连续控制的深度确定性策略梯度（DDPG）
应用和使用正态分布进行数据科学
应用大型语言模型于表格数据以识别漂移
将 LLM 应用于企业数据：概念、关注点和热点观点
“近似预测”使特征选择极大地加快
2024 年 4 月特刊：人工智能能否被治理？
Araucana XAI：利用决策树在医疗保健中的局部解释性
数据科学家角色的原型
人工智能驱动的安全运营架构，具有低误报率
专家系统是否已经过时？
Python 中的全局变量真的全局吗？
大型语言模型（LLMs）生成的提示可靠吗？
你还在使用 Elbow 方法吗？
*args, **kwargs 和一切介于两者之间
Args 与 kwargs：在 Python 中调用函数的最快方式是什么？
人工蜂群 — 它与粒子群优化的不同之处
数据分析中的人工智能
arXiv 关键词提取与分析管道，使用 KeyBERT 和 Taipy
使用 NASA 的太空研究评估全球温度异常 - 第二部分
使用维也纳开放数据门户评估城市绿地平等性
无监督学习中的关联规则挖掘
LangChain 和 LLMs 的异步处理
从对齐中获得的注意力，实际解释
使用 Python 进行深度学习的音频分类
音频数据占据中心舞台
AudioGPT — 探索未来音乐创作的前景
利用大语言模型（LLMs）完善推荐知识图谱
用 RAG 增强 LLM
八月刊：数据科学家的夏季读物
作者使用条款和条件
Auto-Sklearn：如何通过自动化机器学习提升性能和效率
深度神经网络部署的自动调整
使用 GitHub Actions 自动化机器学习部署
使用 MLflow 在 Databricks 中自动化 ML 模型的再训练和部署
Python 中的自动化特征工程
使用 GitHub Actions 进行自动化 Python 应用程序测试
使用 CleanLab 自动检测数据集中的标签错误
使用 Terraform 自动管理数据管道基础设施
AutoML — 让机器学习为您的模型选择加速
避免神经网络过拟合：深度探讨
避免在职业转型进入数据科学时的倦怠
2023 年值得掌握的精彩数据科学工具：数据分析版
数据科学 AWS 基础：计算
《Azure 机器学习工作室简介》
基础回顾，第二部分：梯度下降
回到基础，第三部分：逻辑回归
回归基础，第一部分：线性回归和成本函数
回到基础知识：Probit 回归
回填精通：提升数据工程专业技能
反向传播：逐步推导
不良的机器学习模型仍然可以被良好校准
平衡行动：解决推荐系统中的受欢迎度偏见
平衡创新与可持续性：揭示生成 AI 的环境影响
在大语言模型（LLM）时代平衡创新与安全性和隐私
作为分析团队在紧急性与可持续性之间取得平衡
Bash 处理速度很重要
批量化赌博机问题
批量 K-Means 与 Python Numba 和 CUDA C
LLM 巨头之战：Google PaLM 2 对比 OpenAI GPT-3.5
贝叶斯 AB 测试
使用 Pyro 的贝叶斯 AB 测试
在 SQL 中使用“NOT IN”要小心
Beam Search: 序列模型中使用最广泛的算法
通过可视化掌握 Python 装饰器
初学者友好的数据科学读物（高级从业者也会喜欢）
初学者教程：在 Microsoft Azure 中将 GPT 模型与公司数据连接
PySpark 线性回归初学者指南
初学者指南：必知的 LightGBM 超参数
Behind the Millions: Estimating the Scale of Large Language Models
深度学习神经网络在图像分类中的幕后故事
使用交叉验证和 Matplotlib 在 Python 中对机器学习模型进行基准测试
使用 Criterion 基准测试 Rust 编译器设置
机器学习中的伯克森悖论
大型语言模型：BERT — Transformer 的双向编码器表示
BERT 与 GPT：比较 NLP 巨头
BERTopic：v0.16 有什么特别之处？
BERxiT: 适用于 BERT 的早期退出
PySpark 中最好的数据整理函数
学习强化学习的最佳资源
Python 开发的最佳实践
提示工程的最佳实践
如何利用 ChatGPT 更快地学习数据科学，即使你已经很先进
Beta 分布：贝叶斯标定的基石
大规模生产自主驾驶中的 BEV 感知
注意在模型评估中数据的不可靠性：一个关于 Flan-T5 的 LLM 提示选择案例研究
超越准确性：在长期用户留存中拥抱偶然性和新颖性的推荐
超越准确性：探索机器学习模型全面评估的异域指标
超越条形图：桑基图、圆形打包和网络图中的数据
超越流失预测和流失提升
超越英语：实现多语言 RAG 解决方案
人工智能如何用来预测和解释学生表现？
超越 LLaMA：开源 LLMs 的力量
超越 NeRF（第一部分）
超越 NeRFs（第二部分）
超越 Numpy 和 Pandas：释放鲜为人知的 Python 库的潜力
超越精确度和召回率：深入探讨 Tversky 指数
基础知识之外：使用 Jax 的强化学习 — 第一部分：介绍和核心概念
超越基础知识：使用 Jax 的强化学习 —— 第二部分：开发一种替代 A/B 测试的利用性方法
什么是 t 分布
超越炒作：生成式 AI 如何改变软件开发
超越数字：软技能在数据分析中的关键作用
超越图灵测试：AGI 未来的两个情景
超越 VIF：用于偏差缓解和预测准确性的共线性分析
超越温暖的拥抱：深入了解 Hugging Face
超越变压器：PyNeuraLogic 的未来
Bi-LSTM+Attention 用于建模 EHR 数据
偏见、毒性与大型语言模型（LLMs）的监禁
推荐系统中的偏差：主要挑战与最新突破
大数据文件格式解释
BigQuery 最佳实践：释放数据仓库的全部潜力
BigQuery 优化策略 3：表格扁平化
自行车共享系统在塔尔图的 Metallica 音乐会中的运作
黑箱化学过程优化
使用 Black 和 GitHub Actions 维护干净的 Python 代码
图像融合的最简明指南 (CV-03)
书评：《设计机器学习系统》
通过有效的特征工程技术提升机器学习模型性能
使用 Rust 扩展提升你的 Python 代码
处理交叉验证中的增强样本数据
通过将 GAN 与扩散模型交叉提升图像生成
提升模型准确性：我在 Spotify 机器学习论文中学到的技术（+代码片段）
提升 PyTorch 在 CPU 上的推理：从训练后量化到多线程
提升 Spark 联合运算符性能：改进查询速度的优化技巧
使用大型语言模型提升表格数据预测
Bootstrap（自助法）入门
使用 GPT-4 进行标签自助标注
Boto3 与 AWS Wrangler：使用 Python 简化 S3 操作
Branches Are All You Need: Our Opinionated ML Versioning Framework
打破界限：探索 LLM 的函数调用
用一种新的 AI 模型打破蛋白质设计的界限，该模型理解与任何类型分子的相互作用
什么是组合优化？
广义线性模型介绍
解构 YouTube 的推荐算法
用 ReLU 打破线性
利用这个 Python 库弥合数据与人类之间的差距
跨领域桥接：将金融、隐私和软件最佳实践融入机器学习风险管理
对应分析简要介绍
将正确性带回机器学习
冒泡排序解释——数据科学家的算法指南
Python 中的错误？pdb来拯救！
使用 PostgreSQL、FastAPI 和 Docker 构建一个后端
使用这个技巧构建更好的条形图
使用 Reflex 在纯 Python 中构建一个类似 ChatGPT 的 Web 应用
使用 Numpy 从零开始构建卷积神经网络
如何为任何团队规模构建数据科学战略
在你的 WhatsApp 聊天中构建一个语言模型
构建一个本地运行的语音助手
使用 Google Cloud Recommendation AI 构建推荐系统
用 Go 构建 REST API：时间序列的数据分析
使用 Node.js 构建语音转文本网页应用
使用 LangChain 和 GPT-3 构建一个透明的文档问答机器人
用 Jupyter 和 Mercury 构建 Web 应用
使用 FastAPI 和 Angular 构建 WebSocket 应用程序
建立并玩耍！你自己的 V&L 模型配备 LLM！
使用 SQL 构建客户旅程
构建可部署的机器学习管道
使用 Mercury 从 Jupyter Notebook 直接构建优雅的 Web 应用程序。
使用检索增强生成技术构建行业特定的语言模型
构建低延迟和可扩展的 ML 模型预测管道，使用 Spark Structured Streaming 和 MLflow
多做分析，少做仪表盘
使用检索增强生成构建更强大的大型语言模型
使用持续集成构建可靠的机器学习管道
使用 Python 自动化 PLAXIS 中的土壤剖面
为 TrailForks 构建推荐系统
在一个小时内构建你的第一个深度学习应用
使用 Streamlit 创建你自己的类似 ChatGPT 的应用
从零开始使用 Pytorch 构建自己的 Transformer
在 Python 中构建基础机器学习模型
使用 Athena 和 MySQL 构建批量数据管道
使用 Hugging Face 的 Transformer 模型构建评论毒性排序器
在 Julia 中构建一个符合预测的聊天机器人
使用 OpenAI 和 FastAPI 构建记忆微服务的对话代理
在 Rust 中构建跨平台 TFIDF 文本摘要器
建立一个自定义 GPT：教训与技巧
使用 Apache Spark 在 PB 规模上构建数据湖
构建分子属性预测的图卷积网络
使用 Streamlit 构建 LAS 文件数据探索应用
用 Hamilton 在 13 分钟内构建一个可维护且模块化的 LLM 应用堆栈
帮助初创公司创始人找到最佳孵化器：一个端到端的项目。
使用 Streamlit 构建 Medium 统计跟踪器
构建一个问答 PDF 聊天机器人
使用机器学习构建推荐系统
使用开源工具和 Databricks 构建单一客户视图
使用 LangChain、Google Maps API 和 Gradio 构建智能旅行行程建议器（第一部分）
使用 LangChain、Google Maps API 和 Gradio 构建智能旅行路线建议器（第二部分）
使用 LangChain、Google Maps API 和 Gradio 构建智能旅行行程建议器（第三部分）
使用 Redshift Serverless 和 Kinesis 构建流数据管道
从头开始构建树状 Parzen 估计器（有点像）
用整体思维模型构建 AI 产品
为企业构建人工智能战略
构建一个 AI 驱动的语言学习应用：从两个 AI 聊天中学习
建立一个能够识别我手写字的人工智能 — 第一部分
使用信号处理思想构建锻炼次数计数器
利用 GPTs 构建物理信息神经网络领域的专家 GPT
在 Panel 中构建交互式 ML 仪表板
建立分析成熟的组织（AMO）
利用维度建模构建更好的数据仓库：数据工程师指南
Building Better ML Systems — Chapter 1: Every Project Must Start with a Plan
《构建更好的机器学习系统》—— 第二章：驯服数据混乱
构建更好的机器学习系统 — 第三章：建模。让乐趣开始
构建更好的 ML 系统——第四章：模型部署及其发展
因果推断的构建模块——使用 LEGO 的 DAG 方法
在 Python 中构建理解管道
在亚马逊网络服务上构建生成型 AI 应用——我的第一次经历
在 Python 中构建互动数据可视化：Plotly 入门
使用 Python 构建互动数据可视化 — 叙述的艺术
使用 pyvis 构建互动网络图
使用 OPL 堆栈构建 LLMs 驱动的应用程序
为企业建立机器学习操作
为我儿子打造的 AI 漫画视频生成器
从基础构建 PCA
在 Apache Airflow 中构建管道 - 初学者指南
使用深度学习构建强大的推荐系统
使用 LangChain 和 LLMs 的业务分析
但什么是 LDA？使用类似于 3Blue1Brown 的数学动画来解释。
BYOL —对比自监督学习的替代方法
字节对编码初学者指南
GitHub Actions 中的缓存
召唤所有函数
如何使用 Llama2 和 LangChain 构建本地聊天机器人
人工智能能克服人类的确认偏差吗？
AI 真的能帮你通过面试吗？
AI 能解决你的问题吗？
LLM 能否取代金融科技经理？开发无 GPU AI 工具进行企业分析的综合指南
Chat GPT 能下国际象棋吗？
ChatGPT 能与领域特定情感分析机器学习模型竞争吗？
ChatGPT 能推荐带有机器学习的电影吗
ChatGPT 能解决背包问题吗？
ChatGPT 能写出比数据分析师更好的 SQL 吗？
数据科学能找到大脚怪吗？
语言模型能否自制工具？
LLM 能否取代数据分析师？构建一个 LLM 驱动的分析师
LLMs 能否替代数据分析师？使用 SQL 获取答案
强化学习能否超越训练泛化？
合成数据能提升机器学习性能吗？
变换器能否学会制定策略？
我们能否阻止 LLMs 产生幻觉？
一个机器学习工程团队的碳排放
碳足迹：为什么常见的说法可能不准确
卡洛斯·阿尔卡拉斯与三大巨头
案例研究：将数据科学过程模型应用于实际场景
案例研究：使用彩虹方法进行实际标签编码
CatBoost 回归：为我详细讲解一下
《抓住我，如果你能：Python 异常处理指南》
了解大型语言模型
类别特征：标签编码的问题所在
使用 BERT 对自由文本银行交易描述进行分类
因果图：面对观察数据中的致命弱点
通过回归估计因果效应
因果推断：准实验
因果 Python——埃隆·马斯克的推文，我们的搜索习惯，以及贝叶斯合成控制
因果 Python：2023 年 NeurIPS 大会上的五个新颖因果观点
CFXplorer：反事实解释生成 Python 包
思维链提示促进了 LLMs 的推理能力
LLMs 的思维链提示
Llama 2 中的停止生成挑战
检测 AI 生成文本的挑战
中国量产自动驾驶的挑战
变化点检测 — 一种贝叶斯方法
在 DAX 测量中随着时间改变你的关注点
在 Power BI 中改变数据视角
自然语言处理中的字符编码：ASCII 和 Unicode 的角色
探索最终边界：完成 #30DayMapChallenge 之旅
绘制非参数探索：无分布假设检验的统计框架
讲述故事的图表：将数据可视化转变为更有意义的东西
ChatGPT — 小心使用
使用贝叶斯推断与你的数据集对话。
聊天机器人即将颠覆音乐搜索
聊天机器人陷入（法律）交火中
ChatGPT 高级数据分析用于自定义 Matplotlib 井眼日志图表
ChatGPT 与我们面临的未来（现在）
推动边界：ChatGPT 在粒子物理中的应用
ChatGPT：自动化提示评分
4 种你无法使用 ChatGPT 代码解释器的方法，这些方法会干扰你的分析
ChatGPT 代码解释器：它如何节省了我几个小时的工作
ChatGPT 数据分析——初学者指南
ChatGPT 生成的食品行业评论：现实性评估
GPT 是一个不可靠的信息存储库
ChatGPT 审查 API：输入/输出控制
掌握 ChatGPT：使用 LLM 进行有效的摘要生成
开启 ChatGPT 的新维度：文本转语音集成
解锁 ChatGPT 分词器
ChatGPT 的电力消耗
ChatGPT 每次查询的能耗
国际象棋识别问题：深入解决方案
选择正确的数据库模型，让你的数据摆脱电子表格
选择正确的路径：流失模型与提升模型
为你的下一个数据科学网页应用程序选择合适的工具
慢性肾病预测：新视角
CI/CD 在 AWS 的多模型端点
数据处理应用程序的 CI/CD 管道在 Azure 上第一部分：容器实例
类别不平衡与重采样：正式介绍
类别不平衡：探索欠采样技术
类不平衡：ROSE 和随机游走过采样（RWO）
类别不平衡：从 SMOTE 到 BorderlineSMOTE1、SMOTE-NC 和 SMOTE-N
类别不平衡策略 — 带代码的视觉指南
机器学习中的分类：入门
分类指标：为有志数据科学家准备的完整指南
使用罗斯恩布拉特感知器进行分类
使用 LLM 分类源代码 — 什么与如何
PyTorch 中的干净代码：可读性 ML 的最佳实践
使用 Python Pandas 清理混乱的汽车数据集
清理 Confluence 混乱：一个 Python 和 BERTopic 的探索
K-Means 图像压缩的清晰、直观解释
一劳永逸地澄清混乱：Python 中的 args、kwargs 和星号
去除灰尘：卷积神经网络和迁移学习如何检测太阳能板上的灰尘
临床试验结果预测
临床试验结果预测
CLIP：无需数据即可创建图像分类器
CLIP — 直观且详尽的解释
CLIP 模型及其多模态嵌入的重要性
关闭的 AI 模型不适合作为基准
接近中心性与社区：使用 Python 和 NetworkX 分析社交网络 — 第三部分
云优先的数据科学：分析和建模数据的现代方法
致力于数据科学家的聚类分析
合作图神经网络
在你的本地硬件上理解代码
编程曾经很难，直到我学会了这两件事！
数据科学中的认知偏见：类别规模偏见
使用 Lang-SAM 和深度学习在图像中求和硬币值
协整与相关性
在 Raspberry Pi 上使用 Apache Airflow 收集数据
大学篮球的 NET 排名解析
大学橄榄球会议重组 — 聚类
大学橄榄球联盟重组——Python 中的探索性数据分析
大学橄榄球联盟重组——node2vec
大学橄榄球会议重组——回归分析
线性规划中的列生成与切割库存问题
与Dropout 正则化对抗过拟合
将 dbt 模型合并为一个单一目标表
为 Llama 2 组合多个 LoRA 适配器
在 Power BI 中将实际数据和预测数据结合成一条连续的线
在 Python 中结合多进程和异步编程以提升性能
结合开放街道地图和 Landsat 开放数据来验证绿色区域
结合传统的基于线程的代码和 Python 中的 asyncio
命令行接口（CLI）教程 — 高级用户如何与计算机交互
使用 sysargv、argparse、docopts 和 Typer 的命令行接口
常见 AB 测试错误。第 2 卷
如何在 BigQuery 中比较两个表的相等性
比较和解释 HuggingFace 扩散模型
使用 python 对比苹果和橘子
比较激光衍射与咖啡颗粒成像
比较 Python 中的列表推导式与内置函数：哪种更好？
比较异常值检测方法
完整的 Python 缓存指南
完整实现一个用于图像识别的迷你 VGG 网络
复利与指数分布
理解列表推导式以编写更简洁、更快速的 Python 代码
Python 中的并发与并行综合指南
排名评估指标的综合指南
综合时间序列探索性分析
计算一组地点坐标的距离矩阵（Python 实现）
Python 中的并发
同时在 Spark 上训练多个时间序列模型，使用 XGBoost
Conda 太慢了？试试 Mamba！
基于状态的维护：雨流计数
置信区间与预测区间
配置用于空间分析的最小 Docker 镜像与 Python
根据您的需求配置 Nemo-Guardrails：一种大型语言模型的替代方法
机器学习分类中的符合预测——从基础开始
时间序列预测中的保形预测
数据中的偏见（仍然）难以应对——但却是必要的
面对数据与分析行业中的冒名顶替综合症的现实
恭喜你完成了 CLV 预测模型——接下来你打算怎么使用它？
使用 Tenacity 在 Python 中征服重试：完整教程
意识解耦：存储、计算和现代数据架构的“远”有多远？
约束优化与 KKT 条件
约束编程解释
为 AI 代理启用市场：发现和匹配
《构建决策树分类器：从头构建决策树模型的全面指南》
使用 H3 和 Plotly 构建六边形地图：全面教程
容器：它们如何在幕后工作以及为何它们正在主宰数据科学世界
上下文丰富数据：深度学习模型的秘密超能力
使用 NLP 进行上下文文本校正
数据平台的持续集成和部署
持续学习：数据科学家的漫长旅程
通过敏捷数据科学项目管理控制人工智能成本
可控医学图像生成与 ControlNets
便捷的贝叶斯营销组合建模与 PyMC Marketing
使用 Stable-Baselines3 进行便捷的强化学习
概率收敛或分布收敛
使用 LangChain 将对话作为有向图
将平坦表格转换为 Power Query 中的良好数据模型
将文本转换为数值形式的 TFIDF 向量化器：逐步指南
将井测数据从 DLIS 文件转换为 LAS 文件格式
卷积解释——卷积神经网络简介
卷积网络 — 直观且详尽的解释
卷积神经网络入门
卷积自编码器与前馈自编码器在图像去噪中的比较
在 PyTorch 中制作你的第一个 U-Net
使用 Snowflake 进行数据处理
Copulas：时间序列预测中的基本指南与应用
正确采样偏差的推荐系统
相关系数以及如何误解一个关系
相关性——当 Pearson 的 r 不足以满足需求时
CountVectorizer 提取文本特征的详细教程
优惠券收集者问题：一个概率杰作
勇敢学习机器学习：深入探讨 F1 分数、召回率、精确度和 ROC 曲线
勇敢学习机器学习：最常见损失函数的深入指南
勇敢学习机器学习：解码似然、MLE 和 MAP
勇敢学习机器学习：揭开 L1 和 L2 正则化的面纱（第三部分）
勇敢学习 ML：揭示 L1 和 L2 正则化（第四部分）
学习机器学习的勇气：揭开 L1 与 L2 正则化的神秘面纱（第二部分）
破解 Hugging Face Transformers 库
破解 OpenAI（Python）API
破解代码 LLMs
破解员工流失问题的机器学习方法
使用大语言模型制作有效总结提示
使用 Matplotlib 创建 3-D 银河艺术
用 3 步创建一个带有超级快速 Rust 代码的 Python 包
创建一个可持续的供应链优化网络应用
创建并部署一个提取图像主要颜色的 REST API
创建和探索数据科学中角色和薪资的图景
使用 Matplotlib 创建凸形图
使用 Matplotlib 创建引人注目的径向条形图
用 Tkinter 创建银河艺术
创建一个本地 dbt 项目
使用 PySpark UDFs 在合成表中创建多对一关系
使用 AWS Cloudformation 创建 MySQL 和 Postgres 实例
使用 Python 创建惊艳的分形艺术：初学者与数学爱好者的教程
使用 Matplotlib 创建惊艳的雷达图
使用 Folium 创建量身定制的旅游地图
创建你自己的生成 AI 文本到图像 API
在 SageMaker Studio 中创建你自己的大语言模型实验室
在 AWS 上快速创建你自己的稳定扩散 UI
几分钟内免费创建你自己的惊艳网站
使用 LLaVA 创建你的视觉聊天助手
从 RGB 视频创建 3D 视频
使用 Spark、Google Cloud Storage 和 Big Query 创建数据管道
创建荷兰语问答机器学习模型
在 Python 中创建梯度下降动画
创建一个具备维基百科知识的 LLaMa 2 代理
在 Excel 中使用 VBA 创建项目更新跟踪器
创建一个透明的数据环境与数据血统
使用 AWS 和 Apache Airflow 创建 YouTube 数据管道
使用 Matplotlib 创建信息图
为绝对初学者创建和发布自己的 Python 包
使用 Python 和 Sklearn 创建 4 种基于质心的聚类算法的动画
在 TensorFlow 中创建自定义损失函数：理解理论与实际应用
使用 Plotly 创建动态区域图可视化
在 Python 中创建分形
使用 Python 的 Plotly 和 Folium 库创建地理空间热图
使用 dtreeviz 创建令人惊叹的决策树可视化
使用 Spark 和 Tableau Desktop 创建富有洞察力的仪表板
使用 QGIS 创建地图
在远程工作的时代培养新的数据科学家
使用 scienceplots 和 matplotlib 轻松创建科学图表
使用 PCA 创建评分和排名
在 Grafana 中创建时间序列图
创建你自己的 ChatGPT 无需编码——一步步指南
使用 GPT 和 Whisper 创建个性化语音助手
伦理和可解释性 AI 的关键工具
跨越人工智能鸿沟：OpenAI 如何将 LLMs 转变为主流成功
跨越桥梁：学术界与工业界数据科学的比较
CRPS — 贝叶斯机器学习模型的评分函数
与 Pinecone 的 CRUD 操作
通过 Pandera 培养数据科学中的数据完整性
机器学习风险管理的文化能力
维度诅咒：直观探索
使用 Apache Spark PrometheusServlet 自定义 Kafka 指标
自定义 ChatGPT API 的记忆功能
在 scikit-learn 中的自定义评分函数
客户满意度测量与 N-gram 和情感分析
客户细分：不仅仅是聚类
使用 Matplotlib 自定义颜色图
自定义您的基于云的机器学习训练环境 — 第一部分
定制你的云端机器学习训练环境 — 第二部分
Cutout、Mixup 和 Cutmix：在 PyTorch 中实现现代图像增强
赛博朋克风格的 Matplotlib 图表
使用 D-Tale 快速轻松地进行井日志数据的探索性数据分析
日常站会可能不会提升团队的敏捷性
DASC-PM：数据科学项目的新型流程模型
仪表盘已经死了：三年后的回顾
数据访问 API 无需复杂性即可访问数据湖表
使用 Pandas 进行 Python 中的数据汇总：分析地质岩性数据
数据利他主义：企业引擎的数字燃料
数据分析变得简单：使用 LLMs 自动化繁琐任务
数据分析师数据清洗指南
数据即产品：从概念到现实
数据一览：为数据分析创建动态仪表板
Python 中的音频数据增强技术
2023 年你需要知道的数据热词 — 第二部分
HuggingFace 中的数据整理器
计算机视觉数据整理指南
数据民主化：大型公司采纳的 5 种“人人数据”策略
数据文档 101：为何？如何？为谁？
数据驱动的调度
数据工程：一级方程式启发的初学者指南
数据工程书籍
数据工程：在单个旧 GPU 上进行大约 2 亿行的快速空间连接
数据工程面试问题
数据工程：为什么这不仅仅是关于你使用的工具
数据熵：数据越多，问题越多？
Julia 中的数据过滤：你需要知道的一切
数据治理，但要将其作为团队运动
时间序列数据库的数据集成策略
数据是语言模型的基础
解读 2023 年数据职位市场：数据是否表明过度饱和还是机会？
数据泄漏：它是什么，为什么会导致我们的预测系统失败
《使用 Python 和 SQL 掌握数据：通过 4 个战略应用案例释放效率和安全性》
数据建模的初学者，第一部分：什么是数据建模？
数据建模入门 — 第二部分：维度建模基础
数据建模技术用于数据仓库
数据工程师的数据建模
数据可观察性：分析与机器学习团队的应用
Python 中的数据导向编程
数据管道设计模式
数据管道编排
数据管道与 Airflow 和 AWS 工具（S3、Lambda 和 Glue）
使用 Polars 构建的数据管道：逐步指南
数据平台架构类型
机器翻译的数据预处理
实用数据质量审计：综合指南
杀死你机器学习模型的数据质量问题
数据科学最佳实践，第一部分——测试你的查询
数据科学职业路径、技能与特别项目：我们 2023 年的最佳阅读
数据科学专业知识以多种形式和形状出现
数据科学造福社会：超越利润，迈向更美好的世界
拉曼光谱的数据科学：一个实际示例
小公司与大公司中的数据科学
数据科学不是科学
数据科学项目通过 KPI 达成精通
数据科学团队的顶层设计
数据科学技术以提升营销活动
数据科学：现代经济学的支柱
数据科学家面试指南
数据科学家：首先是问题解决者，其次是算法魔术师
数据共享挑战：隐私和安全问题
数据讲故事基础：数据科学家和 AI 从业者的核心策略
数据讲故事与动态词云
数据流处理令人兴奋：在跳入之前你需要了解的事项
数据，优化：如何构建更好的产品、工作流程和团队
数据团队作为支持团队
数据告诉我们“是什么”，而我们总是寻求“为什么”
你是数据票务处理者还是决策制定者？
现代数据科学家的数据版本控制：你不能忽视的 7 个 DVC 概念
KNIME 的数据可视化
数据库和数据建模 — 一个快速入门课程
DataHub 实操第二部分
训练、验证和评估机器翻译的数据集
SQL 中的日期和子查询
如何在 Pandas 中更改日期时间格式
去噪声器的黎明：用于表格数据插补的多输出机器学习模型
dbt CLI 模型选择
dbt Core、Snowflake 和 GitHub Actions：数据工程师的个人项目
dbt 增量模型——正确的方式
解码：用简单英语解释 Transformers
处理转化指标？考虑使用 Beta-二项式模型
处理 Python 数据框中的日期，第一部分 — 日期系列创建
处理 Python DataFrame 中的日期第二部分——基础知识
使用 Python 处理 MRI 和深度学习
亲爱的数据科学家，请保持组织有序！
调试和调整 Amazon SageMaker 训练任务与 SageMaker SSH 帮助工具
Pytest 教程：单元测试简介
使用 Docker 调试 SageMaker 端点
Decent Espresso DE1Pro vs Kim Express：第 2 轮
决策分析与 Python 中的决策树——奥克兰运动员队的案例
决策科学与设计的结合
决策树回归器——Scikit Learn 的可视化指南
Excel 中的决策树回归
分类决策树——完整示例
决策树：介绍与直观理解
解码 Auto-GPT
解码 LLMs：从零开始在 Python 中创建 Transformer 编码器和多头注意力层
解码 NumPy 的点积：对维度魔法的简要探索
大型语言模型中的解码策略
生成式 AI 中的任务概念：智能系统的构建模块
解码数据科学家层级：从初级到高级——是什么使他们与众不同？
解码曼哈顿计划的网络：揭示科学、合作与人类遗产
解码声音交响曲：用于音乐工程的音频信号处理
解码美国参议院对 AI 的监督听证会：Python 中的 NLP 分析
面向 ChatGPT 的 LLM 聊天机器人解耦前端——后端微服务架构
深度确定性策略梯度（DDPG）解释
深入了解 ESA 的哨兵 API
深入探讨 Apache Spark 数据倾斜的处理方法
深入探讨 pandas Copy-on-Write 模式：第一部分
深入探讨 pandas Copy-on-Write 模式—第 II 部分
深入探讨 Pandas 的 Copy-on-Write 模式 — 第三部分
深入探讨模型可解释性的 PFI
深入研究 Softmax 回归
Deep GPVAR：升级 DeepAR 实现多维度预测
深度学习用于预测：数据预处理和训练
推荐系统中的深度学习：入门指南
深度强化学习改进了排序算法
对简单线性回归的深刻理解
定义通用人工智能
定义可解释的特征
Delta Lake — 自动模式演变
Delta Lake：删除向量
Delta Lake：保持快速和清洁
Delta Lake — 分区、Z-Order 和 Liquid Clustering
民主化 AI：MosaicML 对开源 LLM 运动的影响
使用 AWS SageMaker AutoML 实现机器学习的民主化
解密数据回填
揭示贝叶斯模型的奥秘：通过 SHAP 值揭示可解释性
揭示依赖关系及其在因果推断和因果验证中的重要性
揭秘 DreamBooth：一种个性化文本到图像生成的新工具
解密 GQA — 高效 LLM 预训练的分组查询注意力
破解 Matplotlib 的神秘面纱
揭开 NDCG 的面纱
揭开旋转矩阵的神秘面纱
解密随机森林
将自定义 ML 模型部署为 SageMaker 端点
学习如何使用 Langchain 和 BentoML 构建和部署一个语音聊天机器人
部署容器化的 Plotly Dash 应用程序与 CI/CD (P2: GCP)
直接从你的 Jupyter Notebook 部署机器学习模型
使用 Triton 部署本地 GPT 服务器
在本地使用 Docker 部署自己的 MLflow 工作区
使用 Streamlit 部署您的时间序列预测模型
在 Amazon SageMaker 上部署 Cohere 语言模型
部署 Falcon-7B 进入生产环境
使用 HuggingFace TGI 部署大型语言模型
在 Amazon SageMaker 上使用 DJL Serving 部署 LLMs
使用 SageMaker Pipelines 部署多个模型
使用 Nvidia Triton Inference Server 部署 PyTorch 模型
使用 Terraform 部署 SageMaker 端点
在 Power BI 中与 sklearn 机器学习模型互动
在 GCP 无服务器架构上部署 TFLite 模型
使用 Python 进行深度感知的对象插入视频
推导显示地理区域相对社会经济优势和劣势的评分
设计模式与 Python：构建器
《Python 机器学习工程师的设计模式：原型》
设计多方交互的对话代理
设计运筹学解决方案：一个用户友好的 Streamlit 路由应用
解密 Curvelets
使用 AI 和计算机视觉检测癌症增长
检测协变量偏移：多变量方法指南
检测生成式人工智能内容
使用 Python 检测实际数据中的幂律
使用自编码器检测信用卡欺诈
确定性与概率性深度学习
DETR（用于目标检测的变换器）
在 Power BI 中开发和测试 RLS 规则
🦜🔗 LangChain：开发由语言模型驱动的应用程序
开发你的第一个 AI 代理：深度 Q 学习
使用 Python 开发你自己的拼写检查工具包
使用 NASA 的 Power API 创建气候 GPT
开发公司特定的 ChatGPT 是技术的三分之一和流程改进的三分之二
为研究论文消化开发的自主双聊天机器人系统
如何为 2v2 游戏创建基于数据的 Elo 评级系统
使用 Spark 和 Plotly Dash 开发互动且富有洞察力的仪表板
开发科学软件
开发科学软件
细节决定成败：通过跳出框框思维成为 Power BI 大师
训练 LLMs 的不同方式
作为 Pytorch 神经网络层的微分方程
扩散概率模型与文本到图像生成
使用 Python 和 MySQL 进行数字营销分析
Dijkstra 算法在 OSM 网络中按旅行时间加权
维度缩减：面对维度诅咒
DINO — 计算机视觉的基础模型
方向改善图学习
Dirichlet 分布：基础直观理解及 Python 实现
通过物理信息神经网络和符号回归发现微分方程
发现最大流-最小割定理：一种全面而正式的方法
在强化学习中离散化连续特征
揭示真实数据离散度的两个指标超越标准差
解剖 Twitter 顶级声音的覆盖范围和影响力
我的简历策略如何让我进入了 0.1%被录取的申请者——这是终极指南
大型语言模型：DistilBERT——更小、更快、更便宜、更轻便
PyTorch 中的分布式数据并行和分布式模型并行
Vertex AI 流水线中的分布式超参数调优
在 CPU 上分布式运行 Llama 2
深入了解 LoRA 适配器
DL 笔记：高级梯度下降
在 AWS Inferentia 上进行深度学习训练
所有道路都通向罗马吗？
离散化的量子比特在实际中有效吗？
更多的比赛是否意味着更多的胜利？
不要仅仅使用 ChatGPT 来“总结文本”
通过这 5 个简单的方法，让你的数据科学家简历脱颖而出
你真的需要一个特征存储吗？
现代数据科学家的 Docker：2023 年你不能忽视的 6 个概念
将 Apache Zeppelin 和 Apache Spark 容器化以便于部署
面向文档的智能体：与向量数据库、LLMs、Langchain、FastAPI 和 Docker 的探索之旅
使用大型语言模型（LLM）和潜在狄利克雷分配（LDA）算法的文档主题提取
人工智能是否有政治观点？
Bagging 是否有助于防止决策树的过拟合？
雨能预测雨吗？美国气象数据及今天和明天降雨的相关性
您的 LLM 流水线达到了您的目标吗？
大型语言模型的领域适配
领域适应：微调预训练的 NLP 模型
使用 Pandas 数据框更有效地进行 7 种顶级列操作
在申请科技公司之前，先掌握这 6 项必备的数据科学技能
不要害怕超越在线编程课程
不要忘记你的 ML 产品的置信区间
别忘了 Python 是动态的！
不要让你的第一个 AI 项目在推出时陷入困境
不要在没有这 5 个必做步骤的情况下开始你的数据科学之旅——Spotify 数据科学家的完整指南
双重机器学习简化版：第一部分 — 基本的因果推断应用
双重机器学习，简化版：第二部分 — 目标设定与 CATE
使用 Python 下载 Landsat 卫星图像
自动驾驶中的可驾驶空间 — 学术界
通过精心设计指标推动运营成功
通过可操作的分析驱动产品影响
任何时间序列模型的动态符合区间
在 Power BI 中使用字段参数进行动态过滤
从 Python 调用 R 进行动态预测组合
Kubernetes 中的动态 MIG 分区
使用上下文强盗进行动态定价：通过实践学习
使用多臂老虎机进行动态定价：通过实践学习
从头开始的动态定价与强化学习：Q-Learning
动态重连的延迟消息传递 GNNs
电子商务：谁最有可能转化？
地球并非平坦，你的 Voronoi 图也不应该是
使用 Cloud Workflows 和 Cloud Scheduler 轻松构建事件提醒
使用 Tiktoken 轻松估算你的 OpenAI API 成本
使用 Hydra 的 Optuna 调优器来调节 RL 超参数
使用 Pydantic 轻松验证用户生成的数据
使用 Python AI 轻松编辑背景
简单 CDK 深度学习 EC2 实例
时间序列的简易分布无关保形区间
在 OpenCV Python 中进行简单的边缘检测方法
使用 Polars 进行 EDA：针对 Pandas 用户的逐步指南（第一部分）
使用 Polars 进行探索性数据分析：聚合和分析函数的逐步指南（第二部分）
边缘情感识别：通过实时语音分析提升人机互动
使用 Python 进行有效的日期和时间编码
有效的数据增强用于 OCR
有效的数据可视化：9 个有价值的技巧，提高图表质量
使用 Ray 在 Amazon SageMaker 上实现有效负载均衡
Python 中的有效单元测试 — 带示例
通过主动学习 + 重新标注有效标注 Transformer 的文本数据
有效优化你的回归模型与贝叶斯超参数调优
有效地使用 %timeit、%lprun 和 %mprun 来编写高效的 Python 代码
数据科学中的高效编码：轻松调试 Pandas 链式操作
高效深度学习：释放模型压缩的力量
使用 PyTorch 的高效图像分割：第一部分
使用 PyTorch 进行高效图像分割：第二部分
使用 PyTorch 进行高效的图像分割：第三部分
使用 PyTorch 高效图像分割：第四部分
使用 NumPy 实现高效的 k-近邻（k-NN）解决方案
使用瓶颈适配器进行高效模型微调
在 Neo4j 中高效的语义搜索
高效服务开源 LLM
荷兰电动车：使用 Python 和 SQLAlchemy 的探索性数据分析（第二部分）
荷兰的电动汽车：使用 Python 进行探索性数据分析
使用 spacy-llm 进行优雅的提示版本管理和 LLM 模型配置
提升你的商业分析：季节调整的逐步指南
提升你的数据科学职业生涯：如何成为一名高级数据科学家
Elliot 激活函数：它是什么，它有效吗？
嵌入技术：ChatGPT 的秘密武器
嵌入 + 知识图谱：RAG 系统的终极工具
迎接自动化重新训练
Embracing Julia: An Invitation Letter
拥抱叙事数据可视化的艺术
人工智能中的涌现能力：我们在追逐一个神话吗？
表情符号有助于社交媒体情感分析：不要再清除它们了！
赋能公平：识别与解决生成模型中的偏见
通过对话式数据访问创造信息优势
使用 MLflow 的端到端 ML 管道：追踪、项目和服务
使用 GPT-3.5 进行端到端的机器学习
关于 12 年数据之旅的年终报告
能源供应与需求优化：使用 Gurobi Python 进行数学建模
上下文推荐引擎的特征工程
工程已永远改变
使用 OpenAI 的审查 API 提升 ChatGPT 的内容审查
通过实时图表提升您的机器学习实验工作流程
使用 Matplotlib 改进您的极坐标条形图
Python 中的增强调试：追溯信息获得重大升级
增强的大型语言模型作为推理引擎
增强型目标检测：如何有效实现 YOLOv8
提升 ChatGPT 中 CSV 文件查询性能
使用实时先进物体识别技术构建乐高技术件分类器
增强 Python 文档：逐步指南以链接源代码
提升 Haystack 中的 RAG 流水线：引入 DiversityRanker 和 LostInTheMiddleRanker
增强 RAG 的答案：自我调试技术和认知负荷减少
医学信号处理中的集成平均
集成学习：袋装和提升
使用 Scikit-Learn 进行集成学习：友好的介绍
分类器集成：Voting Classifier
通过单元测试确保模型的可靠性
确保在 Scikit-learn 管道中正确使用变换器
确保可信的 ML 系统，通过数据验证和实时监控
娱乐数据科学：流媒体与影院
实体解析：识别嘈杂数据中的真实世界实体
熵和基尼指数简介
基于熵的不确定性预测
熵正则化强化学习解释
环境数据科学：介绍
普及生成式 AI 的环境影响
等规模谱聚类
R 和 Python 的错误处理
机器学习中的分类问题关键评估指标
机器学习的必读资料
使用滚动回归估计时间变化系数
估算总体实验影响
机器学习项目中的伦理考虑
人工智能中的伦理：偏见算法的潜在根源
ETL vs ELT vs 流处理 ETL
如何使用 GitHub Actions 构建简单的 ETL 流水线
欧洲旅行优化：遗传算法和 Google Maps API 解决旅行推销员问题
使用 RAGAs 评估 RAG 应用程序
通过图表和指标评估简单回归模型的性能
评估提升模型
推荐系统的评估指标 — 概述
机器学习分类器的评估
合成时间序列的评估
你需要了解的关于热图的一切——PowerBI 教程
关于正则化你需要了解的一切
你应该知道的关于评估大型语言模型的一切
进化算法 — 突变解释
进化算法 — 选择解释
发展数据管道测试计划
进化的客户流失预测：应对干预和再培训
精确算法还是启发式算法？
使用 AWS 和 Power BI 检查美国的航班
K-最近邻的示例应用
Python 异常处理：从基础到高级，再到技巧
ExLlamaV2: 运行 LLMs 的最快库
扩展时间
期望校准误差（ECE）：逐步可视化解释
从零开始的实验编排
使用谷歌 AI 的 TCAV 进行可解释 AI
以 3 种难度级别解释向量数据库
MEMS 传感器数据的探索性分析
在 R 中的探索性相关分析
Google Sheets 中的探索性数据分析
探索性数据分析：揭示数据集中的故事
探索性数据分析：我们对 YouTube 频道了解多少（第一部分）
探索性数据分析：我们对 YouTube 频道了解了什么（第二部分）
探索 Pydantic V2 的增强数据验证功能
探索语料库中的语义关系与嵌入模型
探索 DAX 中的时间智能变体
探索全球野生动物 GIS 数据库
探索反事实洞见：从相关性到因果关系的数据分析
探索大型语言模型中的创造力：从 GPT-2 到 GPT-4
探索生成市场营销组合建模中响应曲线的不同方法
探索情感与人工智能、OpenAI 和探索性数据分析的关系
探索 CNNs 中的特征提取
探索 GEMBA：一种基于 LLM 的翻译质量评估新指标
探索大规模栅格人口数据
对于数据科学家来说，总有新的 Python 技能值得学习
探索 Numexpr：Pandas 背后的强大引擎
探索 TensorFlow 模型预测问题
使用 Python 探索 DLIS 文件的内容
探索语言模型对中毒攻击的脆弱性
探索生存分析中的事件时间
探索令牌概率作为过滤 GPT-3 答案的一种手段
探索什么让 AI 伦理工具包运转起来
通过 HTTP 安全地暴露 Kubernetes 卷：如何在互联网上服务 PVC
揭示卡尔曼滤波器的强大功能
扩展大规模语言模型中的上下文长度
从（Azure）SQL Server 大型表中提取数据到 RFC 4180 兼容 CSV 文件
使用 Python 从 PDF 文件中提取文本：全面指南
提取式与生成式问答——哪种更适合您的业务？
眼光放在奖品上：将商业价值置于数据项目的核心
使用 Python 的面部检测——面部识别的前奏
什么是负二项分布
Falcon 180B：它能在你的计算机上运行吗？
鹰：开源大型语言模型的巅峰
假先知：一个自制的时间序列回归模型
虚假预言者：将回归模型与 Meta 的 Prophet 进行比较
False Prophet: 自制时间序列回归的特征工程
BigQuery 的神奇生物及其使用时机
AWS SageMaker 中的快速和可扩展超参数调优与交叉验证
Python 到 SQL — 我现在可以以 20 倍的速度加载数据
使用 Polars 进行快速字符串处理——诈骗邮件数据集
FastAPI 和 Streamlit：你必须了解的 Python 双雄
使用 Ray 加速时间序列预测的训练，第三部分，共 3 部分
FastSpeech：论文概述与实现
用 Python 实现的机器学习特征编码技术
在 Pandas DataFrame 中使用正则表达式 (RegEx) 进行特征工程
使用 SHAP 进行特征重要性分析：我在 Spotify 学到的（在复仇者的帮助下）
特征子集选择
特征变换：PCA 和 LDA 教程
二月刊：聊聊聊天机器人
2023 年女子世界杯通过 Plotly 可视化
解析数据中最不寻常的片段
填空自监督在自然语言处理中的应用
最终的 DXA-国家
为你的下一个数据科学侧项目寻找灵感
使用量子计算机寻找暗物质
在非结构化数据中找到数据切片
寻找改进的改写
在干草堆中找针 — Jaccard 相似度的搜索索引
使用分支定界找到最佳解决方案
利用多项式混沌扩展、使用 uncertainpy 和 chaospy 寻找混乱中的秩序
通过随机森林找到我们的路
使用地理空间关联规则挖掘发现便利店位置中的模式
使用 GPT-4 和 SpaCy 查找拼字游戏全字母句
在 Twitter 帖子中寻找时间模式：使用 Python 进行探索性数据分析
在 Twitter 帖子中发现时间模式：使用 Python 进行探索性数据分析（第二部分）
使用机器视觉找到边境通行的最快车道
寻找你梦想中的人工智能硕士项目
用 Python 微调大型语言模型
微调更好的聊天模型，采用蒸馏身份偏好优化（IPO）
在 Amazon SageMaker 上微调 MPT-7B
优化您的 LLM 而不会让 GPU 负荷过重
在 Colab 笔记本中微调你自己的 Llama 2 模型
微调的 LLMs 用于情感预测——如何分析和评估
使用 H2O LLM Studio 对 LLM 模型进行微调以生成 Cypher 语句
微调大型语言模型（LLMs）
使用 MNR 损失微调句子变换器
FinOps：降低 BigQuery 存储成本的四种方法
使用 Apache Spark 进行机器学习的第一步
使用 Python 探索强化学习的第一步
FitBot — 一款健身聊天机器人代理
五个免费且可靠的天气数据来源
你应该注意的五个数据泄露的隐藏原因
产品管理中的五种强大优先级排序技巧
五种实际应用 LSTM 模型于时间序列的案例，附代码
五个协作数据科学的软件工程原则
五件事 GenAI 能做和不能做的事情
我从第一次 R 编程活动中学到的五件事
处理大型动作空间的五种方法
修复 Prophet 的预测问题
Flapjax: 使用 Plotly 和 Flask 进行网络数据可视化
关注 TDS 列表，发现我们的最佳文章
遵循此数据验证过程以提高数据科学准确性
预测多个视野：以天气数据为例
像大师一样预测多个时间序列
预测 API：一个使用 Django 和 Google Trends 的示例
用 Python 预测间歇时间序列
使用 Granger 因果关系进行预测：检查时间序列的虚假相关
忘掉 SQLite，改用 DuckDB——然后感谢我
ETL 测试 — 如何正确测试你的数据管道
忘掉 RAG，未来是 RAG-Fusion
计算机视觉中的前向映射和后向映射
神经网络中的前向传播与反向传播
四种构建在生成式人工智能基础模型之上的方法
A/B 测试中的四个常见错误及解决方法
自 ChatGPT 以来的四个 LLM 趋势及其对 AI 构建者的影响
减少分析浪费的四个步骤
傅里叶变换在时间序列中的应用：关于图像卷积和 SciPy
时间序列的傅里叶变换：去趋势
时间序列的傅里叶变换：使用 numpy 解释快速卷积
时间序列的傅里叶变换：绘制复数
傅里叶变换，实用的 Python 实现
用实体解析和图神经网络进行欺诈检测
无限制：在 MoMA 机器幻觉的验证
频率学派与贝叶斯统计学的比较
从算法到文字：我为何写作关于机器学习
从分析到实际应用：客户终身价值的案例
从生物学习到人工神经网络：接下来会是什么？
遗传算法简介
从商业学生到 Spotify 的数据科学家
从因果树到森林
从集中式学习到联邦学习
从混乱到清晰：利用大型语言模型简化数据清洗
数据科学中的 Docker
从簇到洞察；下一步
从数据工程到提示工程
从数据湖到数据网：最新企业数据架构指南
从数据平台到机器学习平台
从数据到聚类：你的聚类何时足够好？
从数据到市场策略：利用行为分割
从数据到营销策略，通过事务性细分
从数据仓库和数据湖到数据网格：企业数据架构指南
从决策树到变换器：比较马其顿餐厅评论的情感分析模型
从 DICOM 头到 CSV 文件
从乏味到惊艳：Matplotx 如何改善你的 Matplotlib 图表
从编码到嵌入
从 ETL 过渡到 ELT
从评估到启示：深入了解交叉验证中的样本外预测
从 GeoJSON 到网络图：在 Python 中分析世界国家边界
从黑客到和谐：在推荐中构建产品规则
从线性代数到深度学习的 7 本书（2024 年冬季更新）
从见面会到辅导：如何作为数据科学家进行网络交流
从数据到行动：让数据为公司服务
从纸张到像素：评估数字化手写文本的最佳技术
从 Powerpoints 到 PDFs 再到 CSV 文件：用于读取主要文件类型的 Python 类
从穿孔卡到 ChatGPT
从 Python 到 Julia：基本数据操作和探索性数据分析
从 Python 到 Julia：特征工程与机器学习
从 RAG 到财富
从 SQL 到 Julia：数据科学的其他编程语言
从感知机到 Adaline
MLE、MAP 和贝叶斯推断的全面解释
统计学基础：所有数据科学家和分析师应知——带代码——第一部分
如何在 Pandas 数据框中进行模糊字符串匹配
高斯头像：总结
高斯混合模型清晰解释
高斯混合模型（GMMs）：从理论到实现
GenAI 提升 NLP 系统 I：生成合成数据的工具
GenAIOps：发展中的 MLOps 框架
强化学习中的广义优势估计
生成地理区域的 3D 网格
为数据分析生成虚假数据
使用 VAEs、GANs 和扩散模型生成图像
使用 Wikipedia 生成知识图谱
使用 MONAI 生成医疗图像
每月生成更多优质见解
基于词级 BERT 嵌入趋势生成句子级别嵌入
使用 Python 生成合成数据
生成式 AI 伦理
社会工作学生的生成式人工智能：第一部分
生成性 AI 对社会工作学生的介绍：第二部分
使用 Nougat 模型进行研究论文生成 AI
生成式 AI 产品策略：如何构建下一代 AI 产品
生成模型与噪声和结构的舞蹈
使用 GPT 3.5 和长期记忆的生成式问答
遗传算法：寻找最佳电子邮件投递时间表以最大化互动
天才圈子：绘制诺贝尔网络
群体上的几何深度学习
机器学习与经典统计中的线性回归几何解释
Python 中的地理空间数据分析
使用 GeoPandas 进行地理空间数据分析
使用 OSMnx 进行地理空间数据分析
地理空间数据工程：空间索引
地理空间数据科学：点模式分析
地理空间索引 102
地理空间索引和评分：释放基于位置的数据分析的力量
geotiff.js: 如何获取纬度-经度坐标的投影 GeoTIFF 数据
对 AUC 和 Harrell’s C 的直观理解
使用 Python 按位置获取气温数据
从 Pandas GroupBy 中获得最大收益
从 AI/ML 入手，构建智能供应链
开始使用 Databricks
入门 Great Expectations：Python 中的数据验证指南。
开始使用 JAX
开始使用 LangChain：构建 LLM 驱动应用程序的初学者指南
多模态入门
开始使用 NumPy 和 OpenCV 进行计算机视觉 (CV-01)
开始使用 Weaviate：初学者的向量数据库搜索指南
在 R 中使用 ggvanced 包的蜘蛛图和并行图
幽灵图像与量子位：可视化量子叠加的新方法
Git 101 — 从术语到架构及工作流
数据科学家的 Git 深入探讨
现代数据科学家的 Git：你不能忽视的 9 个 Git 概念
Git 标签：它们是什么以及如何使用
GitHub 对现代数据科学家的意义：你不能 .gitignore 的 7 个概念
GLIP：将语言-图像预训练引入物体检测
全球数据晴雨表：目前全球开放数据的状态如何？
如何在 R 中分组数据：超越“group_by”
使用 DAX 中的库存度量迈出下一步
优秀工程师、差劲工程师和恶劣工程师——数据领导者的轶事
告别 os.path：15 个 Pathlib 技巧迅速掌握 Python 文件系统
如何在 Python 中设置 GOOGLE_APPLICATION_CREDENTIALS
Google Cloud 的 Cloud Composer 替代品
Google Foobar Challenge: Level 3
谷歌生成式 AI 转型
Google Med-PaLM：AI 临床医生
简单的 Google Pub/Sub 到 BigQuery 方法
如何使用 Python 更改 Google 表格权限
谷歌对多模态基础模型的最新方法
Google 的 MusicLM：从文本描述到音乐
GPT-3.5 更擅长翻译段落
GPT-4 可以解决数学问题——但并非所有语言都能
GPT-4 来了：它真的在改变语言 AI 的游戏规则吗？
GPT-4 与 ChatGPT：对训练、性能、能力和局限性的探讨
GPT 与超越：大型语言模型的技术基础
GPT 与人类心理学
GPT — 直观而全面的解释
GPT 与 BERT：哪一个更好？
GPTQ 或 bitsandbytes：对于 LLMs 应使用哪种量化方法 — 以 Llama 2 为例
Pytorch 中的 Grad-CAM：前向和反向钩子的使用
在 Excel 中进行梯度提升线性回归
梯度提升：预测中的银弹
从理论到实践的梯度提升（第一部分）
理论与实践中的梯度提升（第二部分）
梯度提升树：是早期停止还是不早期停止？
梯度下降算法 101
深度学习笔记：梯度下降
梯度下降：优化与初始化解释
梯度下降与梯度提升：逐一对比
图卷积网络：GNNs 简介
表格数据的图数据科学
图机器学习：概述
图形机器学习 @ ICML 2023
图形机器学习在 2023 年的现状
[比利·科根网络图谱：使用 Python 的 NetworkX 库分析和绘制社会关系——第四部分](docs/graphing-billy-corgans-network-analyzing-and-mapping-social-relationships-with-python-s-networkx-724de1e431ac.md)
数据科学软技能
绿色 AI：改进 AI 可持续性的方法和解决方案
带误差条的分组条形图（R 语言）
Grover 的量子搜索算法
使用 Python 和 Plotly Express 创建树状图
ChatGPT 高级设置指南——Top P、频率惩罚、温度等
处理 Python 中分类变量的指南
数据分析师成功机器学习模型部署指南
引导你的受众：在演示中创建引人入胜的叙事
有指导的迁移学习：如何利用“侦察的力量”提升机器学习表现
指导大型语言模型进行任务特定推理 — 提示设计与软提示
破解因果推断：使用 ML 方法的合成控制
破解 MySQL 的 JSON_ARRAYAGG 函数以创建动态、多值维度
黑客统计显著性：使用机器学习方法进行假设检验
为了庆祝这些非常有用和实用的文章，本周的《Variable》将聚焦于我们“提示与技巧”栏目中的近期亮点：它们提供了可操作的、经过验证的建议，可以帮助你节省时间和精力，并在项目中取得更好的结果。无论你本周是否已经享受了你的“甜点”（祝庆祝者万圣节快乐！），我们希望这些技巧能激发你寻找新的方法或工具进行尝试。
使用 Delta 表处理缓慢变化的维度（SCD）
使用 Python 处理时区
实战深度 Q 学习
针对产品和工程领导者的动手 GenAI
使用 Python 实现生成式 AI：自编码器
使用 Python 的 GANs 实践生成式 AI：DCGAN
使用 Python 和 GANs 进行生成式 AI 实践：图像生成
实操介绍 Delta Lake 和 (py)Spark
使用 Python 进行实践性的多目标分类
亲自动手实现 Otsu 阈值分割算法，用于图像背景分割，使用 Python
实践中的采样技术和比较，使用 Python
利用人工智能创造更美好的世界
利用 Python 中的 Asyncio 发挥多核性能
利用南美洲的降水量和气象栅格数据
利用 Falcon 40B 模型，最强大的开源 LLM
利用知识图谱的力量：用结构化数据丰富 LLM
HashGNN: 深入探讨 Neo4j GDS 的新节点嵌入算法
现代推荐系统中的哈希：入门
机器是否刚刚实现了在人的语言中进行进化性的飞跃？
在理解量子机器学习时遇到困难吗？
浓缩咖啡中的 Headspace：优化
医疗数据本质上是有偏的
排序算法：堆排序
这是我使用 Apache Airflow 6 年学到的东西
我的数据科学工作流程模板
你错过了什么
这就是为什么你从数据中提取价值的努力没有进展
混合整数规划（MIP）模型的启发式方法
嘿，GPU，我的矩阵怎么了？
隐藏马尔可夫模型：通过实际例子和 Python 代码进行解释
街道名称中的隐藏模式：数据科学故事 [第一部分]
街道名称中的隐藏模式 [第二部分]
分层 Transformer — 第一部分
分层变换器 — 第二部分
更高精度的浓缩咖啡篮成像
KDD 2023 大型语言模型亮点
爬山算法优化：简单的初学者指南
招聘杰出的数据科学家
直方图均衡化：逐步指南 (CV- 06)
达到时间预测：时间序列概率预测的另一种方式
利用 SageMaker 多模型端点和 GPU 实例托管数百个 NLP 模型
在 Colab 上免费托管你的 Google Earth Engine RESTful API
德国住房租赁市场：使用 Python 的探索性数据分析
如何用 25,000 台计算机训练 ChatGPT
一个优秀的数据科学家如何看待矩阵乘法
人工智能如何改变我们的编码方式
《阿波罗 8 号如何赢得月球竞赛》
探索解决股票切割问题的贪婪算法
人工智能如何使旧视频看起来更流畅？
机器学习如何应用于音频分析？
如何在没有复杂算法的情况下改进预测指标和流程？
ChatGPT 的工作原理：聊天机器人背后的模型
关于计算机视觉中颜色表示的全面指南 (CV-02)
企业如何停止在人工智能和数据驱动决策中失败
Cypher 在 Neo4j v5 中的变化
数据泄漏如何影响模型性能声明
数据科学如何创造价值
数据科学如何帮助福尔摩斯找到凶手
数据科学家如何节省时间
从损失函数的角度来看，决策树如何分裂节点
我们如何知道一篇文本是 AI 生成的？
决策树如何知道从数据中询问下一个最佳问题？
AI 如何看待你的国家？
PPO 的剪切如何工作？
社会教育指数如何影响学校离校结果？ — 用 R 和 brms 进行的贝叶斯分析
不确定性原理如何限制时间序列分析？
XGBoost 如何处理多类分类？
企业如何构建类似于 OpenAI 的 ChatGPT 的大型语言模型
决策树如何解决回归问题？
少样本学习如何自动化文档标记
如何通过 GenAI 解决方案彻底改变商业自动化：解读 LLM 应用的高级管理层
生成性人工智能如何支持食品行业企业
生成式 AI 将如何影响产品工程团队
地理围栏如何塑造你周围的世界
谷歌如何利用虚假数据集来训练生成音乐 AI
GPT 模型的工作原理
GPT 的工作原理：使用一个药水的故事对注意力中的键、值、查询进行隐喻性的解释
人类劳动如何促进机器学习
如何基于 AWS 构建级联数据管道（第一部分）
如何基于 AWS 构建级联数据管道（第二部分）
如何在 10 分钟内利用 LlamaIndex 构建定制的 GPT 聊天机器人
如何构建带有 AI 生成曲目的 Lo-fi 音乐网页播放器
我是如何构建一个编程语言的：通往成功的（艰难）之路
我如何用 ChatGPT 编写了自己的私人法语 tutor
如何使用 Python 创造 DALL-E 10000 份积分无法购买的生成艺术
我在 2022 年的哭泣情况：对 365 天个人数据的分析
我是如何在 6 个月内获得数据分析师职位的
如何利用开源 LLM 在大型计算项目中实现巨额节省
我如何设置数据科学项目（使用 VS Code 和 DVC）
我作为全职数据科学家如何跟上最新的 AI 趋势
我是如何将 ChatGPT 转变为类似 SQL 的图像和视频数据集翻译器
如何将公司的文档转变为可搜索的数据库，利用 OpenAI
我如何通过第一个 #30DayChartChallenge 学习 Observable Plot
如何赢得新加坡的 GPT-4 提示工程竞赛
如果我可以重新开始，我会如何利用 ChatGPT 学习数据科学
如何让行业数据科学家的工作发挥作用
AI 如何颠覆数据治理？
机器学习如何成为位置数据行业的游戏规则改变者
多少键位足够弹奏钢琴？
Meta 的人工智能如何基于参考旋律生成音乐
我们需要多少数据？在机器学习与安全考虑之间的平衡
在模型选择过程中，你会损失多少预测性能？
Nightshade 的工作原理
《糟糕的利益相关者管理如何毁掉分析》
偏见如何渗透到 AI 系统中
Python 枚举如何使数据配置优雅
如何通过操作符融合和 CPU/GPU 代码生成加速深度学习
当 1+1≠2：量子物理学如何打破统计学定律
足球进球的随机性如何？
比率的可靠性如何？
Self-RAG 如何革新工业 LLMs
如何让简单的数值积分在方程建模任务中让你的生活更轻松
辛普森悖论如何误导统计数据
SQL 执行顺序在不同数据库中的差异
变量之间的关联强度有多大？
不要在没有这 3 步策略的情况下申请数据科学职位
t-SNE 如何在降维中优于 PCA
如何在大众之前访问未来的 Python 版本，如 3.12
如何在数据科学训练营中表现出色：完整指南
如何根据您的数据将领域特定知识添加到 LLM
如何通过残差分析你的时间序列模型
如何评估推荐系统
如何使用 AI 自动生成长时间 YouTube 视频的摘要
如何通过 Python 预提交钩子提升代码质量？
如何使用 LLMs 自动提取 PDF 中的实体
如何在 AWS EMR 上使用 Airflow 自动化 PySpark 管道
如何自动提取和标记 Seaborn KDE 图上的数据点
如何在 R 中自动导入和合并多个文件
如何避免被模型准确度欺骗
如何避免 Google BigQuery / SQL 中的五个常见错误
如何避免在自学数据分析时犯这 4 个耗时错误
如何成为更好的商业数据科学家
如何成为数据工程师
如何在没有技术背景的情况下成为数据科学家：技巧和策略
如何最佳利用 OpenAI 的 Evals 框架
如何将自定义 ML 模型引入 OpenMetadata
如何构建一个五层数据栈
如何构建因果推断机器学习模型，探讨全球变暖是否由人类活动引起
如何使用 IPyWidgets 和 Plotly 在 Python 中构建自定义标注工具
如何使用 ChatGPT 构建数据科学作品集网站
如何构建一个完全自动化的数据漂移检测管道
如何在 2023 年构建多 GPU 系统进行深度学习
如何使用 Python 构建一个类似 Shazam 的 Telegram 机器人
如何使用 Python 构建 ELT
如何构建一个互联的多页面 Streamlit 应用
如何构建 LLM 应用程序
如何从零开始构建一个大型语言模型
如何在数据工程团队中建立值班文化
如何构建和管理数据资产组合
如何在 AWS 云上使用 Kubernetes 和 oneAPI 构建 ML 应用
如何培养数据科学家的良好习惯
如何构建具有 O(N) 复杂度的图 Transformer
如何使用 Polars 构建基于人气的推荐系统
如何使用 Plotly 图形对象构建瀑布图
如何使用大型语言模型与任何 PDF 和图像文件进行聊天 — 带代码
如何选择大学的 AI 项目/课程
如何选择最佳的分类问题评价指标
如何选择最佳的回归问题评估指标
如何为你的项目选择正确的数据可视化策略
如何分块文本数据 — 一项比较分析
如何在新纪元中共同设计 AI/ML 的软件/硬件架构？
如何组合预测结果
如何有效比较机器学习解决方案
如何将 Azure AD 管理身份连接到 AWS 资源
如何连接 Streamlit 到 Snowflake
如何通过 Cloud SQL Auth Proxy 在 Docker 中连接到 GCP Cloud SQL
如何通过 Visual Studio Code 连接到您的 AWS EC2 实例
如何将任何文本转换为概念图谱
如何正确地对时间序列进行交叉验证
如何利用大脑的季节性创建一年的数据科学自学计划
如何在 Spacy 3.5 中创建自定义 NER
如何创建热线图
如何使用 Matplotlib 创建口红图
如何用 Python 和 Matplotlib 创建极坐标直方图
如何在 Python 中创建出版质量的热图
如何使用 Plotly 和 Streamlit 创建一个简单的 GIS 地图
如何使用 Python 创建合成社交网络
如何在 Python 中创建时间序列网络图可视化
如何使用 R 创建艺术地图
如何创建一个有效的自学计划，以成功自学数据科学
如何使用 Seaborn 和 Matplotlib 创建美丽的年龄分布图（包括动画）
如何使用 Seaborn 和 Matplotlib 创建美丽的条形图（包括动画）
如何在 Python 中创建美丽的华夫图用于数据可视化
如何创建气候条纹
如何用最少的 Python 代码创建赛博朋克风格的 Seaborn 小提琴图
如何使用 Python 和 Matplotlib 创建美国数据地图
如何使用 Python 和 Matplotlib 创建引人注目的国家排名
如何使用 Matplotlib 创建六边形地图
如何创建高性能的数据产品？
如何使用 Plotly 创建地图图
使用 LaTeX 创建出版级图表：第二部分
如何创建有价值的数据测试
如何使用稳定扩散和 Deform 创建插值视频
如何创建自己的 AI 天气预报
如何：时间序列数据的交叉验证
如何使用 Docker 将 Panel 应用部署到 Hugging Face
如何以最少计算资源部署和解释 AlphaFold2
如何使用 FastAPI 和 Google Cloud Run 部署和测试你的模型
如何在 5 秒钟或更短时间内使用 Docker 部署 GitLab
如何部署机器学习模型？端到端的狗品种识别项目！
如何将 PyTorch 模型部署为生产就绪的 API
如何从头设计一个 dbt 模型
如何设计机器学习项目的路线图
如何在 AWS 中设计 MLOps 架构？
如何通过假设检验检测数据漂移
如何检测机器学习模型中的漂移
如何在 3 个步骤中开发 Streamlit 数据分析 Web 应用
如何使用 Folium Python 库显示 GeoJSON 文件中的数据
如何有效地进行交叉验证
如何使用 pytest 对 Pandas 中的数据进行数据验证
如何使用 Python、NLTK 和一些简单的统计进行语言检测
如何在 ChatGPT 时代有效开始编码
如何有效地构建数据科学项目
如何在 Python 中有效使用 lambda 函数作为数据科学家
使用最新技术微调你的开源 LLM
如何高效地替换 Pandas DataFrame 中的值
如何编码周期性时间特征
如何通过讲故事与用户互动：在 R 和 Shiny 中展示数据分析
如何提升你的 Pandas 代码 — 不要再等待了
如何通过 Matplotlib 马赛克提升你的可视化效果
如何估算 Transformer 模型中的参数数量
如何评估学习排序模型
如何评估表示
如何评估你的 ML/AI 模型的表现
如何使用迭代滤波评估未报告的流行病感染
如何通过自定义方法扩展 Pandas 数据框，以增强代码的功能性和可读性
如何从任何 PDF 和图像中提取文本以用于大型语言模型
如何找到一个通勤时间短的公寓
如何为你的数据找到最佳的理论分布
如何寻找独特的数据科学项目创意，使你的作品集脱颖而出
如何在消费级硬件上微调 Llama2 以进行 Python 编程
使用 Python 调试逻辑回归错误的最佳实践
如何修复时间序列分析中的缺失日期
如何使用自回归进行时间序列预测
什么是 ARIMA？
如何使用移动平均模型进行预测
如何生成和评估知识图谱嵌入的表现？
如何使用 Folium 生成交互式地图
如何使用 CTGAN 生成真实世界的合成数据
如何使用 DAX Studio 从 Power BI 获取性能数据
如何获得回聘邀请
如何充分利用你的量子比特
如何通过鸟鸣声识别鸟类物种？
如何使用 Python 识别数据中的异常值
如何识别业务关键数据
如何使用 Python 代码实现层次聚类
如何使用 Python 实现学习排序模型
如何在 PySpark 中实现随机森林回归
如何通过提示工程改进 ChatGPT 生成的代码
如何利用贝叶斯高斯混合模型提高聚类准确性
如何改善低资源语言的翻译
如何使用配置参数改进你的 ChatGPT 输出
如何在 Kubernetes 中通过 NVIDIA MPS 提高 GPU 利用率
如何在 Kubernetes 中安装私有 Docker 容器注册表
如何在 Kubernetes 中安装 Traefik Ingress Controller
如何在你的代码中集成 Microsoft Translator API
如何解读线性回归系数 | 完整指南
如何解释逻辑回归系数
如何迭代一个 Pandas Dataframe
如何使用多功能数据工具（Versatile Data Kit）跟踪数据版本
如何在 2023 年学习地理空间数据科学
如何通过向这些专业人士学习来提升你的 Python 技能
如何将非传统教育或职业路径转化为你的第一个数据科学工作
如何利用预训练的 Transformer 模型进行自定义文本分类？
如何以全新的视角看待常见的机器学习任务
如何制作 40+个互动图表以分析你的机器学习管道
如何在 R 中使用 ggplot2 制作蜘蛛图
如何制作 AI 图像编辑聊天机器人
如何用 Rust 让你的 Python 包真正加速
如何使用 Azure Synapse 遮蔽 PII 数据
如何测量和改善预测集成的多样性
如何测量机器学习嵌入的漂移
如何衡量您的基于 RAG 的 LLM 系统的成功
如何使用 Python 和 Vertex AI Pipelines 测量碳足迹
如何在时间序列中建模多重季节性
破解当前数据科学就业市场：来自科技数据科学家的实用策略
如何避免将机器学习模型投入生产
如何在 Python 中客观地比较两个排名列表
操作指南：手动进行单因素 ANOVA
如何优化多维 Numpy 数组操作的 Numexpr
如何优化特定领域的目标检测模型
如何通过自定义 PyTorch 操作符优化你的深度学习数据输入管道
如何优化你的营销预算
如何组织数据科学项目
如何使用 OpenCV 进行阈值化图像分割
如何使用 Python 执行 KMeans 聚类
如何在 Python 的 PyOD 中进行多变量异常值检测
如何在 Python 中进行异常值检测：第一部分
如何在 Python 中进行单变量离群点检测
如何在 Landsat 卫星图像上绘制坐标，使用 Python
如何使用 DiagrammeR 包在 R 中绘制图表
如何准备机器学习数据
如何准备你的数据以进行可视化
如何在软件工程师职位面试中展示你的项目
2023 年如何为 AI 项目定价
如何编程一个神经网络
如何在 Amazon ECS 上将 ML 模型正确部署为 Flask APIs
如何使用 Quip Python APIs 从/到相同的 Quip 电子表格读取和写入数据
如何减少你的主数据管理费用
如何在 5 个简单示例中将 SQL 查询重写和优化为 Pandas
机器学习实验的艺术
如何在 Python 中保存和加载神经网络
完整指南：如何通过合同测试和 dbt 有效地扩展你的数据管道和数据产品
如何安全地将 Synapse Pipelines 连接到 Azure Functions
如何将 SLURM 作业发送到集群
如何将表格时间序列数据发送到 Apache Kafka，使用 Python 和 Pandas
如何使用 Keras API 和 Google Colab 开始使用 TensorFlow
如何使用 AWS Lambda 为数据科学设置一个简单的 ETL 流水线
如何在 Power BI 中显示没有数据的结果
如何使用线性规划解决优化问题
如何解决 Windows 上 Anaconda 的 Python 依赖问题
如何解决蛋白质折叠问题：AlphaFold2
如何用模拟退火解决旅行推销员问题
如何加速数据科学交付
如何在数据分析师领域脱颖而出：专注于这 5 个关键主题
如何作为数据分析师保持领先
如何跟上最新的 AI 研究
如何更高效地存储历史数据
如何使用 Mage 简化数据管道中的沟通
如何优化你的数据科学学习之旅
如何为可重复性和可维护性构建 ML 项目
如何使用 Matplotlib 样式化图表
如何在采用现代数据堆栈时应对数据爆炸
如何在不重新采样的情况下应对类别不平衡
如何与非数据人士讨论数据和分析
如何使用 Pytest 测试您的 Python 代码
如何测试你的单元测试
如何使用 Gensim 从头开始训练 Word2Vec 模型
如何训练 BERT 进行掩码语言建模任务
如何训练 LILT 模型并在发票上进行推断
如何将家庭作业转化为数据科学职位
如何将时间序列转换为深度学习格式
转行到数据分析的路线图
如何将数据转化为可操作的商业洞察
如何将数据视为产品
如何使用日志模块调试 Python 脚本
如何理解和使用 Jensen-Shannon 散度
如何理解因果关系的世界
如何将初级数据科学代码升级为高级数据科学代码
如何利用参数解析提升机器学习工作流的效率
如何使用 Chat-GPT 和 Python 在 Neo4j 中基于你自己的文章构建知识图谱
如何使用 ChatGPT 生成图表
如何在数据可视化中使用颜色
如何在 Neo4j 图数据科学库中使用 Cypher 聚合
如何使用 dbt 种子
正确使用 DAX 中的 FILTER
如何使用 Google 的 PaLM 2 API 与 Python
如何在自己的领域中使用大型语言模型（LLM）
如何在 R 中使用映射函数进行数据科学
如何利用微认证进入数据科学领域
如何使用 OpenAI 的代码解释器来分析数据
如何使用 OpenAI 的函数调用
如何使用 Streamlit 的 st.write 函数来改进您的 Streamlit 仪表板
如何使用 loc Pandas 方法高效地处理您的 DataFrame
如何在 Elasticsearch 中正确使用同义词功能
如何使用 t 检验及其非参数对应物
如何验证 OpenAI GPT 模型的文本摘要性能
如何编写自定义函数以在 R 中生成多个图表
如何编写更好的数据科学学习笔记
如何在 R 中编写条件语句：四种方法
如何为 ChatGPT（GPT-4）和其他语言模型编写专家提示
如何编写可重复的 TensorFlow 输入管道
F 检验在线性回归中有多大用处？
我们对数据管道的思考正在改变
我们如何赢得了第一个政府 AI 项目
GPT 模型对提示的响应效果如何?
数据科学如何加速循环经济？
如果我从头开始，如何用 ChatGPT 学习编程？
如何通过 Python 访问 Amazon S3 资源（及其必要性）
如何（以及为什么）保护您的 API 密钥
如何验证机器学习模型
Hugging Face Diffusers 可以正确加载 LoRA
🤗Hugging Face Transformers Agent
Human-Learn: 作为机器学习替代方案的基于规则的学习
寻找黑天鹅
混合离散-连续几何深度学习
混合搜索 2.0：追求更好的搜索
超曲面深度强化学习
使用 SQL 实现的 HyperLogLog
超参数优化——网格搜索、随机搜索和贝叶斯优化的简介与实现
超参数优化与 Hyperopt — 介绍与实现
将超参数调整应用于神经网络
使用 AWS Sagemaker SDK 对 HuggingFace 模型进行超参数调整
我晋升了！
我找到了我的第一份数据工作，接下来怎么办？
我花费了$675.92 与 Upwork 上的顶级数据科学家交谈——这是我学到的
ICA 和现实中的鸡尾酒会问题
克服你的第一个数据科学项目的 6 个初学者友好的技巧
识别：可信因果推断的关键
识别和利用时间序列预测的领先指标
使用因果机器学习识别 Spotify 歌曲流行的驱动因素
在 BigQuery 中使用 SQL 识别新客户和回头客
识别城市区域的热点
如果 AI 编码工具减少了我们需要的工程师数量，我们该如何支配预算？
如果工程师开始使用 AI 编码工具，我们的产品团队会发生什么？
如果口头和书面交流使人类发展了智力……那么语言模型怎么样？
如果你把生活视作游戏，你最好知道如何玩
不只是爬行动物：探索 Iguanas 工具包用于超越黑箱模型的 XAI
IID: 初学者的意义和解释
闪耀的洞察：GPT 从图表和表格中提取意义
揭开文本生成 AI 的黑箱
初学者的图像分类
使用 PyTorch 和 SHAP 进行图像分类：你能信任自动驾驶汽车吗？
使用 Vision Transformer 进行图像分类
使用预训练扩散模型进行图像合成
使用 Python 的图像滤镜
使用 ChatGPT 生成图像的代码
医学数据集的图像配准
5 分钟内的图像搜索
图像分割：深入指南
iMAP：实时建模 3D 场景
模仿模型与开源 LLM 革命
分水器和淋水屏对浓缩咖啡的影响
不完美揭示：我们 MLOps 课程创建背后的迷人现实
在 Python 中实现具有 TTL 功能的缓存装饰器
从头开始用 PyTorch Lightning 实现和训练 CNN
使用 Mage 在数据管道中实现行为驱动开发
在 PyTorch 中实现可解释的神经模型！
在 3 分钟内在单个 GPU 系统上进行多 GPU 训练
轻松用 Python 从头实现多分类支持向量机
Hugging Face 简介及 6 种 NLP 任务实现
Reluplex 的实现细节：一种高效的 SMT 求解器用于验证深度神经网络
在 Keras 和 TensorFlow 中实现 Siamese 网络
使用 LangChain 实现销售与支持代理
使用 JAX 和 Haiku 从头实现 Transformer 编码器 🤖
实施人工智能就像买车和开车（但有所不同）
在 PyTorch 中实现自定义损失函数
使用 fastai 实现深度学习——图像分类
从零实现 LoRA
将深度学习论文中的数学公式转化为高效的 PyTorch 代码：SimCLR 对比损失
在 PyTorch 中实现软最近邻损失
从头实现最速下降算法
从零实现 Vision Transformer (ViT)
使用 Python 的重要性采样
如何提升 Python 函数的性能
通过 OpenAI API 提升表格数据预测能力
通过早期停止改善你的提升算法
改善你的梯度下降：寻找最优步幅的史诗之旅
改进 Diffusers 包以生成高质量图像
通过智能提示改进希伯来语问答模型
通过解缠改进 k-Means 聚类
改善零-shot CLIP 的性能和可解释性
通过自适应损失平衡提升物理信息神经网络
在 RAG 管道中通过混合搜索提升检索性能
如何通过单元测试和 TDD 提高您 dbt 模型的代码质量
改进 Strava 训练日志
使用公共表表达式改进你的 SQL 逻辑
大型语言模型中的上下文学习方法
《使用 Devtools 创建和发布 R 数据包的深度指南》
将 Llama 2 的延迟和吞吐量性能提高多达 4 倍
分布式随机森林的推断
Kubernetes 的无限可扩展存储
使用 lazy_static 在运行时初始化 Rust 常量
《从数据到洞察：使用书店分析比较 SQL 和 Python 查询》
Inside GPT — I : 理解文本生成
GPT 内部 — II：提示工程的核心机制
检查数据科学预测：个人 + 负面案例分析
深度学习的实例选择
将分布式 Ray Serve 部署与 Kafka 集成
使用 Neo4j 和 APOC 将 LLM 工作流与知识图谱集成
将 Neo4j 集成到 LangChain 生态系统中。
神经网络的应用：推导正态分布的累积分布函数
与大型语言模型的互动
Excel 中的互动仪表盘
中级深度学习与迁移学习
使用数据中心可解释人工智能解释机器学习模型
解读随机森林
面试准备：因果推断
数据分析简介：“谷歌方法”
数据科学家的 Docker 容器简介
PyTorch 2：卷积神经网络
TorchData 介绍：Conceptual Captions 3M 的实操指南
介绍一个用于检测 GPT 生成文本的数据集
介绍 KeyLLM — 使用 LLM 进行关键词提取
介绍 PeekingDuck 计算机视觉
介绍 PyCircular：一个用于圆形数据分析的 Python 库
介绍 PyDicom 及其类、方法和属性
介绍 Python 的魔法方法
介绍 Python 的 Parse：正则表达式的终极替代品
介绍 Quix Streams：一个开源的 Python Kafka 库
介绍 Crystal Bar Chart：可视化序列差分聚类
介绍多弦图：可视化复杂集合关系
四种项目相似性度量的介绍
Apache Iceberg 表介绍
asyncio 介绍
聚类算法简介
使用{dplyr}进行 R 的数据操作入门
数据版本控制简介
嵌入式推荐系统介绍
预测集成简介
功能性 PyTorch 入门
假设检验与示例介绍
ICA 简介：独立成分分析
基于知识图谱的推荐系统介绍
PySpark 中的逻辑回归简介
马尔科夫链蒙特卡罗 (MCMC) 方法介绍
Python 中的数学优化介绍
机器学习部署简介：Flask、Docker 与 Locust
MLOps 原理介绍
mypy 介绍
使用 SciPy 的优化约束介绍
介绍 p 值和带有示例的显著性测试
使用 Sklearn、Pandas 和 Matplotlib 进行 PCA 的介绍
PyTorch 介绍
PyTorch 简介：从训练循环到预测
排名算法介绍
抽样方法介绍
语音增强简介：第一部分 — 概念与任务定义
语音增强介绍：第二部分 — 信号表示
统计抽样与重抽样介绍
流处理框架介绍
Open LLM Falcon-40B 简介：性能、训练数据和架构
权重量化简介
指数移动平均的直观解释
逆物理信息化神经网络
ChatGPT 真的智能吗？
ChatGPT 智能吗？一项科学评审
数据民主化是否被夸大了？
决策科学是否正在悄然成为新的数据科学？
F1 分数真的比准确率更好吗？
特征工程已经过时了吗？
生成性人工智能是否正在接管世界？
生成式 AI 是否值得其环境足迹？
医疗分析适合你吗？
你需要的是压缩吗？
Julia 比 Python 和 Numba 更快吗？
逻辑回归是回归模型还是分类模型？让我们结束争论
PandasGUI — 轻松数据分析的终极秘密
PyTorch 的 Nesterov 动量实现是否有误？
无服务器难以采纳吗？
偏差和方差之间是否总有权衡？
这是否是解决 P-hacking 的方案？
旅游是否恢复到 COVID 危机前的水平？
您的 LLM 应用程序准备好公开了吗？
依赖 GridSearchCV 的最佳模型是一个错误
是时候提升数据分析师的角色了
终于是时候告别 “git checkout” 了
这不仅仅关乎得分
在 Docker 中运行 Jaffle Shop dbt 项目
《发现者简：利用大语言模型增强因果发现（因果 Python）》
一月刊：成为更好的学习者
Java 和数据工程
爵士和弦解析与变压器
现代数据科学家必备的 Julia：5 个你不能忽视的卓越特性
Julia 魔法太少人知道
七月版：数据科学家的气候资源
六月精选：激发灵感的项目
初级开发者编写多页 SQL 查询；高级开发者使用窗口函数
Jupyter 已经拥有一个完美的文本编辑器：构建一个 Python IDE
Jupyter 已经有了完美的文本编辑器：这就是你可以配置它的方法
K-means 聚类：入门指南及实际应用
Kaiming He 初始化在神经网络中的数学证明
使用 Hydra 跟踪你的实验
让机器人不偏离伦理轨道
核密度估计逐步讲解
多维数据的核密度估计器
内核：你需要了解的一切
了解你的受众：技术演示准备指南
知识图谱嵌入基础
知识图谱转换器：构建动态推理以适应不断演变的知识
知识图谱、硬件选择、Python 工作流程及其他十一月必读内容
知识检索占据了中心舞台
KServe：基于 Kubernetes 的高可扩展机器学习部署
L1 与 L2 正则化在机器学习中的比较：区别、优势及如何在 Python 中应用
拉格朗日乘子、KKT 条件和对偶性——直观解释
🦜🔗LangChain：允许 LLMs 与你的代码互动
🦜🔗LangChain：通过记忆容量提升性能
LangChain 增加了 Cypher 搜索功能
🦜🔗 LangChain：文档上的问答代理
语言模型及其相关：Gorilla、HuggingGPT、TaskMatrix 及更多
用于句子补全的语言模型
PageRank 的可视化解释
大型语言模型和向量数据库在新闻推荐中的应用
大型语言模型作为零-shot 标注者
大语言模型：DeBERTa — 解码增强型 BERT 与解耦注意力
大型语言模型揭示了国家社会工作执照考试中的额外缺陷
大型语言模型在图灵测试和中文房间论证下的考量
大型语言模型在分子生物学中的应用
大型语言模型，MirrorBERT——将模型转化为通用的词汇和句子编码器
大型语言模型，StructBERT — 将语言结构融入预训练
大型模型遇见大数据：Spark 和 LLMs 的和谐
大型图像模型中的最新 CNN 核
数据质量的层次
懒惰评估使用递归 Python 生成器
我们应该了解的重要 MySQL 数据定义语言（DDL）命令，用于管理我们的表
通过“刻意练习”学习数据科学（或任何技能）
学习离散傅里叶变换（DFT）
学习 RabbitMQ 用于事件驱动架构（EDA）
学习成为数据科学领袖
学会“遗忘”机器
前向传递中的学习与推理：新框架
学习机器学习 | Maarten Grootendorst: BERTopic、数据科学、心理学
从机器学习中学习 | Vincent Warmerdam：Calmcode，Explosion，数据科学
通过代码学习数学：导数
学习网络游戏
以正确的方式学习新的数据科学技能
在职学习 Python 数据科学第一部分：哲学
数据科学中的 Python 学习实战第二部分：练习
为你的下一个 LangChain 项目学习基础知识
学习变压器代码第一部分第二部分——GPT 亲密接触
生成性人工智能的法律与伦理视角
Lesk 算法：一种用于文本分析中的词义消歧方法
扩展我们的数据科学视野
让我们谈谈数学（面向数据科学家）
在 Plotly 中提升你的数据讲述能力，使用动画柱状图
利用像 GPT 这样的 LLMs 分析你的文档或记录
利用聚合的力量
利用 Azure Event Grid 创建 Java Iceberg 表
利用数据分析进行可持续商业转型
利用 Llama 2 功能进行现实世界应用：使用 FastAPI、Celery、Redis 和 Docker 构建可扩展的聊天机器人
利用信息检索增强 LLMs：一个简单的演示
利用 LLM 和 LangChain 实现供应链分析——一个由 GPT 提供支持的控制塔
利用机器学习开发有效的营销策略
利用管理仪表板进行故事讲述：这是一个可行的途径吗？
利用运筹学提升呼叫中心效率
利用 qLoRA 对任务精调模型进行精调而不产生灾难性遗忘：以 LLaMA2(-chat)为例
10 分钟理解 Lineage 和 Hamilton
线性代数 1：线性方程和系统
线性代数 2：梯形矩阵形式
线性代数 3：向量方程
线性代数 4: 矩阵方程
线性代数：欧几里得向量空间
线性代数：使用 Python 寻找逆矩阵
线性代数：LU 分解与 Python
线性代数：矩阵运算及其属性，使用 Python
线性代数：正交向量
线性代数：线性方程组和矩阵，使用 Python
线性判别分析（LDA）可以如此简单
线性规划：理论与应用
线性回归深入探讨（第一部分）
深入解析线性回归（第二部分）
使用（仅）SQL 拟合回归模型的快速而粗糙的方法
线性回归、核技巧和线性核。
线性回归 — 预测机器学习建模的奥卡姆剃刀
将线性回归应用于 GPT 的七个步骤
线员静止性
使用 Python 进行语言指纹分析
如何使用 Python 列出所有 BigQuery 数据集和表
列表、元组、字典和数据框在 Python 中的完全指南
LLaMA：面向所有人的大型语言模型！
LlamaIndex：终极 LLM 框架，用于索引和检索
LLM 和 GNN：如何提升两种 AI 系统在图数据上的推理能力
LLM 经济学：ChatGPT 与开源
LLM 评估指南：如何构建和基准测试你的评估
LLM 用于合成时间序列数据生成
理解 LLM 幻觉
LLM 监控与可观测性——负责任 AI 的技术和方法总结
LLM 输出解析：函数调用与 LangChain
基于 LLM+RAG 的问题回答
LLMOps：与 Hamilton 一起进行生产级提示工程模式
每个人的 LLM：在 Google Colab 中运行 LangChain 和 MistralAI 7B 模型
LLMs，新型大规模虚假信息武器？
LMQL — 语言模型的 SQL
如何将多个 CSV 文件加载到 Pandas DataFrame 中
负载测试 SageMaker 多模型端点
使用 SageMaker 推理推荐器简化负载测试
局部光场融合
从头开始的模拟退火局部搜索
本地预测与全球预测：你需要知道的
初学者的对数变换
使用梯度下降的多类逻辑回归
逻辑回归：看似有缺陷
逻辑回归：对决与概念理解
Loguru: 简单如打印，灵活如日志记录
透过窗户——利用新的 DAX 函数计算客户生命周期价值
LoRA — 直观且详尽的解释
机器学习中的损失函数
在 DALL-E 3 翻译中迷失
低代码时间序列分析
Lucene 透视 — 处理整数编码和压缩
Ludwig — 一个“更友好”的深度学习框架
机器学习算法第一部分：线性回归
机器学习不仅仅预测未来，它还积极地创造未来
机器学习工程师——他们实际上做什么？
使用机器学习进行柔术
使用不平衡数据进行回归的机器学习
《机器学习插图：分类的评估指标》
机器学习图解：增量学习
机器学习的可视化：用 SHAP 揭开黑箱模型的面纱
非欧几里得空间中的机器学习
三步掌握机器学习：如何高效学习
机器学习并非你所需的一切：关于签名检测的案例研究
机器学习变得直观
机器学习必读：秋季专题
多输出数据集上的机器学习：快速指南
机器学习编排与 MLOps
机器学习技巧、与 ChatGPT 的学习以及其他近期必读书单
专家模型的机器学习：入门指南
机器学习的公众认知问题
魔法：聚会竞技场：用概率获胜
维护你的特征库的质量
使用 Seaborn 制作嵌套条形图
使用 Seaborn 制作打卡图
使用 GPT-3 创建文本总结器
使用 Python 制作美观（且实用）的意大利面图
用数据科学让每一分钱的营销投资都发挥作用
通过缓存函数提升 Python 速度：记忆化
用 UTF-8 让你的图表更出色
让你的图表看起来辉煌
让你的 sklearn 模型速度提高最多 100 倍
让你的表格看起来更华丽
通过这些技巧和窍门使你的表格数据在 CLI 中脱颖而出
让语言模型更像人脑
作为分析师的错误——以及应对策略
通过源分离实现音乐标记 AI 的可解释性
了解 A/B 测试的意义：通过困难问题更好地理解
理解大型语言模型的承诺（及风险）
2023 年从数据分析师转型为数据科学家
做出正确决策：AI 建议、决策辅助工具以及大语言模型的前景
使用 PyTorch、ONNX 和 TensorRT 将视觉变换器的预测速度提高 9 倍
使用 ipywidgets 让你的数据分析变得生动
管理一个联邦数据产品生态系统
使用 TOML 配置轻松管理深度学习模型
在单台机器上管理多个 CUDA 版本：全面指南
管理大数据应用程序的云存储成本
机器学习系统的技术债务管理
使用 Rclone 管理你的云数据存储
在编写 Apache Beam 管道时使用示例进行 Map、Filter 和 CombinePerKey 转换
轨迹预测中的地图匹配
使用 R 绘制南美洲地图：深入探讨地理可视化
映射全球自然再造林项目的潜力
《交通拥堵分析：使用图论》
使用 MapReduce 进行大规模数据处理
3 月版：数据与因果关系
以规模化方式掌握语义搜索：使用 FAISS 和 Sentence Transformers 在闪电般的推理时间内索引数百万份文档
使用 Versatile Data Kit (VDK) 掌握批量数据处理
使用 Hydra 精通机器学习中的配置管理
精通容器化：创建类似 Docker 环境的指南
使用信用卡交易数据掌握客户细分
掌握客户细分的终极技巧
掌握 Elasticsearch：强大搜索与精确性的初学者指南 — 第一部分
掌握 Apache Airflow 中的ExternalTaskSensor：如何计算执行增量
掌握 Python 中的迭代器和生成器
掌握语言模型
精通线性回归：有志数据科学家的终极指南
精通逻辑回归
精通 Python 中的长短期记忆：释放 LSTM 在 NLP 中的力量
掌握模型可解释性：对部分依赖图的全面分析
精通模块化编程：如何提升你的 Python 技能
精通蒙特卡洛：如何通过模拟提升机器学习模型
掌握 NLP：深度学习模型的深入 Python 编码
掌握机器学习中的 P 值
精通提示工程以释放ChatGPT的潜力
掌握 Python RegEx：深入探讨模式匹配
掌握来自 SAP 系统的数据集成与快速工程
精通 Python Asyncio 中的同步原语：全面指南
掌握机器学习工作流的艺术：变压器、估算器和管道的全面指南
掌握定价优化的艺术 — 一种数据科学解决方案
掌握回归分析的艺术：每个数据科学家应该了解的 5 个关键指标
掌握数据科学工作流程
掌握未来：评估利用 IaC 技术生成 LLM 数据架构
掌握未知领域与 GPT-4 和翻转互动模式
使用 Python 类掌握时间序列分析
掌握天气预报：利用 LSTM 深度学习模型释放 AI 的力量以实现准确的温度预测
现实世界中的数学：测试、模拟及更多
Matplotlib 提示，以立即提升你的数据可视化——根据《数据故事讲述》
Matplotlib 教程：将你的国家地图提升到另一个水平
逻辑回归中的矩阵和向量运算
数据流中的矩阵近似
GPU 上的矩阵乘法
通过选择最佳图表：网络图、热图还是桑基图来最大化你的洞察力？
随机变量参数的最大似然估计
五月刊：城市空间的数据
MDM作为您数据治理之旅的起点
平均绝对对数误差（MALE）：一种更好的“相对”性能指标
平均精确度@K（MAP@K）清晰解释
有意义的实验：5 个有影响力的数据项目，帮助打造更好的产品
测量新 Pandas 2.0 相对于 Polars 和 Datatable 的速度——仍然不够好
媒体组合建模：数据科学家避免陷阱的技术指南
认识 Gemini：谷歌最大、最强大的 AI 模型
缓存 DataFrame 函数
Apache Spark 中的内存管理：磁盘溢出
Meta AI 推出了突破性的图像分割模型，该模型基于 10 亿个掩码进行训练。
Meta AI 的另一个革命性大规模模型——DINOv2 用于图像特征提取。
元启发式方法解析：蚁群优化
Julia 中的 Metal 编程
META 的 Hiera：降低复杂性以提高准确性
客户终身价值建模的方法：好东西和陷阱
指标层：所有 KPI 定义的唯一真实来源
指标存储的实际应用
微软与谷歌：语言模型是否会超越搜索引擎？
微软的新 AI 方法预测分子如何移动和功能
迁移数据？充分利用产品本身！
微型神经网络用于吉他效果与微控制器
SQL 中的最小会议室问题
缺失数据解密：数据科学家的绝对入门指南
您的数据产品中的缺失特性
Mistral 7B：在您的计算机上进行微调和量化的配方
高基数分类变量的混合效应机器学习 — 第 I 部分：不同方法的实证比较
高基数分类变量的混合效应机器学习 — 第二部分：GPBoost 库
使用 GPBoost 进行纵向数据和面板数据的混合效应机器学习（第三部分）
使用 GPBoost 进行分组和区域空间计量经济数据的混合效应机器学习
混合整数线性规划：正式定义与解空间
Mixtral-8x7B: 理解和运行稀疏专家混合模型
混合模型、潜变量和期望最大化算法
PINNs 的专家混合（MoE-PINNs）
深度会话推荐系统中的 Softmax 混合模型
机器学习基础（第四部分）：决策树
使用 DynamoDB 进行 ML 工程
“ML-Everything”？在科学中的机器学习方法中平衡数量与质量
ML 模型注册中心——绑定模型实验和模型部署的“接口”
MLOps 简化版：如何使用 Azure 机器学习组件运行批量预测管道
MLOps 节奏：战略目标如何创造更快的迭代？
MLOps-技巧与窍门-75 个代码片段
MLOps — 了解数据漂移
MLOps：什么是操作节奏？
Optuna 下的 MLOps
MLX vs MPS vs CUDA：基准测试
模型使用：推理发生在训练之后，而不是训练期间
时间序列预测中的模型评估
模型可解释性，再次探讨：SHAP 及其他
无模型强化学习在化学过程开发中的应用
使用 TensorFlow 进行模型优化
通过版本控制进行模型回滚
不平衡数据模型选择：仅凭 AUC 可能无法拯救你
使用多项式回归建模脑电图信号
使用马尔可夫链建模游戏
从基本原理建模旅行推销员问题
使用 GEKKO 以确定性方式建模世界
使用傅里叶变换对可变季节特征进行建模
现代数据工程
现代数据仓库
使用 Python 进行现代路线优化
现代图像语义搜索
监控机器学习模型：数据科学家和机器学习工程师的基础实践
监控机器学习模型的生产：为什么和如何？
监控生产环境中的 NLP 模型
使用 GEE 在全球范围内监测海表温度
监控无结构数据以用于 LLM 和 NLP
单目深度估计预测火星表面高程
蒙特卡罗近似方法：你应该选择哪一种，何时使用？
蒙特卡洛方法
关于道路网络匹配的更多内容
带有仿真的形态学操作（CV-05）
激励自注意力
Moto、Pytest 和 AWS 数据库：质量与数据工程的交汇点
使用 Neo4j 的电影推荐
多臂老虎机应用于执行算法中的订单分配
多维探索是可能的！
用于神经退行性疾病分类的多层神经网络
多层感知器的解释与说明
多区域数据源
多阶段推荐系统构建方法
多任务架构：综合指南
多任务机器学习：同时解决多个问题
推荐系统中的多任务学习：基础知识
多层次回归模型与辛普森悖论
用 R 进行的多层回归
使用 Azure ML 和 MONAI 的多模态 3D 脑肿瘤分割
多模态思维链：在多模态世界中解决问题
R 中的多项逻辑回归
PyTorch 中的多 GPU 训练及其替代方案：梯度累积
结构方程模型中的多组分析
多元线性回归：深入探讨
多变量分析 — 超越一次一个变量
主成分分析中的多变量过程控制，使用 T² 和 Q 误差
MusicGen 重新构想：Meta 在 AI 音乐领域的低调进展
MusicLM — 谷歌是否解决了 AI 音乐生成问题？
穆布里奇德比：利用人工智能使动物运动照片栩栩如生
我的亚马逊经济学家面试
我对 DevOps 和 DataOps 的经验
我与 ChatGPT 的第一次探索性数据分析
我的#30DayMapChallange 第一周
我成为更好的数据科学家的五个关键学习心得
我的#30DayMapChallange 第四周
我在人工智能领域获得博士学位的旅程
我在#30DayMapChallange 的第二周
我的 #30DayMapChallange 第三周
我的（非常）个人数据仓库
朴素贝叶斯分类
从头开始的朴素贝叶斯分类器，使用 Python
从零开始的朴素贝叶斯与 TensorFlow
命名实体与新闻
Python 标准库中的 NaN 值
学习 Transformers 代码优先：第一部分 — 设置
XGBoost 如何原生支持类别特征？
使用 Spotify 的 Pedalboard 进行自然音频数据增强
自然语言基础——情感分析、机器翻译和命名实体识别的介绍与语言模型实现
自然语言处理初学者指南
自然语言处理不仅仅是聊天机器人
行业特定 AI 的导航：从过渡性英雄到长期解决方案
导航制图挑战：#30 天地图挑战中途进行中
探索聚类领域
探索大语言模型的领域
使用 PySpark 的 NBA 分析
最近邻回归器 — 可视化指南
需要速度：将 Pandas 2.0 与四个 Python 加速库进行比较（附代码）
嵌套字典 Python——Python 嵌套字典的完整指南
解释性神经基础模型
神经图数据库
神经网络 — 初学者指南 (1.1)
神经网络作为决策树
具有多个数据源的神经网络
神经原型树
新的 ChatGPT 提示工程技术：程序模拟
新数据表明 2023 年是有史以来最热的夏天
最新的 DeepMind 工作揭示了语言模型的极致提示种子
音频机器学习的新领域
新版 Scikit-Learn 更适合数据分析
新的 SHAP 图：小提琴图和热图
牛顿运动定律：最初的梯度下降
创建快速、安全且兼容的数据结构的九条规则（第一部分）
在 Rust 中创建快速、安全和兼容的数据结构的九条规则（第二部分）
在网络和嵌入式系统上运行 Rust 的九条规则
Rust 代码 SIMD 加速的九条规则（第一部分）
你的 Rust 代码的 SIMD 加速九大规则（第二部分）
用 Dafny 正式验证 Rust 算法的九个规则（第一部分）
使用 Dafny 正式验证 Rust 算法的九条规则（第二部分）
2022 年 NLP 初创公司融资情况
使用 Python 进行 NLP：知识图谱
无代码机器学习平台：福音还是祸根？
TensorFlow 中不再出现 OOM 异常
数据科学中没有“科学”？
NODE：专注于表格数据的神经树
非负矩阵分解（NMF）用于图像数据的降维
非参数检验入门（第一部分：秩和符号检验）
非线性维度降低、核 PCA（kPCA）和多维尺度分析— Python 简单教程
不必 A/B 测试一切都是好的
并非全是彩虹和阳光：ChatGPT 的阴暗面
不那么庞大的语言模型：优质数据打败巨人
那么，为什么我们应该关心推荐系统呢？特邀：对汤普森采样的简要介绍
现在你看到我 (CME): 基于概念的模型提取
np.stack() — 如何在 Numpy 和 Python 中堆叠两个数组
NP-什么？优化问题的复杂性类型解释
NT-Xent（归一化温度调节交叉熵）损失函数的解释及在 PyTorch 中的实现
NumPy 广播
探究字符级 RNN：基于 NumPy 的实现指南
使用 RetinaNet 和 KerasCV 的目标检测
面向对象的数据科学：重构代码
无需 OCR 的文档数据提取与变换器 (1/2)
无 OCR 文档数据提取与变换器（2/2）
哦，你是说“管理变革”？
好的，你已经训练了最好的机器学习模型。接下来做什么？
关于 A/B 测试和携带效应
关于人工智能与推理的类型
数据驱动的方程发现
在代表性不足的群体面前的学习
关于压缩大数据的重要性
在 DAX 度量中使用中间结果
关于机器为何能够思考
在生成式 AI 时代发展数据职业
One Hot 编码
一步使决策树产生更好的结果
只有在你知道如何独立完成任务时才使用 LLMs
ONNX：用于可互操作深度学习模型的标准
OpenAI API — ChatGPT 背后的模型介绍与实现
OpenAI 的网络爬虫和 FTC 失误
openCypher* 针对任何关系数据库
通过物理启发的 DeepONet 进行算子学习：从头开始实现
Optical Flow with RAFT: 第一部分
RAFT 中的光流：第二部分
优化需求满足：行业方法
深度学习中的神经网络优化
优化：Python 中的容量限制设施选址问题
优化：牛顿-拉夫森方法的几何解释
优化、牛顿法与利润最大化：第一部分 — 基本优化理论
优化、牛顿法与利润最大化：第二部分——约束优化理论
优化、牛顿法与利润最大化：第三部分 — 应用利润最大化
优化还是架构：如何破解卡尔曼滤波
优化数据仓库存储：视图与表
优化浏览分类法
优化连接：图中的数学优化
使用 C 优化 LLM，并在您的笔记本电脑上运行 GPT、Llama 和 Whisper
在 Apache Spark 中优化输出文件大小
通过选择性知识图谱条件优化检索增强生成（RAG）
使用遗传算法在 Python 中优化电视节目调度
优化度假小屋租赁收入
优化向量量化方法的机器学习算法
在 Mac 上优化 VS Code 以适应 dbt
优化您的策略：超越 A/B 测试的方法
Orca: 正确模仿专有 LLMs
使用 LLM 编译器框架有效协调知识图谱的推理
机器学习风险管理中的组织过程
使用 Pants 组织机器学习单一仓库
组织生成式人工智能：数据科学团队的 5 个经验教训
其他机器学习术语：文本的稀疏和密集表示
我们的 MLOps 故事：为十二个品牌提供生产级机器学习
单变量数据集中的分布拟合异常值检测
主成分分析与霍特林 T2 及 SPE/DmodX 方法的异常值检测
异常值检测与 Scikit-Learn 和 Matplotlib: 实用指南
克服自动语音识别挑战：下一个前沿
克服开发者障碍
克服成为数据科学家的一些最糟糕的部分
克服大型语言模型的局限性
过拟合、欠拟合与正则化
概述全球巧克力贸易
p 值：以简单语言理解统计显著性
佩速、努力和耐力
填充大型语言模型 — 使用 Llama 2 的示例
PaLM：高效训练大型语言模型
Pandas 2.0：数据科学家的游戏改变者？
Pandas: apply、map 还是 transform？
Polars: Pandas DataFrame 但更快
时间序列的 Pandas
Pandas & Python 数据科学与数据分析技巧 — 第二部分
Pandas & Python 数据科学与数据分析技巧——第三部分
Pandas 和 Python 数据科学与数据分析技巧——第四部分
Pandas 和 Python 数据科学与数据分析技巧 — 第五部分
如何将 Pandas DataFrame 写入 CSV 文件
Pandas 与 Polars：语法和速度比较
Pandas: 处理你的数据类型！
论文解读——《基于潜在扩散模型的高分辨率图像合成》
论文综述：深度解析 Imagen
在 Pandas 中并行化 Python：使用 Spark 的并发选项
LLMs 的参数高效微调 (PEFT)：全面介绍
帕累托、幂律与胖尾
Parquet 最佳实践：在不加载数据的情况下发现你的数据
使用 Python 解析 HL7
在人道主义数据集中解析不规则电子表格（借助 GPT-3 的帮助）
粒子群优化：搜索过程可视化
PatchTST：时间序列预测中的突破
多变量时间序列的主成分分析：动态高维数据的预测
PCA/LDA/ICA：组件分析算法比较
PCA 与自编码器在小数据集上的降维比较
Pearson、Spearman 和 Kendall 相关系数，手动计算
人员分析是新的热门话题，了解它的原因在于此
感知机：第一个神经网络模型
机器学习模型的性能评估技术
快速修复你缓慢的 Python 代码
使用 Python 和 OpenCV 进行图像注释
哲学与数据科学——深入思考数据
哲学与数据科学——深刻思考数据
PID 控制器优化：梯度下降方法
开创数据可观察性：数据、代码、基础设施与人工智能
Pip 安装特定版本 — 如何使用 Pip 安装特定 Python 包版本
Pipeline Dreams: 在 AWS 上自动化机器学习训练
Scikit-Learn 中的管道：一种打包转换的绝妙方法
产品实验中的陷阱
摆脱电子表格的束缚
Pandas 中的透视表及使用 Python 处理多重索引数据的实用示例。
使用 Python 实现、解决和可视化旅行推销员问题
如何预测玩家流失，借助 ChatGPT 的一些帮助
玩转苹果健康数据
请：在数据科学中不要再抛硬币了
请停止错误绘制神经网络
请使用流工作负载来评估向量数据库性能
在框架之外绘制 — 使用 Python 替代矩形图表的 8 种圆形图表
使用 Python 和 Plotly Express 绘制流数据
如何在 Matplotlib 中绘制垂直和水平线
Plotly 和 Pandas：结合力量实现有效的数据可视化
Plotly 和 Python：为岩心物理和地质数据创建互动热图
在 Python 中绘制和弦图
使用 Python 绘制网络图
在 Python 中绘制维恩图
POCS 基于的聚类算法解释
2022 年 EMNLP 上的诗歌、花卉和龙
Python 依赖管理：你应该选择哪个工具？
R 中的泊松回归
将你的分析团队定位到正确的项目上
使用 Python 和 Linux 的后量子密码学
数据驱动讲故事中的上下文力量
实用的预算优化方法在营销组合建模中的应用
使用 Python 进行时间序列异常检测的实用指南
实用介绍 Transformer 模型：BERT
使用 Azure ML 实现实用的 MLOps
实用的提示工程
实用 Python：spaCy 在 NLP 中的应用
实用的探索性数据分析改进技巧
“实际”构建图像分类器
预训练上下文是你所需的一切
精准聚类简化版：kscorer 的自动选择最佳 K-means 聚类指南
使用 Python 预测人类表现的极限
使用卷积网络预测结核分枝杆菌的药物耐药性 — 论文评审
预测高急诊室使用率
使用 GPT-3 预测人道主义数据集的元数据
预测 NBA 薪资的机器学习方法
预测星巴克奖励计划的成功
使用 XGBoost 预测水泵的功能性
什么是泊松分布
各种逻辑回归模型的预测（第一部分）
各种逻辑回归模型的预测（第二部分）
预测性能漂移：另一面的硬币
准备应对气候变化与 AI 助手
用故事地图互动展示空间数据 #2
使用网络地图展示空间数据
贝叶斯深度学习入门
隐私政策
私有 GPT：在企业数据上微调 LLM
专业级 GPU 系统 vs 消费级 GPU 系统用于深度学习
使用回归进行二元事件的概率预测
使用 TensorFlow 进行概率逻辑回归
概率机器学习与分位数匹配：一个 Python 示例
主成分分析的概率视角
数据分析师实际生活中的概率面试问题
探讨最小样本量公式：推导与应用
使用广义加性模型（GAMs）生成见解
产品经理必须决定：功能还是用户设计
使用无服务器容器服务将机器学习模型生产化
工作效率技巧、数据职业见解及其他近期必读内容
使用 cProfile 对 Python 代码进行性能分析
程序辅助语言模型
通过 Go 和 Metal Shading Language 编程苹果 GPU
在三维中编程：我迈出的量子计算第一步
促销预测：零售巨头的案例研究
是时候开始讨论 LLMs 中的提示架构了吗？
提示工程 101：零样本、单样本和少样本提示
提示工程可能是 2024 年最热门的编程语言——原因如下
程序仿真提示框架的定义：Prompt Engineering Evolution
算术推理问题的提示工程
提示工程指南
提示工程：如何让 AI 解决你的问题
提示工程技巧、神经网络操作指南及其他近期必读书目
提示集使 LLMs 更可靠
倾向评分匹配（PSM）用于 A/B 测试：减少观察研究中的偏差
Python 中的协议
使用 Python 进行邻近分析以找到最近的酒吧
医学自然语言处理的公共基准
Pump & Dump 萨拉米浓缩咖啡 shot
南瓜香料时间序列分析
推动双塔模型的极限
对 AI 驱动的数据分析师进行测试
对你的预测模型进行测试：回测指南
PyCon 珍品：精选 PyCon DE 2023 中卓越讲座的精选集
使用 PyMC-Marketing 进行客户生命周期价值预测
如何修复 TypeError: ObjectId 不是 JSON 可序列化的
Python 中的 pyproject.toml 是什么
PyrOSM：处理开放街图数据
PyScript.com：云中的 PyScript IDE
Python 和超越：扩展你的数据科学编程工具包
Python 中的 args、kwargs 以及传递参数给函数的所有其他方式
Python 断言，或检查猫是否是狗
Python 可调用对象：基础和秘密
《Python 类简易入门：面向对象编程的权威指南》
我的 Python 脚本如何更像自然对话
Python：正确计算积分
Python 装饰器：全面指南
我在几乎所有数据科学项目中使用的 5 个 Python 装饰器
Python dictcomp 管道示例
Python enumerate() 函数解释
Python 异常测试：清晰而有效的方法
Python 数据工程师
Python getattr() 函数解释
Python help() 函数解释
Python 继承：你应该继承自 dict 还是 UserDict？
Python：init 不是构造函数：深入探讨 Python 对象创建
Python 列表：处理有序数据集合的终极指南
Python 列表与 NumPy 数组：深入探讨内存布局和性能优势
Python Meets Pawn 2：基于开局的国际象棋大师聚类
Python 遇见棋子：通过数据分析解码我的棋局开局
Python 在网络上
Python OOP 教程：如何创建类和对象
Python OPP 以及为何 repr() 和 str() 重要
解释 Python ord() 和 chr() 函数
Python Pandas 到 Polars：数据过滤
Python 怪癖：了解如何通过一个不返回任何东西的函数来修改变量
Python sorted() 函数解析
Python 字符串数据类型解释
从 Python 到 Rust：破解 3 大障碍
从 Python 到 Rust：你必须了解的虚拟环境的一切
Python 元组，真相大白，只有真相：你好，元组！
Python 元组，真相和唯一的真相：深入探讨
Python 类型提示：鸭子类型兼容性和与一致
Python 类型提示：从类型别名到类型变量和新类型
Python 类型提示在数据科学项目中：必须、可能还是不推荐？
Python 类型提示与字面量
Python 类型：可选的可以是强制的
Python 水质 EDA 和可饮性分析
Python 水印：旧 vs 新，笨重 vs 干净 — 你会选择哪个？
对 Python 3.12 的期待
PyTorch 初学者图像分类教程
PyTorch 介绍 — 构建你的第一个线性模型
PyTorch 简介——张量与张量计算
PyTorch 模型性能分析与优化
PyTorch 模型性能分析与优化——第二部分
PyTorch 模型性能分析与优化 — 第三部分
PyTorch 模型性能分析与优化 — 第六部分
QA-LoRA：在你的 GPU 上微调量化的大型语言模型
QLoRa：在你的 GPU 上微调大型语言模型
QQ 图绘制你的数据启蒙：分布的银河系旅行指南
量化 GPT-4 的隐藏回归
使用 GTFS 数据量化交通模式
分位数损失与分位数回归
量化及其他：将 LLMs 的推理时间减少 80%
咖啡数据中的数量与质量
使用 GGUF 和 llama.cpp 对 Llama 模型进行量化
量子计算机在人工智能和机器学习革命中的作用
量子计算完全初学者指南
量子计算在优化问题中的应用——解决背包问题
量子比特魔法：用量子计算创建神话生物
在 Azure “Prompt Flow” 中以 GPT 模式查询文档语料库
PowerBI 中的快速而简单的时间序列预测：实用指南
使用 R 进行快速文本情感分析
快速评估你的 RAG，无需手动标注测试数据
R 数据分析：如何为您的孩子找到完美的 Cocomelon 视频
R 工具包用于人力分析：讲述你的员工人数故事
径向树图：将树图扩展到圆形映射
RAG：如何与您的数据交流
RAG 与微调——哪种是提升你的 LLM 应用的最佳工具？
使用 ggplot2 提高对气候变化的意识
随机森林与缺失值
2023 年的随机森林：一种强大方法的现代扩展
机器学习中的随机数
随机变量和概率分布
随机化非常大的数据集
SQL 中的 RANK() 与 DENSE_RANK() 和 ROW_NUMBER()
使用 PCA 在 PySpark 中对钻石进行排名
伴我阅读：因果关系书籍俱乐部
实时火车乘客拥挤度预测
如何检测 LLM 中的幻觉
现实世界的问题以及数据如何帮助我们解决这些问题
RecList 2.0：开源系统化测试 ML 模型
推荐系统：基于矩阵分解的协同过滤
使用 TensorFlow 推荐系统的隐式反馈推荐系统
重新创建 Andrej Karpathy 的周末项目 — 电影搜索引擎
从基础到高层次讲解和可视化的递归神经网络
递归化学反应
通过大型语言模型重新定义对话式人工智能
减少你的 Cloud Composer 账单（第一部分）
减少 Cloud Composer 账单（第二部分）
反思十年数据科学实践
如何在 Pandas 中使用正则表达式模式处理复杂字符串
现代偏好引导中的回归与贝叶斯方法
神经网络中的正则化
正则化为何真的有效？
正则化：避免机器学习中的过拟合
规制人工智能：基于机制的方法
监管生成式 AI
强化学习：价值迭代的简单介绍
强化学习基础：理解马尔科夫决策过程背后的随机理论
强化学习在库存优化中的应用系列 III：从模拟到现实的 RL 模型转移
费曼-蒂尔福德算法解析及演示
ReLoRa: 在您的 GPU 上预训练大型语言模型
用 Python 去除 Landsat 卫星图像中的云层
替换视觉 AI 模型中的手动归一化为批量归一化
Reprompting: LLMs 的自动化问题解决优化
研究人道主义灾难情况报告聊天机器人 — 使用 GPT-4-Turbo 和完整上下文提示
使用 LangChain 和 GPT-4 研究多语言 FEMA 灾难机器人
在无需重新训练的情况下重塑模型的记忆
重新思考数据科学组合
检索增强生成——直观而全面的解释
检索增强生成（RAG）：从理论到 LangChain 实现
使用 LangChain 在 CPU 上的检索增强生成（RAG）推理引擎
复古数据科学：测试 YOLO 的首个版本
逆向工程数据库模式和质量检查：GPT 与 Bard
数据库模式的逆向工程：GPT 与 Bard 与 Llama2（第 2 集）
重新审视数据科学的消亡
利用新图形工具彻底改变你的二分类分析，这一版本的 binclass-tools
语言障碍的革命：掌握多语言音频转录和语义搜索
Rise Up! 使用数据和 Home Assistant 为我的站立式办公桌建立警报系统
一张图表中的博弈论与风险管理
RLHF: 来自人类反馈的强化学习
道路网络边缘匹配与三角形
大型语言模型：RoBERTa——一种强健优化的 BERT 方法
石头剪刀布：量子计算的妙趣
图形神经网络中的罗马数字分析
轮换值班以进行操作和支持：数据团队的必需品
使用 Rasterio 旋转栅格
仅在另一个 DAG 成功时运行 Airflow DAG
使用 PHP 在你的网站上运行 ChatGPT 和 GPT 模型
在 Jupyter Notebook 中与 ChatGPT 运行交互式会话
在你的 GPU 上运行 Llama 2 70B 使用 ExLlamaV2
在 Julia 中后台运行任务
在 GCP 上运行稳定扩散集群并使用 tensorflow-serving（第一部分）
在 GCP 上使用 tensorflow-serving 运行稳定扩散集群（第二部分）
在 CPU 上使用 Hugging Face Pipelines 运行 Falcon 推断
在本地运行 Llama 2 进行文档问答的 CPU 推理
通过 Excel VBA 运行 Python —— 时间序列重采样的案例
在 Databricks 中使用自定义 Docker 容器运行 Python Wheel 任务
在 Jupyter Notebook 中使用 JupySQL、DuckDB 和 MySQL 运行 SQL 查询
使用 Pandas AI 跑步：对波士顿马拉松的探索
Rust Polars：解锁高性能数据分析 — 第一部分
Rust Polars：解锁高性能数据分析 — 第二部分
Rust: 数据科学中的下一个大事
Rustic Data: 使用 Plotters 的数据可视化 — 第一部分
SaaS AI 特性与无护城河的应用相遇
保护 LLM 的防护措施
保护你的 RAG 管道：实施 Llama Guard 与 LlamaIndex 的逐步指南
数据分析中的抽样技术
采样——数据科学中的无名英雄
通过避免这 3 个代价高昂的错误来拯救你的 A/B 测试
使用 Pydeck 告别平面地图
说一遍！重复的话语并未帮助 AI
Sb3，应用 RL 的瑞士军刀
大型语言模型：SBERT — Sentence-BERT
使用 Kubernetes 和 Seldon Core 进行可扩展服务：教程
扩展聚合聚类以适应大数据
SCD2 技术的语义
场景图生成及其在机器人学中的应用
场景表示网络
在 Windows 桌面/Azure 虚拟机上自动调度 Python 脚本运行
使用 Jupyter API 调度和调用笔记本作为网络服务
科学、激情与多目标优化的未来
机器翻译研究中的科学可信度：陷阱与有前途的趋势
科学家们正接近首次近原子级别的整体细胞模拟。
Scikit-LLM：在 scikit-learn 框架内使用 LLMs 提升 Python 文本分析能力
Jupyter Notebooks 和 Google Colab 的 Scratchpad 插件
Seaborn 0.12：对象接口和声明式图形的深度指南
使用 GitHub Actions 在 GCP 上实现无缝 CI/CD 管道：你进行有效 MLOps 的工具
无缝数据分析工作流：从 Docker 化的 JupyterLab 和 MinIO 到利用 Spark SQL 的洞察
给你的 AB 测试实验调味
成功细分的秘密
揭示对数损失的秘密
使用扩展的 Databricks MLFlow 保障 MLOps 的安全
保护你的容器化模型和工作负载
查看你使用 SAM 的分割效果
通过声音看见世界：利用 GPT-4V(ision)和文本转语音技术赋能视觉障碍者
Segment Anything 3D for Point Clouds: 完整指南 (SAM 3D)
Segment Anything: 可提示的任意对象分割
将文本分段成段落
使用 NLP 将文本分割成句子
R 中的 SEIR 建模使用 deSolve — 鹿中的慢性消耗性疾病
在 SageMaker 中选择正确的 XGBoost 损失函数
自助数据分析的需求层次
自监督学习在计算机视觉中的应用
使用投影头的自监督学习
使用 PostgreSQL 和 OpenAI 嵌入实现语义搜索
使用 BERT 进行语义文本相似度分析
预测建模中的敏感性：用更少的流量购买付费客户的指南
句子变换器：伪装中的意义
情感分析与时间序列文本数据中的结构性断裂
九月还是“Septemquake”？用 R 分析和可视化墨西哥的地震活动数据
从你的电脑上提供大语言模型服务，通过文本生成推理
使用 TorchServe 服务 ML 模型
为 2024 年数据科学家的更高质量工作与生活平衡设定这些界限
为数据科学设置 Flask 应用
设置 Python 项目：第 V 部分
设置 Python 项目: 第六部分
使用 Scikit-Learn 的 SGDRegressor：你需要知道的未授课程
SHAP：在 Python 中解释任何机器学习模型
二元和多类目标变量的 SHAP
SHAP 用于时间序列事件检测
SHAP 与 ALE 在特征交互上的对比：理解冲突的结果
使用 ONets 进行形状重建
用 SQL 进行数据塑形
照亮您数据科学之旅的可转移技能
最短路径（Dijkstra）算法：一步步的 Python 指南
深度伪造技术是否应该开源？
我真的应该吃这个蘑菇吗？
我们是否应该更依赖数据？有时候。
我们是否应该虚拟化我们的数据科学系统——还是不虚拟化？
你应该使用 slots 吗？Slots 如何影响你的类，何时以及如何使用它们
在你的 Medium 博客中展示 Streamlit 应用
Siamese 神经网络与三重损失和余弦距离
相似性搜索，第三部分：结合倒排文件索引和产品量化
相似性搜索，第一部分：kNN 与倒排文件索引
相似性搜索，第四部分：分层可导航的小世界（HNSW）
相似性搜索，第五部分：局部敏感哈希（LSH）
相似度搜索，第六部分：使用 LSH 森林的随机投影
相似性搜索，第七部分：LSH 组合
相似性搜索，第二部分：产品量化
基本统计概念的简单解释（第二部分）
使用 Streamlit 进行简单调查
促进员工之间联系的简单工具
提高零-shot CLIP 性能的简单方法
在 Amazon ECS 上将机器学习模型作为 Flask API 部署的简单方法
在 Python 中创建合成数据集的简单方法
用 Hamilton 在 8 分钟内简化 Airflow DAG 的创建和维护
使用 BigQuery SQL 用户定义函数简化数据清洗
使用 Fugue 和 Python 简化 BigQuery 上的数据科学工作流
简化文件共享
用这四个鲜为人知的 Scikit-Learn 类简化你的数据准备
简化你的机器学习项目
简化 Matplotlib 中子图的创建
简化 Transformers：用你理解的词汇解析最前沿的 NLP —— 第四部分 —— 前馈层
简化变换器：使用你理解的词汇的最先进的 NLP — 第五部分 — 解码器与最终输出
带重启策略的模拟退火
模拟主题公园：用 R 理解队列时间
使用 Python 模拟系外行星发现
使用 Python 模拟物理系统
模拟扑克牌游戏‘战争’
模拟 101：导热传输
仿真 104：使用向量场的电磁映射
模拟 105：双摆模型的数值积分
模拟 106：使用网络建模信息扩散和社会传染
仿真优化：帮助我的朋友建模和优化他公司的支持台
单一 Python 包以满足 99% 的路径需求
奇异值分解（SVD）揭秘
奇异值分解与特征分解在降维中的比较
影响我数据职业生涯的六本书
Sketch: 一个有前景的 AI 库，帮助直接在 Jupyter 中处理 Pandas 数据框
带有异常值的偏度和峰度
现代 ML 工程师的 Sklearn 管道：你不能忽视的 9 种技术
Sklearn 教程：第 1 模块
Sklearn 教程：第二章
Sklearn 教程：模块 3
Sklearn 教程：模块 4
使用“&”和“|”而不是“and”和“or”来切片 Pandas 数据框
Pandas 中的滑动窗口
狡猾的科学：数据开采曝光
所以你的 AI 究竟有多公平？
Sobel 算子在图像处理中的应用
使用 NetworkX 进行社会网络分析：温和的介绍
在数据分析中，软技能胜过技术技能
软技能是你在数据科学面试中脱颖而出的关键
编写可维护机器学习代码的软件工程最佳实践
敏捷项目中的软件规范
像数据科学家一样解决神秘盒子
揭开锯齿状 COVID 图表的谜团
使用强化学习解决 Leetcode 问题
解决所有 Apple Silicon 上的 Python 依赖问题
解决通用线性模型中的自相关问题的实际应用
使用 PyTorch Profiler 和 TensorBoard 解决数据输入管道瓶颈
使用 Python 解决地理旅行推销员问题
解决逆问题的物理信息深度操作网络：带有代码实现的实用指南
像我们一样学习的机器：解决泛化-记忆困境
使用离策略蒙特卡洛控制解决强化学习赛道练习
使用 Q 学习解决出租车环境——教程
使用深度强化学习解决 Unity 环境
LLM 提示中的思维链：结构化 LLM 推理概述
如何按多个列在 R 中对数据框进行排序
使用 Typescript 进行空间数据工程
对我说话：一个模型阅读了多少个词
说话探针：自解释模型？
我们正在变化的全球村
专门化的 LLM：ChatGPT、LaMDA、Galactica、Codex、Sparrow 等
投机采样 — 直观且全面的解释
使用 LLMs 为你的移动应用提供语音和自然语言输入
使用 Python 的速度打字测试项目
使用 R 树加速你的地理空间数据分析
加速你的 Python 技能
在 Mozilla Common Voice 上的口语语言识别——音频变换。
Mozilla Common Voice 上的口语语言识别——第一部分。
在 Mozilla Common Voice 上的语音语言识别 — 第二部分：模型。
30 个 SQL 查询通过它们的 Pandas 等效体进行解释
SQL 在 Pandas 上——我新的最爱，速度提升 10 倍。
测试你的智慧的 SQL 谜题
SQL 用户：使用这一技巧将你的查询长度缩短一半
利用 SQL 中的分析函数加速数据提取
SquirrelML：预测纽约中央公园的松鼠接近行为
Stable Diffusion 作为 API：创建一个去除人物的微服务
稳定扩散：掌握室内设计的艺术
我如何通过堆叠集成模型在欧洲最大机器学习竞赛中获得前 10%
堆叠时间序列模型以提高准确性
StackOverflow 的转型：从颠覆到机遇
你应该在 FAANG 还是初创公司开始你的职业生涯？
时间序列的平稳性——全面指南
使用重采样的统计实验
统计独立性入门
使用 Julia 进行统计绘图：AlgebraOfGraphics.jl
统计学 Bootcamp 8：两个均值的故事
稳定航向：导航 LLM 应用程序评估
步骤基础：文本分类器
数据科学家的指南：将洞察力转化为有影响力的行动
逐步指南：通过从单变量分布中采样生成合成数据
理解的垫脚石：知识图谱作为可解释链式思维推理的支撑
3D 跟踪的立体视觉系统
网络交流让我找到工作，即使我曾被拒绝，看看我是怎么做到的。
停止在数据科学项目中硬编码——改用配置文件
停止使用 PowerPoint 来做你的机器学习演示，试试这个替代工具
在 TensorFlow 记录文件中存储图像
可视化故事讲述——哪个区域的社会经济评分最高，为什么
使用图表讲故事
用图表讲故事
用图表讲故事
图表讲故事
图表讲故事
用表格讲故事
战略数据分析（第二部分）：描述性问题
战略数据分析（第一部分）
《战略数据分析（第三部分）：诊断性问题》
从云存储中流式传输大数据文件
数据工程中的流数据
使用笔记本风格工作区简化 dbt 模型开发
使用 GPT-3 精简你的文档
优化 Azure 虚拟机性能并降低成本：提升效率的可靠策略
在探索性数据分析中简化重复任务
精简无服务器 ML 推理：释放 Candle 框架在 Rust 中的力量
Streamlit 和 MongoDB：在云端存储你的数据
Streamlit 教程：为数据科学项目创建 Word 报告
压力测试你的 NLP 模型
结构化您的云实例启动脚本
将你的机器学习项目与 MLOps 思维相结合进行结构化
使用分布式随机森林研究美国性别工资差距
数据科学成功秘诀：你在大学里没有学到的 4 项关键技能
通过技术图示实现 ML 项目的成功
总结最佳实践以进行提示工程
使用 NLP 和 AI 更好地总结播客文字记录和长文本
用 ChatGPT 总结最新的 Spotify 发布内容
4 个简单步骤让你的机器学习系统超充电
使用超级收敛加速你的深度学习模型训练
使用营销组合建模来超级提升你的跨渠道客户获取
用这个新工具提升你的数据清洗技能
用aiomultiprocess超级增强你的 Python Asyncio：一份全面指南
用 ChatGPT 超级提升你的电子表格
超强 pandas：加密从 DataFrames 写入的 Excel 文件
Python 中的监督与非监督主题建模方法
使用 Scikit-Learn 的支持向量机：友好的介绍
数据讲故事的辅助材料
生存分析：利用深度学习进行事件时间预测（第二部分）
生存分析：用机器学习预测事件时间（第一部分）
适者生存：紧凑型生成式 AI 模型是规模化成本效益 AI 的未来
分析车辆尺寸与行人安全
Svelte & 数据可视化
大型语言模型（LLMs）的软件/硬件协同优化策略
LLM 和 GUI 的协同作用，超越聊天机器人
SynthDiD 101：Synthetic Difference-in-Differences 初学者指南
合成控制：如果我们可以模拟替代现实呢？
系统设计备忘单：ElasticSearch
系统设计系列：从零开始构建高性能数据流系统的终极指南！
从头实现 t-SNE（配合 NumPy）
T5：文本到文本的变换器（第一部分）
T5: 文本到文本的变换器（第二部分）
TaatikNet: 序列到序列学习用于希伯来文音译
使用 Tableau 仪表盘处理大数据：挑战与经验
Tableau 数据融合教程——初学者的逐步指南
什么是禁忌搜索？
Tabyl：现代 R 用户的频率表格
处理集中数据管理中的敏感性问题
应对变化世界中的问题
Taipy：构建用户友好的生产就绪数据科学应用程序的工具
迈出下一步，扩展你的数据科学技能
什么是时间序列预测中的谐波回归？
使用 LangChain 和 Azure OpenAI 与您的 SQL 数据库“对话”
2023 年最佳：关于 ChatGPT 和 LLMs
TDSP：当敏捷遇上数据科学
教人工智能玩棋盘游戏
教学 CLIP 时尚
教学很难：如何训练小模型并超越大型对手
教授语言模型使用工具
时间差学习及探索的重要性：图解指南
Python 中的时序差分：第一个基于样本的强化学习算法
时间图基准
2023 年的时间图学习
Python 中的临时变量：可读性与性能
AI 十年回顾
张量量化：未被讲述的故事
TensorFlow Decision Forests：全面介绍
TensorFlow-GNN：图神经网络的端到端指南
使用 GradientTape 进行 TensorFlow 模型训练
立即测试并覆盖你的代码！
以有趣和简单的方式测试数据管道
像测试软件一样测试语言模型（和提示）
使用 Pytest 测试 Python 代码——适合初学者
测试 mlscorecheck 包的报告的机器学习性能一致性
测试支持 1162 种语言的大规模多语言语音（MMS）模型
文本分类挑战：极小数据集上的微调与 ChatGPT
使用 Transformer 编码器进行文本分类
使用 NLP 进行文本纠正
时间序列模型中的文本数据预处理
自动化化学实体识别：创建你的 ChemNER 模型
文本模式提取：比较 GPT-3 和人工在环工具
文本搜索与向量搜索：更好地结合？
文本切分正确实施：为您的个人 LLM 打下坚实的基础
文本新颖性检测
1958 年的感知机作为肿瘤分类器
每位数据领导者成功所需的 3 项核心技术技能
我永久切换从 Pandas 到 Polars 的 3 个理由
今年提升数据技能的 4 种小而强大的方法
数据故事讲述中的 4D：将科学变为艺术
工程经理应了解的生产力五维度
5 种高效查找和解决数据问题的方法
可信赖的 LLM 测试的 5 个支柱
可解释机器学习的 6 个好处
提升数据治理的七个不寻常的数据可观测性用例
变换器的 A 到 Z：你需要知道的一切
散点图的致命弱点
SDXL 1.0 的到来
优质数据分析的艺术
《提示设计的艺术：提示边界与标记修复》
提示设计艺术：使用清晰的语法
解决任何数据科学问题的艺术 — 提高结果的简单技巧
使用非线性编程优化您的营销预算
《有志统计学家的随机变量入门》
AutoML 的困境
破坏分析的坏循环
多变量高斯分布下的异常检测基础
对比增强 CT 基础知识
信息提取的起始：突出关键字并获取频率
1 最佳替代 Seaborn Distplot 的 Python 库
AI 和数据领导力的最佳学习路径
人类开发者与 AI 合作伙伴的最佳结合
适合你神经网络的最佳优化算法
PyCon US 2023 最佳讲座
偏差-方差权衡
偏差-方差权衡，解析
数据科学的诞生：历史上首次假设检验与 Python 见解
Decent 机器上的 Pump & Dump 浓缩咖啡配置的诞生
捕捉-重捕方法
GPT-4 的碳足迹
反对人工智能监管的理由毫无意义
反对企业 LLMs 的案例
《… Python 中的捕手：用一个工具捕获异常和警告》
看到 AI 大局的挑战
《混沌数据工程宣言》
CLIP 基础模型
创建一个优秀 PyPI 包的最完整指南
Python 中的生存分析完全介绍
将大型语言模型（LLMs）集成到应用中的复杂性与挑战
实体解析实现的复杂性
时间序列分析中的移动平均综合指南
控制渐变
概率关系的反直观性质
文字数据的创造性、偶尔混乱的世界
选择损失函数在创建准确的时间序列预测中的关键作用
《人工智能中的持续学习现状》
《维度灾难揭秘》
讨厌数学的人的数据分析师学习路线图
“Segment Anything”中的以数据为中心的人工智能概念
数据科学家的工具箱：利用 scikit-learn 的顶级功能取得成功
数据科学家的工具箱：解析
GPT-4 的去污染评估
从基础逻辑门到深度神经网络：权威感知机教程
日常（AI）物品的设计
监控生产环境中的机器学习模型的难点
ETL 的 Docker Compose：Meerschaum Compose
恐怖的对手：机器学习中的数据泄漏
DVC 指南：所有数据科学项目的数据版本控制
动态批量模型：一种混合整数编程方法
使用大型语言模型的最简单方法？
使用 SQLAlchemy 进行 UPSERT 的最简单方法
提示工程的崭新艺术
蛋白质设计的机器学习时代，概括为四种关键方法
用一行代码构建一个分割模型
设施分布问题：混合整数规划模型
被禁书籍：美国书籍禁令的数据分析
音乐发现的未来：搜索与生成
2023 年现代数据栈的未来
开源 AI 的黄金时代即将结束
Pd.Get_Dummies 的利与弊
梯度下降算法及其背后的直觉
图着色问题：精确解和启发式解
推荐系统指标指南
最困难的部分：定义分类目标
数据质量问题对广告支出的回报的隐藏成本
开源开发中的隐性危机：行动号召
多项式回归中的隐藏线性
（向量）索引的隐藏世界
公有云上的机器学习工具层次结构
开源 LLMs 的历史：更好的基础模型（第二部分）
开源 LLMs 的历史：早期阶段（第一部分）
开源 LLMs 的历史：模仿与对齐（三）
人工智能的另一面：领导 AI 团队和项目的艺术
数据科学中的讲故事的重要性
LLMs 的无限巴别图书馆
人工智能的膨胀：更多的模型是否总是更好？
检索增强生成（RAG）的内幕与外延
工作车间调度问题：混合整数规划模型
Kaggle 蓝图：解锁数据科学竞赛获胜方法
气体动力学理论：理想气体分子的动力学建模
位置语言：评估生成式 AI 的地理编码能力
机器学习模型的生命周期
关于生成式 AI 的小故事：绘图挑战
[隆巴尔效应及其如何帮助听力障碍](docs/the-lombard-effect-and-how-it-can-help-with-hearing-impairment-7ca89a9a0d1d.md)
长短期结合：基于比例的相关性以捕捉文档语义端到端
LLM 的魔力——提示工程
量子计算的魔力：编写魔法数字猜测游戏的初学者指南
“我写作的主要驱动力一直是学习”
变换器的地图
线性回归的矩阵代数
R 中的线性回归矩阵代数
从物理学看 logistic 分类的意义
数据素养的威力
《极简主义者的 DVC 实验跟踪指南》
企业 AI 的护城河是 RAG + 精细调整 — 为什么如此重要
最强大的气候数据仍然被隐藏
多任务优化争议
p 值的神话：为什么它们不是数据科学中的圣杯
AI 中解释性的渐变的必要性
新的最佳 Python 包用于可视化网络图
BigQuery 中的新生成 AI 功能
数据团队面临的下一个大危机
下一步是负责任的人工智能。我们如何实现这一目标？
恶名昭著的 XGBoost
人工智能奥运会：机器学习系统的基准比赛
一页数据和分析模板
学习递归所需了解的唯一一件事
理解回归树所需的唯一指南
数据合同的另一面：唤醒消费者责任
成功的数据科学之路在于你的学习能力。但是，应该学习什么呢？
人工智能监管之路
让我们来看看“混乱的数据科学家的 PATH 变量：如何管理它”
Jupyter 的完美文本编辑器：一个完整的 Python IDE
平滑你的噪声数据的完美方法
使我获得数据科学家职位的作品集
使用蒙特卡罗模拟传播误差的力量和简单性
贝叶斯因果推断的力量：揭示数据集中隐藏因果关系的库的比较分析。
dbt 增量模型在大数据中的威力
独立分量分析（ICA）在真实世界应用中的强大能力 — EEG 示例
Linux 控制组的威力：容器如何控制其资源
OpenAI 的函数调用在数据管道中的力量：全面指南
检索增强生成的力量：Base LLM 与 RAG LLMs 的比较，基于 Llama2
点积在人工智能中的力量
应对 AI 风险的实际侧面
对早期排序阶段的原则性方法
现代计算机科学家的原则
AI 编程工具的到来：产品工程团队将如何使用它们
正确调用 ChatGPT API 的方法
数据科学的真正力量隐藏在明面上
研究代理：应对基于大量文本语料库回答问题的挑战
失落的回归：用于预测的变换器
推荐系统中的两塔模型崛起
视觉变换器的崛起
因果关系的科学与艺术（第一部分）
因果性的科学与艺术（第二部分）
提高投资回报率的秘密：实施全面漏斗营销方法
提升 NLP 性能的秘诀：深入了解 PyTorch 中的 nn.Embedding 层
有助于数据科学家成长的技能
在 Kubernetes 上运行代码的智能灵活方式
成为数据科学家成功所需的软技能
SQL 单元测试现状：2023
《将你的 Python 项目迁移到 R 的入门指南》
关于为什么你的 Instagram 帖子会如此少点赞的统计理论
从 TensorFlow 转换到 PyTorch 的细微差别
高维数据的惊人行为
合成数据领域指南
评估新语言模型的三种基本方法
三大数据架构趋势（以及 LLMs 将如何影响它们）
晋级下一轮所需的前三种 SQL 技能
GPT 模型的 Transformer 架构
两个信封问题
AI 对齐的双重面貌
nnU-Net 终极指南
从零开始训练 BERT 的终极指南：介绍
从头开始训练 BERT 的终极指南：准备数据集
从零开始训练 BERT 的终极指南：分词器
《终极 Ndarray 手册：掌握 Rust 的科学计算艺术》
你 NLP 模型的终极预处理流程
Apple Silicon Macs（M1 和 M2）的终极 Python 和 Tensorflow 设置指南
终极可视化助手
《被低估的珍宝第一部分：8 个让你成为高手的 Pandas 方法》
通用模型的非凡有效性
非结构化数据漏斗
RAG 的未被揭示的一面：解决领域特定搜索中的挑战
生成式人工智能负责任使用的紧迫性
正则表达式在数据科学中的实用性
使用 Q-learning 的强化学习中行动的价值
世界地图的多种面貌——地图投影
SQL 查询优化的世界
世界上最小的数据管道框架
线性回归的理论深度解析
没有所谓的自学程序员。
当你没有学习动力时，这 5 个技巧将帮助你学习数据科学
这 7 个编程习惯让你成为一个低效的数据科学家
思考 SQL —— 避免从上到下编写 SQL
考虑微调 LLM？在你开始之前，这里有 3 个考虑因素
超越数据科学的种种框架
为什么以人为本的 AI 设计指南在制造业中使用时可能优雅地失败
关于状态保持机器学习、在线学习和智能机器学习模型再训练的思考
使用 NLP 进行线程总结
用两行代码将你的 Python 程序多线程
在生产中部署生成模型的三大挑战
三种你可能不知道的表示百分比的图表
常见强化学习算法的三个根本性缺陷（及其修复方法）
阈值化 — 使图像更清晰的方式 (CV-04)
透过镜子，谷歌在眼睛中发现了什么
抛出一只猫到鸽子中间？用大型语言模型增强人类计算能力
TiDE：那个‘令人尴尬’的简单 MLP，击败了 Transformers
整理数据集变化框架
数据集转移框架的整理：示例
Tidyverse 与 Base-R：如何为你选择最佳框架
时间序列增强
对跑步者疲劳检测的时间序列分类 — 一个教程
时间序列复杂性分析使用熵
使用 sARIMA 和 Dash 进行时间序列数据分析
回到未来：使用马尔可夫转移矩阵分析时间序列数据
气候变化的时间序列：预测能源需求
气候变化时间序列：大型海洋波浪预测
气候变化中的时间序列：风力发电预测
气候变化时间序列：起源-目的地需求预测
气候变化的时间序列: 通过聚类减少食物浪费
气候变化的时间序列：太阳辐射预测
气候变化中的时间序列：使用深度学习进行精准农业
时间序列预测：深度学习与统计学——谁能赢？
基于深度学习的时间序列预测（LSTM-RNN）在 PyTorch 中的应用
用 Facebook 的 Prophet 进行时间序列预测——第一部分
用 Facebook 的 Prophet 进行时间序列预测，10 分钟 — 第二部分
时间序列转换（及还原）变得简单
时间旅行轻松掌握：Python Datetime 的全面指南
TimeGPT: 第一个用于时间序列预测的基础模型
气候变化时间序列：极端天气事件预测
TimesNet：时间序列预测的最新进展
Tiny Audio Diffusion：无需云计算的波形扩散
大型语言模型：TinyBERT — 为 NLP 蒸馏 BERT
升级到 PyTorch 2.0 的技巧和窍门
在 Polars 中处理字符串的技巧与窍门
提高你 R 技能的技巧和窍门
学术研究出版技巧
理解 R 中的正则表达式的提示
厌倦了二维码？自己制作一个标志性标记
对你的数据工程师角色感到厌倦吗？
1 还是 0：图像分类中的像素攻击
为了确保人工智能决策的公正，女神需要眨眼
要真正掌握一个新话题，请慢慢来
是否使用机器学习
特征过多？让我们来看看主成分分析
ToolFormer：指导 AI 模型使用外部工具
R 语言中的前 10 个错误及其修复方法
每个数据科学家都应该了解的前 10 大预训练模型
机器学习中的前 4 个图
2023 年使用的 6 大数据标注工具
查找气候变化数据集的前 5 个最佳来源
从图像中提取文本的前 5 个 Python 库
数据工程师在加入初创公司前应问的五个问题
顶级的 5 种 CSV 替代方案
2023 年必读的数据科学与机器学习顶级书籍
使用 Llama 2 进行主题建模
生产中的主题建模
使用 ChatGPT API 进行主题建模
使用 BERTopic 的类别话题
基于对流扩散变换器的拓扑泛化
TorchServe & Flask 用于图像风格迁移
向 AGI 迈进：LLMs 和基础模型在终身学习革命中的角色
实现数据科学中的工具无关性：SQL 中的 CASE WHEN 与 Pandas 中的 WHERE
朝向生成式 AI 的模型架构
朝向绿色 AI：如何在生产中提高深度学习模型的效率
LLM 解释性：为什么我的模型产生了这个输出？
迈向视觉中的独立自注意力
关于大型语言模型的无偏评估
理解专家混合模型
使用 Tracemem 跟踪 Python 会话内存
传统指标与神经指标在机器翻译评估中的比较
训练图像分割模型以通过 Voronoi 平铺接受用户反馈，第一部分
通过 Voronoi 分割训练图像分割模型以接受用户反馈，第二部分
使用自动梯度下降训练 ImageNet，无需超参数
通过更改仅一行代码，在 GPU 上训练你的 ML 模型
自定义 YOLOv7 对象检测与 TensorFlow.js
训练深度学习模型以检测微控制器上的 DoS 攻击
在 Kafka 流上训练机器学习模型
通过自我对弈训练一个代理以掌握简单游戏
训练一个智能体通过自我对弈掌握井字游戏
使用 PDF 文档训练自定义 Detectron2 模型进行目标检测（第一部分）
使用教科书质量的合成数据训练语言模型
通过强化学习训练机器人操控器在避障任务上的应用
使用 Softmax Loss 训练句子变换器
通过真实生活模拟训练数据科学中的问题解决技能：一种角色扮演双聊天机器人方法
在 1TB 数据集上训练 XGBoost
使用 MLflow 实验和 HyperOpt 调整训练 XGBoost
迁移学习入门
变压器辅助的供应链网络设计
Transformer 模型 101：入门 — 第一部分
Transformer 模型 101：入门指南 — 第二部分
通过微调的变换器模型进行自定义文本分类
Transformers 可以生成 NFL 比赛：介绍 QB-GPT
深入了解 Transformers – 第一部分。5 分钟介绍 Transformer 模型
变换器 — 直观且详尽的解释
Transformers 是否输给了线性模型？
简化 Transformers：使用你理解的词汇的最先进 NLP——第一部分——简介
简化 Transformers：使用你理解的词语的最前沿 NLP — 第二部分 — 输入
简化变换器：使用你理解的词汇进行的前沿 NLP — 第三部分 — 注意力机制
将文本转化为向量：TSDAE 的无监督方法用于增强嵌入
使用 ChatGPT 进行翻译
翻译术语与 LLM（GPT 和 Vertex AI/Google Bard）
TranSPormer: 一种解决旅行商问题的 Transformer 网络
在编写 Python 代码时使用 “Black” 库来犒赏自己
树集成：自助法、提升法和梯度提升
思维树提示
在您的数据上训练 YOLOv8 实例分割
尝试这 3 个鲜为人知的 Pandas 函数
TSMixer: 谷歌推出的最新预测模型
提升你的数据操作技能
转身面对陌生事物
将 GPT-4 转变为扑克教练
将线性回归转变为逻辑回归
将洞察转化为可操作的成果
使用 string2string 驯服文本：一个强大的 Python 库，用于字符串对字符串算法
变压器在预测推特账户身份中的力量
两种可以显著提升你的查询的高级 SQL 技巧
两次发球：分析 2000 年至 2020 年的 ATP 发球数据
你需要知道的两个有趣的 pandas 数据操作函数
两篇新论文详细分析了 AlphaFold 2 的 2 亿个模型揭示的蛋白质宇宙
两个强大的 Python 特性，以简化你的代码并提高可读性
推荐系统中的双塔网络和负采样
R 中的双因素 ANOVA
双因素方差分析测试，使用 Python
两种本地下载和访问 Llama 2 的方法
类型提示数据框用于静态分析和运行时验证
Python 中的类型提示
I 型和 II 型错误及假设检验中的样本大小计算
U-Net 解析：理解其图像分割架构
终极 Hive 教程：大数据管理与查询的必备指南
ULTRA: 知识图谱推理的基础模型
UMAP 变异解释
解密 Cox 回归：Cox 回归的隐藏黑暗秘密
解锁 Cox 回归：Cox 回归的直观指南
开箱 DINOv2，Meta 的新型全能计算机视觉骨干网络
拆解 Google Bard 和 GPT-4
使用 Python 的 Pandas 库简化非传统的日期时间转换
使用变分自编码器（VAE）发现异常：深入探索无监督学习的世界
揭示传统 DiD 方法的局限性
揭示巴西市政影响、公共卫生支出和患者转移之间的关联
揭示 Word2Vec 的开创之旅及人工智能科学的现状
揭示 DAX 中 KEEPFILTERS 的秘密
理解并实现带掩码的自回归流与 TensorFlow
理解 Polars 缺乏索引
通过从零开始构建交叉熵来理解策略梯度
理解 SQL 注入并学习如何在 Python 中使用 SQLAlchemy 避免它
实时了解您的数据
理解和减轻 LLM 幻觉
深入理解 AUC 分数：意义何在？
了解贝叶斯市场营销组合建模：深入探讨先验规格
理解因果树
了解 ChatGPT 插件：益处、风险及未来发展
理解深度学习优化器：动量、AdaGrad、RMSProp 与 Adam
理解 DeepMind 矩阵乘法
理解 Power BI 中的不同缓存类型
理解梯度提升：数据科学家的指南
理解机器学习中的梯度下降
理解群体顺序测试
理解直方图和核密度估计
理解独立性及其在因果推断和因果验证中的重要性
理解工具变量
理解目标检测中的交并比（代码）
在因果推断中理解治疗加权的逆概率 (IPTW)
理解 KL 散度
勇敢学习机器学习：揭示 L1 和 L2 正则化（第一部分）
理解大型语言模型：(Chat)GPT 和 BERT 的物理学
了解 LoRA — 低秩适配用于微调大型模型
理解马赛克图
使用 Python 理解多项分布
理解 Naive Bayes 算法
了解 NeRFs
理解机器学习中的噪声数据和不确定性
理解预测性维护 — 数据采集与信号去噪
理解预测性维护 — 单位根和稳态
理解预测性维护——波数据：特征工程（第一部分）
了解预测性维护——波形数据：特征工程（第二部分）
使用 Gradio 理解保留率
理解 SQL：入门窗口函数
理解 SQL：执行顺序
了解 TF-IDF：NLP 中的一种传统特征提取方法
以苏格拉底式的方法理解去噪扩散概率模型（DDPMs）
什么是超几何分布
理解集成学习中多样性的重要性
理解推动产品的多层数据管理
了解时间序列趋势
了解我们失去的东西
使用 Pytest 对 PySpark 代码进行单元测试
单变量离散分布：易于理解的解释
释放隐藏模式：无监督机器学习文章推荐系统指南
释放 GPT-3 的力量：超级英雄描述的微调
释放 MLflow 的力量
发掘数据科学家的提示工程潜力
释放 Python Asyncio 队列的力量
释放 Julia 超级类型的力量
用你的笔记本电脑释放数据科学的潜力
发掘 Python 的全部潜力
解锁音频数据的潜力：使用 Whisper、WhisperX 和 PyAnnotate 进行高级转录和语音分段
解锁因果推断的力量：数据科学家理解“后门调整”公式的指南
解锁因果推断和前门调整的力量：数据科学家的深入指南
解锁使用 Python、特征存储和 GCS 的高效批量预测管道的秘密
如何在 3 行代码中从任何 DataFrame 计算条件概率
解锁因果推断的秘密，通过有向无环图的硕士班
通过强大的五步因果影响框架释放你作为商业分析师的全部潜力
解锁数据访问：在没有 API 端点的情况下利用触发器
解锁数据建模成功：3 个必须拥有的上下文表
解锁决策制定：人工智能桥接理论框架与技术进步
使用 Airflow 解锁 MLOps：ML 系统编排的全面指南
释放 JupyterLab 的潜力：发现你从未知道过的强大文本编辑器
解锁大数据的力量：图学习的迷人世界
媒体中面部模糊的力量解锁：全面探索与模型比较
解锁线性回归中交互项的力量
解锁路线可视化的力量：3 种基本技巧
利用 LLMs 解锁文本数据的力量
解锁慢变维（SCD）的秘密：八种类型的全面视角
解锁用户激活与根本原因分析
揭示 AI 对跨性别社区的有害影响
解开物理信息神经网络的设计模式：第二部分
揭示物理信息神经网络的设计模式：第三部分
揭示物理信息神经网络的设计模式：第四部分
揭示物理信息神经网络的设计模式: 第五部分
揭开物理信息神经网络设计模式的面纱：第六部分
揭示物理信息神经网络的设计模式：第七部分
解密物理信息神经网络的设计模式：第 01 期
揭开大数法则的面纱
揭示复杂性：一种使用噪声注入的流形学习的新方法
解决压缩轴的终极修复，逐步指导
无监督数据剪枝：更少的数据学习更好
无监督学习与涌现模式
无监督学习方法系列 — 探索 K-均值聚类
无监督学习系列——探索 DBScan
无监督学习系列：探索层次聚类
无监督学习系列——探索自组织映射
无监督学习与 K-Means 聚类：从图像生成颜色调色板
无监督机器学习：探索一系列无需输出标签的模型
揭开 dropout 层的面纱：提升神经网络的必备工具
揭示偏差调整的力量：在类别不平衡数据集中提升预测精度
揭示推荐系统中的精确度@N 和召回率@N
提升您的数据可视化：4 个 Python 库以增强您的 Matplotlib 图表
在机器学习系统中维护数据质量
提升建模 — 数据科学家优化信用卡续卡活动指南
成本优化中的提升建模
城市可达性 — 如何及时到达除颤器
城市韧性：空间公平
城市韧性：地震韧性，案例研究 [第一部分]
使用 ChatGPT 查询你的 Neo4j 数据库
使用类来生成信号
使用深度学习生成奇幻名字：从零构建语言模型
将 Delta Lake 用作下游应用程序的主数据管理（MDM）源
更频繁地使用频率分析
使用 GPT 模型生成用于训练机器学习模型的文本数据
使用 LangChain 的输出解析器与 ChatGPT 配合以获得结构化输出
使用 PyGWalker 提升你的 Jupyter Notebook EDA 体验
使用 Python 并行下载多个文件（或 URL）
SMOTE 和其他选项：处理不平衡数据的综合指南
使用分区，卢克！一个简单且经过验证的优化 SQL 查询的方法
使用同义词 API 方便地更新 Elasticsearch 中的同义词
使用这些方法使你的 Python 并发任务表现更佳
使用 to_string() 防止 Python 隐藏打印数据框的主体
用户流失预测
用户反馈 — 机器学习监控栈的缺失部分
使用 Apache Kafka 进行数据流处理
使用贝叶斯网络预测医院中的辅助服务量
在 Python 中使用二项分布
将 ChatGPT 作为创意写作伙伴——第一部分：散文
使用 ChatGPT 作为创意写作伙伴——第二部分：音乐
使用 ChatGPT 作为创意写作伙伴 — 第三部分：图画书
使用 ChatGPT 进行高效调试
使用 ChatGPT 将 R 代码翻译成 Python
使用 DeepFace 进行面部识别
使用 DuckDB 与 Polars
使用枚举和 functools 升级你的 Pandas 数据管道
使用从 BERT 嵌入中衍生的向量表示的傅里叶变换进行语义相似度评估
使用 GPT-3.5-Turbo 和 GPT-4 进行人道主义数据类别预测
使用 GPT-4 的视觉功能作为艺术评论家
使用 Python 和 Kafka
使用大型语言模型作为推荐系统
使用 LazyPredict 评估 ML 算法
使用 LLM 来评估 LLM
使用机器学习创建自定义色彩调色板
使用 MLflow 和 ATOM 跟踪所有机器学习实验，而无需额外的代码
使用多任务和集成学习预测阿尔茨海默病的认知功能
使用 OpenAI 和 Python 提升你的简历：一步一步的指南
使用 OpenCLIP 进行图像搜索和自动字幕生成
使用 Plotly 3D 表面图可视化地质表面
使用 Plotly Express 旭日图探索地质数据
使用 Polars 插件通过 Rust 实现 14 倍速度提升
数据科学中的概率词使用
使用倾向评分匹配来构建领先指标
使用 Python 解决工程中最常见的问题之一
使用量子退火进行 scikit-learn 特征选择
使用 React 构建互动界面以展示令人兴奋的数据集
使用无服务器函数来管理和监控基于云的训练实验
使用 SHAP 调试 PyTorch 图像回归模型
使用斜率图表简化你的数据可视化
使用符号回归为 Elo 著名评分系统增加不确定性
使用 SQL 中的 HAVING 和 DISTINCT 子句
在 Python 中使用 Tqdm 与 Asyncio
使用 pykrige 和 matplotlib 进行地质变化的空间可视化
利用 PyArrow 改进 pandas 和 Dask 工作流
V-Net，U-Net 在图像分割中的“大哥”
改善咖啡脱气的真空腔
使用 SQL 验证字符串是否为 HTML
使用 SQL 验证平衡括号
VALL-E — 语音合成的未来？
深度学习中的梯度爆炸与消失问题
随机森林中的变量重要性
实验中的方差减少 — 第一部分：直觉
实验中的方差减少 —— 第二部分：协变量调整方法
重要性采样的方差减少
使用 Gumbel Softmax 的离散分布变分自编码器（VAE）
变分推断：基础知识
机器学习中的各种部署类型
机器学习中的向量表示
向量搜索并不是你所需的一切
向量化：是什么以及它是如何工作的？
使用 JAX 向量化和并行化 RL 环境：以光速进行 Q 学习⚡
使用 Modelbit 通过 Git 进行机器学习模型部署的版本控制
实践中的版本控制：数据、机器学习模型和代码
VIM 教程 — 像专业人士一样编辑文本
视觉基础的重复计数在实际应用中的探索
面向视觉的语义占用预测用于自动驾驶
使用冻结的大型语言模型进行视觉问答
使用 Python 可视化卫星图像的 RGB 通道
使用 Plotly Express 在 3D 线图上可视化井路径
Arabica 中的可视化模块加速了文本数据的探索
嵌入的可视化
纽约市的可视化
使用 Matplotlib 可视化数据范围
视觉化线性代数以入门机器学习：第一部分
通过可视化线性代数入门机器学习：第二部分
使用 Google Trends 可视化 AI 和技术炒作
可视化气候变化：用 Python 重现气候条纹的逐步指南
使用 Basemap 和 mplleaflet 可视化地理空间网络图
可视化 3 种 Sklearn 交叉验证：K-Fold、Shuffle & Split 和 Time Series Split
通过 Python 的 NetworkX 库可视化社交网络以获取更好的洞察：分析和映射社交关系
更好洞察的社会网络可视化：使用 Python 的 NetworkX 库分析和映射社会关系 — 第二部分
可视化反卷积操作
可视化多重共线性对多重回归模型的影响
直观地展示维度诅咒的真实程度
使用 Python 地图可视化贸易流量 — 第一部分：双向贸易流量地图
vLLM：PagedAttention 实现 24 倍更快的 LLM 推理
语音助手的可访问性
Voronoi 网格：一种实际应用
Vosk：高效企业级语音识别的评估与实施指南
想成为更好的数据科学家吗？写编程教程！
想提升你的短期预测？试试需求感知
注意你的束搜索超参数
水接触时间与浓缩咖啡中的萃取：一个实验
我们应该早就看到 ChatGPT 了
Web Speech API：什么有效，什么无效，以及如何通过将其与 GPT 语言模型连接来改进它
权重衰减在没有残差连接的情况下能有效吗？
使用 Keras 进行测井数据预测的神经网络
50 多次机器学习面试（作为面试官）教会了我什么
什么是梯度，为什么会爆炸？
如何使用 Hugging Face 代理进行 NLP 任务
什么是多模态模型？
Transformer 架构中的 Query、Key 和 Value 是什么？它们为什么被使用？
GPT 模型背后的数据中心 AI 概念是什么？
对编码分类受保护属性的公平性影响是什么？
成为初创公司全栈数据科学家的体验
ChatGPT 对你的了解：OpenAI 在数据隐私方面的进展
熵度量了什么？直观解释
“最佳实践”到底是什么意思？
当机器学习出现错误时，这意味着什么？
算法“学习”到底意味着什么？
数据科学家究竟做什么？
GPT-4 带来的 AI 新视角
语义网发生了什么？
Neo4j v5 中 APOC 发生了什么：核心版和扩展版
当大多数在线内容变成 AI 生成时会发生什么？
我作为数据分析师保持相关性的做法
作为数据科学家，经过一年 AB 测试后我学到的东西 — 第 1/2 部分
我作为数据科学家在进行了一年的 AB 测试后学到的东西——第二部分/2
成为高效的机器学习团队领导
我在担任数据科学总监的第一年学到的东西
我在推动提示工程极限时的所学
我在每个数据分析师候选人身上寻找的特质
我们是否可以轻松解释过于复杂的模型？
作为数据科学家，是什么激励了你？
什么是生命周期评估？LCA
什么是卫星图像时间序列？
什么是时间序列单位根？
解锁 Presto 分布式 SQL 的力量：全面指南
什么是贝叶斯误差？
什么是商业智能？
什么是数据质量？
什么是 dbt（数据构建工具）以及何时使用它？
什么是 EDI？电子数据交换
什么是 ESG 报告？
什么是生成性 AI？全面指南
什么是绿色洗涤，我们如何利用分析检测它
什么是智能过程自动化（IPA）？
什么是学习排名：学习排名方法的初学者指南
什么是部分信息分解及特征如何交互
什么是过程挖掘？
什么是合成数据？
SQL 中 UNION 和 JOIN 的区别是什么？
AI 的环境影响是什么？
两个人拥有相同首字母的概率是多少？
AI 对裁员的真实影响是什么？深入分析
关于气候的言论：Twitter 数据的 Python 聚类
人工智能在医疗保健中应扮演什么角色？
当你的 p 值 = 0.052 时，你的决定应该是什么？
什么阻碍了你获得第一个数据科学工作？
带什么？——基于协同过滤的物品建议
找到异常值后该怎么做
Pandas 2.0 有什么新变化？
Pandas 2.1 中的新功能
2023 年的分析领域接下来会发生什么？
当 AI 走错路时：现实世界中的高-profile 机器学习失误
创作歌手何时最成功？
当 AutoML 遇上大型语言模型
何时在 CPU 上运行代码而不是 GPU：典型案例
人类在需要回答数据相关的棘手问题时
何时使用条形图是不正确的？
毫秒至关重要——我在性能改进中的旅程
当点预测完全无用时
你什么时候应该微调 LLM？
你应该在什么时候停止寻找？
当电子表格不够用时：关系数据库的课程
随机策略何时优于确定性策略
解决复杂问题时，第一步是最困难的
当数据集较小时，特征是你的朋友。
你应该何时更喜欢“汤普森采样”而不是 A/B 测试
所有的女性都在哪里？
数据科学在 2023 年将何去何从？
公交车在哪里？GTFS 将告诉我们！
咖啡的激光粒子分析何处出错
针对你的大数据项目，应该使用哪个数据格式？
哪些特征对你的分类模型有害？
哪些 GPT 类似模型工程技术适用于系统日志？
我应该选择哪个在线数据科学课程？
黑客使用哪些编程语言？
哪种量化方法适合你？（GPTQ vs. GGUF vs. AWQ）
哪个团队应该负责数据质量？
Whisper JAX 与 PyTorch：揭示 GPU 上 ASR 性能的真相
谁做什么工作？AI 眼中的职业角色
谁赢，谁输？AI 编码工具将如何影响不同类型的业务
为什么箱线图不应单独使用及与之配合使用的 3 种图表
为什么接受“任何数据工作”是一个糟糕的职业决定，你应该做什么
为什么以及如何实现更长的 LLM 上下文窗口
为什么以及如何在多重假设检验中调整 P 值
为什么所有地图都不准确？
为什么语言模型无处不在？
为什么随机实验是因果推断中的黄金标准？
为什么回测重要以及如何正确进行
为什么卷积？理解卷积和深度网络中的特征提取
为什么数据不是新石油以及数据市场为何让我们失望
为什么数据项目无法产生实际影响：作为分析经理需要关注的 5 个关键因素
为什么我们还需要神经网络？
为什么我们拥有庞大的语言模型而视觉变换器却很小？
为什么你需要使用 SQL 分组集来汇总数据？
为什么假设检验应该从《哈姆雷特》中汲取灵感
我为什么签署了“暂停大型 AI 实验”请愿书
为什么我作为数据科学家要学习 JavaScript
为什么特征缩放在机器学习中很重要？讨论 6 种特征缩放技术
为什么将人工智能技术成功应用于临床护理如此困难？
为什么更多即是更多（在人工智能中）
为什么 OpenAI 的 API 对非英语语言更昂贵
为什么概率链结比模糊匹配或基于术语频率的方法更准确
为什么数据科学家应该采用机器学习（ML）管道
为什么简单模型往往更好
为什么 SOLID 设计很重要：避免代码异味并编写可维护的代码
为什么 Taskgroup 和 Timeout 在 Python 3.11 Asyncio 中如此重要
为什么似乎存在“免费午餐”
为什么企业 AI 中的信任与安全（相对来说）很简单
为什么理解数据生成过程比数据本身更重要
为什么 WGANs 超越 GANs：从 KL 散度到 Wasserstein 损失
为什么你（几乎）不能在家中用 Python 计算圆周率到一亿位
为什么你需要知识图谱，以及如何构建它
为什么你需要在 Python 中使用装饰器来编写 DRY 代码
为什么作为数据科学家你应该考虑使用 Fortran
为什么你应该在地理空间开发中使用 DevContainers
为什么你的数据管道需要闭环反馈控制
为什么你的 RAG 在生产环境中不可靠
训练中断会毁掉我的马拉松吗？
ChatGPT 会取代数据科学工作吗？
生成式 AI 是否会取代数据分析师的需求？
窗口函数：数据工程师和数据科学家必知的内容
PostgreSQL 中的窗口函数
用简单的，甚至非线性的时间序列模型获胜
无需多言：自动化开发环境和构建
词嵌入的解释
解释 Word2Vec、GloVe 和 FastText
使用 Julia 进行 Wordle 单词长度和字母频率分析
在邮政编码级别处理地理空间数据
使用 Hugging Face 数据集
在 Julia 中使用 MS SQL Server
从人工智能的视角看世界历史
你会成为数据策略师吗？
使用部分和 Pydantic 编写 DRY 数据模型
使用 Behave 编写可读的机器学习模型测试
编写关于自然语言处理的书籍有点像解决一个复杂的数据科学项目
为数据管道编写设计文档
使用 GPT-4 写歌曲：第一部分，歌词
使用 GPT-4 创作歌曲：第二部分，和弦
使用 GPT-4 写歌：第三部分，旋律
XAI 预测：基础扩展
XGBoost：深度学习如何取代梯度提升和决策树 — 第一部分
XGBoost：深度学习如何替代梯度提升和决策树 — 第二部分：训练
XGBoost：简介、逐步实现和性能比较
XGBoost 现在支持 MAE 作为目标函数
XGBoost: 权威指南（第一部分）
XGBoost：权威指南（第二部分）
XGBoost：理论与超参数调优
YOLO-NAS：如何在目标检测任务中实现最佳性能
Raspberry Pi 上的 YOLO 目标检测
你不能踏入同一条河流两次
你暂时不需要数据领域……
你的数据科学可视化将不再相同——Plotly 和 Dash
你的数据（终于）在云端了。现在，别再那么依赖本地了
你的数据集有缺失值？什么都不做！
你的特征重要吗？这并不意味着它们是好的
您的第一个推荐系统：从数据准备到机器学习调试与改进评估
你进入计算机视觉的第一步
你自己的个人 ChatGPT
您的个人 LLaMa
你的 Strava 年度统计……但用 Python 的方式
你的视觉-语言模型可能只是一个词袋
你在数据项目中遇到了瓶颈，现在该怎么办？
Zephyr 7B Beta：一个好的老师就是你所需要的一切
Zero-ETL、ChatGPT 与数据工程的未来
零-shot 与相似度基于的文本分类
零和游戏和混合策略

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SUMMARY.md

SUMMARY.md

Files

SUMMARY.md

Latest commit

History

SUMMARY.md

File metadata and controls