- 通过项目驱动的面试招聘你下一个数据分析炽星
- 进化多目标优化与耙选择
- 1.5 年的 Spark 知识总结为 8 个技巧
- 10 个数据分析师可能会遇到的常见问题——以及如何回答它们
- 提升检索增强生成系统性能的 10 种方法
- 10 位女性分享在 IT 和数据领域的工作经验
- TDS23-MEM
- 学习-DBT-简易方式-7d9f773d25ea?source=collection_archive---------6-----------------------
- 2023 年十大令人困惑的 XGBoost 超参数及其调优技巧.md
- 10 个决策树比 1 个更好-719406680564.md
- 10 个示例学习 Python 的 JSON 模块 - 793e62309d64.md
- 10 个令人兴奋的项目创意,使用大型语言模型(LLMs)来丰富你的作品集-970b7ab4cf9e.md
- 10 个最常见却令人困惑的机器学习模型名称-e70595eef514.md
- [10 个最常被问的 Python 列表问题在 Stack Overflow 上的链接。](docs/2-0007.md)
- 2023 年提高数据科学技能的 10 个简单方法-af274dc513da.md
- 10 个关于 Julia 的知识点,我希望早知道的-3104ce7e3a2c.md
- 未来十年将塑造数据科学家角色的 10 个趋势-759cdda3a442.md
- 10 个提高 Pinns 的实用提示和技巧-1a5dd7b86001.md
- 10 种向 Pandas 数据框中添加列的方法-ccadf7306d89.md
- 11 个帮助我获得第一个数据科学职位的实用技巧-be5d2036d49.md
- [11 个你可能忽视的有用 Pandas 功能点 - 原文链接](docs/2-0014.md)
- 12 个用于数据科学的思维模型-f2e2133d85ea.md
- 12 个 Python 装饰器,助力你的代码提升到新水平-a910a1ab3e99.md
- [像专业人士一样测试你的预测的 12 种方法](docs/2-0017.md)
- 2023 年你需要了解的 13 个数据流行词-87d8d908e5b6.md
- 130 毫升技巧和资源,经过精心策划,历时 3 年,并附赠免费电子书 7832ca4a37ef.md
- 14 种让你的 Pandas 工作流飞快的技巧-b00ff0ac9267.md
- 16、8 和 4 位浮点格式 - 它是如何工作的?
- python-mocking-in-production-1924953c8a14?source=collection_archive---------12-----------------------
- 2 个最佳 SQL 技巧,用于查找表中的重复值-1197618dcc74.md
- 2 种有效的方式将数据从本地迁移到云端-b3c3b03837f0.md
- 2023 年你需要知道的 2 个重要 SQL
CASE WHEN
示例-cb5d50e59daa.md - 2 个简单步骤减少 Pandas DataFrame 的内存使用 - b654565d654.md
- 2 个任务提升你的 Python 数据处理技能-3daf6c1c0528.md
- 20 个令人惊叹的 Julia 技巧和窍门,帮助高效程序员-5fedbfd00f73.md
- 20 个示例,掌握 Python Pandas 中数据框的合并技巧-22ffcd6059d1.md
- 2023 年回顾:总结后 ChatGPT 时代以及对 2024 年的展望-bb4357a4e827.md
- 8 个大多数数据科学课程没有教授但你应该知道的内容(第一部分)- 812e691c9430?source=collection_archive---------1-----------------------
- 2d-矩阵-变换-计算机-视觉-80b4a4f2120f.md
- 3 个常见的时间序列建模错误你应该知道的-a126df24256f.md
- 3 种提升大型语言模型的简单方法-68670fde9ffa.md
- 3 个简单技巧优化 Pandas DataFrames-b8bdbd50253.md
- [比较两个 Pandas DataFrames 的三种简单方法](docs/2-0036.md)
3-easy-ways-to-include-interactive-maps-in-a-streamlit-app-b49f6a22a636.md
- 你应该了解的 3 个 PostgreSQL 基本函数-b2a96e301ac0.md
- [3 门免费课程以跟上最新的 ChatGPT 趋势](docs/2-0039.md)
- 3 种有效使用 ChatGPT 和 GPT-4 进行更好编码的方法-7fb94e86be3e.md
- 3 个重要的 SQL 优化技术-d6da3e9c8442.md
- 3 种智能方式利用 ChatGPT 加速你的下一个数据科学项目-8c3e1c5aea18.md
- 3 个初级数据科学家应做的职业决策-728b20991120.md
- 3 个关于 Python 数据结构的必知概念-641e6f6207fc.md
- 3 个强大的 Python 库,帮助部分自动化 EDA,并让你开始你的数据项目。
3-powerful-tricks-to-work-with-date-time-data-in-python-67c2d3834338.md
- 3 个关于
astype
和to_datetime
在 Pandas 中的实际区别 fe2c0bfc7678.md - 2023 年数据科学作品集需要的 3 个项目-56623fc18c31.md
- 你希望翻译的是文件名吗?请确认。
- 3-python-用于高效解决特定数据处理任务的操作-551c8ed41c02.md
- 3 种快速简单的方法来使用 Pandas 可视化你的数据-4cac57fb4c82.md
- 3 个提升编程的快速技巧-760e06afd0c6.md
- 你应该注意的 3 个静默的 Pandas 错误 - 80d0112de6b5.md
- 3 种简单而强大的方式,这种 AI 技术将彻底改变数据管理。
- 3 种简单方法在 Python 中创建瀑布图-1124f7afc90f.md
- 3 个可能削弱你 SQL 查询性能的微妙错误-47e897688977.md
- 3 种季节性及其检测方法-4e03f548d167.md
- 3 个使用 Matplotlib 创建的独特图表,你可能之前没有见过的-421ab8cdd36f.md
- 3-使用 SQL 的 CASE WHEN 语句的场景-51e8e2829218.md
- 3 个处理日期时间数据的实用 Pandas 提示-424afbec628b.md
- 3 种在 Python 中使用 Altair 构建地理地图的方法-77c8e0781538.md
- 3 种方法将 matplotlib 图表嵌入 HTML 页面 - 8e11fa66a4b0.md
- [在非数据科学岗位上积累数据科学经验的三种方法 - 在非数据科学岗位上积累数据科学经验的三种方法](docs/2-0063.md)
- 扩散模型:它们是如何扩散的?
- 探索 Linux 容器中叠加文件系统的力量
- 最佳 ChatGPT 插件
- 从零开始训练 BERT 的终极指南:最终篇
- 从交叉职能机器学习项目中获得的 20 个经验教训
- 寻找机器学习团队候选人时应关注的 20 种软技能
- 2023 年的预测:AI 研究的下一步是什么?
- 使数据团队成功的决策
- 车辆路径问题:精确与启发式解决方案
- 成功数据共享的 3 条不可变规则
- 2024 年值得期待的 3 项音乐 AI 突破
- 高斯混合模型(GMM)的 3 个应用场景
- 34% 更快的整数到字符串转换算法
- 数据可视化中的 3D 和动效
- 使用 Open3D 进行 3D 数据处理
- 3D 深度学习 Python 教程:PointNet 数据准备
- 使用 DeepSDF 进行 3D 生成建模
- 室内建模的 3D 点云形状检测
- 《LiDAR 城市模型的 3D Python 工作流程:一步步指南》
- 使用 Python 进行 3D 地理空间数据集成:终极指南
- 4 个历来最有用的 pandas groupby 技巧
- 4 个你需要了解的自主 AI 代理
- 4 位量化与 GPTQ
- 4 个初学者应避免的常见 Python 错误
- 评估行业应用中的大型语言模型的 4 个关键因素
- 4 种易于实现的高影响力调整方法,用于超级提升你的 Python 代码性能
- 4 种简单方法立即提升你的数据可视化
- 4 个提高数据可视化技能的必备资源
- 作为 Python 初学者,你必须掌握的 4 个关键技巧
- 选择数据可视化颜色调色板的 4 个必备工具
- 4 种更快的 Pandas 数据分析替代方案
- 4 个失败的物理信息神经网络的想法
- 数据驱动世界中你应该理解的 4 个重要统计理念
- 4 个 Pandas 函数用于 DataFrame 的逐元素比较
- 4 个 Pandas 一行代码解决特定任务的高效方法
- 如何批判性地评估你遇到的下一个数据科学项目
- 在处理机器学习模型之前,你应该问自己 4 个问题
- 4 个快速且简单的步骤来美化 R Markdown
- 一步步解决 4 个实际问题的指南:使用变压器和 Hugging Face
- 我不会签署“生存风险”新声明的四个理由
- 改善数据治理团队的 4 种革命性方法
- 4 个你可能不知道的有用 BigQuery SQL 函数
- LangChain 中的 4 种问题回答方式
- 4 种编码具有高基数的分类特征的方法——带 Python 实现
- 最大化利用你的数据科学学位的 4 种方法
- 使用 Python 量化肥尾的 4 种方法
- 使用 Python 将数据写入 Parquet 的 4 种方法:比较
- 这 5 种 SQL 技术涵盖了 ~80% 的实际项目
- 5 个令人惊叹的 Python 隐藏功能 — 第一部分
- 数据共享的 5 个好处
- 5 种最佳 Python 合成数据生成器及如何在数据不足时使用它们
- 5 个阻碍机器学习应用的挑战
- 每个数据科学家都应该知道的 5 种变点检测算法
- 5 种代码优化技术,提高程序运行速度
- 分析师和数据科学家的 5 个常见数据治理痛点
- 数据科学作品集的 5 个错误
- 5 种简单有效的 Python 日志使用方法
- 5 个简单的 Python 特性,你可以立即开始使用以编写更好的代码
- 我在 Spotify 学到的初级数据科学家五大重要课程(第一部分)
- 我在 Spotify 学到的初级数据科学家 5 个重要课程(第二部分)
- 5 种适用于 R 的极佳数据管道编排工具
- 5 个函数是管理数据所需的全部工具
- 5 种公司可以立即实施的生成 AI 应用场景
- 5 个有用的提取与加载实践,帮助获得高质量原始数据
- 5 个促进数据科学家/分析师参与的想法,而不至于在会议中窒息
- 5 个激励人心的学习资源,帮助我保持在数据分析的前沿
- 你从未知道的 5 个 Jupyter 小技巧
- 5 个我在数据科学生涯中仅发现了 2 年的 Jupyter Notebook 技巧
- 5 个从测试 Databricks SQL Serverless + DBT 中获得的经验教训
- 5 个 MLOps 成熟度级别
- 庆祝地球月的 5 个机器学习项目作为开发者
- 每个数据科学家都应该避免的 5 个错误
- 5 个更多超棒的 Python 隐藏功能 — 第二部分
- 5 个你需要了解的强大 Python 库,用于增强你的 EDA 过程
- 5 个区分资深开发者和初级开发者的 Python 技巧
- 每个数据科学家都应该刻在脑海中的 5 个问题
- 提升您的 MLflow 模型实验的 5 个快速技巧
- 作为数据专业人士展示你工作的 5 条建议
- 5 个迹象显示你的数据建模不佳
- 你已经成为高级 Pandas 用户的 5 个迹象
- 你已经成为高级 Pythonista 的 5 个迹象,你可能都没意识到
- 使数据管理成功的 5 项技能
- 使用 Python 构建美丽条形图的 5 个步骤
- 5 步骤用 Python 绘制美观的折线图
- 用 Python 展示地理空间数据同时变化的 5 种可视化方法
- 生成型 AI 改变了公司处理数据的方式(以及没有改变的方式)
- 使用 Python 实现开放封闭原则的 5 种方法
- 在 Pandas 中应用 if-else 条件语句的 5 种方法
- 获取你下一个数据项目的有趣数据集的 5 种方法(非 Kaggle)
- 50,000 家零售店关店在即:拥抱数据驱动和以客户为中心的方法
- Tableau 中的 6 种高级可视化
- 6 个毁灭你数据科学生产力的坏习惯
- 6 个你应该了解的与索引相关的 Pandas 操作
- 数据科学代码中需避免的 6 个常见错误
- 你可能会犯的 6 个尴尬的 Sklearn 错误及如何避免它们
- 2023 年你必须学习的 6 个新兴数据科学库,以提升你的技能
- 区分资深开发人员与初级开发人员的 6 个 Python 最佳实践
- 使数据可靠性成为习惯的 6 个步骤
- 6 种聚类方法 — 概述
- 6 个值得更多关注的数据科学库
- Python 中 * 和 ** 的 6 种用例
- 为数据科学团队建立最佳实践的 6 种方法
- 从 Pandas 切换到雷电般快速的 Polars 并永不回头的 7 个简单步骤
- 使用 Python Pandas 掌握分类数据操作的 7 个示例
- AI 并没有威胁我们的工作!这里有 7 个值得关注的前沿职位,预计到 2030 年会崭露头角
- 使用 ChatGPT 创建完整产品的 7 个经验教训
- 7 种最常用的特征工程技术
- 7 条数据科学家的 Scikit-Learn 最佳实践
- 你已经成为一个高级 Sklearn 用户的 7 个迹象
- 7 步骤帮助你让 Matplotlib 条形图更美观
- 7 种营销数据科学的应用
- 7 种用 Python 处理多变量分类数据的可视化方法
- 监控大型语言模型行为的 7 种方法
- 2023 年 8 款最佳数据版本控制工具
- 8 个 ChatGPT 提示,用于频繁执行的 Pandas 操作
- 我没有放弃成为数据科学家的梦想的 8 个理由,以及你也不应该放弃的原因
- 8 种建模季节性的方法
- 攻读数据科学硕士学位前你必须考虑的 8 件事
- 高效数据可视化的 8 个技巧
- 在大学 HPC 集群上训练模型的 9 个技巧
- 91% 的机器学习模型随着时间的推移会退化
- 评估检索增强生成(RAG)的 3 步法
- 使用策略梯度强化学习进行 A/B 优化
- 像专家一样进行 A/B 测试:掌握统计测试选择的艺术
- 使用 R 和 brms 对学校毕业生结果进行贝叶斯比较
- 贝叶斯选择餐厅的方法
- 面向初学者的应用科学介绍
- 初学者友好的 MLOps 介绍
- 从零开始构建检索增强生成(RAG)应用程序的初学者指南
- 构建高质量机器学习数据集的初学者指南
- 《线性规划及单纯形算法初学者指南》
- LLM 微调的初学者指南
- 初学者指南:通过蒙特卡罗模拟理解 A/B 测试性能
- 一种更好的符号回归方法,通过明确考虑单位
- 更好的分析功能发布影响的方法
- 一种更好的在没有数据的情况下获得结果的方法
- 线性代数的全景视角:方程组、线性回归和神经网络
- 线性代数的鸟瞰图:基础知识
- 线性代数鸟瞰图:映射的度量——行列式
- 线性代数的全景视角:为什么矩阵乘法是这样的?
- 语言模型简史
- 神经网络简介:一个分类问题
- SciKit 管道简要介绍
- 精度和召回率的商业视角
- 一种优雅的方式来有效解决旅行推销员问题
- 深入了解 Colab 的新更新和增强功能
- 云迁移策略:5 步检查清单
- 时间差(0)与常数-α蒙特卡洛方法在随机游走任务中的比较
- 使用 BigQuery 和 Looker Studio 进行队列分析的完整指南
- 数据驱动的客户获取完整指南
- 数据分析家庭实验室启动完整指南
- 推荐系统离线评估的完整教程
- 使用 Python 完整的文字处理
- ML 实验跟踪工具的全面比较
- 一本全面的 OpenStreetMap 入门指南
- 分布式数据并行(DDP)的全面指南
- 《SQL 中公共表表达式的全面指南》
- 时间序列预测中交互项的全面指南
- 构建企业级 Plotly Dash 应用程序的全面指南
- 使用 Pandas 进行数据处理的全面指南
- 高斯溅射的全面概述
- 回归评估指标的全面概述
- 基于数据驱动的方法来减少员工调查长度
- 《垄断游戏的数据驱动策略模拟》
- 一个关于作物产量和价格预测的数据科学课程项目,我至今不感到羞愧
- 一个使用 ChatGPT 代码解释器的数据科学项目
- 量化空间连续性的面向数据科学家的变异函数教程
- 数据科学家探索性数据分析的必备指南
- 数据科学家提高 Python 代码质量的指南
- Makefile 教程
- 数据科学家的 Python 类型指南:提升代码清晰度
- 首席数据科学家的日常生活
- 高级数据科学家的日常
- 自然语言处理中的知识图谱:十年回顾
- 深入探讨自编码器及其与 PCA 和 SVD 的关系
- 对 K-means 的深度解析,适合不太懂技术的读者
- 深入探讨 Visual Transformer (ViT) 模型的代码
- 深入探讨统计期望的科学
- 归纳偏差的一个童话故事
- 医疗 AI 的基础模型
- 卫星图像基础模型
- 基于自然法则的人本中心 AI 框架
- 分析流失的框架
- 构建生产就绪特征工程管道的框架
- 《温和介绍:通过 LangChain 链接 LLMs、代理和工具》
- 贝叶斯深度学习的温和介绍
- 补充对数-对数回归的温和介绍
- 《深入浅出 JAX 中的深度强化学习》
- 《初学者友好的生成式 AI 介绍》
- GPT 模型简介
- 对开源大型语言模型的温馨介绍
- 可调整神经网络的温和介绍(第一部分)
- 《可操控神经网络简介(第二部分)》
- 对分析流处理的温和介绍
- 一个好的描述就是你所需要的一切
- 《生产就绪的 RAG 应用的 12 种调整策略指南》
- 机器学习中的 21 种特征重要性方法和包指南(附代码)
- 关联规则挖掘指南
- 高效训练管道构建指南
- 构建高性能实时数据模型指南
- 使用预测模型进行实时推断指南
- Matplotlib 子图形创建复杂多面板图的指南
- 机器学习实际数据收集指南
- 使用 BigQuery 的窗口函数指南
- 制胜自评指南
- 在数据科学领域建立职业资本的一个高度被低估的方法
- MLOps 的关键起点:探索其核心组件
- 初学者的最大似然估计(附 R 代码)
- 通过示例了解精益数据管道
- 处理大数据集的小技巧,适用于有限内存
- 一种机器学习方法预测胶质母细胞瘤患者的 MGMT 甲基化状态
- 机器学习工程师的必备工具
- 机器学习与优化算法的结合
- 数据建模与设计的成熟度模型
- 对分析流处理的简要介绍
- 一种新的工程类型
- 预测概率分布的新方法
- 迈向负责任的 AI 生成内容之路
- 没有冷启动问题的高效推荐系统
- 高效查询流式数据的方法
- 关于 DALL·E2 的哲学与艺术视角
- 人工智能技能缺口的(哲学)视角
- 在 Kubernetes 上进行快速实验的流程
- 评估业务分析中的正负未标记(PU)分类器的实用方法
- ChatGPT 和 Bard 的免费版本实用比较
- 使用 QGIS 进行地理空间数据分析的实用介绍
- 实用介绍 LLMs
- 顺序特征选择的实用介绍
- 强化学习实践者指南
- 数据网格的前奏
- 进行统计测试所需的基础概念简介
- 《线性代数入门》
- 线性代数入门:第二部分
- 统计估计与推断基础
- 一种经过验证的方法,用以记住数据科学概念,直到你需要的时候
- 从 Google Maps 空气质量 API 获取空气污染数据的 Python 工具
- 《Pythonista 的语义内核入门》
- 《网格基础可视化的快速清晰概述》
- 自然语言处理模型的归一化快速指南
- Python 中美丽散点图的快速指南
- 严格设计机器学习实验的快速指南
- 快速入门 PostgreSQL 连接和数据导入 Pandas
- 《快速入门指南:如何根除模型偏见》
- 魔方与 Markov 链
- 一个学术研究(以及其他数据类型)的推荐系统!
- 对变换器的悼歌?
- 倾向评分建模方法回顾
- 从备用零件构建的无服务器查询引擎
- 使用机器学习进行层次时间序列预测的简单方法
- 一个简单的 ML 项目 CI/CD 设置
- 理解 R 中 apply() 函数的简单指南
- 对量子增强支持向量机的简单介绍
- 管理基于云的机器学习训练的简单解决方案
- 一个简单的 TensorFlow 和 TensorFlow 对象检测 API 的逐步安装指南
- 改善数据科学面试的简单方法
- 加速你的 Python 代码的简单方法 — 保持更新
- 实施 dbt 模型单元测试的简单(但有效)方法
- 一位站点搜索工程师的日志:在 Elasticsearch 查询构建中应对相关性挑战
- 一个数据科学人士可以喜爱的利益相关者分析
- 准确检测峰值和谷值的逐步指南。
- 成为成功的数据分析顾问的逐步指南
- 从零开始构建有效的数据质量策略的逐步指南
- 开发基于地图的应用程序的逐步指南(第一部分)
- 如何使用 React 构建 Web 应用
- 使用 React 为你的网页应用添加互动性
- 逐步指南:稳健的机器学习分类
- BigQuery 中的行和列访问策略逐步指南
- 选择和运行自己生成模型的逐步指南
- 治疗与反应的故事
- 可能影响你的决策树和随机森林的微妙偏差
- 带有地理空间计算的可持续供应链模板(Python)
- 实验分析的表格微积分
- 自然语言处理的分类法
- 一种通用的提示工程路线图:背景支架框架(CSF)
- 方差、协方差、相关性和因果关系的视觉解释
- 视觉学习者指南:解释、实现和解读主成分分析(PCA)
- 视觉麦克风?从图像中提取音频的革命性技术
- Cᵥ 话题连贯性解释
- 差分隐私的 ABC
- 通过使用端到端机器学习平台加速构建机器学习模型
- 使用 Graphcore IPU 和 PopSparse 库加速块稀疏矩阵乘法
- 使用 FP8 加速 PyTorch 训练工作负载 — 第一部分
- 使用 Python 访问和可视化数字高程模型
- 访问你的个人数据
- 实现大型语言模型的更大自我一致性
- 在混乱背景下通过思路引导和并行知识图谱检索实现结构化推理
- 什么是 ACID 事务?
- 神经网络与深度学习的激活函数
- 适应现有的 LLM 项目以使用 LangChain
- 添加一行 SQL 语句以优化你的 BigQuery 表格
- 检索增强生成(RAG)
- 向 Matplotlib 图形中添加插图坐标轴
- 在 Scikit-Learn 中使用自定义 Transformers 进行高级数据准备
- 高级维度减少模型简明解析
- 使用 Python 进行高级 GUI 界面设计
- 高级指南:通过自动批处理输入来避免 Microsoft Translator API 的最大字符限制
- 提高软件代码质量的高级 JavaScript 函数
- 高级提示工程
- 高级 Python:点运算符
- 高级 Python:函数
- 高级 Python: metaclasses
- 高级 RAG 01:从小到大的检索
- 使用深度学习进行高级时间序列异常检测在 PowerBI 中
- 时间序列预测与分类中的深度学习进展:2023 年冬季版
- AI 编程:谷歌 Bard 是一个优秀的 Python 开发者吗?
- AI 意识展开
- AI 驱动的洞察:利用 LangChain 和 Pinecone 与 GPT-4
- AI 熵:AI 生成内容的恶性循环
- AI 前沿系列:人力资源
- AI 前沿系列:供应链
- AI 生成的合成数据
- AI 行动:指导新抗生素的发现以对抗多药耐药细菌
- AI 在物流中的应用:利用计算机视觉优化集装箱装载率
- AI 音乐源分离:如何运作以及为何如此困难
- AI 驱动的个人语音助手用于语言学习
- 人工智能搜索算法:深入了解最受欢迎的算法
- AI 初创公司趋势:来自 Y Combinator 最新一批的洞察
- AI 电话 — 多模态模型的对决
- 人工智能培训外包给人工智能而非人类
- AI 不会取代翻译员
- Airflow 2.7 现已发布
- 如何在 Airflow DAGs 中跳过任务
- 人工智能在政府反腐败中的积极作用
- AI 的句子嵌入,揭密
- 大型语言模型,ALBERT——用于自监督学习的轻量级 BERT
- 混叠:你的时间序列在对你撒谎
- 所有语言并非(tokenized)平等
- 了解上下文学习的所有信息
- 关于向量数据库及其如何增强你的 LLM 应用,你需要了解的一切
- 构建你的第一个 LLM 应用所需知道的一切
- 开发大型语言模型所需了解的一切
- 关于 Dask 数据框分区大小的几乎所有信息
- 数据驱动故事讲述的替代可视化
- p 值标准的替代方法(带 R 代码)
- 线性回归的易懂推导
- 通过推文对我们邮政服务的 AI 驱动分析
- 一种替代的大型数据集特征关系可视化方法
- 使用 Python 分析顶级科技 YouTube 频道
- 轻松掌握 SQL 中的移动平均和累积总和
- 加速你的 dbt 在 BigQuery 上的运行的简单方法
- 进入 HuggingFace 的切入点
- 使用 Transformer 的序列建模示例
- VGG 的实现
- An imPULSE to Action: A Practical Solution for Positive-Unlabeled Classification
- 强大的优化技术简介:模拟退火
- 协方差和相关性的介绍
- 深度学习在序列数据中的应用介绍
- 大型语言模型加载简介
- OpenAI 函数调用简介
- 《Pandas 用户的 Polars 介绍》
- 对 ChatGPT 等模型如何工作的直观理解
- 逆倾向加权在因果推断中的直观解释
- 赠献给我的物理学博士学位。
- 2024 年 Microsoft Fabric 概述
- 使用 InterpretML 分析 NYC Yellow Taxi 乘车记录
- 分析工程学介绍
- 使用 Python 分析北极冰趋势
- 分析在 Power BI 和 DAX 查询中聚合数据的性能
- 用 E-utilities 和 Python 分析科学出版物
- 使用自然语言处理和知识图谱分析您的网站
- 分析加州电动汽车的采纳率
- 分析 Chess960 数据
- 从数据科学的角度分析 FC 巴塞罗那的防守
- 使用 Python 分析地理空间数据
- 使用 Python 分析地理空间数据(第二部分 - 假设检验)
- 使用 ChatGPT 代码解释器分析人道主义数据的非结构化 Excel 表格
- 基于 LLM 的聊天机器人应用程序的结构:单体架构与微服务架构模式
- SQL 窗口函数的结构
- 动物收容所分析实践:Shelter Animals Count 的影响
- 使用 Plotly Express 动画地图
- 用 Python 动画化空间移动
- 使用自动编码器方法在 TensorFlow 和 Keras 中进行异常检测
- 使用 Sigma 规则进行异常检测:构建您自己的 Spark 流处理检测
- 使用 Sigma 规则进行异常检测(第一部分):利用 Spark SQL 流处理
- 使用 Sigma 规则的异常检测(第二部分) Spark 流-流连接
- 使用 Sigma 规则进行异常检测(第三部分)基于布隆过滤器的时间相关性
- 使用 Sigma 规则进行异常检测(第四部分):Flux 电容器设计
- 使用 Sigma 规则进行异常检测(第五部分):Flux Capacitor 优化
- 异常根本原因分析 101
- 另一种(符合性)预测概率分布的方法
- 蚁群优化算法的实际应用
- 拟人化 AI:人类在错误的地方寻找同理心
- Apache Spark MLlib 与 Scikit-learn:构建机器学习流水线
- Apache Spark 优化技术
- API 101:后端的秘密通道
- Apple M2 Max GPU 对比 Nvidia V100、P100 和 T4
- 应用强化学习 III:深度 Q 网络(DQN)
- 应用强化学习 IV:DQN 的实现
- 应用强化学习 V:用于连续控制的归一化优势函数(NAF)
- 应用强化学习 VI:用于连续控制的深度确定性策略梯度(DDPG)
- 应用和使用正态分布进行数据科学
- 应用大型语言模型于表格数据以识别漂移
- 将 LLM 应用于企业数据:概念、关注点和热点观点
- “近似预测”使特征选择极大地加快
- 2024 年 4 月特刊:人工智能能否被治理?
- Araucana XAI:利用决策树在医疗保健中的局部解释性
- 数据科学家角色的原型
- 人工智能驱动的安全运营架构,具有低误报率
- 专家系统是否已经过时?
- Python 中的全局变量真的全局吗?
- 大型语言模型(LLMs)生成的提示可靠吗?
- 你还在使用 Elbow 方法吗?
- *args, **kwargs 和一切介于两者之间
- Args 与 kwargs:在 Python 中调用函数的最快方式是什么?
- 人工蜂群 — 它与粒子群优化的不同之处
- 数据分析中的人工智能
- arXiv 关键词提取与分析管道,使用 KeyBERT 和 Taipy
- 使用 NASA 的太空研究评估全球温度异常 - 第二部分
- 使用维也纳开放数据门户评估城市绿地平等性
- 无监督学习中的关联规则挖掘
- LangChain 和 LLMs 的异步处理
- 从对齐中获得的注意力,实际解释
- 使用 Python 进行深度学习的音频分类
- 音频数据占据中心舞台
- AudioGPT — 探索未来音乐创作的前景
- 利用大语言模型(LLMs)完善推荐知识图谱
- 用 RAG 增强 LLM
- 八月刊:数据科学家的夏季读物
- 作者使用条款和条件
- Auto-Sklearn:如何通过自动化机器学习提升性能和效率
- 深度神经网络部署的自动调整
- 使用 GitHub Actions 自动化机器学习部署
- 使用 MLflow 在 Databricks 中自动化 ML 模型的再训练和部署
- Python 中的自动化特征工程
- 使用 GitHub Actions 进行自动化 Python 应用程序测试
- 使用 CleanLab 自动检测数据集中的标签错误
- 使用 Terraform 自动管理数据管道基础设施
- AutoML — 让机器学习为您的模型选择加速
- 避免神经网络过拟合:深度探讨
- 避免在职业转型进入数据科学时的倦怠
- 2023 年值得掌握的精彩数据科学工具:数据分析版
- 数据科学 AWS 基础:计算
- 《Azure 机器学习工作室简介》
- 基础回顾,第二部分:梯度下降
- 回到基础,第三部分:逻辑回归
- 回归基础,第一部分:线性回归和成本函数
- 回到基础知识:Probit 回归
- 回填精通:提升数据工程专业技能
- 反向传播:逐步推导
- 不良的机器学习模型仍然可以被良好校准
- 平衡行动:解决推荐系统中的受欢迎度偏见
- 平衡创新与可持续性:揭示生成 AI 的环境影响
- 在大语言模型(LLM)时代平衡创新与安全性和隐私
- 作为分析团队在紧急性与可持续性之间取得平衡
- Bash 处理速度很重要
- 批量化赌博机问题
- 批量 K-Means 与 Python Numba 和 CUDA C
- LLM 巨头之战:Google PaLM 2 对比 OpenAI GPT-3.5
- 贝叶斯 AB 测试
- 使用 Pyro 的贝叶斯 AB 测试
- 在 SQL 中使用“NOT IN”要小心
- Beam Search: 序列模型中使用最广泛的算法
- 通过可视化掌握 Python 装饰器
- 初学者友好的数据科学读物(高级从业者也会喜欢)
- 初学者教程:在 Microsoft Azure 中将 GPT 模型与公司数据连接
- PySpark 线性回归初学者指南
- 初学者指南:必知的 LightGBM 超参数
- Behind the Millions: Estimating the Scale of Large Language Models
- 深度学习神经网络在图像分类中的幕后故事
- 使用交叉验证和 Matplotlib 在 Python 中对机器学习模型进行基准测试
- 使用 Criterion 基准测试 Rust 编译器设置
- 机器学习中的伯克森悖论
- 大型语言模型:BERT — Transformer 的双向编码器表示
- BERT 与 GPT:比较 NLP 巨头
- BERTopic:v0.16 有什么特别之处?
- BERxiT: 适用于 BERT 的早期退出
- PySpark 中最好的数据整理函数
- 学习强化学习的最佳资源
- Python 开发的最佳实践
- 提示工程的最佳实践
- 如何利用 ChatGPT 更快地学习数据科学,即使你已经很先进
- Beta 分布:贝叶斯标定的基石
- 大规模生产自主驾驶中的 BEV 感知
- 注意在模型评估中数据的不可靠性:一个关于 Flan-T5 的 LLM 提示选择案例研究
- 超越准确性:在长期用户留存中拥抱偶然性和新颖性的推荐
- 超越准确性:探索机器学习模型全面评估的异域指标
- 超越条形图:桑基图、圆形打包和网络图中的数据
- 超越流失预测和流失提升
- 超越英语:实现多语言 RAG 解决方案
- 人工智能如何用来预测和解释学生表现?
- 超越 LLaMA:开源 LLMs 的力量
- 超越 NeRF(第一部分)
- 超越 NeRFs(第二部分)
- 超越 Numpy 和 Pandas:释放鲜为人知的 Python 库的潜力
- 超越精确度和召回率:深入探讨 Tversky 指数
- 基础知识之外:使用 Jax 的强化学习 — 第一部分:介绍和核心概念
- 超越基础知识:使用 Jax 的强化学习 —— 第二部分:开发一种替代 A/B 测试的利用性方法
- 什么是 t 分布
- 超越炒作:生成式 AI 如何改变软件开发
- 超越数字:软技能在数据分析中的关键作用
- 超越图灵测试:AGI 未来的两个情景
- 超越 VIF:用于偏差缓解和预测准确性的共线性分析
- 超越温暖的拥抱:深入了解 Hugging Face
- 超越变压器:PyNeuraLogic 的未来
- Bi-LSTM+Attention 用于建模 EHR 数据
- 偏见、毒性与大型语言模型(LLMs)的监禁
- 推荐系统中的偏差:主要挑战与最新突破
- 大数据文件格式解释
- BigQuery 最佳实践:释放数据仓库的全部潜力
- BigQuery 优化策略 3:表格扁平化
- 自行车共享系统在塔尔图的 Metallica 音乐会中的运作
- 黑箱化学过程优化
- 使用 Black 和 GitHub Actions 维护干净的 Python 代码
- 图像融合的最简明指南 (CV-03)
- 书评:《设计机器学习系统》
- 通过有效的特征工程技术提升机器学习模型性能
- 使用 Rust 扩展提升你的 Python 代码
- 处理交叉验证中的增强样本数据
- 通过将 GAN 与扩散模型交叉提升图像生成
- 提升模型准确性:我在 Spotify 机器学习论文中学到的技术(+代码片段)
- 提升 PyTorch 在 CPU 上的推理:从训练后量化到多线程
- 提升 Spark 联合运算符性能:改进查询速度的优化技巧
- 使用大型语言模型提升表格数据预测
- Bootstrap(自助法)入门
- 使用 GPT-4 进行标签自助标注
- Boto3 与 AWS Wrangler:使用 Python 简化 S3 操作
- Branches Are All You Need: Our Opinionated ML Versioning Framework
- 打破界限:探索 LLM 的函数调用
- 用一种新的 AI 模型打破蛋白质设计的界限,该模型理解与任何类型分子的相互作用
- 什么是组合优化?
- 广义线性模型介绍
- 解构 YouTube 的推荐算法
- 用 ReLU 打破线性
- 利用这个 Python 库弥合数据与人类之间的差距
- 跨领域桥接:将金融、隐私和软件最佳实践融入机器学习风险管理
- 对应分析简要介绍
- 将正确性带回机器学习
- 冒泡排序解释——数据科学家的算法指南
- Python 中的错误?
pdb
来拯救! - 使用 PostgreSQL、FastAPI 和 Docker 构建一个后端
- 使用这个技巧构建更好的条形图
- 使用 Reflex 在纯 Python 中构建一个类似 ChatGPT 的 Web 应用
- 使用 Numpy 从零开始构建卷积神经网络
- 如何为任何团队规模构建数据科学战略
- 在你的 WhatsApp 聊天中构建一个语言模型
- 构建一个本地运行的语音助手
- 使用 Google Cloud Recommendation AI 构建推荐系统
- 用 Go 构建 REST API:时间序列的数据分析
- 使用 Node.js 构建语音转文本网页应用
- 使用 LangChain 和 GPT-3 构建一个透明的文档问答机器人
- 用 Jupyter 和 Mercury 构建 Web 应用
- 使用 FastAPI 和 Angular 构建 WebSocket 应用程序
- 建立并玩耍!你自己的 V&L 模型配备 LLM!
- 使用 SQL 构建客户旅程
- 构建可部署的机器学习管道
- 使用 Mercury 从 Jupyter Notebook 直接构建优雅的 Web 应用程序。
- 使用检索增强生成技术构建行业特定的语言模型
- 构建低延迟和可扩展的 ML 模型预测管道,使用 Spark Structured Streaming 和 MLflow
- 多做分析,少做仪表盘
- 使用检索增强生成构建更强大的大型语言模型
- 使用持续集成构建可靠的机器学习管道
- 使用 Python 自动化 PLAXIS 中的土壤剖面
- 为 TrailForks 构建推荐系统
- 在一个小时内构建你的第一个深度学习应用
- 使用 Streamlit 创建你自己的类似 ChatGPT 的应用
- 从零开始使用 Pytorch 构建自己的 Transformer
- 在 Python 中构建基础机器学习模型
- 使用 Athena 和 MySQL 构建批量数据管道
- 使用 Hugging Face 的 Transformer 模型构建评论毒性排序器
- 在 Julia 中构建一个符合预测的聊天机器人
- 使用 OpenAI 和 FastAPI 构建记忆微服务的对话代理
- 在 Rust 中构建跨平台 TFIDF 文本摘要器
- 建立一个自定义 GPT:教训与技巧
- 使用 Apache Spark 在 PB 规模上构建数据湖
- 构建分子属性预测的图卷积网络
- 使用 Streamlit 构建 LAS 文件数据探索应用
- 用 Hamilton 在 13 分钟内构建一个可维护且模块化的 LLM 应用堆栈
- 帮助初创公司创始人找到最佳孵化器:一个端到端的项目。
- 使用 Streamlit 构建 Medium 统计跟踪器
- 构建一个问答 PDF 聊天机器人
- 使用机器学习构建推荐系统
- 使用开源工具和 Databricks 构建单一客户视图
- 使用 LangChain、Google Maps API 和 Gradio 构建智能旅行行程建议器(第一部分)
- 使用 LangChain、Google Maps API 和 Gradio 构建智能旅行路线建议器(第二部分)
- 使用 LangChain、Google Maps API 和 Gradio 构建智能旅行行程建议器(第三部分)
- 使用 Redshift Serverless 和 Kinesis 构建流数据管道
- 从头开始构建树状 Parzen 估计器(有点像)
- 用整体思维模型构建 AI 产品
- 为企业构建人工智能战略
- 构建一个 AI 驱动的语言学习应用:从两个 AI 聊天中学习
- 建立一个能够识别我手写字的人工智能 — 第一部分
- 使用信号处理思想构建锻炼次数计数器
- 利用 GPTs 构建物理信息神经网络领域的专家 GPT
- 在 Panel 中构建交互式 ML 仪表板
- 建立分析成熟的组织(AMO)
- 利用维度建模构建更好的数据仓库:数据工程师指南
- Building Better ML Systems — Chapter 1: Every Project Must Start with a Plan
- 《构建更好的机器学习系统》—— 第二章:驯服数据混乱
- 构建更好的机器学习系统 — 第三章:建模。让乐趣开始
- 构建更好的 ML 系统——第四章:模型部署及其发展
- 因果推断的构建模块——使用 LEGO 的 DAG 方法
- 在 Python 中构建理解管道
- 在亚马逊网络服务上构建生成型 AI 应用——我的第一次经历
- 在 Python 中构建互动数据可视化:Plotly 入门
- 使用 Python 构建互动数据可视化 — 叙述的艺术
- 使用 pyvis 构建互动网络图
- 使用 OPL 堆栈构建 LLMs 驱动的应用程序
- 为企业建立机器学习操作
- 为我儿子打造的 AI 漫画视频生成器
- 从基础构建 PCA
- 在 Apache Airflow 中构建管道 - 初学者指南
- 使用深度学习构建强大的推荐系统
- 使用 LangChain 和 LLMs 的业务分析
- 但什么是 LDA?使用类似于 3Blue1Brown 的数学动画来解释。
- BYOL —对比自监督学习的替代方法
- 字节对编码初学者指南
- GitHub Actions 中的缓存
- 召唤所有函数
- 如何使用 Llama2 和 LangChain 构建本地聊天机器人
- 人工智能能克服人类的确认偏差吗?
- AI 真的能帮你通过面试吗?
- AI 能解决你的问题吗?
- LLM 能否取代金融科技经理?开发无 GPU AI 工具进行企业分析的综合指南
- Chat GPT 能下国际象棋吗?
- ChatGPT 能与领域特定情感分析机器学习模型竞争吗?
- ChatGPT 能推荐带有机器学习的电影吗
- ChatGPT 能解决背包问题吗?
- ChatGPT 能写出比数据分析师更好的 SQL 吗?
- 数据科学能找到大脚怪吗?
- 语言模型能否自制工具?
- LLM 能否取代数据分析师?构建一个 LLM 驱动的分析师
- LLMs 能否替代数据分析师?使用 SQL 获取答案
- 强化学习能否超越训练泛化?
- 合成数据能提升机器学习性能吗?
- 变换器能否学会制定策略?
- 我们能否阻止 LLMs 产生幻觉?
- 一个机器学习工程团队的碳排放
- 碳足迹:为什么常见的说法可能不准确
- 卡洛斯·阿尔卡拉斯与三大巨头
- 案例研究:将数据科学过程模型应用于实际场景
- 案例研究:使用彩虹方法进行实际标签编码
- CatBoost 回归:为我详细讲解一下
- 《抓住我,如果你能:Python 异常处理指南》
- 了解大型语言模型
- 类别特征:标签编码的问题所在
- 使用 BERT 对自由文本银行交易描述进行分类
- 因果图:面对观察数据中的致命弱点
- 通过回归估计因果效应
- 因果推断:准实验
- 因果 Python——埃隆·马斯克的推文,我们的搜索习惯,以及贝叶斯合成控制
- 因果 Python:2023 年 NeurIPS 大会上的五个新颖因果观点
- CFXplorer:反事实解释生成 Python 包
- 思维链提示促进了 LLMs 的推理能力
- LLMs 的思维链提示
- Llama 2 中的停止生成挑战
- 检测 AI 生成文本的挑战
- 中国量产自动驾驶的挑战
- 变化点检测 — 一种贝叶斯方法
- 在 DAX 测量中随着时间改变你的关注点
- 在 Power BI 中改变数据视角
- 自然语言处理中的字符编码:ASCII 和 Unicode 的角色
- 探索最终边界:完成 #30DayMapChallenge 之旅
- 绘制非参数探索:无分布假设检验的统计框架
- 讲述故事的图表:将数据可视化转变为更有意义的东西
- ChatGPT — 小心使用
- 使用贝叶斯推断与你的数据集对话。
- 聊天机器人即将颠覆音乐搜索
- 聊天机器人陷入(法律)交火中
- ChatGPT 高级数据分析用于自定义 Matplotlib 井眼日志图表
- ChatGPT 与我们面临的未来(现在)
- 推动边界:ChatGPT 在粒子物理中的应用
- ChatGPT:自动化提示评分
- 4 种你无法使用 ChatGPT 代码解释器的方法,这些方法会干扰你的分析
- ChatGPT 代码解释器:它如何节省了我几个小时的工作
- ChatGPT 数据分析——初学者指南
- ChatGPT 生成的食品行业评论:现实性评估
- GPT 是一个不可靠的信息存储库
- ChatGPT 审查 API:输入/输出控制
- 掌握 ChatGPT:使用 LLM 进行有效的摘要生成
- 开启 ChatGPT 的新维度:文本转语音集成
- 解锁 ChatGPT 分词器
- ChatGPT 的电力消耗
- ChatGPT 每次查询的能耗
- 国际象棋识别问题:深入解决方案
- 选择正确的数据库模型,让你的数据摆脱电子表格
- 选择正确的路径:流失模型与提升模型
- 为你的下一个数据科学网页应用程序选择合适的工具
- 慢性肾病预测:新视角
- CI/CD 在 AWS 的多模型端点
- 数据处理应用程序的 CI/CD 管道在 Azure 上 第一部分:容器实例
- 类别不平衡与重采样:正式介绍
- 类别不平衡:探索欠采样技术
- 类不平衡:ROSE 和随机游走过采样(RWO)
- 类别不平衡:从 SMOTE 到 BorderlineSMOTE1、SMOTE-NC 和 SMOTE-N
- 类别不平衡策略 — 带代码的视觉指南
- 机器学习中的分类:入门
- 分类指标:为有志数据科学家准备的完整指南
- 使用罗斯恩布拉特感知器进行分类
- 使用 LLM 分类源代码 — 什么与如何
- PyTorch 中的干净代码:可读性 ML 的最佳实践
- 使用 Python Pandas 清理混乱的汽车数据集
- 清理 Confluence 混乱:一个 Python 和 BERTopic 的探索
- K-Means 图像压缩的清晰、直观解释
- 一劳永逸地澄清混乱:Python 中的 args、kwargs 和星号
- 去除灰尘:卷积神经网络和迁移学习如何检测太阳能板上的灰尘
- 临床试验结果预测
- 临床试验结果预测
- CLIP:无需数据即可创建图像分类器
- CLIP — 直观且详尽的解释
- CLIP 模型及其多模态嵌入的重要性
- 关闭的 AI 模型不适合作为基准
- 接近中心性与社区:使用 Python 和 NetworkX 分析社交网络 — 第三部分
- 云优先的数据科学:分析和建模数据的现代方法
- 致力于数据科学家的聚类分析
- 合作图神经网络
- 在你的本地硬件上理解代码
- 编程曾经很难,直到我学会了这两件事!
- 数据科学中的认知偏见:类别规模偏见
- 使用 Lang-SAM 和深度学习在图像中求和硬币值
- 协整与相关性
- 在 Raspberry Pi 上使用 Apache Airflow 收集数据
- 大学篮球的 NET 排名解析
- 大学橄榄球会议重组 — 聚类
- 大学橄榄球联盟重组——Python 中的探索性数据分析
- 大学橄榄球联盟重组——node2vec
- 大学橄榄球会议重组——回归分析
- 线性规划中的列生成与切割库存问题
- 与Dropout 正则化对抗过拟合
- 将 dbt 模型合并为一个单一目标表
- 为 Llama 2 组合多个 LoRA 适配器
- 在 Power BI 中将实际数据和预测数据结合成一条连续的线
- 在 Python 中结合多进程和异步编程以提升性能
- 结合开放街道地图和 Landsat 开放数据来验证绿色区域
- 结合传统的基于线程的代码和 Python 中的 asyncio
- 命令行接口(CLI)教程 — 高级用户如何与计算机交互
- 使用 sysargv、argparse、docopts 和 Typer 的命令行接口
- 常见 AB 测试错误。第 2 卷
- 如何在 BigQuery 中比较两个表的相等性
- 比较和解释 HuggingFace 扩散模型
- 使用 python 对比苹果和橘子
- 比较激光衍射与咖啡颗粒成像
- 比较 Python 中的列表推导式与内置函数:哪种更好?
- 比较异常值检测方法
- 完整的 Python 缓存指南
- 完整实现一个用于图像识别的迷你 VGG 网络
- 复利与指数分布
- 理解列表推导式以编写更简洁、更快速的 Python 代码
- Python 中的并发与并行综合指南
- 排名评估指标的综合指南
- 综合时间序列探索性分析
- 计算一组地点坐标的距离矩阵(Python 实现)
- Python 中的并发
- 同时在 Spark 上训练多个时间序列模型,使用 XGBoost
- Conda 太慢了?试试 Mamba!
- 基于状态的维护:雨流计数
- 置信区间与预测区间
- 配置用于空间分析的最小 Docker 镜像与 Python
- 根据您的需求配置 Nemo-Guardrails:一种大型语言模型的替代方法
- 机器学习分类中的符合预测——从基础开始
- 时间序列预测中的保形预测
- 数据中的偏见(仍然)难以应对——但却是必要的
- 面对数据与分析行业中的冒名顶替综合症的现实
- 恭喜你完成了 CLV 预测模型——接下来你打算怎么使用它?
- 使用 Tenacity 在 Python 中征服重试:完整教程
- 意识解耦:存储、计算和现代数据架构的“远”有多远?
- 约束优化与 KKT 条件
- 约束编程解释
- 为 AI 代理启用市场:发现和匹配
- 《构建决策树分类器:从头构建决策树模型的全面指南》
- 使用 H3 和 Plotly 构建六边形地图:全面教程
- 容器:它们如何在幕后工作以及为何它们正在主宰数据科学世界
- 上下文丰富数据:深度学习模型的秘密超能力
- 使用 NLP 进行上下文文本校正
- 数据平台的持续集成和部署
- 持续学习:数据科学家的漫长旅程
- 通过敏捷数据科学项目管理控制人工智能成本
- 可控医学图像生成与 ControlNets
- 便捷的贝叶斯营销组合建模与 PyMC Marketing
- 使用 Stable-Baselines3 进行便捷的强化学习
- 概率收敛或分布收敛
- 使用 LangChain 将对话作为有向图
- 将平坦表格转换为 Power Query 中的良好数据模型
- 将文本转换为数值形式的 TFIDF 向量化器:逐步指南
- 将井测数据从 DLIS 文件转换为 LAS 文件格式
- 卷积解释——卷积神经网络简介
- 卷积网络 — 直观且详尽的解释
- 卷积神经网络入门
- 卷积自编码器与前馈自编码器在图像去噪中的比较
- 在 PyTorch 中制作你的第一个 U-Net
- 使用 Snowflake 进行数据处理
- Copulas:时间序列预测中的基本指南与应用
- 正确采样偏差的推荐系统
- 相关系数以及如何误解一个关系
- 相关性——当 Pearson 的 r 不足以满足需求时
- CountVectorizer 提取文本特征的详细教程
- 优惠券收集者问题:一个概率杰作
- 勇敢学习机器学习:深入探讨 F1 分数、召回率、精确度和 ROC 曲线
- 勇敢学习机器学习:最常见损失函数的深入指南
- 勇敢学习机器学习:解码似然、MLE 和 MAP
- 勇敢学习机器学习:揭开 L1 和 L2 正则化的面纱(第三部分)
- 勇敢学习 ML:揭示 L1 和 L2 正则化(第四部分)
- 学习机器学习的勇气:揭开 L1 与 L2 正则化的神秘面纱(第二部分)
- 破解 Hugging Face Transformers 库
- 破解 OpenAI(Python)API
- 破解代码 LLMs
- 破解员工流失问题的机器学习方法
- 使用大语言模型制作有效总结提示
- 使用 Matplotlib 创建 3-D 银河艺术
- 用 3 步创建一个带有超级快速 Rust 代码的 Python 包
- 创建一个可持续的供应链优化网络应用
- 创建并部署一个提取图像主要颜色的 REST API
- 创建和探索数据科学中角色和薪资的图景
- 使用 Matplotlib 创建凸形图
- 使用 Matplotlib 创建引人注目的径向条形图
- 用 Tkinter 创建银河艺术
- 创建一个本地 dbt 项目
- 使用 PySpark UDFs 在合成表中创建多对一关系
- 使用 AWS Cloudformation 创建 MySQL 和 Postgres 实例
- 使用 Python 创建惊艳的分形艺术:初学者与数学爱好者的教程
- 使用 Matplotlib 创建惊艳的雷达图
- 使用 Folium 创建量身定制的旅游地图
- 创建你自己的生成 AI 文本到图像 API
- 在 SageMaker Studio 中创建你自己的大语言模型实验室
- 在 AWS 上快速创建你自己的稳定扩散 UI
- 几分钟内免费创建你自己的惊艳网站
- 使用 LLaVA 创建你的视觉聊天助手
- 从 RGB 视频创建 3D 视频
- 使用 Spark、Google Cloud Storage 和 Big Query 创建数据管道
- 创建荷兰语问答机器学习模型
- 在 Python 中创建梯度下降动画
- 创建一个具备维基百科知识的 LLaMa 2 代理
- 在 Excel 中使用 VBA 创建项目更新跟踪器
- 创建一个透明的数据环境与数据血统
- 使用 AWS 和 Apache Airflow 创建 YouTube 数据管道
- 使用 Matplotlib 创建信息图
- 为绝对初学者创建和发布自己的 Python 包
- 使用 Python 和 Sklearn 创建 4 种基于质心的聚类算法的动画
- 在 TensorFlow 中创建自定义损失函数:理解理论与实际应用
- 使用 Plotly 创建动态区域图可视化
- 在 Python 中创建分形
- 使用 Python 的 Plotly 和 Folium 库创建地理空间热图
- 使用 dtreeviz 创建令人惊叹的决策树可视化
- 使用 Spark 和 Tableau Desktop 创建富有洞察力的仪表板
- 使用 QGIS 创建地图
- 在远程工作的时代培养新的数据科学家
- 使用 scienceplots 和 matplotlib 轻松创建科学图表
- 使用 PCA 创建评分和排名
- 在 Grafana 中创建时间序列图
- 创建你自己的 ChatGPT 无需编码——一步步指南
- 使用 GPT 和 Whisper 创建个性化语音助手
- 伦理和可解释性 AI 的关键工具
- 跨越人工智能鸿沟:OpenAI 如何将 LLMs 转变为主流成功
- 跨越桥梁:学术界与工业界数据科学的比较
- CRPS — 贝叶斯机器学习模型的评分函数
- 与 Pinecone 的 CRUD 操作
- 通过 Pandera 培养数据科学中的数据完整性
- 机器学习风险管理的文化能力
- 维度诅咒:直观探索
- 使用 Apache Spark PrometheusServlet 自定义 Kafka 指标
- 自定义 ChatGPT API 的记忆功能
- 在 scikit-learn 中的自定义评分函数
- 客户满意度测量与 N-gram 和情感分析
- 客户细分:不仅仅是聚类
- 使用 Matplotlib 自定义颜色图
- 自定义您的基于云的机器学习训练环境 — 第一部分
- 定制你的云端机器学习训练环境 — 第二部分
- Cutout、Mixup 和 Cutmix:在 PyTorch 中实现现代图像增强
- 赛博朋克风格的 Matplotlib 图表
- 使用 D-Tale 快速轻松地进行井日志数据的探索性数据分析
- 日常站会可能不会提升团队的敏捷性
- DASC-PM:数据科学项目的新型流程模型
- 仪表盘已经死了:三年后的回顾
- 数据访问 API 无需复杂性即可访问数据湖表
- 使用 Pandas 进行 Python 中的数据汇总:分析地质岩性数据
- 数据利他主义:企业引擎的数字燃料
- 数据分析变得简单:使用 LLMs 自动化繁琐任务
- 数据分析师数据清洗指南
- 数据即产品:从概念到现实
- 数据一览:为数据分析创建动态仪表板
- Python 中的音频数据增强技术
- 2023 年你需要知道的数据热词 — 第二部分
- HuggingFace 中的数据整理器
- 计算机视觉数据整理指南
- 数据民主化:大型公司采纳的 5 种“人人数据”策略
- 数据文档 101:为何?如何?为谁?
- 数据驱动的调度
- 数据工程:一级方程式启发的初学者指南
- 数据工程书籍
- 数据工程:在单个旧 GPU 上进行大约 2 亿行的快速空间连接
- 数据工程面试问题
- 数据工程:为什么这不仅仅是关于你使用的工具
- 数据熵:数据越多,问题越多?
- Julia 中的数据过滤:你需要知道的一切
- 数据治理,但要将其作为团队运动
- 时间序列数据库的数据集成策略
- 数据是语言模型的基础
- 解读 2023 年数据职位市场:数据是否表明过度饱和还是机会?
- 数据泄漏:它是什么,为什么会导致我们的预测系统失败
- 《使用 Python 和 SQL 掌握数据:通过 4 个战略应用案例释放效率和安全性》
- 数据建模的初学者,第一部分:什么是数据建模?
- 数据建模入门 — 第二部分:维度建模基础
- 数据建模技术用于数据仓库
- 数据工程师的数据建模
- 数据可观察性:分析与机器学习团队的应用
- Python 中的数据导向编程
- 数据管道设计模式
- 数据管道编排
- 数据管道与 Airflow 和 AWS 工具(S3、Lambda 和 Glue)
- 使用 Polars 构建的数据管道:逐步指南
- 数据平台架构类型
- 机器翻译的数据预处理
- 实用数据质量审计:综合指南
- 杀死你机器学习模型的数据质量问题
- 数据科学最佳实践,第一部分——测试你的查询
- 数据科学职业路径、技能与特别项目:我们 2023 年的最佳阅读
- 数据科学专业知识以多种形式和形状出现
- 数据科学造福社会:超越利润,迈向更美好的世界
- 拉曼光谱的数据科学:一个实际示例
- 小公司与大公司中的数据科学
- 数据科学不是科学
- 数据科学项目通过 KPI 达成精通
- 数据科学团队的顶层设计
- 数据科学技术以提升营销活动
- 数据科学:现代经济学的支柱
- 数据科学家面试指南
- 数据科学家:首先是问题解决者,其次是算法魔术师
- 数据共享挑战:隐私和安全问题
- 数据讲故事基础:数据科学家和 AI 从业者的核心策略
- 数据讲故事与动态词云
- 数据流处理令人兴奋:在跳入之前你需要了解的事项
- 数据,优化:如何构建更好的产品、工作流程和团队
- 数据团队作为支持团队
- 数据告诉我们“是什么”,而我们总是寻求“为什么”
- 你是数据票务处理者还是决策制定者?
- 现代数据科学家的数据版本控制:你不能忽视的 7 个 DVC 概念
- KNIME 的数据可视化
- 数据库和数据建模 — 一个快速入门课程
- DataHub 实操 第二部分
- 训练、验证和评估机器翻译的数据集
- SQL 中的日期和子查询
- 如何在 Pandas 中更改日期时间格式
- 去噪声器的黎明:用于表格数据插补的多输出机器学习模型
- dbt CLI 模型选择
- dbt Core、Snowflake 和 GitHub Actions:数据工程师的个人项目
- dbt 增量模型——正确的方式
- 解码:用简单英语解释 Transformers
- 处理转化指标?考虑使用 Beta-二项式模型
- 处理 Python 数据框中的日期,第一部分 — 日期系列创建
- 处理 Python DataFrame 中的日期 第二部分——基础知识
- 使用 Python 处理 MRI 和深度学习
- 亲爱的数据科学家,请保持组织有序!
- 调试和调整 Amazon SageMaker 训练任务与 SageMaker SSH 帮助工具
- Pytest 教程:单元测试简介
- 使用 Docker 调试 SageMaker 端点
- Decent Espresso DE1Pro vs Kim Express:第 2 轮
- 决策分析与 Python 中的决策树——奥克兰运动员队的案例
- 决策科学与设计的结合
- 决策树回归器——Scikit Learn 的可视化指南
- Excel 中的决策树回归
- 分类决策树——完整示例
- 决策树:介绍与直观理解
- 解码 Auto-GPT
- 解码 LLMs:从零开始在 Python 中创建 Transformer 编码器和多头注意力层
- 解码 NumPy 的点积:对维度魔法的简要探索
- 大型语言模型中的解码策略
- 生成式 AI 中的任务概念:智能系统的构建模块
- 解码数据科学家层级:从初级到高级——是什么使他们与众不同?
- 解码曼哈顿计划的网络:揭示科学、合作与人类遗产
- 解码声音交响曲:用于音乐工程的音频信号处理
- 解码美国参议院对 AI 的监督听证会:Python 中的 NLP 分析
- 面向 ChatGPT 的 LLM 聊天机器人解耦前端——后端微服务架构
- 深度确定性策略梯度(DDPG)解释
- 深入了解 ESA 的哨兵 API
- 深入探讨 Apache Spark 数据倾斜的处理方法
- 深入探讨 pandas Copy-on-Write 模式:第一部分
- 深入探讨 pandas Copy-on-Write 模式—第 II 部分
- 深入探讨 Pandas 的 Copy-on-Write 模式 — 第三部分
- 深入探讨模型可解释性的 PFI
- 深入研究 Softmax 回归
- Deep GPVAR:升级 DeepAR 实现多维度预测
- 深度学习用于预测:数据预处理和训练
- 推荐系统中的深度学习:入门指南
- 深度强化学习改进了排序算法
- 对简单线性回归的深刻理解
- 定义通用人工智能
- 定义可解释的特征
- Delta Lake — 自动模式演变
- Delta Lake:删除向量
- Delta Lake:保持快速和清洁
- Delta Lake — 分区、Z-Order 和 Liquid Clustering
- 民主化 AI:MosaicML 对开源 LLM 运动的影响
- 使用 AWS SageMaker AutoML 实现机器学习的民主化
- 解密数据回填
- 揭示贝叶斯模型的奥秘:通过 SHAP 值揭示可解释性
- 揭示依赖关系及其在因果推断和因果验证中的重要性
- 揭秘 DreamBooth:一种个性化文本到图像生成的新工具
- 解密 GQA — 高效 LLM 预训练的分组查询注意力
- 破解 Matplotlib 的神秘面纱
- 揭开 NDCG 的面纱
- 揭开旋转矩阵的神秘面纱
- 解密随机森林
- 将自定义 ML 模型部署为 SageMaker 端点
- 学习如何使用 Langchain 和 BentoML 构建和部署一个语音聊天机器人
- 部署容器化的 Plotly Dash 应用程序与 CI/CD (P2: GCP)
- 直接从你的 Jupyter Notebook 部署机器学习模型
- 使用 Triton 部署本地 GPT 服务器
- 在本地使用 Docker 部署自己的 MLflow 工作区
- 使用 Streamlit 部署您的时间序列预测模型
- 在 Amazon SageMaker 上部署 Cohere 语言模型
- 部署 Falcon-7B 进入生产环境
- 使用 HuggingFace TGI 部署大型语言模型
- 在 Amazon SageMaker 上使用 DJL Serving 部署 LLMs
- 使用 SageMaker Pipelines 部署多个模型
- 使用 Nvidia Triton Inference Server 部署 PyTorch 模型
- 使用 Terraform 部署 SageMaker 端点
- 在 Power BI 中与 sklearn 机器学习模型互动
- 在 GCP 无服务器架构上部署 TFLite 模型
- 使用 Python 进行深度感知的对象插入视频
- 推导显示地理区域相对社会经济优势和劣势的评分
- 设计模式与 Python:构建器
- 《Python 机器学习工程师的设计模式:原型》
- 设计多方交互的对话代理
- 设计运筹学解决方案:一个用户友好的 Streamlit 路由应用
- 解密 Curvelets
- 使用 AI 和计算机视觉检测癌症增长
- 检测协变量偏移:多变量方法指南
- 检测生成式人工智能内容
- 使用 Python 检测实际数据中的幂律
- 使用自编码器检测信用卡欺诈
- 确定性与概率性深度学习
- DETR(用于目标检测的变换器)
- 在 Power BI 中开发和测试 RLS 规则
- 🦜🔗 LangChain:开发由语言模型驱动的应用程序
- 开发你的第一个 AI 代理:深度 Q 学习
- 使用 Python 开发你自己的拼写检查工具包
- 使用 NASA 的 Power API 创建气候 GPT
- 开发公司特定的 ChatGPT 是技术的三分之一和流程改进的三分之二
- 为研究论文消化开发的自主双聊天机器人系统
- 如何为 2v2 游戏创建基于数据的 Elo 评级系统
- 使用 Spark 和 Plotly Dash 开发互动且富有洞察力的仪表板
- 开发科学软件
- 开发科学软件
- 细节决定成败:通过跳出框框思维成为 Power BI 大师
- 训练 LLMs 的不同方式
- 作为 Pytorch 神经网络层的微分方程
- 扩散概率模型与文本到图像生成
- 使用 Python 和 MySQL 进行数字营销分析
- Dijkstra 算法在 OSM 网络中按旅行时间加权
- 维度缩减:面对维度诅咒
- DINO — 计算机视觉的基础模型
- 方向改善图学习
- Dirichlet 分布:基础直观理解及 Python 实现
- 通过物理信息神经网络和符号回归发现微分方程
- 发现最大流-最小割定理:一种全面而正式的方法
- 在强化学习中离散化连续特征
- 揭示真实数据离散度的两个指标超越标准差
- 解剖 Twitter 顶级声音的覆盖范围和影响力
- 我的简历策略如何让我进入了 0.1%被录取的申请者——这是终极指南
- 大型语言模型:DistilBERT——更小、更快、更便宜、更轻便
- PyTorch 中的分布式数据并行和分布式模型并行
- Vertex AI 流水线中的分布式超参数调优
- 在 CPU 上分布式运行 Llama 2
- 深入了解 LoRA 适配器
- DL 笔记:高级梯度下降
- 在 AWS Inferentia 上进行深度学习训练
- 所有道路都通向罗马吗?
- 离散化的量子比特在实际中有效吗?
- 更多的比赛是否意味着更多的胜利?
- 不要仅仅使用 ChatGPT 来“总结文本”
- 通过这 5 个简单的方法,让你的数据科学家简历脱颖而出
- 你真的需要一个特征存储吗?
- 现代数据科学家的 Docker:2023 年你不能忽视的 6 个概念
- 将 Apache Zeppelin 和 Apache Spark 容器化以便于部署
- 面向文档的智能体:与向量数据库、LLMs、Langchain、FastAPI 和 Docker 的探索之旅
- 使用大型语言模型(LLM)和潜在狄利克雷分配(LDA)算法的文档主题提取
- 人工智能是否有政治观点?
- Bagging 是否有助于防止决策树的过拟合?
- 雨能预测雨吗?美国气象数据及今天和明天降雨的相关性
- 您的 LLM 流水线达到了您的目标吗?
- 大型语言模型的领域适配
- 领域适应:微调预训练的 NLP 模型
- 使用 Pandas 数据框更有效地进行 7 种顶级列操作
- 在申请科技公司之前,先掌握这 6 项必备的数据科学技能
- 不要害怕超越在线编程课程
- 不要忘记你的 ML 产品的置信区间
- 别忘了 Python 是动态的!
- 不要让你的第一个 AI 项目在推出时陷入困境
- 不要在没有这 5 个必做步骤的情况下开始你的数据科学之旅——Spotify 数据科学家的完整指南
- 双重机器学习简化版:第一部分 — 基本的因果推断应用
- 双重机器学习,简化版:第二部分 — 目标设定与 CATE
- 使用 Python 下载 Landsat 卫星图像
- 自动驾驶中的可驾驶空间 — 学术界
- 通过精心设计指标推动运营成功
- 通过可操作的分析驱动产品影响
- 任何时间序列模型的动态符合区间
- 在 Power BI 中使用字段参数进行动态过滤
- 从 Python 调用 R 进行动态预测组合
- Kubernetes 中的动态 MIG 分区
- 使用上下文强盗进行动态定价:通过实践学习
- 使用多臂老虎机进行动态定价:通过实践学习
- 从头开始的动态定价与强化学习:Q-Learning
- 动态重连的延迟消息传递 GNNs
- 电子商务:谁最有可能转化?
- 地球并非平坦,你的 Voronoi 图也不应该是
- 使用 Cloud Workflows 和 Cloud Scheduler 轻松构建事件提醒
- 使用 Tiktoken 轻松估算你的 OpenAI API 成本
- 使用 Hydra 的 Optuna 调优器来调节 RL 超参数
- 使用 Pydantic 轻松验证用户生成的数据
- 使用 Python AI 轻松编辑背景
- 简单 CDK 深度学习 EC2 实例
- 时间序列的简易分布无关保形区间
- 在 OpenCV Python 中进行简单的边缘检测方法
- 使用 Polars 进行 EDA:针对 Pandas 用户的逐步指南(第一部分)
- 使用 Polars 进行探索性数据分析:聚合和分析函数的逐步指南(第二部分)
- 边缘情感识别:通过实时语音分析提升人机互动
- 使用 Python 进行有效的日期和时间编码
- 有效的数据增强用于 OCR
- 有效的数据可视化:9 个有价值的技巧,提高图表质量
- 使用 Ray 在 Amazon SageMaker 上实现有效负载均衡
- Python 中的有效单元测试 — 带示例
- 通过主动学习 + 重新标注有效标注 Transformer 的文本数据
- 有效优化你的回归模型与贝叶斯超参数调优
- 有效地使用 %timeit、%lprun 和 %mprun 来编写高效的 Python 代码
- 数据科学中的高效编码:轻松调试 Pandas 链式操作
- 高效深度学习:释放模型压缩的力量
- 使用 PyTorch 的高效图像分割:第一部分
- 使用 PyTorch 进行高效图像分割:第二部分
- 使用 PyTorch 进行高效的图像分割:第三部分
- 使用 PyTorch 高效图像分割:第四部分
- 使用 NumPy 实现高效的 k-近邻(k-NN)解决方案
- 使用瓶颈适配器进行高效模型微调
- 在 Neo4j 中高效的语义搜索
- 高效服务开源 LLM
- 荷兰电动车:使用 Python 和 SQLAlchemy 的探索性数据分析(第二部分)
- 荷兰的电动汽车:使用 Python 进行探索性数据分析
- 使用 spacy-llm 进行优雅的提示版本管理和 LLM 模型配置
- 提升你的商业分析:季节调整的逐步指南
- 提升你的数据科学职业生涯:如何成为一名高级数据科学家
- Elliot 激活函数:它是什么,它有效吗?
- 嵌入技术:ChatGPT 的秘密武器
- 嵌入 + 知识图谱:RAG 系统的终极工具
- 迎接自动化重新训练
- Embracing Julia: An Invitation Letter
- 拥抱叙事数据可视化的艺术
- 人工智能中的涌现能力:我们在追逐一个神话吗?
- 表情符号有助于社交媒体情感分析:不要再清除它们了!
- 赋能公平:识别与解决生成模型中的偏见
- 通过对话式数据访问创造信息优势
- 使用 MLflow 的端到端 ML 管道:追踪、项目和服务
- 使用 GPT-3.5 进行端到端的机器学习
- 关于 12 年数据之旅的年终报告
- 能源供应与需求优化:使用 Gurobi Python 进行数学建模
- 上下文推荐引擎的特征工程
- 工程已永远改变
- 使用 OpenAI 的审查 API 提升 ChatGPT 的内容审查
- 通过实时图表提升您的机器学习实验工作流程
- 使用 Matplotlib 改进您的极坐标条形图
- Python 中的增强调试:追溯信息获得重大升级
- 增强的大型语言模型作为推理引擎
- 增强型目标检测:如何有效实现 YOLOv8
- 提升 ChatGPT 中 CSV 文件查询性能
- 使用实时先进物体识别技术构建乐高技术件分类器
- 增强 Python 文档:逐步指南以链接源代码
- 提升 Haystack 中的 RAG 流水线:引入 DiversityRanker 和 LostInTheMiddleRanker
- 增强 RAG 的答案:自我调试技术和认知负荷减少
- 医学信号处理中的集成平均
- 集成学习:袋装和提升
- 使用 Scikit-Learn 进行集成学习:友好的介绍
- 分类器集成:Voting Classifier
- 通过单元测试确保模型的可靠性
- 确保在 Scikit-learn 管道中正确使用变换器
- 确保可信的 ML 系统,通过数据验证和实时监控
- 娱乐数据科学:流媒体与影院
- 实体解析:识别嘈杂数据中的真实世界实体
- 熵和基尼指数简介
- 基于熵的不确定性预测
- 熵正则化强化学习解释
- 环境数据科学:介绍
- 普及生成式 AI 的环境影响
- 等规模谱聚类
- R 和 Python 的错误处理
- 机器学习中的分类问题关键评估指标
- 机器学习的必读资料
- 使用滚动回归估计时间变化系数
- 估算总体实验影响
- 机器学习项目中的伦理考虑
- 人工智能中的伦理:偏见算法的潜在根源
- ETL vs ELT vs 流处理 ETL
- 如何使用 GitHub Actions 构建简单的 ETL 流水线
- 欧洲旅行优化:遗传算法和 Google Maps API 解决旅行推销员问题
- 使用 RAGAs 评估 RAG 应用程序
- 通过图表和指标评估简单回归模型的性能
- 评估提升模型
- 推荐系统的评估指标 — 概述
- 机器学习分类器的评估
- 合成时间序列的评估
- 你需要了解的关于热图的一切——PowerBI 教程
- 关于正则化你需要了解的一切
- 你应该知道的关于评估大型语言模型的一切
- 进化算法 — 突变解释
- 进化算法 — 选择解释
- 发展数据管道测试计划
- 进化的客户流失预测:应对干预和再培训
- 精确算法还是启发式算法?
- 使用 AWS 和 Power BI 检查美国的航班
- K-最近邻的示例应用
- Python 异常处理:从基础到高级,再到技巧
- ExLlamaV2: 运行 LLMs 的最快库
- 扩展时间
- 期望校准误差(ECE):逐步可视化解释
- 从零开始的实验编排
- 使用谷歌 AI 的 TCAV 进行可解释 AI
- 以 3 种难度级别解释向量数据库
- MEMS 传感器数据的探索性分析
- 在 R 中的探索性相关分析
- Google Sheets 中的探索性数据分析
- 探索性数据分析:揭示数据集中的故事
- 探索性数据分析:我们对 YouTube 频道了解多少(第一部分)
- 探索性数据分析:我们对 YouTube 频道了解了什么(第二部分)
- 探索 Pydantic V2 的增强数据验证功能
- 探索语料库中的语义关系与嵌入模型
- 探索 DAX 中的时间智能变体
- 探索全球野生动物 GIS 数据库
- 探索反事实洞见:从相关性到因果关系的数据分析
- 探索大型语言模型中的创造力:从 GPT-2 到 GPT-4
- 探索生成市场营销组合建模中响应曲线的不同方法
- 探索情感与人工智能、OpenAI 和探索性数据分析的关系
- 探索 CNNs 中的特征提取
- 探索 GEMBA:一种基于 LLM 的翻译质量评估新指标
- 探索大规模栅格人口数据
- 对于数据科学家来说,总有新的 Python 技能值得学习
- 探索 Numexpr:Pandas 背后的强大引擎
- 探索 TensorFlow 模型预测问题
- 使用 Python 探索 DLIS 文件的内容
- 探索语言模型对中毒攻击的脆弱性
- 探索生存分析中的事件时间
- 探索令牌概率作为过滤 GPT-3 答案的一种手段
- 探索什么让 AI 伦理工具包运转起来
- 通过 HTTP 安全地暴露 Kubernetes 卷:如何在互联网上服务 PVC
- 揭示卡尔曼滤波器的强大功能
- 扩展大规模语言模型中的上下文长度
- 从(Azure)SQL Server 大型表中提取数据到 RFC 4180 兼容 CSV 文件
- 使用 Python 从 PDF 文件中提取文本:全面指南
- 提取式与生成式问答——哪种更适合您的业务?
- 眼光放在奖品上:将商业价值置于数据项目的核心
- 使用 Python 的面部检测——面部识别的前奏
- 什么是负二项分布
- Falcon 180B:它能在你的计算机上运行吗?
- 鹰:开源大型语言模型的巅峰
- 假先知:一个自制的时间序列回归模型
- 虚假预言者:将回归模型与 Meta 的 Prophet 进行比较
- False Prophet: 自制时间序列回归的特征工程
- BigQuery 的神奇生物及其使用时机
- AWS SageMaker 中的快速和可扩展超参数调优与交叉验证
- Python 到 SQL — 我现在可以以 20 倍的速度加载数据
- 使用 Polars 进行快速字符串处理——诈骗邮件数据集
- FastAPI 和 Streamlit:你必须了解的 Python 双雄
- 使用 Ray 加速时间序列预测的训练,第三部分,共 3 部分
- FastSpeech:论文概述与实现
- 用 Python 实现的机器学习特征编码技术
- 在 Pandas DataFrame 中使用正则表达式 (RegEx) 进行特征工程
- 使用 SHAP 进行特征重要性分析:我在 Spotify 学到的(在复仇者的帮助下)
- 特征子集选择
- 特征变换:PCA 和 LDA 教程
- 二月刊:聊聊聊天机器人
- 2023 年女子世界杯通过 Plotly 可视化
- 解析数据中最不寻常的片段
- 填空自监督在自然语言处理中的应用
- 最终的 DXA-国家
- 为你的下一个数据科学侧项目寻找灵感
- 使用量子计算机寻找暗物质
- 在非结构化数据中找到数据切片
- 寻找改进的改写
- 在干草堆中找针 — Jaccard 相似度的搜索索引
- 使用分支定界找到最佳解决方案
- 利用多项式混沌扩展、使用 uncertainpy 和 chaospy 寻找混乱中的秩序
- 通过随机森林找到我们的路
- 使用地理空间关联规则挖掘发现便利店位置中的模式
- 使用 GPT-4 和 SpaCy 查找拼字游戏全字母句
- 在 Twitter 帖子中寻找时间模式:使用 Python 进行探索性数据分析
- 在 Twitter 帖子中发现时间模式:使用 Python 进行探索性数据分析(第二部分)
- 使用机器视觉找到边境通行的最快车道
- 寻找你梦想中的人工智能硕士项目
- 用 Python 微调大型语言模型
- 微调更好的聊天模型,采用蒸馏身份偏好优化(IPO)
- 在 Amazon SageMaker 上微调 MPT-7B
- 优化您的 LLM 而不会让 GPU 负荷过重
- 在 Colab 笔记本中微调你自己的 Llama 2 模型
- 微调的 LLMs 用于情感预测——如何分析和评估
- 使用 H2O LLM Studio 对 LLM 模型进行微调以生成 Cypher 语句
- 微调大型语言模型(LLMs)
- 使用 MNR 损失微调句子变换器
- FinOps:降低 BigQuery 存储成本的四种方法
- 使用 Apache Spark 进行机器学习的第一步
- 使用 Python 探索强化学习的第一步
- FitBot — 一款健身聊天机器人代理
- 五个免费且可靠的天气数据来源
- 你应该注意的五个数据泄露的隐藏原因
- 产品管理中的五种强大优先级排序技巧
- 五种实际应用 LSTM 模型于时间序列的案例,附代码
- 五个协作数据科学的软件工程原则
- 五件事 GenAI 能做和不能做的事情
- 我从第一次 R 编程活动中学到的五件事
- 处理大型动作空间的五种方法
- 修复 Prophet 的预测问题
- Flapjax: 使用 Plotly 和 Flask 进行网络数据可视化
- 关注 TDS 列表,发现我们的最佳文章
- 遵循此数据验证过程以提高数据科学准确性
- 预测多个视野:以天气数据为例
- 像大师一样预测多个时间序列
- 预测 API:一个使用 Django 和 Google Trends 的示例
- 用 Python 预测间歇时间序列
- 使用 Granger 因果关系进行预测:检查时间序列的虚假相关
- 忘掉 SQLite,改用 DuckDB——然后感谢我
- ETL 测试 — 如何正确测试你的数据管道
- 忘掉 RAG,未来是 RAG-Fusion
- 计算机视觉中的前向映射和后向映射
- 神经网络中的前向传播与反向传播
- 四种构建在生成式人工智能基础模型之上的方法
- A/B 测试中的四个常见错误及解决方法
- 自 ChatGPT 以来的四个 LLM 趋势及其对 AI 构建者的影响
- 减少分析浪费的四个步骤
- 傅里叶变换在时间序列中的应用:关于图像卷积和 SciPy
- 时间序列的傅里叶变换:去趋势
- 时间序列的傅里叶变换:使用 numpy 解释快速卷积
- 时间序列的傅里叶变换:绘制复数
- 傅里叶变换,实用的 Python 实现
- 用实体解析和图神经网络进行欺诈检测
- 无限制:在 MoMA 机器幻觉的验证
- 频率学派与贝叶斯统计学的比较
- 从算法到文字:我为何写作关于机器学习
- 从分析到实际应用:客户终身价值的案例
- 从生物学习到人工神经网络:接下来会是什么?
- 遗传算法简介
- 从商业学生到 Spotify 的数据科学家
- 从因果树到森林
- 从集中式学习到联邦学习
- 从混乱到清晰:利用大型语言模型简化数据清洗
- 数据科学中的 Docker
- 从簇到洞察;下一步
- 从数据工程到提示工程
- 从数据湖到数据网:最新企业数据架构指南
- 从数据平台到机器学习平台
- 从数据到聚类:你的聚类何时足够好?
- 从数据到市场策略:利用行为分割
- 从数据到营销策略,通过事务性细分
- 从数据仓库和数据湖到数据网格:企业数据架构指南
- 从决策树到变换器:比较马其顿餐厅评论的情感分析模型
- 从 DICOM 头到 CSV 文件
- 从乏味到惊艳:Matplotx 如何改善你的 Matplotlib 图表
- 从编码到嵌入
- 从 ETL 过渡到 ELT
- 从评估到启示:深入了解交叉验证中的样本外预测
- 从 GeoJSON 到网络图:在 Python 中分析世界国家边界
- 从黑客到和谐:在推荐中构建产品规则
- 从线性代数到深度学习的 7 本书(2024 年冬季更新)
- 从见面会到辅导:如何作为数据科学家进行网络交流
- 从数据到行动:让数据为公司服务
- 从纸张到像素:评估数字化手写文本的最佳技术
- 从 Powerpoints 到 PDFs 再到 CSV 文件:用于读取主要文件类型的 Python 类
- 从穿孔卡到 ChatGPT
- 从 Python 到 Julia:基本数据操作和探索性数据分析
- 从 Python 到 Julia:特征工程与机器学习
- 从 RAG 到财富
- 从 SQL 到 Julia:数据科学的其他编程语言
- 从感知机到 Adaline
- MLE、MAP 和贝叶斯推断的全面解释
- 统计学基础:所有数据科学家和分析师应知——带代码——第一部分
- 如何在 Pandas 数据框中进行模糊字符串匹配
- 高斯头像:总结
- 高斯混合模型清晰解释
- 高斯混合模型(GMMs):从理论到实现
- GenAI 提升 NLP 系统 I:生成合成数据的工具
- GenAIOps:发展中的 MLOps 框架
- 强化学习中的广义优势估计
- 生成地理区域的 3D 网格
- 为数据分析生成虚假数据
- 使用 VAEs、GANs 和扩散模型生成图像
- 使用 Wikipedia 生成知识图谱
- 使用 MONAI 生成医疗图像
- 每月生成更多优质见解
- 基于词级 BERT 嵌入趋势生成句子级别嵌入
- 使用 Python 生成合成数据
- 生成式 AI 伦理
- 社会工作学生的生成式人工智能:第一部分
- 生成性 AI 对社会工作学生的介绍:第二部分
- 使用 Nougat 模型进行研究论文生成 AI
- 生成式 AI 产品策略:如何构建下一代 AI 产品
- 生成模型与噪声和结构的舞蹈
- 使用 GPT 3.5 和长期记忆的生成式问答
- 遗传算法:寻找最佳电子邮件投递时间表以最大化互动
- 天才圈子:绘制诺贝尔网络
- 群体上的几何深度学习
- 机器学习与经典统计中的线性回归几何解释
- Python 中的地理空间数据分析
- 使用 GeoPandas 进行地理空间数据分析
- 使用 OSMnx 进行地理空间数据分析
- 地理空间数据工程:空间索引
- 地理空间数据科学:点模式分析
- 地理空间索引 102
- 地理空间索引和评分:释放基于位置的数据分析的力量
- geotiff.js: 如何获取纬度-经度坐标的投影 GeoTIFF 数据
- 对 AUC 和 Harrell’s C 的直观理解
- 使用 Python 按位置获取气温数据
- 从 Pandas GroupBy 中获得最大收益
- 从 AI/ML 入手,构建智能供应链
- 开始使用 Databricks
- 入门 Great Expectations:Python 中的数据验证指南。
- 开始使用 JAX
- 开始使用 LangChain:构建 LLM 驱动应用程序的初学者指南
- 多模态入门
- 开始使用 NumPy 和 OpenCV 进行计算机视觉 (CV-01)
- 开始使用 Weaviate:初学者的向量数据库搜索指南
- 在 R 中使用 ggvanced 包的蜘蛛图和并行图
- 幽灵图像与量子位:可视化量子叠加的新方法
- Git 101 — 从术语到架构及工作流
- 数据科学家的 Git 深入探讨
- 现代数据科学家的 Git:你不能忽视的 9 个 Git 概念
- Git 标签:它们是什么以及如何使用
- GitHub 对现代数据科学家的意义:你不能 .gitignore 的 7 个概念
- GLIP:将语言-图像预训练引入物体检测
- 全球数据晴雨表:目前全球开放数据的状态如何?
- 如何在 R 中分组数据:超越“group_by”
- 使用 DAX 中的库存度量迈出下一步
- 优秀工程师、差劲工程师和恶劣工程师——数据领导者的轶事
- 告别 os.path:15 个 Pathlib 技巧迅速掌握 Python 文件系统
- 如何在 Python 中设置 GOOGLE_APPLICATION_CREDENTIALS
- Google Cloud 的 Cloud Composer 替代品
- Google Foobar Challenge: Level 3
- 谷歌生成式 AI 转型
- Google Med-PaLM:AI 临床医生
- 简单的 Google Pub/Sub 到 BigQuery 方法
- 如何使用 Python 更改 Google 表格权限
- 谷歌对多模态基础模型的最新方法
- Google 的 MusicLM:从文本描述到音乐
- GPT-3.5 更擅长翻译段落
- GPT-4 可以解决数学问题——但并非所有语言都能
- GPT-4 来了:它真的在改变语言 AI 的游戏规则吗?
- GPT-4 与 ChatGPT:对训练、性能、能力和局限性的探讨
- GPT 与超越:大型语言模型的技术基础
- GPT 与人类心理学
- GPT — 直观而全面的解释
- GPT 与 BERT:哪一个更好?
- GPTQ 或 bitsandbytes:对于 LLMs 应使用哪种量化方法 — 以 Llama 2 为例
- Pytorch 中的 Grad-CAM:前向和反向钩子的使用
- 在 Excel 中进行梯度提升线性回归
- 梯度提升:预测中的银弹
- 从理论到实践的梯度提升(第一部分)
- 理论与实践中的梯度提升(第二部分)
- 梯度提升树:是早期停止还是不早期停止?
- 梯度下降算法 101
- 深度学习笔记:梯度下降
- 梯度下降:优化与初始化解释
- 梯度下降与梯度提升:逐一对比
- 图卷积网络:GNNs 简介
- 表格数据的图数据科学
- 图机器学习:概述
- 图形机器学习 @ ICML 2023
- 图形机器学习在 2023 年的现状
- [比利·科根网络图谱:使用 Python 的 NetworkX 库分析和绘制社会关系——第四部分](docs/graphing-billy-corgans-network-analyzing-and-mapping-social-relationships-with-python-s-networkx-724de1e431ac.md)
- 数据科学软技能
- 绿色 AI:改进 AI 可持续性的方法和解决方案
- 带误差条的分组条形图(R 语言)
- Grover 的量子搜索算法
- 使用 Python 和 Plotly Express 创建树状图
- ChatGPT 高级设置指南——Top P、频率惩罚、温度等
- 处理 Python 中分类变量的指南
- 数据分析师成功机器学习模型部署指南
- 引导你的受众:在演示中创建引人入胜的叙事
- 有指导的迁移学习:如何利用“侦察的力量”提升机器学习表现
- 指导大型语言模型进行任务特定推理 — 提示设计与软提示
- 破解因果推断:使用 ML 方法的合成控制
- 破解 MySQL 的 JSON_ARRAYAGG 函数以创建动态、多值维度
- 黑客统计显著性:使用机器学习方法进行假设检验
- 为了庆祝这些非常有用和实用的文章,本周的《Variable》将聚焦于我们“提示与技巧”栏目中的近期亮点:它们提供了可操作的、经过验证的建议,可以帮助你节省时间和精力,并在项目中取得更好的结果。无论你本周是否已经享受了你的“甜点”(祝庆祝者万圣节快乐!),我们希望这些技巧能激发你寻找新的方法或工具进行尝试。
- 使用 Delta 表处理缓慢变化的维度(SCD)
- 使用 Python 处理时区
- 实战深度 Q 学习
- 针对产品和工程领导者的动手 GenAI
- 使用 Python 实现生成式 AI:自编码器
- 使用 Python 的 GANs 实践生成式 AI:DCGAN
- 使用 Python 和 GANs 进行生成式 AI 实践:图像生成
- 实操介绍 Delta Lake 和 (py)Spark
- 使用 Python 进行实践性的多目标分类
- 亲自动手实现 Otsu 阈值分割算法,用于图像背景分割,使用 Python
- 实践中的采样技术和比较,使用 Python
- 利用人工智能创造更美好的世界
- 利用 Python 中的 Asyncio 发挥多核性能
- 利用南美洲的降水量和气象栅格数据
- 利用 Falcon 40B 模型,最强大的开源 LLM
- 利用知识图谱的力量:用结构化数据丰富 LLM
- HashGNN: 深入探讨 Neo4j GDS 的新节点嵌入算法
- 现代推荐系统中的哈希:入门
- 机器是否刚刚实现了在人的语言中进行进化性的飞跃?
- 在理解量子机器学习时遇到困难吗?
- 浓缩咖啡中的 Headspace:优化
- 医疗数据本质上是有偏的
- 排序算法:堆排序
- 这是我使用 Apache Airflow 6 年学到的东西
- 我的数据科学工作流程模板
- 你错过了什么
- 这就是为什么你从数据中提取价值的努力没有进展
- 混合整数规划(MIP)模型的启发式方法
- 嘿,GPU,我的矩阵怎么了?
- 隐藏马尔可夫模型:通过实际例子和 Python 代码进行解释
- 街道名称中的隐藏模式:数据科学故事 [第一部分]
- 街道名称中的隐藏模式 [第二部分]
- 分层 Transformer — 第一部分
- 分层变换器 — 第二部分
- 更高精度的浓缩咖啡篮成像
- KDD 2023 大型语言模型亮点
- 爬山算法优化:简单的初学者指南
- 招聘杰出的数据科学家
- 直方图均衡化:逐步指南 (CV- 06)
- 达到时间预测:时间序列概率预测的另一种方式
- 利用 SageMaker 多模型端点和 GPU 实例托管数百个 NLP 模型
- 在 Colab 上免费托管你的 Google Earth Engine RESTful API
- 德国住房租赁市场:使用 Python 的探索性数据分析
- 如何用 25,000 台计算机训练 ChatGPT
- 一个优秀的数据科学家如何看待矩阵乘法
- 人工智能如何改变我们的编码方式
- 《阿波罗 8 号如何赢得月球竞赛》
- 探索解决股票切割问题的贪婪算法
- 人工智能如何使旧视频看起来更流畅?
- 机器学习如何应用于音频分析?
- 如何在没有复杂算法的情况下改进预测指标和流程?
- ChatGPT 的工作原理:聊天机器人背后的模型
- 关于计算机视觉中颜色表示的全面指南 (CV-02)
- 企业如何停止在人工智能和数据驱动决策中失败
- Cypher 在 Neo4j v5 中的变化
- 数据泄漏如何影响模型性能声明
- 数据科学如何创造价值
- 数据科学如何帮助福尔摩斯找到凶手
- 数据科学家如何节省时间
- 从损失函数的角度来看,决策树如何分裂节点
- 我们如何知道一篇文本是 AI 生成的?
- 决策树如何知道从数据中询问下一个最佳问题?
- AI 如何看待你的国家?
- PPO 的剪切如何工作?
- 社会教育指数如何影响学校离校结果? — 用 R 和 brms 进行的贝叶斯分析
- 不确定性原理如何限制时间序列分析?
- XGBoost 如何处理多类分类?
- 企业如何构建类似于 OpenAI 的 ChatGPT 的大型语言模型
- 决策树如何解决回归问题?
- 少样本学习如何自动化文档标记
- 如何通过 GenAI 解决方案彻底改变商业自动化:解读 LLM 应用的高级管理层
- 生成性人工智能如何支持食品行业企业
- 生成式 AI 将如何影响产品工程团队
- 地理围栏如何塑造你周围的世界
- 谷歌如何利用虚假数据集来训练生成音乐 AI
- GPT 模型的工作原理
- GPT 的工作原理:使用一个药水的故事对注意力中的键、值、查询进行隐喻性的解释
- 人类劳动如何促进机器学习
- 如何基于 AWS 构建级联数据管道(第一部分)
- 如何基于 AWS 构建级联数据管道(第二部分)
- 如何在 10 分钟内利用 LlamaIndex 构建定制的 GPT 聊天机器人
- 如何构建带有 AI 生成曲目的 Lo-fi 音乐网页播放器
- 我是如何构建一个编程语言的:通往成功的(艰难)之路
- 我如何用 ChatGPT 编写了自己的私人法语 tutor
- 如何使用 Python 创造 DALL-E 10000 份积分无法购买的生成艺术
- 我在 2022 年的哭泣情况:对 365 天个人数据的分析
- 我是如何在 6 个月内获得数据分析师职位的
- 如何利用开源 LLM 在大型计算项目中实现巨额节省
- 我如何设置数据科学项目(使用 VS Code 和 DVC)
- 我作为全职数据科学家如何跟上最新的 AI 趋势
- 我是如何将 ChatGPT 转变为类似 SQL 的图像和视频数据集翻译器
- 如何将公司的文档转变为可搜索的数据库,利用 OpenAI
- 我如何通过第一个 #30DayChartChallenge 学习 Observable Plot
- 如何赢得新加坡的 GPT-4 提示工程竞赛
- 如果我可以重新开始,我会如何利用 ChatGPT 学习数据科学
- 如何让行业数据科学家的工作发挥作用
- AI 如何颠覆数据治理?
- 机器学习如何成为位置数据行业的游戏规则改变者
- 多少键位足够弹奏钢琴?
- Meta 的人工智能如何基于参考旋律生成音乐
- 我们需要多少数据?在机器学习与安全考虑之间的平衡
- 在模型选择过程中,你会损失多少预测性能?
- Nightshade 的工作原理
- 《糟糕的利益相关者管理如何毁掉分析》
- 偏见如何渗透到 AI 系统中
- Python 枚举如何使数据配置优雅
- 如何通过操作符融合和 CPU/GPU 代码生成加速深度学习
- 当 1+1≠2:量子物理学如何打破统计学定律
- 足球进球的随机性如何?
- 比率的可靠性如何?
- Self-RAG 如何革新工业 LLMs
- 如何让简单的数值积分在方程建模任务中让你的生活更轻松
- 辛普森悖论如何误导统计数据
- SQL 执行顺序在不同数据库中的差异
- 变量之间的关联强度有多大?
- 不要在没有这 3 步策略的情况下申请数据科学职位
- t-SNE 如何在降维中优于 PCA
- 如何在大众之前访问未来的 Python 版本,如 3.12
- 如何在数据科学训练营中表现出色:完整指南
- 如何根据您的数据将领域特定知识添加到 LLM
- 如何通过残差分析你的时间序列模型
- 如何评估推荐系统
- 如何使用 AI 自动生成长时间 YouTube 视频的摘要
- 如何通过 Python 预提交钩子提升代码质量?
- 如何使用 LLMs 自动提取 PDF 中的实体
- 如何在 AWS EMR 上使用 Airflow 自动化 PySpark 管道
- 如何自动提取和标记 Seaborn KDE 图上的数据点
- 如何在 R 中自动导入和合并多个文件
- 如何避免被模型准确度欺骗
- 如何避免 Google BigQuery / SQL 中的五个常见错误
- 如何避免在自学数据分析时犯这 4 个耗时错误
- 如何成为更好的商业数据科学家
- 如何成为数据工程师
- 如何在没有技术背景的情况下成为数据科学家:技巧和策略
- 如何最佳利用 OpenAI 的 Evals 框架
- 如何将自定义 ML 模型引入 OpenMetadata
- 如何构建一个五层数据栈
- 如何构建因果推断机器学习模型,探讨全球变暖是否由人类活动引起
- 如何使用 IPyWidgets 和 Plotly 在 Python 中构建自定义标注工具
- 如何使用 ChatGPT 构建数据科学作品集网站
- 如何构建一个完全自动化的数据漂移检测管道
- 如何在 2023 年构建多 GPU 系统进行深度学习
- 如何使用 Python 构建一个类似 Shazam 的 Telegram 机器人
- 如何使用 Python 构建 ELT
- 如何构建一个互联的多页面 Streamlit 应用
- 如何构建 LLM 应用程序
- 如何从零开始构建一个大型语言模型
- 如何在数据工程团队中建立值班文化
- 如何构建和管理数据资产组合
- 如何在 AWS 云上使用 Kubernetes 和 oneAPI 构建 ML 应用
- 如何培养数据科学家的良好习惯
- 如何构建具有 O(N) 复杂度的图 Transformer
- 如何使用 Polars 构建基于人气的推荐系统
- 如何使用 Plotly 图形对象构建瀑布图
- 如何使用大型语言模型与任何 PDF 和图像文件进行聊天 — 带代码
- 如何选择大学的 AI 项目/课程
- 如何选择最佳的分类问题评价指标
- 如何选择最佳的回归问题评估指标
- 如何为你的项目选择正确的数据可视化策略
- 如何分块文本数据 — 一项比较分析
- 如何在新纪元中共同设计 AI/ML 的软件/硬件架构?
- 如何组合预测结果
- 如何有效比较机器学习解决方案
- 如何将 Azure AD 管理身份连接到 AWS 资源
- 如何连接 Streamlit 到 Snowflake
- 如何通过 Cloud SQL Auth Proxy 在 Docker 中连接到 GCP Cloud SQL
- 如何通过 Visual Studio Code 连接到您的 AWS EC2 实例
- 如何将任何文本转换为概念图谱
- 如何正确地对时间序列进行交叉验证
- 如何利用大脑的季节性创建一年的数据科学自学计划
- 如何在 Spacy 3.5 中创建自定义 NER
- 如何创建热线图
- 如何使用 Matplotlib 创建口红图
- 如何用 Python 和 Matplotlib 创建极坐标直方图
- 如何在 Python 中创建出版质量的热图
- 如何使用 Plotly 和 Streamlit 创建一个简单的 GIS 地图
- 如何使用 Python 创建合成社交网络
- 如何在 Python 中创建时间序列网络图可视化
- 如何使用 R 创建艺术地图
- 如何创建一个有效的自学计划,以成功自学数据科学
- 如何使用 Seaborn 和 Matplotlib 创建美丽的年龄分布图(包括动画)
- 如何使用 Seaborn 和 Matplotlib 创建美丽的条形图(包括动画)
- 如何在 Python 中创建美丽的华夫图用于数据可视化
- 如何创建气候条纹
- 如何用最少的 Python 代码创建赛博朋克风格的 Seaborn 小提琴图
- 如何使用 Python 和 Matplotlib 创建美国数据地图
- 如何使用 Python 和 Matplotlib 创建引人注目的国家排名
- 如何使用 Matplotlib 创建六边形地图
- 如何创建高性能的数据产品?
- 如何使用 Plotly 创建地图图
- 使用 LaTeX 创建出版级图表:第二部分
- 如何创建有价值的数据测试
- 如何使用稳定扩散和 Deform 创建插值视频
- 如何创建自己的 AI 天气预报
- 如何:时间序列数据的交叉验证
- 如何使用 Docker 将 Panel 应用部署到 Hugging Face
- 如何以最少计算资源部署和解释 AlphaFold2
- 如何使用 FastAPI 和 Google Cloud Run 部署和测试你的模型
- 如何在 5 秒钟或更短时间内使用 Docker 部署 GitLab
- 如何部署机器学习模型?端到端的狗品种识别项目!
- 如何将 PyTorch 模型部署为生产就绪的 API
- 如何从头设计一个 dbt 模型
- 如何设计机器学习项目的路线图
- 如何在 AWS 中设计 MLOps 架构?
- 如何通过假设检验检测数据漂移
- 如何检测机器学习模型中的漂移
- 如何在 3 个步骤中开发 Streamlit 数据分析 Web 应用
- 如何使用 Folium Python 库显示 GeoJSON 文件中的数据
- 如何有效地进行交叉验证
- 如何使用 pytest 对 Pandas 中的数据进行数据验证
- 如何使用 Python、NLTK 和一些简单的统计进行语言检测
- 如何在 ChatGPT 时代有效开始编码
- 如何有效地构建数据科学项目
- 如何在 Python 中有效使用 lambda 函数作为数据科学家
- 使用最新技术微调你的开源 LLM
- 如何高效地替换 Pandas DataFrame 中的值
- 如何编码周期性时间特征
- 如何通过讲故事与用户互动:在 R 和 Shiny 中展示数据分析
- 如何提升你的 Pandas 代码 — 不要再等待了
- 如何通过 Matplotlib 马赛克提升你的可视化效果
- 如何估算 Transformer 模型中的参数数量
- 如何评估学习排序模型
- 如何评估表示
- 如何评估你的 ML/AI 模型的表现
- 如何使用迭代滤波评估未报告的流行病感染
- 如何通过自定义方法扩展 Pandas 数据框,以增强代码的功能性和可读性
- 如何从任何 PDF 和图像中提取文本以用于大型语言模型
- 如何找到一个通勤时间短的公寓
- 如何为你的数据找到最佳的理论分布
- 如何寻找独特的数据科学项目创意,使你的作品集脱颖而出
- 如何在消费级硬件上微调 Llama2 以进行 Python 编程
- 使用 Python 调试逻辑回归错误的最佳实践
- 如何修复时间序列分析中的缺失日期
- 如何使用自回归进行时间序列预测
- 什么是 ARIMA?
- 如何使用移动平均模型进行预测
- 如何生成和评估知识图谱嵌入的表现?
- 如何使用 Folium 生成交互式地图
- 如何使用 CTGAN 生成真实世界的合成数据
- 如何使用 DAX Studio 从 Power BI 获取性能数据
- 如何获得回聘邀请
- 如何充分利用你的量子比特
- 如何通过鸟鸣声识别鸟类物种?
- 如何使用 Python 识别数据中的异常值
- 如何识别业务关键数据
- 如何使用 Python 代码实现层次聚类
- 如何使用 Python 实现学习排序模型
- 如何在 PySpark 中实现随机森林回归
- 如何通过提示工程改进 ChatGPT 生成的代码
- 如何利用贝叶斯高斯混合模型提高聚类准确性
- 如何改善低资源语言的翻译
- 如何使用配置参数改进你的 ChatGPT 输出
- 如何在 Kubernetes 中通过 NVIDIA MPS 提高 GPU 利用率
- 如何在 Kubernetes 中安装私有 Docker 容器注册表
- 如何在 Kubernetes 中安装 Traefik Ingress Controller
- 如何在你的代码中集成 Microsoft Translator API
- 如何解读线性回归系数 | 完整指南
- 如何解释逻辑回归系数
- 如何迭代一个 Pandas Dataframe
- 如何使用多功能数据工具(Versatile Data Kit)跟踪数据版本
- 如何在 2023 年学习地理空间数据科学
- 如何通过向这些专业人士学习来提升你的 Python 技能
- 如何将非传统教育或职业路径转化为你的第一个数据科学工作
- 如何利用预训练的 Transformer 模型进行自定义文本分类?
- 如何以全新的视角看待常见的机器学习任务
- 如何制作 40+个互动图表以分析你的机器学习管道
- 如何在 R 中使用 ggplot2 制作蜘蛛图
- 如何制作 AI 图像编辑聊天机器人
- 如何用 Rust 让你的 Python 包真正加速
- 如何使用 Azure Synapse 遮蔽 PII 数据
- 如何测量和改善预测集成的多样性
- 如何测量机器学习嵌入的漂移
- 如何衡量您的基于 RAG 的 LLM 系统的成功
- 如何使用 Python 和 Vertex AI Pipelines 测量碳足迹
- 如何在时间序列中建模多重季节性
- 破解当前数据科学就业市场:来自科技数据科学家的实用策略
- 如何 避免 将机器学习模型投入生产
- 如何在 Python 中客观地比较两个排名列表
- 操作指南:手动进行单因素 ANOVA
- 如何优化多维 Numpy 数组操作的 Numexpr
- 如何优化特定领域的目标检测模型
- 如何通过自定义 PyTorch 操作符优化你的深度学习数据输入管道
- 如何优化你的营销预算
- 如何组织数据科学项目
- 如何使用 OpenCV 进行阈值化图像分割
- 如何使用 Python 执行 KMeans 聚类
- 如何在 Python 的 PyOD 中进行多变量异常值检测
- 如何在 Python 中进行异常值检测:第一部分
- 如何在 Python 中进行单变量离群点检测
- 如何在 Landsat 卫星图像上绘制坐标,使用 Python
- 如何使用 DiagrammeR 包在 R 中绘制图表
- 如何准备机器学习数据
- 如何准备你的数据以进行可视化
- 如何在软件工程师职位面试中展示你的项目
- 2023 年如何为 AI 项目定价
- 如何编程一个神经网络
- 如何在 Amazon ECS 上将 ML 模型正确部署为 Flask APIs
- 如何使用 Quip Python APIs 从/到相同的 Quip 电子表格读取和写入数据
- 如何减少你的主数据管理费用
- 如何在 5 个简单示例中将 SQL 查询重写和优化为 Pandas
- 机器学习实验的艺术
- 如何在 Python 中保存和加载神经网络
- 完整指南:如何通过合同测试和 dbt 有效地扩展你的数据管道和数据产品
- 如何安全地将 Synapse Pipelines 连接到 Azure Functions
- 如何将 SLURM 作业发送到集群
- 如何将表格时间序列数据发送到 Apache Kafka,使用 Python 和 Pandas
- 如何使用 Keras API 和 Google Colab 开始使用 TensorFlow
- 如何使用 AWS Lambda 为数据科学设置一个简单的 ETL 流水线
- 如何在 Power BI 中显示没有数据的结果
- 如何使用线性规划解决优化问题
- 如何解决 Windows 上 Anaconda 的 Python 依赖问题
- 如何解决蛋白质折叠问题:AlphaFold2
- 如何用模拟退火解决旅行推销员问题
- 如何加速数据科学交付
- 如何在数据分析师领域脱颖而出:专注于这 5 个关键主题
- 如何作为数据分析师保持领先
- 如何跟上最新的 AI 研究
- 如何更高效地存储历史数据
- 如何使用 Mage 简化数据管道中的沟通
- 如何优化你的数据科学学习之旅
- 如何为可重复性和可维护性构建 ML 项目
- 如何使用 Matplotlib 样式化图表
- 如何在采用现代数据堆栈时应对数据爆炸
- 如何在不重新采样的情况下应对类别不平衡
- 如何与非数据人士讨论数据和分析
- 如何使用 Pytest 测试您的 Python 代码
- 如何测试你的单元测试
- 如何使用 Gensim 从头开始训练 Word2Vec 模型
- 如何训练 BERT 进行掩码语言建模任务
- 如何训练 LILT 模型并在发票上进行推断
- 如何将家庭作业转化为数据科学职位
- 如何将时间序列转换为深度学习格式
- 转行到数据分析的路线图
- 如何将数据转化为可操作的商业洞察
- 如何将数据视为产品
- 如何使用日志模块调试 Python 脚本
- 如何理解和使用 Jensen-Shannon 散度
- 如何理解因果关系的世界
- 如何将初级数据科学代码升级为高级数据科学代码
- 如何利用参数解析提升机器学习工作流的效率
- 如何使用 Chat-GPT 和 Python 在 Neo4j 中基于你自己的文章构建知识图谱
- 如何使用 ChatGPT 生成图表
- 如何在数据可视化中使用颜色
- 如何在 Neo4j 图数据科学库中使用 Cypher 聚合
- 如何使用 dbt 种子
- 正确使用 DAX 中的 FILTER
- 如何使用 Google 的 PaLM 2 API 与 Python
- 如何在自己的领域中使用大型语言模型(LLM)
- 如何在 R 中使用映射函数进行数据科学
- 如何利用微认证进入数据科学领域
- 如何使用 OpenAI 的代码解释器来分析数据
- 如何使用 OpenAI 的函数调用
- 如何使用 Streamlit 的 st.write 函数来改进您的 Streamlit 仪表板
- 如何使用 loc Pandas 方法高效地处理您的 DataFrame
- 如何在 Elasticsearch 中正确使用同义词功能
- 如何使用 t 检验及其非参数对应物
- 如何验证 OpenAI GPT 模型的文本摘要性能
- 如何编写自定义函数以在 R 中生成多个图表
- 如何编写更好的数据科学学习笔记
- 如何在 R 中编写条件语句:四种方法
- 如何为 ChatGPT(GPT-4)和其他语言模型编写专家提示
- 如何编写可重复的 TensorFlow 输入管道
- F 检验在线性回归中有多大用处?
- 我们对数据管道的思考正在改变
- 我们如何赢得了第一个政府 AI 项目
- GPT 模型对提示的响应效果如何?
- 数据科学如何加速循环经济?
- 如果我从头开始,如何用 ChatGPT 学习编程?
- 如何通过 Python 访问 Amazon S3 资源(及其必要性)
- 如何(以及为什么)保护您的 API 密钥
- 如何验证机器学习模型
- Hugging Face Diffusers 可以正确加载 LoRA
- 🤗Hugging Face Transformers Agent
- Human-Learn: 作为机器学习替代方案的基于规则的学习
- 寻找黑天鹅
- 混合离散-连续几何深度学习
- 混合搜索 2.0:追求更好的搜索
- 超曲面深度强化学习
- 使用 SQL 实现的 HyperLogLog
- 超参数优化——网格搜索、随机搜索和贝叶斯优化的简介与实现
- 超参数优化与 Hyperopt — 介绍与实现
- 将超参数调整应用于神经网络
- 使用 AWS Sagemaker SDK 对 HuggingFace 模型进行超参数调整
- 我晋升了!
- 我找到了我的第一份数据工作,接下来怎么办?
- 我花费了$675.92 与 Upwork 上的顶级数据科学家交谈——这是我学到的
- ICA 和现实中的鸡尾酒会问题
- 克服你的第一个数据科学项目的 6 个初学者友好的技巧
- 识别:可信因果推断的关键
- 识别和利用时间序列预测的领先指标
- 使用因果机器学习识别 Spotify 歌曲流行的驱动因素
- 在 BigQuery 中使用 SQL 识别新客户和回头客
- 识别城市区域的热点
- 如果 AI 编码工具减少了我们需要的工程师数量,我们该如何支配预算?
- 如果工程师开始使用 AI 编码工具,我们的产品团队会发生什么?
- 如果口头和书面交流使人类发展了智力……那么语言模型怎么样?
- 如果你把生活视作游戏,你最好知道如何玩
- 不只是爬行动物:探索 Iguanas 工具包用于超越黑箱模型的 XAI
- IID: 初学者的意义和解释
- 闪耀的洞察:GPT 从图表和表格中提取意义
- 揭开文本生成 AI 的黑箱
- 初学者的图像分类
- 使用 PyTorch 和 SHAP 进行图像分类:你能信任自动驾驶汽车吗?
- 使用 Vision Transformer 进行图像分类
- 使用预训练扩散模型进行图像合成
- 使用 Python 的图像滤镜
- 使用 ChatGPT 生成图像的代码
- 医学数据集的图像配准
- 5 分钟内的图像搜索
- 图像分割:深入指南
- iMAP:实时建模 3D 场景
- 模仿模型与开源 LLM 革命
- 分水器和淋水屏对浓缩咖啡的影响
- 不完美揭示:我们 MLOps 课程创建背后的迷人现实
- 在 Python 中实现具有 TTL 功能的缓存装饰器
- 从头开始用 PyTorch Lightning 实现和训练 CNN
- 使用 Mage 在数据管道中实现行为驱动开发
- 在 PyTorch 中实现可解释的神经模型!
- 在 3 分钟内在单个 GPU 系统上进行多 GPU 训练
- 轻松用 Python 从头实现多分类支持向量机
- Hugging Face 简介及 6 种 NLP 任务实现
- Reluplex 的实现细节:一种高效的 SMT 求解器用于验证深度神经网络
- 在 Keras 和 TensorFlow 中实现 Siamese 网络
- 使用 LangChain 实现销售与支持代理
- 使用 JAX 和 Haiku 从头实现 Transformer 编码器 🤖
- 实施人工智能就像买车和开车(但有所不同)
- 在 PyTorch 中实现自定义损失函数
- 使用 fastai 实现深度学习——图像分类
- 从零实现 LoRA
- 将深度学习论文中的数学公式转化为高效的 PyTorch 代码:SimCLR 对比损失
- 在 PyTorch 中实现软最近邻损失
- 从头实现最速下降算法
- 从零实现 Vision Transformer (ViT)
- 使用 Python 的重要性采样
- 如何提升 Python 函数的性能
- 通过 OpenAI API 提升表格数据预测能力
- 通过早期停止改善你的提升算法
- 改善你的梯度下降:寻找最优步幅的史诗之旅
- 改进 Diffusers 包以生成高质量图像
- 通过智能提示改进希伯来语问答模型
- 通过解缠改进 k-Means 聚类
- 改善零-shot CLIP 的性能和可解释性
- 通过自适应损失平衡提升物理信息神经网络
- 在 RAG 管道中通过混合搜索提升检索性能
- 如何通过单元测试和 TDD 提高您 dbt 模型的代码质量
- 改进 Strava 训练日志
- 使用公共表表达式改进你的 SQL 逻辑
- 大型语言模型中的上下文学习方法
- 《使用 Devtools 创建和发布 R 数据包的深度指南》
- 将 Llama 2 的延迟和吞吐量性能提高多达 4 倍
- 分布式随机森林的推断
- Kubernetes 的无限可扩展存储
- 使用 lazy_static 在运行时初始化 Rust 常量
- 《从数据到洞察:使用书店分析比较 SQL 和 Python 查询》
- Inside GPT — I : 理解文本生成
- GPT 内部 — II:提示工程的核心机制
- 检查数据科学预测:个人 + 负面案例分析
- 深度学习的实例选择
- 将分布式 Ray Serve 部署与 Kafka 集成
- 使用 Neo4j 和 APOC 将 LLM 工作流与知识图谱集成
- 将 Neo4j 集成到 LangChain 生态系统中。
- 神经网络的应用:推导正态分布的累积分布函数
- 与大型语言模型的互动
- Excel 中的互动仪表盘
- 中级深度学习与迁移学习
- 使用数据中心可解释人工智能解释机器学习模型
- 解读随机森林
- 面试准备:因果推断
- 数据分析简介:“谷歌方法”
- 数据科学家的 Docker 容器简介
- PyTorch 2:卷积神经网络
- TorchData 介绍:Conceptual Captions 3M 的实操指南
- 介绍一个用于检测 GPT 生成文本的数据集
- 介绍 KeyLLM — 使用 LLM 进行关键词提取
- 介绍 PeekingDuck 计算机视觉
- 介绍 PyCircular:一个用于圆形数据分析的 Python 库
- 介绍 PyDicom 及其类、方法和属性
- 介绍 Python 的魔法方法
- 介绍 Python 的 Parse:正则表达式的终极替代品
- 介绍 Quix Streams:一个开源的 Python Kafka 库
- 介绍 Crystal Bar Chart:可视化序列差分聚类
- 介绍多弦图:可视化复杂集合关系
- 四种项目相似性度量的介绍
- Apache Iceberg 表介绍
- asyncio 介绍
- 聚类算法简介
- 使用{dplyr}进行 R 的数据操作入门
- 数据版本控制简介
- 嵌入式推荐系统介绍
- 预测集成简介
- 功能性 PyTorch 入门
- 假设检验与示例介绍
- ICA 简介:独立成分分析
- 基于知识图谱的推荐系统介绍
- PySpark 中的逻辑回归简介
- 马尔科夫链蒙特卡罗 (MCMC) 方法介绍
- Python 中的数学优化介绍
- 机器学习部署简介:Flask、Docker 与 Locust
- MLOps 原理介绍
- mypy 介绍
- 使用 SciPy 的优化约束介绍
- 介绍 p 值和带有示例的显著性测试
- 使用 Sklearn、Pandas 和 Matplotlib 进行 PCA 的介绍
- PyTorch 介绍
- PyTorch 简介:从训练循环到预测
- 排名算法介绍
- 抽样方法介绍
- 语音增强简介:第一部分 — 概念与任务定义
- 语音增强介绍:第二部分 — 信号表示
- 统计抽样与重抽样介绍
- 流处理框架介绍
- Open LLM Falcon-40B 简介:性能、训练数据和架构
- 权重量化简介
- 指数移动平均的直观解释
- 逆物理信息化神经网络
- ChatGPT 真的智能吗?
- ChatGPT 智能吗?一项科学评审
- 数据民主化是否被夸大了?
- 决策科学是否正在悄然成为新的数据科学?
- F1 分数真的比准确率更好吗?
- 特征工程已经过时了吗?
- 生成性人工智能是否正在接管世界?
- 生成式 AI 是否值得其环境足迹?
- 医疗分析适合你吗?
- 你需要的是压缩吗?
- Julia 比 Python 和 Numba 更快吗?
- 逻辑回归是回归模型还是分类模型?让我们结束争论
- PandasGUI — 轻松数据分析的终极秘密
- PyTorch 的 Nesterov 动量实现是否有误?
- 无服务器难以采纳吗?
- 偏差和方差之间是否总有权衡?
- 这是否是解决 P-hacking 的方案?
- 旅游是否恢复到 COVID 危机前的水平?
- 您的 LLM 应用程序准备好公开了吗?
- 依赖 GridSearchCV 的最佳模型是一个错误
- 是时候提升数据分析师的角色了
- 终于是时候告别 “git checkout” 了
- 这不仅仅关乎得分
- 在 Docker 中运行 Jaffle Shop dbt 项目
- 《发现者简:利用大语言模型增强因果发现(因果 Python)》
- 一月刊:成为更好的学习者
- Java 和数据工程
- 爵士和弦解析与变压器
- 现代数据科学家必备的 Julia:5 个你不能忽视的卓越特性
- Julia 魔法 太少人知道
- 七月版:数据科学家的气候资源
- 六月精选:激发灵感的项目
- 初级开发者编写多页 SQL 查询;高级开发者使用窗口函数
- Jupyter 已经拥有一个完美的文本编辑器:构建一个 Python IDE
- Jupyter 已经有了完美的文本编辑器:这就是你可以配置它的方法
- K-means 聚类:入门指南及实际应用
- Kaiming He 初始化在神经网络中的数学证明
- 使用 Hydra 跟踪你的实验
- 让机器人不偏离伦理轨道
- 核密度估计逐步讲解
- 多维数据的核密度估计器
- 内核:你需要了解的一切
- 了解你的受众:技术演示准备指南
- 知识图谱嵌入基础
- 知识图谱转换器:构建动态推理以适应不断演变的知识
- 知识图谱、硬件选择、Python 工作流程及其他十一月必读内容
- 知识检索占据了中心舞台
- KServe:基于 Kubernetes 的高可扩展机器学习部署
- L1 与 L2 正则化在机器学习中的比较:区别、优势及如何在 Python 中应用
- 拉格朗日乘子、KKT 条件和对偶性——直观解释
- 🦜🔗LangChain:允许 LLMs 与你的代码互动
- 🦜🔗LangChain:通过记忆容量提升性能
- LangChain 增加了 Cypher 搜索功能
- 🦜🔗 LangChain:文档上的问答代理
- 语言模型及其相关:Gorilla、HuggingGPT、TaskMatrix 及更多
- 用于句子补全的语言模型
- PageRank 的可视化解释
- 大型语言模型和向量数据库在新闻推荐中的应用
- 大型语言模型作为零-shot 标注者
- 大语言模型:DeBERTa — 解码增强型 BERT 与解耦注意力
- 大型语言模型揭示了国家社会工作执照考试中的额外缺陷
- 大型语言模型在图灵测试和中文房间论证下的考量
- 大型语言模型在分子生物学中的应用
- 大型语言模型,MirrorBERT——将模型转化为通用的词汇和句子编码器
- 大型语言模型,StructBERT — 将语言结构融入预训练
- 大型模型遇见大数据:Spark 和 LLMs 的和谐
- 大型图像模型中的最新 CNN 核
- 数据质量的层次
- 懒惰评估使用递归 Python 生成器
- 我们应该了解的重要 MySQL 数据定义语言(DDL)命令,用于管理我们的表
- 通过“刻意练习”学习数据科学(或任何技能)
- 学习离散傅里叶变换(DFT)
- 学习 RabbitMQ 用于事件驱动架构(EDA)
- 学习成为数据科学领袖
- 学会“遗忘”机器
- 前向传递中的学习与推理:新框架
- 学习机器学习 | Maarten Grootendorst: BERTopic、数据科学、心理学
- 从机器学习中学习 | Vincent Warmerdam:Calmcode,Explosion,数据科学
- 通过代码学习数学:导数
- 学习网络游戏
- 以正确的方式学习新的数据科学技能
- 在职学习 Python 数据科学 第一部分:哲学
- 数据科学中的 Python 学习 实战第二部分:练习
- 为你的下一个 LangChain 项目学习基础知识
- 学习变压器代码第一部分第二部分——GPT 亲密接触
- 生成性人工智能的法律与伦理视角
- Lesk 算法:一种用于文本分析中的词义消歧方法
- 扩展我们的数据科学视野
- 让我们谈谈数学(面向数据科学家)
- 在 Plotly 中提升你的数据讲述能力,使用动画柱状图
- 利用像 GPT 这样的 LLMs 分析你的文档或记录
- 利用聚合的力量
- 利用 Azure Event Grid 创建 Java Iceberg 表
- 利用数据分析进行可持续商业转型
- 利用 Llama 2 功能进行现实世界应用:使用 FastAPI、Celery、Redis 和 Docker 构建可扩展的聊天机器人
- 利用信息检索增强 LLMs:一个简单的演示
- 利用 LLM 和 LangChain 实现供应链分析——一个由 GPT 提供支持的控制塔
- 利用机器学习开发有效的营销策略
- 利用管理仪表板进行故事讲述:这是一个可行的途径吗?
- 利用运筹学提升呼叫中心效率
- 利用 qLoRA 对任务精调模型进行精调而不产生灾难性遗忘:以 LLaMA2(-chat)为例
- 10 分钟理解 Lineage 和 Hamilton
- 线性代数 1:线性方程和系统
- 线性代数 2:梯形矩阵形式
- 线性代数 3:向量方程
- 线性代数 4: 矩阵方程
- 线性代数:欧几里得向量空间
- 线性代数:使用 Python 寻找逆矩阵
- 线性代数:LU 分解与 Python
- 线性代数:矩阵运算及其属性,使用 Python
- 线性代数:正交向量
- 线性代数:线性方程组和矩阵,使用 Python
- 线性判别分析(LDA)可以如此简单
- 线性规划:理论与应用
- 线性回归深入探讨(第一部分)
- 深入解析线性回归(第二部分)
- 使用(仅)SQL 拟合回归模型的快速而粗糙的方法
- 线性回归、核技巧和线性核。
- 线性回归 — 预测机器学习建模的奥卡姆剃刀
- 将线性回归应用于 GPT 的七个步骤
- 线员静止性
- 使用 Python 进行语言指纹分析
- 如何使用 Python 列出所有 BigQuery 数据集和表
- 列表、元组、字典和数据框在 Python 中的完全指南
- LLaMA:面向所有人的大型语言模型!
- LlamaIndex:终极 LLM 框架,用于索引和检索
- LLM 和 GNN:如何提升两种 AI 系统在图数据上的推理能力
- LLM 经济学:ChatGPT 与开源
- LLM 评估指南:如何构建和基准测试你的评估
- LLM 用于合成时间序列数据生成
- 理解 LLM 幻觉
- LLM 监控与可观测性——负责任 AI 的技术和方法总结
- LLM 输出解析:函数调用与 LangChain
- 基于 LLM+RAG 的问题回答
- LLMOps:与 Hamilton 一起进行生产级提示工程模式
- 每个人的 LLM:在 Google Colab 中运行 LangChain 和 MistralAI 7B 模型
- LLMs,新型大规模虚假信息武器?
- LMQL — 语言模型的 SQL
- 如何将多个 CSV 文件加载到 Pandas DataFrame 中
- 负载测试 SageMaker 多模型端点
- 使用 SageMaker 推理推荐器简化负载测试
- 局部光场融合
- 从头开始的模拟退火局部搜索
- 本地预测与全球预测:你需要知道的
- 初学者的对数变换
- 使用梯度下降的多类逻辑回归
- 逻辑回归:看似有缺陷
- 逻辑回归:对决与概念理解
- Loguru: 简单如打印,灵活如日志记录
- 透过窗户——利用新的 DAX 函数计算客户生命周期价值
- LoRA — 直观且详尽的解释
- 机器学习中的损失函数
- 在 DALL-E 3 翻译中迷失
- 低代码时间序列分析
- Lucene 透视 — 处理整数编码和压缩
- Ludwig — 一个“更友好”的深度学习框架
- 机器学习算法第一部分:线性回归
- 机器学习不仅仅预测未来,它还积极地创造未来
- 机器学习工程师——他们实际上做什么?
- 使用机器学习进行柔术
- 使用不平衡数据进行回归的机器学习
- 《机器学习插图:分类的评估指标》
- 机器学习图解:增量学习
- 机器学习的可视化:用 SHAP 揭开黑箱模型的面纱
- 非欧几里得空间中的机器学习
- 三步掌握机器学习:如何高效学习
- 机器学习并非你所需的一切:关于签名检测的案例研究
- 机器学习变得直观
- 机器学习必读:秋季专题
- 多输出数据集上的机器学习:快速指南
- 机器学习编排与 MLOps
- 机器学习技巧、与 ChatGPT 的学习以及其他近期必读书单
- 专家模型的机器学习:入门指南
- 机器学习的公众认知问题
- 魔法:聚会竞技场:用概率获胜
- 维护你的特征库的质量
- 使用 Seaborn 制作嵌套条形图
- 使用 Seaborn 制作打卡图
- 使用 GPT-3 创建文本总结器
- 使用 Python 制作美观(且实用)的意大利面图
- 用数据科学让每一分钱的营销投资都发挥作用
- 通过缓存函数提升 Python 速度:记忆化
- 用 UTF-8 让你的图表更出色
- 让你的图表看起来辉煌
- 让你的 sklearn 模型速度提高最多 100 倍
- 让你的表格看起来更华丽
- 通过这些技巧和窍门使你的表格数据在 CLI 中脱颖而出
- 让语言模型更像人脑
- 作为分析师的错误——以及应对策略
- 通过源分离实现音乐标记 AI 的可解释性
- 了解 A/B 测试的意义:通过困难问题更好地理解
- 理解大型语言模型的承诺(及风险)
- 2023 年从数据分析师转型为数据科学家
- 做出正确决策:AI 建议、决策辅助工具以及大语言模型的前景
- 使用 PyTorch、ONNX 和 TensorRT 将视觉变换器的预测速度提高 9 倍
- 使用 ipywidgets 让你的数据分析变得生动
- 管理一个联邦数据产品生态系统
- 使用 TOML 配置轻松管理深度学习模型
- 在单台机器上管理多个 CUDA 版本:全面指南
- 管理大数据应用程序的云存储成本
- 机器学习系统的技术债务管理
- 使用 Rclone 管理你的云数据存储
- 在编写 Apache Beam 管道时使用示例进行 Map、Filter 和 CombinePerKey 转换
- 轨迹预测中的地图匹配
- 使用 R 绘制南美洲地图:深入探讨地理可视化
- 映射全球自然再造林项目的潜力
- 《交通拥堵分析:使用图论》
- 使用 MapReduce 进行大规模数据处理
- 3 月版:数据与因果关系
- 以规模化方式掌握语义搜索:使用 FAISS 和 Sentence Transformers 在闪电般的推理时间内索引数百万份文档
- 使用 Versatile Data Kit (VDK) 掌握批量数据处理
- 使用 Hydra 精通机器学习中的配置管理
- 精通容器化:创建类似 Docker 环境的指南
- 使用信用卡交易数据掌握客户细分
- 掌握客户细分的终极技巧
- 掌握 Elasticsearch:强大搜索与精确性的初学者指南 — 第一部分
- 掌握 Apache Airflow 中的ExternalTaskSensor:如何计算执行增量
- 掌握 Python 中的迭代器和生成器
- 掌握语言模型
- 精通线性回归:有志数据科学家的终极指南
- 精通逻辑回归
- 精通 Python 中的长短期记忆:释放 LSTM 在 NLP 中的力量
- 掌握模型可解释性:对部分依赖图的全面分析
- 精通模块化编程:如何提升你的 Python 技能
- 精通蒙特卡洛:如何通过模拟提升机器学习模型
- 掌握 NLP:深度学习模型的深入 Python 编码
- 掌握机器学习中的 P 值
- 精通提示工程以释放ChatGPT的潜力
- 掌握 Python RegEx:深入探讨模式匹配
- 掌握来自 SAP 系统的数据集成与快速工程
- 精通 Python Asyncio 中的同步原语:全面指南
- 掌握机器学习工作流的艺术:变压器、估算器和管道的全面指南
- 掌握定价优化的艺术 — 一种数据科学解决方案
- 掌握回归分析的艺术:每个数据科学家应该了解的 5 个关键指标
- 掌握数据科学工作流程
- 掌握未来:评估利用 IaC 技术生成 LLM 数据架构
- 掌握未知领域与 GPT-4 和翻转互动模式
- 使用 Python 类掌握时间序列分析
- 掌握天气预报:利用 LSTM 深度学习模型释放 AI 的力量以实现准确的温度预测
- 现实世界中的数学:测试、模拟及更多
- Matplotlib 提示,以立即提升你的数据可视化——根据《数据故事讲述》
- Matplotlib 教程:将你的国家地图提升到另一个水平
- 逻辑回归中的矩阵和向量运算
- 数据流中的矩阵近似
- GPU 上的矩阵乘法
- 通过选择最佳图表:网络图、热图还是桑基图来最大化你的洞察力?
- 随机变量参数的最大似然估计
- 五月刊:城市空间的数据
- MDM作为您数据治理之旅的起点
- 平均绝对对数误差(MALE):一种更好的“相对”性能指标
- 平均精确度@K(MAP@K)清晰解释
- 有意义的实验:5 个有影响力的数据项目,帮助打造更好的产品
- 测量新 Pandas 2.0 相对于 Polars 和 Datatable 的速度——仍然不够好
- 媒体组合建模:数据科学家避免陷阱的技术指南
- 认识 Gemini:谷歌最大、最强大的 AI 模型
- 缓存 DataFrame 函数
- Apache Spark 中的内存管理:磁盘溢出
- Meta AI 推出了突破性的图像分割模型,该模型基于 10 亿个掩码进行训练。
- Meta AI 的另一个革命性大规模模型——DINOv2 用于图像特征提取。
- 元启发式方法解析:蚁群优化
- Julia 中的 Metal 编程
- META 的 Hiera:降低复杂性以提高准确性
- 客户终身价值建模的方法:好东西和陷阱
- 指标层:所有 KPI 定义的唯一真实来源
- 指标存储的实际应用
- 微软与谷歌:语言模型是否会超越搜索引擎?
- 微软的新 AI 方法预测分子如何移动和功能
- 迁移数据?充分利用产品本身!
- 微型神经网络用于吉他效果与微控制器
- SQL 中的最小会议室问题
- 缺失数据解密:数据科学家的绝对入门指南
- 您的数据产品中的缺失特性
- Mistral 7B:在您的计算机上进行微调和量化的配方
- 高基数分类变量的混合效应机器学习 — 第 I 部分:不同方法的实证比较
- 高基数分类变量的混合效应机器学习 — 第二部分:GPBoost 库
- 使用 GPBoost 进行纵向数据和面板数据的混合效应机器学习(第三部分)
- 使用 GPBoost 进行分组和区域空间计量经济数据的混合效应机器学习
- 混合整数线性规划:正式定义与解空间
- Mixtral-8x7B: 理解和运行稀疏专家混合模型
- 混合模型、潜变量和期望最大化算法
- PINNs 的专家混合(MoE-PINNs)
- 深度会话推荐系统中的 Softmax 混合模型
- 机器学习基础(第四部分):决策树
- 使用 DynamoDB 进行 ML 工程
- “ML-Everything”?在科学中的机器学习方法中平衡数量与质量
- ML 模型注册中心——绑定模型实验和模型部署的“接口”
- MLOps 简化版:如何使用 Azure 机器学习组件运行批量预测管道
- MLOps 节奏:战略目标如何创造更快的迭代?
- MLOps-技巧与窍门-75 个代码片段
- MLOps — 了解数据漂移
- MLOps:什么是操作节奏?
- Optuna 下的 MLOps
- MLX vs MPS vs CUDA:基准测试
- 模型使用:推理发生在训练之后,而不是训练期间
- 时间序列预测中的模型评估
- 模型可解释性,再次探讨:SHAP 及其他
- 无模型强化学习在化学过程开发中的应用
- 使用 TensorFlow 进行模型优化
- 通过版本控制进行模型回滚
- 不平衡数据模型选择:仅凭 AUC 可能无法拯救你
- 使用多项式回归建模脑电图信号
- 使用马尔可夫链建模游戏
- 从基本原理建模旅行推销员问题
- 使用 GEKKO 以确定性方式建模世界
- 使用傅里叶变换对可变季节特征进行建模
- 现代数据工程
- 现代数据仓库
- 使用 Python 进行现代路线优化
- 现代图像语义搜索
- 监控机器学习模型:数据科学家和机器学习工程师的基础实践
- 监控机器学习模型的生产:为什么和如何?
- 监控生产环境中的 NLP 模型
- 使用 GEE 在全球范围内监测海表温度
- 监控无结构数据以用于 LLM 和 NLP
- 单目深度估计预测火星表面高程
- 蒙特卡罗近似方法:你应该选择哪一种,何时使用?
- 蒙特卡洛方法
- 关于道路网络匹配的更多内容
- 带有仿真的形态学操作(CV-05)
- 激励自注意力
- Moto、Pytest 和 AWS 数据库:质量与数据工程的交汇点
- 使用 Neo4j 的电影推荐
- 多臂老虎机应用于执行算法中的订单分配
- 多维探索是可能的!
- 用于神经退行性疾病分类的多层神经网络
- 多层感知器的解释与说明
- 多区域数据源
- 多阶段推荐系统构建方法
- 多任务架构:综合指南
- 多任务机器学习:同时解决多个问题
- 推荐系统中的多任务学习:基础知识
- 多层次回归模型与辛普森悖论
- 用 R 进行的多层回归
- 使用 Azure ML 和 MONAI 的多模态 3D 脑肿瘤分割
- 多模态思维链:在多模态世界中解决问题
- R 中的多项逻辑回归
- PyTorch 中的多 GPU 训练及其替代方案:梯度累积
- 结构方程模型中的多组分析
- 多元线性回归:深入探讨
- 多变量分析 — 超越一次一个变量
- 主成分分析中的多变量过程控制,使用 T² 和 Q 误差
- MusicGen 重新构想:Meta 在 AI 音乐领域的低调进展
- MusicLM — 谷歌是否解决了 AI 音乐生成问题?
- 穆布里奇德比:利用人工智能使动物运动照片栩栩如生
- 我的亚马逊经济学家面试
- 我对 DevOps 和 DataOps 的经验
- 我与 ChatGPT 的第一次探索性数据分析
- 我的#30DayMapChallange 第一周
- 我成为更好的数据科学家的五个关键学习心得
- 我的#30DayMapChallange 第四周
- 我在人工智能领域获得博士学位的旅程
- 我在#30DayMapChallange 的第二周
- 我的 #30DayMapChallange 第三周
- 我的(非常)个人数据仓库
- 朴素贝叶斯分类
- 从头开始的朴素贝叶斯分类器,使用 Python
- 从零开始的朴素贝叶斯与 TensorFlow
- 命名实体与新闻
- Python 标准库中的 NaN 值
- 学习 Transformers 代码优先:第一部分 — 设置
- XGBoost 如何原生支持类别特征?
- 使用 Spotify 的 Pedalboard 进行自然音频数据增强
- 自然语言基础——情感分析、机器翻译和命名实体识别的介绍与语言模型实现
- 自然语言处理初学者指南
- 自然语言处理不仅仅是聊天机器人
- 行业特定 AI 的导航:从过渡性英雄到长期解决方案
- 导航制图挑战:#30 天地图挑战中途进行中
- 探索聚类领域
- 探索大语言模型的领域
- 使用 PySpark 的 NBA 分析
- 最近邻回归器 — 可视化指南
- 需要速度:将 Pandas 2.0 与四个 Python 加速库进行比较(附代码)
- 嵌套字典 Python——Python 嵌套字典的完整指南
- 解释性神经基础模型
- 神经图数据库
- 神经网络 — 初学者指南 (1.1)
- 神经网络作为决策树
- 具有多个数据源的神经网络
- 神经原型树
- 新的 ChatGPT 提示工程技术:程序模拟
- 新数据表明 2023 年是有史以来最热的夏天
- 最新的 DeepMind 工作揭示了语言模型的极致提示种子
- 音频机器学习的新领域
- 新版 Scikit-Learn 更适合数据分析
- 新的 SHAP 图:小提琴图和热图
- 牛顿运动定律:最初的梯度下降
- 创建快速、安全且兼容的数据结构的九条规则(第一部分)
- 在 Rust 中创建快速、安全和兼容的数据结构的九条规则(第二部分)
- 在网络和嵌入式系统上运行 Rust 的九条规则
- Rust 代码 SIMD 加速的九条规则(第一部分)
- 你的 Rust 代码的 SIMD 加速九大规则(第二部分)
- 用 Dafny 正式验证 Rust 算法的九个规则(第一部分)
- 使用 Dafny 正式验证 Rust 算法的九条规则(第二部分)
- 2022 年 NLP 初创公司融资情况
- 使用 Python 进行 NLP:知识图谱
- 无代码机器学习平台:福音还是祸根?
- TensorFlow 中不再出现 OOM 异常
- 数据科学中没有“科学”?
- NODE:专注于表格数据的神经树
- 非负矩阵分解(NMF)用于图像数据的降维
- 非参数检验入门(第一部分:秩和符号检验)
- 非线性维度降低、核 PCA(kPCA)和多维尺度分析— Python 简单教程
- 不必 A/B 测试一切都是好的
- 并非全是彩虹和阳光:ChatGPT 的阴暗面
- 不那么庞大的语言模型:优质数据打败巨人
- 那么,为什么我们应该关心推荐系统呢?特邀:对汤普森采样的简要介绍
- 现在你看到我 (CME): 基于概念的模型提取
- np.stack() — 如何在 Numpy 和 Python 中堆叠两个数组
- NP-什么?优化问题的复杂性类型解释
- NT-Xent(归一化温度调节交叉熵)损失函数的解释及在 PyTorch 中的实现
- NumPy 广播
- 探究字符级 RNN:基于 NumPy 的实现指南
- 使用 RetinaNet 和 KerasCV 的目标检测
- 面向对象的数据科学:重构代码
- 无需 OCR 的文档数据提取与变换器 (1/2)
- 无 OCR 文档数据提取与变换器(2/2)
- 哦,你是说“管理变革”?
- 好的,你已经训练了最好的机器学习模型。接下来做什么?
- 关于 A/B 测试和携带效应
- 关于人工智能与推理的类型
- 数据驱动的方程发现
- 在代表性不足的群体面前的学习
- 关于压缩大数据的重要性
- 在 DAX 度量中使用中间结果
- 关于机器为何能够思考
- 在生成式 AI 时代发展数据职业
- One Hot 编码
- 一步使决策树产生更好的结果
- 只有在你知道如何独立完成任务时才使用 LLMs
- ONNX:用于可互操作深度学习模型的标准
- OpenAI API — ChatGPT 背后的模型介绍与实现
- OpenAI 的网络爬虫和 FTC 失误
- openCypher* 针对任何关系数据库
- 通过物理启发的 DeepONet 进行算子学习:从头开始实现
- Optical Flow with RAFT: 第一部分
- RAFT 中的光流:第二部分
- 优化需求满足:行业方法
- 深度学习中的神经网络优化
- 优化:Python 中的容量限制设施选址问题
- 优化:牛顿-拉夫森方法的几何解释
- 优化、牛顿法与利润最大化:第一部分 — 基本优化理论
- 优化、牛顿法与利润最大化:第二部分——约束优化理论
- 优化、牛顿法与利润最大化:第三部分 — 应用利润最大化
- 优化还是架构:如何破解卡尔曼滤波
- 优化数据仓库存储:视图与表
- 优化浏览分类法
- 优化连接:图中的数学优化
- 使用 C 优化 LLM,并在您的笔记本电脑上运行 GPT、Llama 和 Whisper
- 在 Apache Spark 中优化输出文件大小
- 通过选择性知识图谱条件优化检索增强生成(RAG)
- 使用遗传算法在 Python 中优化电视节目调度
- 优化度假小屋租赁收入
- 优化向量量化方法的机器学习算法
- 在 Mac 上优化 VS Code 以适应 dbt
- 优化您的策略:超越 A/B 测试的方法
- Orca: 正确模仿专有 LLMs
- 使用 LLM 编译器框架有效协调知识图谱的推理
- 机器学习风险管理中的组织过程
- 使用 Pants 组织机器学习单一仓库
- 组织生成式人工智能:数据科学团队的 5 个经验教训
- 其他机器学习术语:文本的稀疏和密集表示
- 我们的 MLOps 故事:为十二个品牌提供生产级机器学习
- 单变量数据集中的分布拟合异常值检测
- 主成分分析与霍特林 T2 及 SPE/DmodX 方法的异常值检测
- 异常值检测与 Scikit-Learn 和 Matplotlib: 实用指南
- 克服自动语音识别挑战:下一个前沿
- 克服开发者障碍
- 克服成为数据科学家的一些最糟糕的部分
- 克服大型语言模型的局限性
- 过拟合、欠拟合与正则化
- 概述全球巧克力贸易
- p 值:以简单语言理解统计显著性
- 佩速、努力和耐力
- 填充大型语言模型 — 使用 Llama 2 的示例
- PaLM:高效训练大型语言模型
- Pandas 2.0:数据科学家的游戏改变者?
- Pandas: apply、map 还是 transform?
- Polars: Pandas DataFrame 但更快
- 时间序列的 Pandas
- Pandas & Python 数据科学与数据分析技巧 — 第二部分
- Pandas & Python 数据科学与数据分析技巧——第三部分
- Pandas 和 Python 数据科学与数据分析技巧——第四部分
- Pandas 和 Python 数据科学与数据分析技巧 — 第五部分
- 如何将 Pandas DataFrame 写入 CSV 文件
- Pandas 与 Polars:语法和速度比较
- Pandas: 处理你的数据类型!
- 论文解读——《基于潜在扩散模型的高分辨率图像合成》
- 论文综述:深度解析 Imagen
- 在 Pandas 中并行化 Python:使用 Spark 的并发选项
- LLMs 的参数高效微调 (PEFT):全面介绍
- 帕累托、幂律与胖尾
- Parquet 最佳实践:在不加载数据的情况下发现你的数据
- 使用 Python 解析 HL7
- 在人道主义数据集中解析不规则电子表格(借助 GPT-3 的帮助)
- 粒子群优化:搜索过程可视化
- PatchTST:时间序列预测中的突破
- 多变量时间序列的主成分分析:动态高维数据的预测
- PCA/LDA/ICA:组件分析算法比较
- PCA 与自编码器在小数据集上的降维比较
- Pearson、Spearman 和 Kendall 相关系数,手动计算
- 人员分析是新的热门话题,了解它的原因在于此
- 感知机:第一个神经网络模型
- 机器学习模型的性能评估技术
- 快速修复你缓慢的 Python 代码
- 使用 Python 和 OpenCV 进行图像注释
- 哲学与数据科学——深入思考数据
- 哲学与数据科学——深刻思考数据
- PID 控制器优化:梯度下降方法
- 开创数据可观察性:数据、代码、基础设施与人工智能
- Pip 安装特定版本 — 如何使用 Pip 安装特定 Python 包版本
- Pipeline Dreams: 在 AWS 上自动化机器学习训练
- Scikit-Learn 中的管道:一种打包转换的绝妙方法
- 产品实验中的陷阱
- 摆脱电子表格的束缚
- Pandas 中的透视表及使用 Python 处理多重索引数据的实用示例。
- 使用 Python 实现、解决和可视化旅行推销员问题
- 如何预测玩家流失,借助 ChatGPT 的一些帮助
- 玩转苹果健康数据
- 请:在数据科学中不要再抛硬币了
- 请停止错误绘制神经网络
- 请使用流工作负载来评估向量数据库性能
- 在框架之外绘制 — 使用 Python 替代矩形图表的 8 种圆形图表
- 使用 Python 和 Plotly Express 绘制流数据
- 如何在 Matplotlib 中绘制垂直和水平线
- Plotly 和 Pandas:结合力量实现有效的数据可视化
- Plotly 和 Python:为岩心物理和地质数据创建互动热图
- 在 Python 中绘制和弦图
- 使用 Python 绘制网络图
- 在 Python 中绘制维恩图
- POCS 基于的聚类算法解释
- 2022 年 EMNLP 上的诗歌、花卉和龙
- Python 依赖管理:你应该选择哪个工具?
- R 中的泊松回归
- 将你的分析团队定位到正确的项目上
- 使用 Python 和 Linux 的后量子密码学
- 数据驱动讲故事中的上下文力量
- 实用的预算优化方法在营销组合建模中的应用
- 使用 Python 进行时间序列异常检测的实用指南
- 实用介绍 Transformer 模型:BERT
- 使用 Azure ML 实现实用的 MLOps
- 实用的提示工程
- 实用 Python:spaCy 在 NLP 中的应用
- 实用的探索性数据分析改进技巧
- “实际”构建图像分类器
- 预训练上下文是你所需的一切
- 精准聚类简化版:kscorer 的自动选择最佳 K-means 聚类指南
- 使用 Python 预测人类表现的极限
- 使用卷积网络预测结核分枝杆菌的药物耐药性 — 论文评审
- 预测高急诊室使用率
- 使用 GPT-3 预测人道主义数据集的元数据
- 预测 NBA 薪资的机器学习方法
- 预测星巴克奖励计划的成功
- 使用 XGBoost 预测水泵的功能性
- 什么是泊松分布
- 各种逻辑回归模型的预测(第一部分)
- 各种逻辑回归模型的预测(第二部分)
- 预测性能漂移:另一面的硬币
- 准备应对气候变化与 AI 助手
- 用故事地图互动展示空间数据 #2
- 使用网络地图展示空间数据
- 贝叶斯深度学习入门
- 隐私政策
- 私有 GPT:在企业数据上微调 LLM
- 专业级 GPU 系统 vs 消费级 GPU 系统用于深度学习
- 使用回归进行二元事件的概率预测
- 使用 TensorFlow 进行概率逻辑回归
- 概率机器学习与分位数匹配:一个 Python 示例
- 主成分分析的概率视角
- 数据分析师实际生活中的概率面试问题
- 探讨最小样本量公式:推导与应用
- 使用广义加性模型(GAMs)生成见解
- 产品经理必须决定:功能还是用户设计
- 使用无服务器容器服务将机器学习模型生产化
- 工作效率技巧、数据职业见解及其他近期必读内容
- 使用 cProfile 对 Python 代码进行性能分析
- 程序辅助语言模型
- 通过 Go 和 Metal Shading Language 编程苹果 GPU
- 在三维中编程:我迈出的量子计算第一步
- 促销预测:零售巨头的案例研究
- 是时候开始讨论 LLMs 中的提示架构了吗?
- 提示工程 101:零样本、单样本和少样本提示
- 提示工程可能是 2024 年最热门的编程语言——原因如下
- 程序仿真提示框架的定义:Prompt Engineering Evolution
- 算术推理问题的提示工程
- 提示工程指南
- 提示工程:如何让 AI 解决你的问题
- 提示工程技巧、神经网络操作指南及其他近期必读书目
- 提示集使 LLMs 更可靠
- 倾向评分匹配(PSM)用于 A/B 测试:减少观察研究中的偏差
- Python 中的协议
- 使用 Python 进行邻近分析以找到最近的酒吧
- 医学自然语言处理的公共基准
- Pump & Dump 萨拉米浓缩咖啡 shot
- 南瓜香料时间序列分析
- 推动双塔模型的极限
- 对 AI 驱动的数据分析师进行测试
- 对你的预测模型进行测试:回测指南
- PyCon 珍品:精选 PyCon DE 2023 中卓越讲座的精选集
- 使用 PyMC-Marketing 进行客户生命周期价值预测
- 如何修复 TypeError: ObjectId 不是 JSON 可序列化的
- Python 中的 pyproject.toml 是什么
- PyrOSM:处理开放街图数据
- PyScript.com:云中的 PyScript IDE
- Python 和超越:扩展你的数据科学编程工具包
- Python 中的 args、kwargs 以及传递参数给函数的所有其他方式
- Python 断言,或检查猫是否是狗
- Python 可调用对象:基础和秘密
- 《Python 类简易入门:面向对象编程的权威指南》
- 我的 Python 脚本如何更像自然对话
- Python:正确计算积分
- Python 装饰器:全面指南
- 我在几乎所有数据科学项目中使用的 5 个 Python 装饰器
- Python dictcomp 管道示例
- Python enumerate() 函数解释
- Python 异常测试:清晰而有效的方法
- Python 数据工程师
- Python getattr() 函数解释
- Python help() 函数解释
- Python 继承:你应该继承自
dict
还是UserDict
? - Python:init 不是构造函数:深入探讨 Python 对象创建
- Python 列表:处理有序数据集合的终极指南
- Python 列表与 NumPy 数组:深入探讨内存布局和性能优势
- Python Meets Pawn 2:基于开局的国际象棋大师聚类
- Python 遇见棋子:通过数据分析解码我的棋局开局
- Python 在网络上
- Python OOP 教程:如何创建类和对象
- Python OPP 以及为何 repr() 和 str() 重要
- 解释 Python ord() 和 chr() 函数
- Python Pandas 到 Polars:数据过滤
- Python 怪癖:了解如何通过一个不返回任何东西的函数来修改变量
- Python sorted() 函数解析
- Python 字符串数据类型解释
- 从 Python 到 Rust:破解 3 大障碍
- 从 Python 到 Rust:你必须了解的虚拟环境的一切
- Python 元组,真相大白,只有真相:你好,元组!
- Python 元组,真相和唯一的真相:深入探讨
- Python 类型提示:鸭子类型兼容性和与一致
- Python 类型提示:从类型别名到类型变量和新类型
- Python 类型提示在数据科学项目中:必须、可能还是不推荐?
- Python 类型提示与字面量
- Python 类型:可选的可以是强制的
- Python 水质 EDA 和可饮性分析
- Python 水印:旧 vs 新,笨重 vs 干净 — 你会选择哪个?
- 对 Python 3.12 的期待
- PyTorch 初学者图像分类教程
- PyTorch 介绍 — 构建你的第一个线性模型
- PyTorch 简介——张量与张量计算
- PyTorch 模型性能分析与优化
- PyTorch 模型性能分析与优化——第二部分
- PyTorch 模型性能分析与优化 — 第三部分
- PyTorch 模型性能分析与优化 — 第六部分
- QA-LoRA:在你的 GPU 上微调量化的大型语言模型
- QLoRa:在你的 GPU 上微调大型语言模型
- QQ 图绘制你的数据启蒙:分布的银河系旅行指南
- 量化 GPT-4 的隐藏回归
- 使用 GTFS 数据量化交通模式
- 分位数损失与分位数回归
- 量化及其他:将 LLMs 的推理时间减少 80%
- 咖啡数据中的数量与质量
- 使用 GGUF 和 llama.cpp 对 Llama 模型进行量化
- 量子计算机在人工智能和机器学习革命中的作用
- 量子计算完全初学者指南
- 量子计算在优化问题中的应用——解决背包问题
- 量子比特魔法:用量子计算创建神话生物
- 在 Azure “Prompt Flow” 中以 GPT 模式查询文档语料库
- PowerBI 中的快速而简单的时间序列预测:实用指南
- 使用 R 进行快速文本情感分析
- 快速评估你的 RAG,无需手动标注测试数据
- R 数据分析:如何为您的孩子找到完美的 Cocomelon 视频
- R 工具包用于人力分析:讲述你的员工人数故事
- 径向树图:将树图扩展到圆形映射
- RAG:如何与您的数据交流
- RAG 与微调——哪种是提升你的 LLM 应用的最佳工具?
- 使用 ggplot2 提高对气候变化的意识
- 随机森林与缺失值
- 2023 年的随机森林:一种强大方法的现代扩展
- 机器学习中的随机数
- 随机变量和概率分布
- 随机化非常大的数据集
- SQL 中的 RANK() 与 DENSE_RANK() 和 ROW_NUMBER()
- 使用 PCA 在 PySpark 中对钻石进行排名
- 伴我阅读:因果关系书籍俱乐部
- 实时火车乘客拥挤度预测
- 如何检测 LLM 中的幻觉
- 现实世界的问题以及数据如何帮助我们解决这些问题
- RecList 2.0:开源系统化测试 ML 模型
- 推荐系统:基于矩阵分解的协同过滤
- 使用 TensorFlow 推荐系统的隐式反馈推荐系统
- 重新创建 Andrej Karpathy 的周末项目 — 电影搜索引擎
- 从基础到高层次讲解和可视化的递归神经网络
- 递归化学反应
- 通过大型语言模型重新定义对话式人工智能
- 减少你的 Cloud Composer 账单(第一部分)
- 减少 Cloud Composer 账单(第二部分)
- 反思十年数据科学实践
- 如何在 Pandas 中使用正则表达式模式处理复杂字符串
- 现代偏好引导中的回归与贝叶斯方法
- 神经网络中的正则化
- 正则化为何真的有效?
- 正则化:避免机器学习中的过拟合
- 规制人工智能:基于机制的方法
- 监管生成式 AI
- 强化学习:价值迭代的简单介绍
- 强化学习基础:理解马尔科夫决策过程背后的随机理论
- 强化学习在库存优化中的应用系列 III:从模拟到现实的 RL 模型转移
- 费曼-蒂尔福德算法解析及演示
- ReLoRa: 在您的 GPU 上预训练大型语言模型
- 用 Python 去除 Landsat 卫星图像中的云层
- 替换视觉 AI 模型中的手动归一化为批量归一化
- Reprompting: LLMs 的自动化问题解决优化
- 研究人道主义灾难情况报告聊天机器人 — 使用 GPT-4-Turbo 和完整上下文提示
- 使用 LangChain 和 GPT-4 研究多语言 FEMA 灾难机器人
- 在无需重新训练的情况下重塑模型的记忆
- 重新思考数据科学组合
- 检索增强生成——直观而全面的解释
- 检索增强生成(RAG):从理论到 LangChain 实现
- 使用 LangChain 在 CPU 上的检索增强生成(RAG)推理引擎
- 复古数据科学:测试 YOLO 的首个版本
- 逆向工程数据库模式和质量检查:GPT 与 Bard
- 数据库模式的逆向工程:GPT 与 Bard 与 Llama2(第 2 集)
- 重新审视数据科学的消亡
- 利用新图形工具彻底改变你的二分类分析,这一版本的 binclass-tools
- 语言障碍的革命:掌握多语言音频转录和语义搜索
- Rise Up! 使用数据和 Home Assistant 为我的站立式办公桌建立警报系统
- 一张图表中的博弈论与风险管理
- RLHF: 来自人类反馈的强化学习
- 道路网络边缘匹配与三角形
- 大型语言模型:RoBERTa——一种强健优化的 BERT 方法
- 石头剪刀布:量子计算的妙趣
- 图形神经网络中的罗马数字分析
- 轮换值班以进行操作和支持:数据团队的必需品
- 使用 Rasterio 旋转栅格
- 仅在另一个 DAG 成功时运行 Airflow DAG
- 使用 PHP 在你的网站上运行 ChatGPT 和 GPT 模型
- 在 Jupyter Notebook 中与 ChatGPT 运行交互式会话
- 在你的 GPU 上运行 Llama 2 70B 使用 ExLlamaV2
- 在 Julia 中后台运行任务
- 在 GCP 上运行稳定扩散集群并使用 tensorflow-serving(第一部分)
- 在 GCP 上使用 tensorflow-serving 运行稳定扩散集群(第二部分)
- 在 CPU 上使用 Hugging Face Pipelines 运行 Falcon 推断
- 在本地运行 Llama 2 进行文档问答的 CPU 推理
- 通过 Excel VBA 运行 Python —— 时间序列重采样的案例
- 在 Databricks 中使用自定义 Docker 容器运行 Python Wheel 任务
- 在 Jupyter Notebook 中使用 JupySQL、DuckDB 和 MySQL 运行 SQL 查询
- 使用 Pandas AI 跑步:对波士顿马拉松的探索
- Rust Polars:解锁高性能数据分析 — 第一部分
- Rust Polars:解锁高性能数据分析 — 第二部分
- Rust: 数据科学中的下一个大事
- Rustic Data: 使用 Plotters 的数据可视化 — 第一部分
- SaaS AI 特性与无护城河的应用相遇
- 保护 LLM 的防护措施
- 保护你的 RAG 管道:实施 Llama Guard 与 LlamaIndex 的逐步指南
- 数据分析中的抽样技术
- 采样——数据科学中的无名英雄
- 通过避免这 3 个代价高昂的错误来拯救你的 A/B 测试
- 使用 Pydeck 告别平面地图
- 说一遍!重复的话语并未帮助 AI
- Sb3,应用 RL 的瑞士军刀
- 大型语言模型:SBERT — Sentence-BERT
- 使用 Kubernetes 和 Seldon Core 进行可扩展服务:教程
- 扩展聚合聚类以适应大数据
- SCD2 技术的语义
- 场景图生成及其在机器人学中的应用
- 场景表示网络
- 在 Windows 桌面/Azure 虚拟机上自动调度 Python 脚本运行
- 使用 Jupyter API 调度和调用笔记本作为网络服务
- 科学、激情与多目标优化的未来
- 机器翻译研究中的科学可信度:陷阱与有前途的趋势
- 科学家们正接近首次近原子级别的整体细胞模拟。
- Scikit-LLM:在 scikit-learn 框架内使用 LLMs 提升 Python 文本分析能力
- Jupyter Notebooks 和 Google Colab 的 Scratchpad 插件
- Seaborn 0.12:对象接口和声明式图形的深度指南
- 使用 GitHub Actions 在 GCP 上实现无缝 CI/CD 管道:你进行有效 MLOps 的工具
- 无缝数据分析工作流:从 Docker 化的 JupyterLab 和 MinIO 到利用 Spark SQL 的洞察
- 给你的 AB 测试实验调味
- 成功细分的秘密
- 揭示对数损失的秘密
- 使用扩展的 Databricks MLFlow 保障 MLOps 的安全
- 保护你的容器化模型和工作负载
- 查看你使用 SAM 的分割效果
- 通过声音看见世界:利用 GPT-4V(ision)和文本转语音技术赋能视觉障碍者
- Segment Anything 3D for Point Clouds: 完整指南 (SAM 3D)
- Segment Anything: 可提示的任意对象分割
- 将文本分段成段落
- 使用 NLP 将文本分割成句子
- R 中的 SEIR 建模使用 deSolve — 鹿中的慢性消耗性疾病
- 在 SageMaker 中选择正确的 XGBoost 损失函数
- 自助数据分析的需求层次
- 自监督学习在计算机视觉中的应用
- 使用投影头的自监督学习
- 使用 PostgreSQL 和 OpenAI 嵌入实现语义搜索
- 使用 BERT 进行语义文本相似度分析
- 预测建模中的敏感性:用更少的流量购买付费客户的指南
- 句子变换器:伪装中的意义
- 情感分析与时间序列文本数据中的结构性断裂
- 九月还是“Septemquake”?用 R 分析和可视化墨西哥的地震活动数据
- 从你的电脑上提供大语言模型服务,通过文本生成推理
- 使用 TorchServe 服务 ML 模型
- 为 2024 年数据科学家的更高质量工作与生活平衡设定这些界限
- 为数据科学设置 Flask 应用
- 设置 Python 项目:第 V 部分
- 设置 Python 项目: 第六部分
- 使用 Scikit-Learn 的 SGDRegressor:你需要知道的未授课程
- SHAP:在 Python 中解释任何机器学习模型
- 二元和多类目标变量的 SHAP
- SHAP 用于时间序列事件检测
- SHAP 与 ALE 在特征交互上的对比:理解冲突的结果
- 使用 ONets 进行形状重建
- 用 SQL 进行数据塑形
- 照亮您数据科学之旅的可转移技能
- 最短路径(Dijkstra)算法:一步步的 Python 指南
- 深度伪造技术是否应该开源?
- 我真的应该吃这个蘑菇吗?
- 我们是否应该更依赖数据?有时候。
- 我们是否应该虚拟化我们的数据科学系统——还是不虚拟化?
- 你应该使用 slots 吗?Slots 如何影响你的类,何时以及如何使用它们
- 在你的 Medium 博客中展示 Streamlit 应用
- Siamese 神经网络与三重损失和余弦距离
- 相似性搜索,第三部分:结合倒排文件索引和产品量化
- 相似性搜索,第一部分:kNN 与倒排文件索引
- 相似性搜索,第四部分:分层可导航的小世界(HNSW)
- 相似性搜索,第五部分:局部敏感哈希(LSH)
- 相似度搜索,第六部分:使用 LSH 森林的随机投影
- 相似性搜索,第七部分:LSH 组合
- 相似性搜索,第二部分:产品量化
- 基本统计概念的简单解释(第二部分)
- 使用 Streamlit 进行简单调查
- 促进员工之间联系的简单工具
- 提高零-shot CLIP 性能的简单方法
- 在 Amazon ECS 上将机器学习模型作为 Flask API 部署的简单方法
- 在 Python 中创建合成数据集的简单方法
- 用 Hamilton 在 8 分钟内简化 Airflow DAG 的创建和维护
- 使用 BigQuery SQL 用户定义函数简化数据清洗
- 使用 Fugue 和 Python 简化 BigQuery 上的数据科学工作流
- 简化文件共享
- 用这四个鲜为人知的 Scikit-Learn 类简化你的数据准备
- 简化你的机器学习项目
- 简化 Matplotlib 中子图的创建
- 简化 Transformers:用你理解的词汇解析最前沿的 NLP —— 第四部分 —— 前馈层
- 简化变换器:使用你理解的词汇的最先进的 NLP — 第五部分 — 解码器与最终输出
- 带重启策略的模拟退火
- 模拟主题公园:用 R 理解队列时间
- 使用 Python 模拟系外行星发现
- 使用 Python 模拟物理系统
- 模拟扑克牌游戏‘战争’
- 模拟 101:导热传输
- 仿真 104:使用向量场的电磁映射
- 模拟 105:双摆模型的数值积分
- 模拟 106:使用网络建模信息扩散和社会传染
- 仿真优化:帮助我的朋友建模和优化他公司的支持台
- 单一 Python 包以满足 99% 的路径需求
- 奇异值分解(SVD)揭秘
- 奇异值分解与特征分解在降维中的比较
- 影响我数据职业生涯的六本书
- Sketch: 一个有前景的 AI 库,帮助直接在 Jupyter 中处理 Pandas 数据框
- 带有异常值的偏度和峰度
- 现代 ML 工程师的 Sklearn 管道:你不能忽视的 9 种技术
- Sklearn 教程:第 1 模块
- Sklearn 教程:第二章
- Sklearn 教程:模块 3
- Sklearn 教程:模块 4
- 使用“&”和“|”而不是“and”和“or”来切片 Pandas 数据框
- Pandas 中的滑动窗口
- 狡猾的科学:数据开采曝光
- 所以你的 AI 究竟有多公平?
- Sobel 算子在图像处理中的应用
- 使用 NetworkX 进行社会网络分析:温和的介绍
- 在数据分析中,软技能胜过技术技能
- 软技能是你在数据科学面试中脱颖而出的关键
- 编写可维护机器学习代码的软件工程最佳实践
- 敏捷项目中的软件规范
- 像数据科学家一样解决神秘盒子
- 揭开锯齿状 COVID 图表的谜团
- 使用强化学习解决 Leetcode 问题
- 解决所有 Apple Silicon 上的 Python 依赖问题
- 解决通用线性模型中的自相关问题的实际应用
- 使用 PyTorch Profiler 和 TensorBoard 解决数据输入管道瓶颈
- 使用 Python 解决地理旅行推销员问题
- 解决逆问题的物理信息深度操作网络:带有代码实现的实用指南
- 像我们一样学习的机器:解决泛化-记忆困境
- 使用离策略蒙特卡洛控制解决强化学习赛道练习
- 使用 Q 学习解决出租车环境——教程
- 使用深度强化学习解决 Unity 环境
- LLM 提示中的思维链:结构化 LLM 推理概述
- 如何按多个列在 R 中对数据框进行排序
- 使用 Typescript 进行空间数据工程
- 对我说话:一个模型阅读了多少个词
- 说话探针:自解释模型?
- 我们正在变化的全球村
- 专门化的 LLM:ChatGPT、LaMDA、Galactica、Codex、Sparrow 等
- 投机采样 — 直观且全面的解释
- 使用 LLMs 为你的移动应用提供语音和自然语言输入
- 使用 Python 的速度打字测试项目
- 使用 R 树加速你的地理空间数据分析
- 加速你的 Python 技能
- 在 Mozilla Common Voice 上的口语语言识别——音频变换。
- Mozilla Common Voice 上的口语语言识别——第一部分。
- 在 Mozilla Common Voice 上的语音语言识别 — 第二部分:模型。
- 30 个 SQL 查询通过它们的 Pandas 等效体进行解释
- SQL 在 Pandas 上——我新的最爱,速度提升 10 倍。
- 测试你的智慧的 SQL 谜题
- SQL 用户:使用这一技巧将你的查询长度缩短一半
- 利用 SQL 中的分析函数加速数据提取
- SquirrelML:预测纽约中央公园的松鼠接近行为
- Stable Diffusion 作为 API:创建一个去除人物的微服务
- 稳定扩散:掌握室内设计的艺术
- 我如何通过堆叠集成模型在欧洲最大机器学习竞赛中获得前 10%
- 堆叠时间序列模型以提高准确性
- StackOverflow 的转型:从颠覆到机遇
- 你应该在 FAANG 还是初创公司开始你的职业生涯?
- 时间序列的平稳性——全面指南
- 使用重采样的统计实验
- 统计独立性入门
- 使用 Julia 进行统计绘图:AlgebraOfGraphics.jl
- 统计学 Bootcamp 8:两个均值的故事
- 稳定航向:导航 LLM 应用程序评估
- 步骤基础:文本分类器
- 数据科学家的指南:将洞察力转化为有影响力的行动
- 逐步指南:通过从单变量分布中采样生成合成数据
- 理解的垫脚石:知识图谱作为可解释链式思维推理的支撑
- 3D 跟踪的立体视觉系统
- 网络交流让我找到工作,即使我曾被拒绝,看看我是怎么做到的。
- 停止在数据科学项目中硬编码——改用配置文件
- 停止使用 PowerPoint 来做你的机器学习演示,试试这个替代工具
- 在 TensorFlow 记录文件中存储图像
- 可视化故事讲述——哪个区域的社会经济评分最高,为什么
- 使用图表讲故事
- 用图表讲故事
- 用图表讲故事
- 图表讲故事
- 图表讲故事
- 用表格讲故事
- 战略数据分析(第二部分):描述性问题
- 战略数据分析(第一部分)
- 《战略数据分析(第三部分):诊断性问题》
- 从云存储中流式传输大数据文件
- 数据工程中的流数据
- 使用笔记本风格工作区简化 dbt 模型开发
- 使用 GPT-3 精简你的文档
- 优化 Azure 虚拟机性能并降低成本:提升效率的可靠策略
- 在探索性数据分析中简化重复任务
- 精简无服务器 ML 推理:释放 Candle 框架在 Rust 中的力量
- Streamlit 和 MongoDB:在云端存储你的数据
- Streamlit 教程:为数据科学项目创建 Word 报告
- 压力测试你的 NLP 模型
- 结构化您的云实例启动脚本
- 将你的机器学习项目与 MLOps 思维相结合进行结构化
- 使用分布式随机森林研究美国性别工资差距
- 数据科学成功秘诀:你在大学里没有学到的 4 项关键技能
- 通过技术图示实现 ML 项目的成功
- 总结最佳实践以进行提示工程
- 使用 NLP 和 AI 更好地总结播客文字记录和长文本
- 用 ChatGPT 总结最新的 Spotify 发布内容
- 4 个简单步骤让你的机器学习系统超充电
- 使用超级收敛加速你的深度学习模型训练
- 使用营销组合建模来超级提升你的跨渠道客户获取
- 用这个新工具提升你的数据清洗技能
- 用
aiomultiprocess
超级增强你的 Python Asyncio:一份全面指南 - 用 ChatGPT 超级提升你的电子表格
- 超强 pandas:加密从 DataFrames 写入的 Excel 文件
- Python 中的监督与非监督主题建模方法
- 使用 Scikit-Learn 的支持向量机:友好的介绍
- 数据讲故事的辅助材料
- 生存分析:利用深度学习进行事件时间预测(第二部分)
- 生存分析:用机器学习预测事件时间(第一部分)
- 适者生存:紧凑型生成式 AI 模型是规模化成本效益 AI 的未来
- 分析车辆尺寸与行人安全
- Svelte & 数据可视化
- 大型语言模型(LLMs)的软件/硬件协同优化策略
- LLM 和 GUI 的协同作用,超越聊天机器人
- SynthDiD 101:Synthetic Difference-in-Differences 初学者指南
- 合成控制:如果我们可以模拟替代现实呢?
- 系统设计备忘单:ElasticSearch
- 系统设计系列:从零开始构建高性能数据流系统的终极指南!
- 从头实现 t-SNE(配合 NumPy)
- T5:文本到文本的变换器(第一部分)
- T5: 文本到文本的变换器(第二部分)
- TaatikNet: 序列到序列学习用于希伯来文音译
- 使用 Tableau 仪表盘处理大数据:挑战与经验
- Tableau 数据融合教程——初学者的逐步指南
- 什么是禁忌搜索?
- Tabyl:现代 R 用户的频率表格
- 处理集中数据管理中的敏感性问题
- 应对变化世界中的问题
- Taipy:构建用户友好的生产就绪数据科学应用程序的工具
- 迈出下一步,扩展你的数据科学技能
- 什么是时间序列预测中的谐波回归?
- 使用 LangChain 和 Azure OpenAI 与您的 SQL 数据库“对话”
- 2023 年最佳:关于 ChatGPT 和 LLMs
- TDSP:当敏捷遇上数据科学
- 教人工智能玩棋盘游戏
- 教学 CLIP 时尚
- 教学很难:如何训练小模型并超越大型对手
- 教授语言模型使用工具
- 时间差学习及探索的重要性:图解指南
- Python 中的时序差分:第一个基于样本的强化学习算法
- 时间图基准
- 2023 年的时间图学习
- Python 中的临时变量:可读性与性能
- AI 十年回顾
- 张量量化:未被讲述的故事
- TensorFlow Decision Forests:全面介绍
- TensorFlow-GNN:图神经网络的端到端指南
- 使用 GradientTape 进行 TensorFlow 模型训练
- 立即测试并覆盖你的代码!
- 以有趣和简单的方式测试数据管道
- 像测试软件一样测试语言模型(和提示)
- 使用 Pytest 测试 Python 代码——适合初学者
- 测试 mlscorecheck 包的报告的机器学习性能一致性
- 测试支持 1162 种语言的大规模多语言语音(MMS)模型
- 文本分类挑战:极小数据集上的微调与 ChatGPT
- 使用 Transformer 编码器进行文本分类
- 使用 NLP 进行文本纠正
- 时间序列模型中的文本数据预处理
- 自动化化学实体识别:创建你的 ChemNER 模型
- 文本模式提取:比较 GPT-3 和 人工在环工具
- 文本搜索与向量搜索:更好地结合?
- 文本切分正确实施:为您的个人 LLM 打下坚实的基础
- 文本新颖性检测
- 1958 年的感知机作为肿瘤分类器
- 每位数据领导者成功所需的 3 项核心技术技能
- 我永久切换从 Pandas 到 Polars 的 3 个理由
- 今年提升数据技能的 4 种小而强大的方法
- 数据故事讲述中的 4D:将科学变为艺术
- 工程经理应了解的生产力五维度
- 5 种高效查找和解决数据问题的方法
- 可信赖的 LLM 测试的 5 个支柱
- 可解释机器学习的 6 个好处
- 提升数据治理的七个不寻常的数据可观测性用例
- 变换器的 A 到 Z:你需要知道的一切
- 散点图的致命弱点
- SDXL 1.0 的到来
- 优质数据分析的艺术
- 《提示设计的艺术:提示边界与标记修复》
- 提示设计艺术:使用清晰的语法
- 解决任何数据科学问题的艺术 — 提高结果的简单技巧
- 使用非线性编程优化您的营销预算
- 《有志统计学家的随机变量入门》
- AutoML 的困境
- 破坏分析的坏循环
- 多变量高斯分布下的异常检测基础
- 对比增强 CT 基础知识
- 信息提取的起始:突出关键字并获取频率
- 1 最佳替代 Seaborn Distplot 的 Python 库
- AI 和数据领导力的最佳学习路径
- 人类开发者与 AI 合作伙伴的最佳结合
- 适合你神经网络的最佳优化算法
- PyCon US 2023 最佳讲座
- 偏差-方差权衡
- 偏差-方差权衡,解析
- 数据科学的诞生:历史上首次假设检验与 Python 见解
- Decent 机器上的 Pump & Dump 浓缩咖啡配置的诞生
- 捕捉-重捕方法
- GPT-4 的碳足迹
- 反对人工智能监管的理由毫无意义
- 反对企业 LLMs 的案例
- 《… Python 中的捕手:用一个工具捕获异常和警告》
- 看到 AI 大局的挑战
- 《混沌数据工程宣言》
- CLIP 基础模型
- 创建一个优秀 PyPI 包的最完整指南
- Python 中的生存分析完全介绍
- 将大型语言模型(LLMs)集成到应用中的复杂性与挑战
- 实体解析实现的复杂性
- 时间序列分析中的移动平均综合指南
- 控制渐变
- 概率关系的反直观性质
- 文字数据的创造性、偶尔混乱的世界
- 选择损失函数在创建准确的时间序列预测中的关键作用
- 《人工智能中的持续学习现状》
- 《维度灾难揭秘》
- 讨厌数学的人的数据分析师学习路线图
- “Segment Anything”中的以数据为中心的人工智能概念
- 数据科学家的工具箱:利用 scikit-learn 的顶级功能取得成功
- 数据科学家的工具箱:解析
- GPT-4 的去污染评估
- 从基础逻辑门到深度神经网络:权威感知机教程
- 日常(AI)物品的设计
- 监控生产环境中的机器学习模型的难点
- ETL 的 Docker Compose:Meerschaum Compose
- 恐怖的对手:机器学习中的数据泄漏
- DVC 指南:所有数据科学项目的数据版本控制
- 动态批量模型:一种混合整数编程方法
- 使用大型语言模型的最简单方法?
- 使用 SQLAlchemy 进行 UPSERT 的最简单方法
- 提示工程的崭新艺术
- 蛋白质设计的机器学习时代,概括为四种关键方法
- 用一行代码构建一个分割模型
- 设施分布问题:混合整数规划模型
- 被禁书籍:美国书籍禁令的数据分析
- 音乐发现的未来:搜索与生成
- 2023 年现代数据栈的未来
- 开源 AI 的黄金时代即将结束
- Pd.Get_Dummies 的利与弊
- 梯度下降算法及其背后的直觉
- 图着色问题:精确解和启发式解
- 推荐系统指标指南
- 最困难的部分:定义分类目标
- 数据质量问题对广告支出的回报的隐藏成本
- 开源开发中的隐性危机:行动号召
- 多项式回归中的隐藏线性
- (向量)索引的隐藏世界
- 公有云上的机器学习工具层次结构
- 开源 LLMs 的历史:更好的基础模型(第二部分)
- 开源 LLMs 的历史:早期阶段(第一部分)
- 开源 LLMs 的历史:模仿与对齐(三)
- 人工智能的另一面:领导 AI 团队和项目的艺术
- 数据科学中的讲故事的重要性
- LLMs 的无限巴别图书馆
- 人工智能的膨胀:更多的模型是否总是更好?
- 检索增强生成(RAG)的内幕与外延
- 工作车间调度问题:混合整数规划模型
- Kaggle 蓝图:解锁数据科学竞赛获胜方法
- 气体动力学理论:理想气体分子的动力学建模
- 位置语言:评估生成式 AI 的地理编码能力
- 机器学习模型的生命周期
- 关于生成式 AI 的小故事:绘图挑战
- [隆巴尔效应及其如何帮助听力障碍](docs/the-lombard-effect-and-how-it-can-help-with-hearing-impairment-7ca89a9a0d1d.md)
- 长短期结合:基于比例的相关性以捕捉文档语义端到端
- LLM 的魔力——提示工程
- 量子计算的魔力:编写魔法数字猜测游戏的初学者指南
- “我写作的主要驱动力一直是学习”
- 变换器的地图
- 线性回归的矩阵代数
- R 中的线性回归矩阵代数
- 从物理学看 logistic 分类的意义
- 数据素养的威力
- 《极简主义者的 DVC 实验跟踪指南》
- 企业 AI 的护城河是 RAG + 精细调整 — 为什么如此重要
- 最强大的气候数据仍然被隐藏
- 多任务优化争议
- p 值的神话:为什么它们不是数据科学中的圣杯
- AI 中解释性的渐变的必要性
- 新的最佳 Python 包用于可视化网络图
- BigQuery 中的新生成 AI 功能
- 数据团队面临的下一个大危机
- 下一步是负责任的人工智能。我们如何实现这一目标?
- 恶名昭著的 XGBoost
- 人工智能奥运会:机器学习系统的基准比赛
- 一页数据和分析模板
- 学习递归所需了解的唯一一件事
- 理解回归树所需的唯一指南
- 数据合同的另一面:唤醒消费者责任
- 成功的数据科学之路在于你的学习能力。但是,应该学习什么呢?
- 人工智能监管之路
- 让我们来看看“混乱的数据科学家的 PATH 变量:如何管理它”
- Jupyter 的完美文本编辑器:一个完整的 Python IDE
- 平滑你的噪声数据的完美方法
- 使我获得数据科学家职位的作品集
- 使用蒙特卡罗模拟传播误差的力量和简单性
- 贝叶斯因果推断的力量:揭示数据集中隐藏因果关系的库的比较分析。
- dbt 增量模型在大数据中的威力
- 独立分量分析(ICA)在真实世界应用中的强大能力 — EEG 示例
- Linux 控制组的威力:容器如何控制其资源
- OpenAI 的函数调用在数据管道中的力量:全面指南
- 检索增强生成的力量:Base LLM 与 RAG LLMs 的比较,基于 Llama2
- 点积在人工智能中的力量
- 应对 AI 风险的实际侧面
- 对早期排序阶段的原则性方法
- 现代计算机科学家的原则
- AI 编程工具的到来:产品工程团队将如何使用它们
- 正确调用 ChatGPT API 的方法
- 数据科学的真正力量隐藏在明面上
- 研究代理:应对基于大量文本语料库回答问题的挑战
- 失落的回归:用于预测的变换器
- 推荐系统中的两塔模型崛起
- 视觉变换器的崛起
- 因果关系的科学与艺术(第一部分)
- 因果性的科学与艺术(第二部分)
- 提高投资回报率的秘密:实施全面漏斗营销方法
- 提升 NLP 性能的秘诀:深入了解 PyTorch 中的 nn.Embedding 层
- 有助于数据科学家成长的技能
- 在 Kubernetes 上运行代码的智能灵活方式
- 成为数据科学家成功所需的软技能
- SQL 单元测试现状:2023
- 《将你的 Python 项目迁移到 R 的入门指南》
- 关于为什么你的 Instagram 帖子会如此少点赞的统计理论
- 从 TensorFlow 转换到 PyTorch 的细微差别
- 高维数据的惊人行为
- 合成数据领域指南
- 评估新语言模型的三种基本方法
- 三大数据架构趋势(以及 LLMs 将如何影响它们)
- 晋级下一轮所需的前三种 SQL 技能
- GPT 模型的 Transformer 架构
- 两个信封问题
- AI 对齐的双重面貌
- nnU-Net 终极指南
- 从零开始训练 BERT 的终极指南:介绍
- 从头开始训练 BERT 的终极指南:准备数据集
- 从零开始训练 BERT 的终极指南:分词器
- 《终极 Ndarray 手册:掌握 Rust 的科学计算艺术》
- 你 NLP 模型的终极预处理流程
- Apple Silicon Macs(M1 和 M2)的终极 Python 和 Tensorflow 设置指南
- 终极可视化助手
- 《被低估的珍宝 第一部分:8 个让你成为高手的 Pandas 方法》
- 通用模型的非凡有效性
- 非结构化数据漏斗
- RAG 的未被揭示的一面:解决领域特定搜索中的挑战
- 生成式人工智能负责任使用的紧迫性
- 正则表达式在数据科学中的实用性
- 使用 Q-learning 的强化学习中行动的价值
- 世界地图的多种面貌——地图投影
- SQL 查询优化的世界
- 世界上最小的数据管道框架
- 线性回归的理论深度解析
- 没有所谓的自学程序员。
- 当你没有学习动力时,这 5 个技巧将帮助你学习数据科学
- 这 7 个编程习惯让你成为一个低效的数据科学家
- 思考 SQL —— 避免从上到下编写 SQL
- 考虑微调 LLM?在你开始之前,这里有 3 个考虑因素
- 超越数据科学的种种框架
- 为什么以人为本的 AI 设计指南在制造业中使用时可能优雅地失败
- 关于状态保持机器学习、在线学习和智能机器学习模型再训练的思考
- 使用 NLP 进行线程总结
- 用两行代码将你的 Python 程序多线程
- 在生产中部署生成模型的三大挑战
- 三种你可能不知道的表示百分比的图表
- 常见强化学习算法的三个根本性缺陷(及其修复方法)
- 阈值化 — 使图像更清晰的方式 (CV-04)
- 透过镜子,谷歌在眼睛中发现了什么
- 抛出一只猫到鸽子中间?用大型语言模型增强人类计算能力
- TiDE:那个‘令人尴尬’的简单 MLP,击败了 Transformers
- 整理数据集变化框架
- 数据集转移框架的整理:示例
- Tidyverse 与 Base-R:如何为你选择最佳框架
- 时间序列增强
- 对跑步者疲劳检测的时间序列分类 — 一个教程
- 时间序列复杂性分析使用熵
- 使用 sARIMA 和 Dash 进行时间序列数据分析
- 回到未来:使用马尔可夫转移矩阵分析时间序列数据
- 气候变化的时间序列:预测能源需求
- 气候变化时间序列:大型海洋波浪预测
- 气候变化中的时间序列:风力发电预测
- 气候变化时间序列:起源-目的地需求预测
- 气候变化的时间序列: 通过聚类减少食物浪费
- 气候变化的时间序列:太阳辐射预测
- 气候变化中的时间序列:使用深度学习进行精准农业
- 时间序列预测:深度学习与统计学——谁能赢?
- 基于深度学习的时间序列预测(LSTM-RNN)在 PyTorch 中的应用
- 用 Facebook 的 Prophet 进行时间序列预测——第一部分
- 用 Facebook 的 Prophet 进行时间序列预测,10 分钟 — 第二部分
- 时间序列转换(及还原)变得简单
- 时间旅行轻松掌握:Python Datetime 的全面指南
- TimeGPT: 第一个用于时间序列预测的基础模型
- 气候变化时间序列:极端天气事件预测
- TimesNet:时间序列预测的最新进展
- Tiny Audio Diffusion:无需云计算的波形扩散
- 大型语言模型:TinyBERT — 为 NLP 蒸馏 BERT
- 升级到 PyTorch 2.0 的技巧和窍门
- 在 Polars 中处理字符串的技巧与窍门
- 提高你 R 技能的技巧和窍门
- 学术研究出版技巧
- 理解 R 中的正则表达式的提示
- 厌倦了二维码?自己制作一个标志性标记
- 对你的数据工程师角色感到厌倦吗?
- 1 还是 0:图像分类中的像素攻击
- 为了确保人工智能决策的公正,女神需要眨眼
- 要真正掌握一个新话题,请慢慢来
- 是否使用机器学习
- 特征过多?让我们来看看主成分分析
- ToolFormer:指导 AI 模型使用外部工具
- R 语言中的前 10 个错误及其修复方法
- 每个数据科学家都应该了解的前 10 大预训练模型
- 机器学习中的前 4 个图
- 2023 年使用的 6 大数据标注工具
- 查找气候变化数据集的前 5 个最佳来源
- 从图像中提取文本的前 5 个 Python 库
- 数据工程师在加入初创公司前应问的五个问题
- 顶级的 5 种 CSV 替代方案
- 2023 年必读的数据科学与机器学习顶级书籍
- 使用 Llama 2 进行主题建模
- 生产中的主题建模
- 使用 ChatGPT API 进行主题建模
- 使用 BERTopic 的类别话题
- 基于对流扩散变换器的拓扑泛化
- TorchServe & Flask 用于图像风格迁移
- 向 AGI 迈进:LLMs 和基础模型在终身学习革命中的角色
- 实现数据科学中的工具无关性:SQL 中的 CASE WHEN 与 Pandas 中的 WHERE
- 朝向生成式 AI 的模型架构
- 朝向绿色 AI:如何在生产中提高深度学习模型的效率
- LLM 解释性:为什么我的模型产生了这个输出?
- 迈向视觉中的独立自注意力
- 关于大型语言模型的无偏评估
- 理解专家混合模型
- 使用 Tracemem 跟踪 Python 会话内存
- 传统指标与神经指标在机器翻译评估中的比较
- 训练图像分割模型以通过 Voronoi 平铺接受用户反馈,第一部分
- 通过 Voronoi 分割训练图像分割模型以接受用户反馈,第二部分
- 使用自动梯度下降训练 ImageNet,无需超参数
- 通过更改仅一行代码,在 GPU 上训练你的 ML 模型
- 自定义 YOLOv7 对象检测与 TensorFlow.js
- 训练深度学习模型以检测微控制器上的 DoS 攻击
- 在 Kafka 流上训练机器学习模型
- 通过自我对弈训练一个代理以掌握简单游戏
- 训练一个智能体通过自我对弈掌握井字游戏
- 使用 PDF 文档训练自定义 Detectron2 模型进行目标检测(第一部分)
- 使用教科书质量的合成数据训练语言模型
- 通过强化学习训练机器人操控器在避障任务上的应用
- 使用 Softmax Loss 训练句子变换器
- 通过真实生活模拟训练数据科学中的问题解决技能:一种角色扮演双聊天机器人方法
- 在 1TB 数据集上训练 XGBoost
- 使用 MLflow 实验和 HyperOpt 调整训练 XGBoost
- 迁移学习入门
- 变压器辅助的供应链网络设计
- Transformer 模型 101:入门 — 第一部分
- Transformer 模型 101:入门指南 — 第二部分
- 通过微调的变换器模型进行自定义文本分类
- Transformers 可以生成 NFL 比赛:介绍 QB-GPT
- 深入了解 Transformers – 第一部分。5 分钟介绍 Transformer 模型
- 变换器 — 直观且详尽的解释
- Transformers 是否输给了线性模型?
- 简化 Transformers:使用你理解的词汇的最先进 NLP——第一部分——简介
- 简化 Transformers:使用你理解的词语的最前沿 NLP — 第二部分 — 输入
- 简化变换器:使用你理解的词汇进行的前沿 NLP — 第三部分 — 注意力机制
- 将文本转化为向量:TSDAE 的无监督方法用于增强嵌入
- 使用 ChatGPT 进行翻译
- 翻译术语与 LLM(GPT 和 Vertex AI/Google Bard)
- TranSPormer: 一种解决旅行商问题的 Transformer 网络
- 在编写 Python 代码时使用 “Black” 库来犒赏自己
- 树集成:自助法、提升法和梯度提升
- 思维树提示
- 在您的数据上训练 YOLOv8 实例分割
- 尝试这 3 个鲜为人知的 Pandas 函数
- TSMixer: 谷歌推出的最新预测模型
- 提升你的数据操作技能
- 转身面对陌生事物
- 将 GPT-4 转变为扑克教练
- 将线性回归转变为逻辑回归
- 将洞察转化为可操作的成果
- 使用 string2string 驯服文本:一个强大的 Python 库,用于字符串对字符串算法
- 变压器在预测推特账户身份中的力量
- 两种可以显著提升你的查询的高级 SQL 技巧
- 两次发球:分析 2000 年至 2020 年的 ATP 发球数据
- 你需要知道的两个有趣的 pandas 数据操作函数
- 两篇新论文详细分析了 AlphaFold 2 的 2 亿个模型揭示的蛋白质宇宙
- 两个强大的 Python 特性,以简化你的代码并提高可读性
- 推荐系统中的双塔网络和负采样
- R 中的双因素 ANOVA
- 双因素方差分析测试,使用 Python
- 两种本地下载和访问 Llama 2 的方法
- 类型提示数据框用于静态分析和运行时验证
- Python 中的类型提示
- I 型和 II 型错误及假设检验中的样本大小计算
- U-Net 解析:理解其图像分割架构
- 终极 Hive 教程:大数据管理与查询的必备指南
- ULTRA: 知识图谱推理的基础模型
- UMAP 变异解释
- 解密 Cox 回归:Cox 回归的隐藏黑暗秘密
- 解锁 Cox 回归:Cox 回归的直观指南
- 开箱 DINOv2,Meta 的新型全能计算机视觉骨干网络
- 拆解 Google Bard 和 GPT-4
- 使用 Python 的 Pandas 库简化非传统的日期时间转换
- 使用变分自编码器(VAE)发现异常:深入探索无监督学习的世界
- 揭示传统 DiD 方法的局限性
- 揭示巴西市政影响、公共卫生支出和患者转移之间的关联
- 揭示 Word2Vec 的开创之旅及人工智能科学的现状
- 揭示 DAX 中 KEEPFILTERS 的秘密
- 理解并实现带掩码的自回归流与 TensorFlow
- 理解 Polars 缺乏索引
- 通过从零开始构建交叉熵来理解策略梯度
- 理解 SQL 注入并学习如何在 Python 中使用 SQLAlchemy 避免它
- 实时了解您的数据
- 理解和减轻 LLM 幻觉
- 深入理解 AUC 分数:意义何在?
- 了解贝叶斯市场营销组合建模:深入探讨先验规格
- 理解因果树
- 了解 ChatGPT 插件:益处、风险及未来发展
- 理解深度学习优化器:动量、AdaGrad、RMSProp 与 Adam
- 理解 DeepMind 矩阵乘法
- 理解 Power BI 中的不同缓存类型
- 理解梯度提升:数据科学家的指南
- 理解机器学习中的梯度下降
- 理解群体顺序测试
- 理解直方图和核密度估计
- 理解独立性及其在因果推断和因果验证中的重要性
- 理解工具变量
- 理解目标检测中的交并比(代码)
- 在因果推断中理解治疗加权的逆概率 (IPTW)
- 理解 KL 散度
- 勇敢学习机器学习:揭示 L1 和 L2 正则化(第一部分)
- 理解大型语言模型:(Chat)GPT 和 BERT 的物理学
- 了解 LoRA — 低秩适配用于微调大型模型
- 理解马赛克图
- 使用 Python 理解多项分布
- 理解 Naive Bayes 算法
- 了解 NeRFs
- 理解机器学习中的噪声数据和不确定性
- 理解预测性维护 — 数据采集与信号去噪
- 理解预测性维护 — 单位根和稳态
- 理解预测性维护——波数据:特征工程(第一部分)
- 了解预测性维护——波形数据:特征工程(第二部分)
- 使用 Gradio 理解保留率
- 理解 SQL:入门窗口函数
- 理解 SQL:执行顺序
- 了解 TF-IDF:NLP 中的一种传统特征提取方法
- 以苏格拉底式的方法理解去噪扩散概率模型(DDPMs)
- 什么是超几何分布
- 理解集成学习中多样性的重要性
- 理解推动产品的多层数据管理
- 了解时间序列趋势
- 了解我们失去的东西
- 使用 Pytest 对 PySpark 代码进行单元测试
- 单变量离散分布:易于理解的解释
- 释放隐藏模式:无监督机器学习文章推荐系统指南
- 释放 GPT-3 的力量:超级英雄描述的微调
- 释放 MLflow 的力量
- 发掘数据科学家的提示工程潜力
- 释放 Python Asyncio 队列的力量
- 释放 Julia 超级类型的力量
- 用你的笔记本电脑释放数据科学的潜力
- 发掘 Python 的全部潜力
- 解锁音频数据的潜力:使用 Whisper、WhisperX 和 PyAnnotate 进行高级转录和语音分段
- 解锁因果推断的力量:数据科学家理解“后门调整”公式的指南
- 解锁因果推断和前门调整的力量:数据科学家的深入指南
- 解锁使用 Python、特征存储和 GCS 的高效批量预测管道的秘密
- 如何在 3 行代码中从任何 DataFrame 计算条件概率
- 解锁因果推断的秘密,通过有向无环图的硕士班
- 通过强大的五步因果影响框架释放你作为商业分析师的全部潜力
- 解锁数据访问:在没有 API 端点的情况下利用触发器
- 解锁数据建模成功:3 个必须拥有的上下文表
- 解锁决策制定:人工智能桥接理论框架与技术进步
- 使用 Airflow 解锁 MLOps:ML 系统编排的全面指南
- 释放 JupyterLab 的潜力:发现你从未知道过的强大文本编辑器
- 解锁大数据的力量:图学习的迷人世界
- 媒体中面部模糊的力量解锁:全面探索与模型比较
- 解锁线性回归中交互项的力量
- 解锁路线可视化的力量:3 种基本技巧
- 利用 LLMs 解锁文本数据的力量
- 解锁慢变维(SCD)的秘密:八种类型的全面视角
- 解锁用户激活与根本原因分析
- 揭示 AI 对跨性别社区的有害影响
- 解开物理信息神经网络的设计模式:第二部分
- 揭示物理信息神经网络的设计模式:第三部分
- 揭示物理信息神经网络的设计模式:第四部分
- 揭示物理信息神经网络的设计模式: 第五部分
- 揭开物理信息神经网络设计模式的面纱:第六部分
- 揭示物理信息神经网络的设计模式:第七部分
- 解密物理信息神经网络的设计模式:第 01 期
- 揭开大数法则的面纱
- 揭示复杂性:一种使用噪声注入的流形学习的新方法
- 解决压缩轴的终极修复,逐步指导
- 无监督数据剪枝:更少的数据学习更好
- 无监督学习与涌现模式
- 无监督学习方法系列 — 探索 K-均值聚类
- 无监督学习系列——探索 DBScan
- 无监督学习系列:探索层次聚类
- 无监督学习系列——探索自组织映射
- 无监督学习与 K-Means 聚类:从图像生成颜色调色板
- 无监督机器学习:探索一系列无需输出标签的模型
- 揭开 dropout 层的面纱:提升神经网络的必备工具
- 揭示偏差调整的力量:在类别不平衡数据集中提升预测精度
- 揭示推荐系统中的精确度@N 和召回率@N
- 提升您的数据可视化:4 个 Python 库以增强您的 Matplotlib 图表
- 在机器学习系统中维护数据质量
- 提升建模 — 数据科学家优化信用卡续卡活动指南
- 成本优化中的提升建模
- 城市可达性 — 如何及时到达除颤器
- 城市韧性:空间公平
- 城市韧性:地震韧性,案例研究 [第一部分]
- 使用 ChatGPT 查询你的 Neo4j 数据库
- 使用类来生成信号
- 使用深度学习生成奇幻名字:从零构建语言模型
- 将 Delta Lake 用作下游应用程序的主数据管理(MDM)源
- 更频繁地使用频率分析
- 使用 GPT 模型生成用于训练机器学习模型的文本数据
- 使用 LangChain 的输出解析器与 ChatGPT 配合以获得结构化输出
- 使用 PyGWalker 提升你的 Jupyter Notebook EDA 体验
- 使用 Python 并行下载多个文件(或 URL)
- SMOTE 和其他选项:处理不平衡数据的综合指南
- 使用分区,卢克!一个简单且经过验证的优化 SQL 查询的方法
- 使用同义词 API 方便地更新 Elasticsearch 中的同义词
- 使用这些方法使你的 Python 并发任务表现更佳
- 使用 to_string() 防止 Python 隐藏打印数据框的主体
- 用户流失预测
- 用户反馈 — 机器学习监控栈的缺失部分
- 使用 Apache Kafka 进行数据流处理
- 使用贝叶斯网络预测医院中的辅助服务量
- 在 Python 中使用二项分布
- 将 ChatGPT 作为创意写作伙伴——第一部分:散文
- 使用 ChatGPT 作为创意写作伙伴——第二部分:音乐
- 使用 ChatGPT 作为创意写作伙伴 — 第三部分:图画书
- 使用 ChatGPT 进行高效调试
- 使用 ChatGPT 将 R 代码翻译成 Python
- 使用 DeepFace 进行面部识别
- 使用 DuckDB 与 Polars
- 使用枚举和 functools 升级你的 Pandas 数据管道
- 使用从 BERT 嵌入中衍生的向量表示的傅里叶变换进行语义相似度评估
- 使用 GPT-3.5-Turbo 和 GPT-4 进行人道主义数据类别预测
- 使用 GPT-4 的视觉功能作为艺术评论家
- 使用 Python 和 Kafka
- 使用大型语言模型作为推荐系统
- 使用 LazyPredict 评估 ML 算法
- 使用 LLM 来评估 LLM
- 使用机器学习创建自定义色彩调色板
- 使用 MLflow 和 ATOM 跟踪所有机器学习实验,而无需额外的代码
- 使用多任务和集成学习预测阿尔茨海默病的认知功能
- 使用 OpenAI 和 Python 提升你的简历:一步一步的指南
- 使用 OpenCLIP 进行图像搜索和自动字幕生成
- 使用 Plotly 3D 表面图可视化地质表面
- 使用 Plotly Express 旭日图探索地质数据
- 使用 Polars 插件通过 Rust 实现 14 倍速度提升
- 数据科学中的概率词使用
- 使用倾向评分匹配来构建领先指标
- 使用 Python 解决工程中最常见的问题之一
- 使用量子退火进行 scikit-learn 特征选择
- 使用 React 构建互动界面以展示令人兴奋的数据集
- 使用无服务器函数来管理和监控基于云的训练实验
- 使用 SHAP 调试 PyTorch 图像回归模型
- 使用斜率图表简化你的数据可视化
- 使用符号回归为 Elo 著名评分系统增加不确定性
- 使用 SQL 中的 HAVING 和 DISTINCT 子句
- 在 Python 中使用 Tqdm 与 Asyncio
- 使用 pykrige 和 matplotlib 进行地质变化的空间可视化
- 利用 PyArrow 改进 pandas 和 Dask 工作流
- V-Net,U-Net 在图像分割中的“大哥”
- 改善咖啡脱气的真空腔
- 使用 SQL 验证字符串是否为 HTML
- 使用 SQL 验证平衡括号
- VALL-E — 语音合成的未来?
- 深度学习中的梯度爆炸与消失问题
- 随机森林中的变量重要性
- 实验中的方差减少 — 第一部分:直觉
- 实验中的方差减少 —— 第二部分:协变量调整方法
- 重要性采样的方差减少
- 使用 Gumbel Softmax 的离散分布变分自编码器(VAE)
- 变分推断:基础知识
- 机器学习中的各种部署类型
- 机器学习中的向量表示
- 向量搜索并不是你所需的一切
- 向量化:是什么以及它是如何工作的?
- 使用 JAX 向量化和并行化 RL 环境:以光速进行 Q 学习⚡
- 使用 Modelbit 通过 Git 进行机器学习模型部署的版本控制
- 实践中的版本控制:数据、机器学习模型和代码
- VIM 教程 — 像专业人士一样编辑文本
- 视觉基础的重复计数在实际应用中的探索
- 面向视觉的语义占用预测用于自动驾驶
- 使用冻结的大型语言模型进行视觉问答
- 使用 Python 可视化卫星图像的 RGB 通道
- 使用 Plotly Express 在 3D 线图上可视化井路径
- Arabica 中的可视化模块加速了文本数据的探索
- 嵌入的可视化
- 纽约市的可视化
- 使用 Matplotlib 可视化数据范围
- 视觉化线性代数以入门机器学习:第一部分
- 通过可视化线性代数入门机器学习:第二部分
- 使用 Google Trends 可视化 AI 和技术炒作
- 可视化气候变化:用 Python 重现气候条纹的逐步指南
- 使用 Basemap 和 mplleaflet 可视化地理空间网络图
- 可视化 3 种 Sklearn 交叉验证:K-Fold、Shuffle & Split 和 Time Series Split
- 通过 Python 的 NetworkX 库可视化社交网络以获取更好的洞察:分析和映射社交关系
- 更好洞察的社会网络可视化:使用 Python 的 NetworkX 库分析和映射社会关系 — 第二部分
- 可视化反卷积操作
- 可视化多重共线性对多重回归模型的影响
- 直观地展示维度诅咒的真实程度
- 使用 Python 地图可视化贸易流量 — 第一部分:双向贸易流量地图
- vLLM:PagedAttention 实现 24 倍更快的 LLM 推理
- 语音助手的可访问性
- Voronoi 网格:一种实际应用
- Vosk:高效企业级语音识别的评估与实施指南
- 想成为更好的数据科学家吗?写编程教程!
- 想提升你的短期预测?试试需求感知
- 注意你的束搜索超参数
- 水接触时间与浓缩咖啡中的萃取:一个实验
- 我们应该早就看到 ChatGPT 了
- Web Speech API:什么有效,什么无效,以及如何通过将其与 GPT 语言模型连接来改进它
- 权重衰减在没有残差连接的情况下能有效吗?
- 使用 Keras 进行测井数据预测的神经网络
- 50 多次机器学习面试(作为面试官)教会了我什么
- 什么是梯度,为什么会爆炸?
- 如何使用 Hugging Face 代理进行 NLP 任务
- 什么是多模态模型?
- Transformer 架构中的 Query、Key 和 Value 是什么?它们为什么被使用?
- GPT 模型背后的数据中心 AI 概念是什么?
- 对编码分类受保护属性的公平性影响是什么?
- 成为初创公司全栈数据科学家的体验
- ChatGPT 对你的了解:OpenAI 在数据隐私方面的进展
- 熵度量了什么?直观解释
- “最佳实践”到底是什么意思?
- 当机器学习出现错误时,这意味着什么?
- 算法“学习”到底意味着什么?
- 数据科学家究竟做什么?
- GPT-4 带来的 AI 新视角
- 语义网发生了什么?
- Neo4j v5 中 APOC 发生了什么:核心版和扩展版
- 当大多数在线内容变成 AI 生成时会发生什么?
- 我作为数据分析师保持相关性的做法
- 作为数据科学家,经过一年 AB 测试后我学到的东西 — 第 1/2 部分
- 我作为数据科学家在进行了一年的 AB 测试后学到的东西——第二部分/2
- 成为高效的机器学习团队领导
- 我在担任数据科学总监的第一年学到的东西
- 我在推动提示工程极限时的所学
- 我在每个数据分析师候选人身上寻找的特质
- 我们是否可以轻松解释过于复杂的模型?
- 作为数据科学家,是什么激励了你?
- 什么是生命周期评估?LCA
- 什么是卫星图像时间序列?
- 什么是时间序列单位根?
- 解锁 Presto 分布式 SQL 的力量:全面指南
- 什么是贝叶斯误差?
- 什么是商业智能?
- 什么是数据质量?
- 什么是 dbt(数据构建工具)以及何时使用它?
- 什么是 EDI?电子数据交换
- 什么是 ESG 报告?
- 什么是生成性 AI?全面指南
- 什么是绿色洗涤,我们如何利用分析检测它
- 什么是智能过程自动化(IPA)?
- 什么是学习排名:学习排名方法的初学者指南
- 什么是部分信息分解及特征如何交互
- 什么是过程挖掘?
- 什么是合成数据?
- SQL 中 UNION 和 JOIN 的区别是什么?
- AI 的环境影响是什么?
- 两个人拥有相同首字母的概率是多少?
- AI 对裁员的真实影响是什么?深入分析
- 关于气候的言论:Twitter 数据的 Python 聚类
- 人工智能在医疗保健中应扮演什么角色?
- 当你的 p 值 = 0.052 时,你的决定应该是什么?
- 什么阻碍了你获得第一个数据科学工作?
- 带什么?——基于协同过滤的物品建议
- 找到异常值后该怎么做
- Pandas 2.0 有什么新变化?
- Pandas 2.1 中的新功能
- 2023 年的分析领域接下来会发生什么?
- 当 AI 走错路时:现实世界中的高-profile 机器学习失误
- 创作歌手何时最成功?
- 当 AutoML 遇上大型语言模型
- 何时在 CPU 上运行代码而不是 GPU:典型案例
- 人类在需要回答数据相关的棘手问题时
- 何时使用条形图是不正确的?
- 毫秒至关重要——我在性能改进中的旅程
- 当点预测完全无用时
- 你什么时候应该微调 LLM?
- 你应该在什么时候停止寻找?
- 当电子表格不够用时:关系数据库的课程
- 随机策略何时优于确定性策略
- 解决复杂问题时,第一步是最困难的
- 当数据集较小时,特征是你的朋友。
- 你应该何时更喜欢“汤普森采样”而不是 A/B 测试
- 所有的女性都在哪里?
- 数据科学在 2023 年将何去何从?
- 公交车在哪里?GTFS 将告诉我们!
- 咖啡的激光粒子分析何处出错
- 针对你的大数据项目,应该使用哪个数据格式?
- 哪些特征对你的分类模型有害?
- 哪些 GPT 类似模型工程技术适用于系统日志?
- 我应该选择哪个在线数据科学课程?
- 黑客使用哪些编程语言?
- 哪种量化方法适合你?(GPTQ vs. GGUF vs. AWQ)
- 哪个团队应该负责数据质量?
- Whisper JAX 与 PyTorch:揭示 GPU 上 ASR 性能的真相
- 谁做什么工作?AI 眼中的职业角色
- 谁赢,谁输?AI 编码工具将如何影响不同类型的业务
- 为什么箱线图不应单独使用及与之配合使用的 3 种图表
- 为什么接受“任何数据工作”是一个糟糕的职业决定,你应该做什么
- 为什么以及如何实现更长的 LLM 上下文窗口
- 为什么以及如何在多重假设检验中调整 P 值
- 为什么所有地图都不准确?
- 为什么语言模型无处不在?
- 为什么随机实验是因果推断中的黄金标准?
- 为什么回测重要以及如何正确进行
- 为什么卷积?理解卷积和深度网络中的特征提取
- 为什么数据不是新石油以及数据市场为何让我们失望
- 为什么数据项目无法产生实际影响:作为分析经理需要关注的 5 个关键因素
- 为什么我们还需要神经网络?
- 为什么我们拥有庞大的语言模型而视觉变换器却很小?
- 为什么你需要使用 SQL 分组集来汇总数据?
- 为什么假设检验应该从《哈姆雷特》中汲取灵感
- 我为什么签署了“暂停大型 AI 实验”请愿书
- 为什么我作为数据科学家要学习 JavaScript
- 为什么特征缩放在机器学习中很重要?讨论 6 种特征缩放技术
- 为什么将人工智能技术成功应用于临床护理如此困难?
- 为什么更多即是更多(在人工智能中)
- 为什么 OpenAI 的 API 对非英语语言更昂贵
- 为什么概率链结比模糊匹配或基于术语频率的方法更准确
- 为什么数据科学家应该采用机器学习(ML)管道
- 为什么简单模型往往更好
- 为什么 SOLID 设计很重要:避免代码异味并编写可维护的代码
- 为什么 Taskgroup 和 Timeout 在 Python 3.11 Asyncio 中如此重要
- 为什么似乎存在“免费午餐”
- 为什么企业 AI 中的信任与安全(相对来说)很简单
- 为什么理解数据生成过程比数据本身更重要
- 为什么 WGANs 超越 GANs:从 KL 散度到 Wasserstein 损失
- 为什么你(几乎)不能在家中用 Python 计算圆周率到一亿位
- 为什么你需要知识图谱,以及如何构建它
- 为什么你需要在 Python 中使用装饰器来编写 DRY 代码
- 为什么作为数据科学家你应该考虑使用 Fortran
- 为什么你应该在地理空间开发中使用 DevContainers
- 为什么你的数据管道需要闭环反馈控制
- 为什么你的 RAG 在生产环境中不可靠
- 训练中断会毁掉我的马拉松吗?
- ChatGPT 会取代数据科学工作吗?
- 生成式 AI 是否会取代数据分析师的需求?
- 窗口函数:数据工程师和数据科学家必知的内容
- PostgreSQL 中的窗口函数
- 用简单的,甚至非线性的时间序列模型获胜
- 无需多言:自动化开发环境和构建
- 词嵌入的解释
- 解释 Word2Vec、GloVe 和 FastText
- 使用 Julia 进行 Wordle 单词长度和字母频率分析
- 在邮政编码级别处理地理空间数据
- 使用 Hugging Face 数据集
- 在 Julia 中使用 MS SQL Server
- 从人工智能的视角看世界历史
- 你会成为数据策略师吗?
- 使用部分和 Pydantic 编写 DRY 数据模型
- 使用 Behave 编写可读的机器学习模型测试
- 编写关于自然语言处理的书籍有点像解决一个复杂的数据科学项目
- 为数据管道编写设计文档
- 使用 GPT-4 写歌曲:第一部分,歌词
- 使用 GPT-4 创作歌曲:第二部分,和弦
- 使用 GPT-4 写歌:第三部分,旋律
- XAI 预测:基础扩展
- XGBoost:深度学习如何取代梯度提升和决策树 — 第一部分
- XGBoost:深度学习如何替代梯度提升和决策树 — 第二部分:训练
- XGBoost:简介、逐步实现和性能比较
- XGBoost 现在支持 MAE 作为目标函数
- XGBoost: 权威指南(第一部分)
- XGBoost:权威指南(第二部分)
- XGBoost:理论与超参数调优
- YOLO-NAS:如何在目标检测任务中实现最佳性能
- Raspberry Pi 上的 YOLO 目标检测
- 你不能踏入同一条河流两次
- 你暂时不需要数据领域……
- 你的数据科学可视化将不再相同——Plotly 和 Dash
- 你的数据(终于)在云端了。现在,别再那么依赖本地了
- 你的数据集有缺失值?什么都不做!
- 你的特征重要吗?这并不意味着它们是好的
- 您的第一个推荐系统:从数据准备到机器学习调试与改进评估
- 你进入计算机视觉的第一步
- 你自己的个人 ChatGPT
- 您的个人 LLaMa
- 你的 Strava 年度统计……但用 Python 的方式
- 你的视觉-语言模型可能只是一个词袋
- 你在数据项目中遇到了瓶颈,现在该怎么办?
- Zephyr 7B Beta:一个好的老师就是你所需要的一切
- Zero-ETL、ChatGPT 与数据工程的未来
- 零-shot 与相似度基于的文本分类
- 零和游戏和混合策略