Skip to content

Latest commit

 

History

History
49 lines (25 loc) · 6.72 KB

audio-data-takes-center-stage-21b32366abcd.md

File metadata and controls

49 lines (25 loc) · 6.72 KB

音频数据占据中心舞台

原文:towardsdatascience.com/audio-data-takes-center-stage-21b32366abcd?source=collection_archive---------9-----------------------#2023-01-26

TDS EditorsTowards Data Science TDS Editors

·

关注 发表于Towards Data Science ·作为 Newsletter 发送 ·3 分钟阅读·2023 年 1 月 26 日

--

机器学习的一个子领域致力于文本数据(你好,自然语言处理),而视觉数据则推动了计算机视觉和图像生成应用的巨大增长。这两种数据类型都在 AI 工具的崛起中引起了我们的集体想象力,比如 ChatGPT、Midjourney 和 Stable Diffusion。

有时很容易忘记音频数据也是创新繁荣的领域,研究人员和行业参与者都在我们理解、处理和创造声音的方式上取得了重大进展。本周,我们将转向音频和音乐世界,重点介绍我们的作者最近探索的项目和工作流。

  • 打造一个属于自己的音乐播放器亚历山德拉·玛 的首篇 TDS 文章是一项有趣且原创的尝试:她试图打造一个专门(部分)播放 AI 生成的 lo-fi 嘻哈曲目的音乐播放器。在这个过程中,我们了解到很多关于使用 midi 文件进行模型训练的挑战——最后,我们也能享受一些酷炫、柔和的节拍。

  • 下一个作曲伙伴可能是… ChatGPT? 过去几年里,罗伯特·A·冈萨尔维斯一直在尝试人类与 AI 之间的各种创意合作模式。最近,ChatGPT 的出现(你可能已经听说过)开启了一些新的可能性,在他最新的项目中,罗伯特利用这一工具为他提供特定类型的和弦进程和歌曲标题。(是的,你也可以听到这些结果!)

图片由 安娜·扎哈尔诺娃 拍摄,来源于 Unsplash

  • 识别口语的复杂艺术。 “多处理音频可能会使任何机器学习任务变得复杂,” 多里安·赫雷曼斯 说——但考虑到语音识别技术的迅速发展,这项努力非常值得。多里安的逐步教程邀请读者卷起袖子:跟随教程在 PyTorch 中构建一个神经网络,直接输入音频文件,然后将其转换为可以精细调整的声谱图。

  • 音频数据不够?增加已有数据。 从昂贵的计算资源到版权限制,马克斯·希尔斯多夫 认识到启动音频数据项目的困难。他接着介绍了数据增强的方法,帮助我们最大限度地利用现有音频,并解释了为什么你应该将 Spotify 的 Pedalboard 库加入你的工具包。

别急着走——我们还有几篇精彩的推荐阅读。这些内容特别适合搭配一些 AI 生成的 lo-fi 嘻哈音乐(或者波尔卡!每个人有不同的喜好)。

  • 正如Richmond Alake在他最新的文章中坚持的那样,数据讲故事是一项你可以(而且应该)培养的技能。他介绍的详尽路线图是早期职业从业者的一个很好的起点。

  • 我们很高兴分享的另一个适合初学者的指南是Hennie de Harder的线性编程和单纯形算法入门。

  • Louis Chan 发布了一个一站式资源,供任何人了解 SHAP 及其使用方法来解释你的模型输出。

  • 从干净的代码到稳固的组织,Jo Stichbury 鼓励数据从业者借鉴软件工程原则以确保你的协作项目顺利推进。

  • 如果你还没有尝试过合成数据,并且想要尝试一下,Zolzaya Luvsandorj的简明教程提出了生成模拟表格数据的几种方法。

  • 将他对数据分析和长跑这两个热情结合起来,barrysmyth 带来了关于塑造马拉松备赛模式的引人入胜的深度探讨。

如果你想支持我们发布的工作,最直接有效的方法是成为 Medium 会员。希望你考虑一下。

直到下一个变量,

TDS 编辑部