音频数据占据中心舞台

原文：towardsdatascience.com/audio-data-takes-center-stage-21b32366abcd?source=collection_archive---------9-----------------------#2023-01-26

·

关注发表于Towards Data Science ·作为 Newsletter 发送 ·3 分钟阅读·2023 年 1 月 26 日

--

机器学习的一个子领域致力于文本数据（你好，自然语言处理），而视觉数据则推动了计算机视觉和图像生成应用的巨大增长。这两种数据类型都在 AI 工具的崛起中引起了我们的集体想象力，比如 ChatGPT、Midjourney 和 Stable Diffusion。

有时很容易忘记音频数据也是创新繁荣的领域，研究人员和行业参与者都在我们理解、处理和创造声音的方式上取得了重大进展。本周，我们将转向音频和音乐世界，重点介绍我们的作者最近探索的项目和工作流。

打造一个属于自己的音乐播放器。亚历山德拉·玛的首篇 TDS 文章是一项有趣且原创的尝试：她试图打造一个专门（部分）播放 AI 生成的 lo-fi 嘻哈曲目的音乐播放器。在这个过程中，我们了解到很多关于使用 midi 文件进行模型训练的挑战——最后，我们也能享受一些酷炫、柔和的节拍。
下一个作曲伙伴可能是… ChatGPT？ 过去几年里，罗伯特·A·冈萨尔维斯一直在尝试人类与 AI 之间的各种创意合作模式。最近，ChatGPT 的出现（你可能已经听说过）开启了一些新的可能性，在他最新的项目中，罗伯特利用这一工具为他提供特定类型的和弦进程和歌曲标题。（是的，你也可以听到这些结果！）

识别口语的复杂艺术。 “多处理音频可能会使任何机器学习任务变得复杂，” 多里安·赫雷曼斯说——但考虑到语音识别技术的迅速发展，这项努力非常值得。多里安的逐步教程邀请读者卷起袖子：跟随教程在 PyTorch 中构建一个神经网络，直接输入音频文件，然后将其转换为可以精细调整的声谱图。
音频数据不够？增加已有数据。从昂贵的计算资源到版权限制，马克斯·希尔斯多夫认识到启动音频数据项目的困难。他接着介绍了数据增强的方法，帮助我们最大限度地利用现有音频，并解释了为什么你应该将 Spotify 的 Pedalboard 库加入你的工具包。

别急着走——我们还有几篇精彩的推荐阅读。这些内容特别适合搭配一些 AI 生成的 lo-fi 嘻哈音乐（或者波尔卡！每个人有不同的喜好）。

如果你想支持我们发布的工作，最直接有效的方法是成为 Medium 会员。希望你考虑一下。

直到下一个变量，

TDS 编辑部

Provide feedback