此页面分享 基于Visual Studio Tools for AI的高级机器学习课程-复旦赵卫东 课程的案例
案例代码与指导书请进入相应链接查看
音频在世界上无处不在,人类常常对入耳的声音习以为常并能快速判定声音的来源并做出合适的反应。但相比人类,计算机在很长的时间里更难认识和理解音频。早期通常使用概率模型例如高斯混合模型和隐马尔科夫模型对语音进行识别,但是限于概率模型的能力,音频并不能较好地得到表示。近年来随着深度学习的发展,其对复杂的非结构化数据拥有非常好的表示能力,因此音频处理领域迎来的新的突破。
本实验的背景是城市声音的分类,这是智慧城市非常重要的话题,如果能对城市中随机出现的声音进行正确的分类,那么可以及时对一些突发情况做出预警或采取措施,例如在检测到警笛声后可以自动调整红绿灯为应急车辆提供道路方便、在检测到持续犬吠声后可以及时出动城管予以处理、在检测到工业噪声后可为行政处罚提供证据等等,因此城市声音分类有着非常重要的研究和实用价值。
本实验对城市声音数据进行了分析,选择了过零率、光谱质心、色度、调性网络和梅尔频率倒谱系数等多种特征进行特征工程,在 TensorFlow
框架下构建了包括多层感知机、LSTM
、GRU
和 CNN
等多种模型,通过大量的实验得到了在测试集上分类准确率接近 0.9
的模型,有较好的实用价值。VS Tools for AI
提供的高效开发、测试、部署功能,加快了实验的开发速度,为数据分析案例的开发提供了新的选择。
在计算机视觉领域,图像超分辨率重建技术是一个经典但重要的话题。图像的分辨率高意味着图像有着更高的清晰度,视觉上会捕获更多的细节信息。低分辨率的图像更为粗糙,一定程度上影响了信息的传递。但是由于技术或环境的影响低分辨率图像无可避免。图像超分辨率技术就是在这样低分辨率图像的基础上,重建出高分辨的图像。图像超分辨率有非常多的应用场景,例如在医学影像、卫星遥感、视频影像、军事、监控等等领域。
图像超分辨率技术已经有了几十年的发展,经典的方法是基于插值的方法,常见的如最近邻插值、双线性插值、双平方插值、双立方插值等等。基于插值的方法原理简单计算速度快,但是效果较差,锯齿效果较明显,无法满足实际应用的高要求。另一类方法是基于重建的方法,包括了凸集投影法、最大后验概率估计法等,这类方法虽然一定程度上提升了重建后的图像质量,但是算法的参数很难估计,计算量也较大。深度学习的崛起为图像超分辨率提供了新的思路,该方法试图学习低分辨率图像与高分辨率图像之间的映射关系,以CNN作为主要的建模方式。最近几年使用深度学习进行图像超分辨率重建成为计算机视觉领域的热门话题,大量的网络被提出,超分辨率技术也有了质的飞跃。
本实验使用 CelebA
数据集作为实验数据,在一系列数据预处理的基础上,通过构建以 GAN
为基础的 CNN
、GAN
和 ResNet
的混合模型作为超分辨率模型实现,在迭代训练60次后有非常明显的效果。VS Tools for AI
为实验提供了高效的开发环境,另外结合 Visual Studio
强大的功能,可在实验后无需切换IDE直接开发AI应用。