关闭

女兔帮

音乐人工智能、计算机听觉与音乐技术

更新时间:2025-02-09 08:05:26 浏览:

平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。

音乐人工智能、计算机听觉与音乐技术

点击订阅“CAAI认知系统与信息处理专业委员会”

本文主要围绕音乐技术、音乐人工智能和计算机听觉这一文理融合的新兴交叉学科,介绍其学科范围、发展历史、研究领域和产业应用。阐明音乐技术、声音和音乐计算、音乐人工智能、音乐信息检索 (MIR)、计算机听觉和音乐声学等各个学科术语之间的关系。最后总结了学科发展面临的困难并展望了学科未来的发展趋势。

1. 语音信息处理与声音音乐计算

声音是人类重要的信息来源,可分为三类:语音()、音乐(Music)和一般音频/环境声音(Audio/Sound)。人类语言具有特定的词汇和语法结构,用于在人类之间传达信息。语音是语言的声音载体,语音信号是复合声音,其基本元素是音高、强度、长度、音色等。音乐是人类创造的复杂的艺术形式。它由各种声音组成,包括歌唱、各种管弦乐器和弹拨乐器的合成声音、少量环境声音的合成声音以及一些打击乐器的噪音。其基本要素包括节奏()、旋律()、和声()、强度()、速度(Tempo)、调性()、形式(Form)、织体()、音色()等。此外还有语音和音乐除了人类创造的声音之外,自然界和日常生活中还存在数量巨大、种类繁多的其他声音,统称为一般音频或环境声音。例如自然界的风声、雷声、海浪声,机械设备的噪音,动物的声音,人体的心跳、咳嗽、脉搏,军队的枪声、炮火声、爆炸声等。是无数的。

根据上述三类声音,听觉信息处理大致可以分为两部分,如图1所示。专门处理语音的学科是语音信息处理,它的基础是语言声学。它有着悠久的历史和相对成熟的发展,已成为一门独立的学科。包括计算语言学、、说话人/声纹识别、语言识别、语音增强/去噪/分离、语音合成、语音编码、语音情感计算、自然语言处理和口语对话等经典研究领域。面向音乐和通用音频信息处理的学科称为声音和音乐计算(SMC)[1]。这个领域跨越文理,在国外已有50多年的历史,但在中国只有20多年的历史。所包含的研究领域随着时代的变迁而不断拓展,又因为涉及艺术创作,所以还有些不为人知。

图 1. 各种听觉学科之间关系的简化图

2. 音乐技术概述

2.1 音乐技术

音乐与科技的融合由来已久。早在20世纪50年代,来自不同国家的作曲家、工程师和科学家就开始探索利用新的数字技术来处理音乐,并逐渐形成了音乐技术/计算机音乐(Music/Music)的跨学科学科。 20世纪70年代以后,欧美各国相继成立了各种大型计算机音乐研究机构,如1975年成立的美国斯坦福大学的CCRMA(for in Music and)、1975年成立的IRCAM(for and /Music)等。 1977年法国巴黎成立,1994年法国巴黎成立IRCAM(for and/Music)。UPF(法布拉)大学MTG(音乐组)西班牙巴塞罗那成立于2001年,英国伦敦女王大学C4DM(音乐)成立于2001年。在过去的几十年里,音乐技术在世界各地逐渐发展起来,例如美国的大学。美国、New、Tech等、加拿大麦吉尔大学(音乐媒体专业)、德国、日本、新加坡、台湾等。欧洲因其浓厚的文化艺术氛围以及欧盟和各国政府的大力支持而成为这一领域的世界中心。

中国大陆音乐技术发展较晚。一些人在 20 世纪 80 年代开始零星研究。 20世纪90年代,一些音乐学院开始开设音乐技术或音乐工程专业。 2000年前后,开始出现一批综合性、大学的学生。计算机和其他信息学科的科学研究人员。在中国文科和理科的教育体系下,这两类人之间存在着巨大的学科差距。艺术领域相关人员只能利用国外各种音乐技术软硬件产品进行音乐创作、表演、教育、理论研究。他们对其内在的科学技术原理知之甚少,更没有能力进行技术创新和产品研发。理工科领域的相关人员普遍具备初步的音乐知识,但专业素养存在较大差距。研究重点面向消费者的音乐技术,很难开发出专业应用的音乐技术产品。

2013年12月,首届中国声音与音乐计算研讨会CSMCW(China Sound and Music)在复旦大学成立,为国内同仁搭建产学研交流平台。 2016年会议更名为中国声音与音乐技术大会CSMT(on Sound and Music)。该会议迄今已举办七届(复旦大学、清华大学、上海音乐学院、南京邮电大学、苏州大学及加州大学洛杉矶分校苏州研究院、厦门理工学院、哈尔滨工业大学),已逐步成为国内全产业链的交流平台。 ,为加强科技与艺术的融合、消除学科鸿沟做出了重要贡献。随着中国社会的整体发展和人工智能(AI)技术的持续普及,音乐科技在2017年前后开始在国内呈现加速发展的趋势。2017年国内外音乐科技领域的三场重要会议、ISMIR(音乐)、CSMT、ICMC(音乐)连续在上海和苏州举办。 2018年,首届CSMT音乐人工智能(Music AI)研讨会在中国音乐学院举办;深圳平安科技有限公司与中央民族大学成立人工智能作文联合实验室;腾讯音乐娱乐集团(TME)赴美上市;大型中文综述《理解数字音乐——音乐信息检索技术综述》(CSMT 2017会议论文集,43页,335篇文献)[3]正式出版。

2019年,中央音乐学院成立音乐人工智能与音乐信息技术系,开始招收博士、硕士研究生,实行音乐与技术双导师培养制度; AI科学前沿大会、北京国际电子音乐节等重要会议开启音乐人工智能专题智能报告;上海音乐学院开设音乐人工智能课程;本文作者在百度百科中定义了五个主题条目:音乐技术、音乐人工智能、音乐信息检索MIR、计算机听觉、中国声音音乐技术大会;大型中文综述《理解数字声音——基于普通音频计算机听力综述》(CSMT 2018会议论文集,45页,399份文件)[4]正式出版;第七届CSMT会议参会人数超过200人2020年,四川音乐学院以音乐方式成立实验艺术学院。本文作者与55位作者合编的中文教材《音频音乐与计算机的融合——音频音乐技术》[5]由复旦大学出版社正式出版,全书468页, 89.5万字。内地音乐技术虽然取得了长足的进步,但由于受到教育制度、技术评价、社会观念等方面的制约,仍处于起步阶段。

音乐技术是音乐与科学技术的交叉学科,包括许多研究和应用领域。音乐方面,包括计算音乐学()、电子音乐创作与制作(音乐与)、计算机辅助音乐教育(-辅助音乐)、计算机辅助音乐表演(-)、录音混音(与)、音效与声音设计(声音与声音)等。该领域的研究课题比较分散,没有形成理论体系。它们依赖于音乐中的具体应用,有的还涉及艺术创作。从技术上来说,音乐技术指的是上面提到的声音和音乐计算,下面详细解释一下,如图2右半部分所示。

图2. 音乐技术各个领域之间的关系图

2.2 声音和音乐计算

声音和音乐计算是一个广阔的研究领域,可以分为多个学科。其主要内容和分类已在1995年的文件中进行了描述[1]。本文所描述的内容是作者根据近年来的最新进展和自己的理解进行补充和完善的。

(1)音乐生成(Music):包括歌唱合成( )、自动作曲( )、自动编曲( )等主要方向,需要较多的音乐知识,技术实现也相对复杂。由于近年来机器学习/深度学习技术的广泛应用,也可通称为人工智能音乐(AI Music)。歌唱合成以语音合成为基础,但需要考虑音乐旋律、节奏、强度、音色、结构、情感、艺术技巧等各种音乐元素。自动作文早期被称为算法作文,但近年来已演变为基于深度学习的人工智能作文。自动编曲根据已知的主旋律编排和弦及各声部,使之成为一首完整的作品。上述研究课题目前只能模仿音乐专业人士,尚不具备人类源自灵感的创作能力。而且主观性强,评价标准难以统一。

(2)声音和音乐的内容理解和分析:利用计算方法来理解和分析数字声音和音乐的内容,如乐谱(Music)、旋律提取( )、节奏分析( )、和弦识别(Chord) )、音频检索(Audio)、流派识别(Genre)、音乐情感计算(Music)、歌手识别()、歌唱评价()、歌声分离(Vocal)等。这个分支发展于后期20 世纪 90 年代,互联网上的数字音频和音乐迅速增加。研究难度很大,很多研究内容至今仍在进行中。对应于计算机视觉CV(·),该分支也可称为计算机听觉CA(·)或机器听觉(·)[2]。请注意,计算机听力用于理解和分析而不是处理音频和音乐。它不包括狭义的言语,还包括广义的言语。如果CA排除一般声音而仅限于音乐,则可以称为音乐信息检索(MIR)。

(3)声音和音乐信号处理:用于声音和音乐的信号分析、变换和合成,包括频谱分析( )、调幅( )、调频( )、低通/高通/带通/带阻滤波(低通/高通/带通/带阻)、转码()、无损/有损压缩(/Lossy)、重采样()、回声(Echo)、混音()、去噪()、变调PS(Pitch)、时间拉伸TSM(Time-scale/Time)保持音调不变、时间缩放()等。这个分支比较成熟,有Gold Wave、Adobe/Cool Edit、Sonar/等多种商业软件。

(4)与音频音乐相关的其他技术领域:如声音和音乐感知与认知(Sound and Music):研究音乐的大脑机制、对心理和情绪的影响等。一般音频/环境声音合成(Sound and Music) )。声音和音乐的计算机接口:包括乐谱打印()、光学乐谱识别(Music)、音频和多声道音响系统(Sound and Multi-)、声音设备和多媒体技术(Sound and)等。 音频信息安全:包括音频信息隐藏(Audio)、鲁棒音频水印(Audio)、音频认证(Audio)、音频取证(Audio)、声纹识别(n)、声音伪造(Sound Forge)、音乐抄袭(Music)、AI音乐辨别(AI Music)等。 音乐治疗(Music):音乐与医学、心理学、计算机相结合的典型例子。音乐机器人:包括东西方各种风格的表演机器人、指挥机器人等。听觉与视觉/文本相结合的跨媒体应用(Cross-media/Text)等

音乐技术有许多应用,如电声乐器、数字声源、音频工作站、计算机辅助音乐教育、计算音乐学、音乐表演的定量分析、电子音乐创作和制作、音乐信息检索(MIR)、数字音乐库、交互式多媒体、音频接口、辅助医疗、音乐机器人、音频数字水印等。

另一个历史较长、与音乐相关但与SMC不同的学科是音乐声学(Music)。音乐声学是研究音乐声音振动中存在的物理问题的科学。它是音乐学和物理学的跨学科学科。音乐声学主要研究音乐与噪声的区别、音调和音色的物理本质、基于电磁振荡的电声学、听觉器官的声波接收机制、乐器声学、人类发声机制、音韵学以及与音乐相关的室内声学。等待。从学科角度来看,音乐声学的一些知识也是SMC的基础,但SMC研究更多依赖于音频信号处理和人工智能两个学科——机器学习/深度学习。同时,研究内容面向音频和音乐的信号处理、内容分析和理解,这也与音乐声学更侧重于解决与振动相关的物理问题有很大不同。

2.3 音乐人工智能

近年来,随着人工智能概念的深入人心并成为国家战略,音乐AI一词在音乐领域应运而生。音乐人工智能是一个流行且略显模糊的概念。主要是指以数字音乐为研究对象、以人工智能为主要技术手段的计算机软硬件系统的研究与开发。可以看作是人工智能在音乐领域的垂直应用。音乐人工智能是音乐技术的一部分,包括音乐生成、音乐信息检索MIR(包括数十种应用)以及所有其他涉及AI的音乐相关技术,如图2虚线框所示。

2.4 音乐信息检索MIR

音乐信息检索(MIR)是一门跨学科学科,它使用计算方法来理解和分析数字音乐的内容。它是音乐人工智能最大的研究领域。

早期的 MIR 技术专注于符号音乐(Music),例如 MIDI ( )。由于它具有准确的音高、时间等信息,很快就发展成为比较成熟的一种。随后的研究很快转向以音频信号为研究对象,研究难度急剧增加。随着该领域研究的不断深入,MIR技术现在不仅仅指早期狭义的音乐搜索,从更广泛的角度来看,还包括音乐信息处理的所有子领域。根据我们自己的理解,我们将MIR领域的数十个研究主题归纳为核心层和应用层共9个部分(图3)。核心层包括与主要音乐元素(如音高和旋律、音乐节奏、音乐和声等)和歌唱信息处理相关的子领域。应用层在核心层的基础上又包含了更加面向应用的子领域(如音乐搜索、音乐情感计算、音乐推荐等)。核心层属于高层音乐信号特征分析或低层音乐语义分析,对应音乐心理学中的感知层面;应用层属于高层音乐语义分析,对应音乐心理学中的认知层面。

图 3. 音乐信息检索 (MIR) 的研究领域

音乐人工智能、计算机听觉与音乐技术(图1)

基于内容的音乐信息检索 MIR 有很多应用。在娱乐相关领域,典型应用包括歌曲识别、哼唱检索、封面检索、流派分类、音乐情感计算、音乐推荐、铃声制作、卡拉OK应用、伴奏生成、自动配乐、音乐内容标注、歌手识别、模仿表演评估、歌唱评估、歌声合成与转换、智能作曲、数字乐器、音频/音乐编辑与制作等。在音乐教育和科学研究领域,典型应用包括计算音乐学、视唱辅助教学以及练耳和乐理、声乐和各种乐器的辅助教学、数字音频/曲库等。在日常生活、心理医疗、知识产权等其他领域,还包括乐器等应用音质评估及辅助购买、音乐理疗及辅助医疗、音乐版权保护、盗版追踪等。此外,在电影和许多视频中,音频和音乐可以用来辅助视觉内容的分析。上述应用可以在计算机、智能手机、音乐机器人等多种平台上实现。

2.5 通用音频电脑听力

计算机听力是一门跨学科学科,它使用计算方法来理解和分析数字声音和音乐的内容。当面向音乐时,称为音乐信息检索(MIR),当面向环境声音时,称为计算机听觉或基于通用音频的AI声学。主要基础科目是各种声学、音频信号处理和人工智能——机器学习/深度学习。

(一)计算机听证总体技术框架

从实际应用的角度来看,一个完整的CA算法体系应该包括以下步骤。

机器学习模型通常使用监督学习(监督学习),需要提前用带标签的已知数据进行训练。基于通用音频/环境声的CA算法设计与语音信息处理和音乐信息检索MIR技术高度相似。不同的是声音的本质不同,每一步都需要设计更有针对性的算法。此外,还需要特定的声场。知识。

(2)音频事件检测和音频场景识别

音频事件()是指具有特定含义的连续声音,可以长也可以短。例如笑声、掌声、枪声、狗叫声、警笛声等。也称为音频镜头。音频事件检测AED,又称为声音事件检测SED(Sound Event)、环境声音识别ESR(Sound),旨在识别音频流中事件的起止时间(Event and)和类型,有时还包括它们的事件类型。重要性()。实际系统的AED需要在各种背景声音的干扰下找到连续音频流中声音事件的边界,然后对它们进行分类,这比简单的分类问题更困难。

音频场景 ( ) 是保持语义相关或一致 ( ) 的声音片段,通常由多个音频事件组成。例如,包含枪声、大炮、喊叫、爆炸等声音事件的音频很可能对应于战争场景。对于实际应用中的连续音频流,音频场景识别ASR(Audio Scene)首先对时间线进行语义分割,得到音频场景的起止时间,即边界(Cut),然后进行音频场景分类ASC (音频场景)。 ASR是提取音频结构和内容语义的重要手段,是基于内容的音视频检索和分析的基础。目前场景检测(Scene)的研究主要基于图像和视频。音频还具有丰富的场景信息。基于音频,可以独立进行场景分析,也可以辅助视频场景分析,获得更准确的场景检测和分割。音频场景的类别没有固定的定义,取决于具体的应用场景。例如,在电影等视频中,可以大致分为几类:语音、音乐、歌曲、环境声音、音乐伴奏的语音等。环境声音还可以分为更细粒度的区域。基于音频分析的方法易于用户接受并且需要较少的计算。

(3)基于通用音频/环境声的计算机听觉应用

基于通用音频的计算机听力直接面向国民经济各个领域,应用领域广泛。例如:在医疗保健领域,涉及呼吸系统疾病(咳嗽、打鼾、言语、喘息、呼吸等)、心脏系统疾病以及其他相关医疗(语音疾病、胎音及胎动、药物吞咽、血流、肌肉声音)。在安防领域,涉及到公共场所的监控和私人场所的监控。在交通仓储领域,涉及铁路运输行业、道路运输行业(车辆车型及车距识别、交通事故识别、交通流量检测、道路质量检测)、水运行业、航空运输行业(飞机识别) 、航空飞行数据分析)、管道运输行业、仓储行业。在制造领域,涉及铁路、造船、航空航天等交通运输设备制造、通用设备制造(发动机、金属加工机械制造、轴承齿轮及传动部件制造、包装专用设备制造)、电力机械及器材制造、纺织工业、黑色及有色金属冶炼及压延加工业、非金属矿产品工业、汽车制造业、农副食品加工业、机器人制造。农林牧渔业领域,涉及农林牧业。水利、环境和公共设施管理行业中,涉及水利管理行业、生态保护和环境治理行业。在建筑业中,涉及土木工程建筑业和房屋建筑业。其他领域涉及采矿业、日常生活、身份识别、军事目标识别等。

三、总结与展望

音乐技术、音乐人工智能和计算机听觉以数字音乐和声音为研究对象。它是一门重要的交叉学科,融合了声学、心理学、信号处理、人工智能、多媒体、音乐学和各个行业领域的知识。具有重要的学术意义。研究和产业开发价值。还有大量的子领域几乎是空白或没有得到充分研究。

与自然语言处理、计算机视觉、语音信息处理等相关领域相比,上述学科国内外发展相对缓慢。可能的几个原因包括:(1)数字音乐涉及版权问题,不能公开。各种音频数据来源于特定的场合和对象,难以全面收集和标记。数据获取和公开困难严重影响了基于机器学习/深度学习框架的算法的研究和比较。 (2)音乐和音频信号几乎都是多种声音的混合体,很少单独存在。音乐中的各种乐器和声音在音高上形成和声纹理,在时间上形成节奏和音乐结构,并耦合成多层复杂的音频流,很难甚至不可能分离和处理。环境声音具有非平稳、强噪声、弱信号、多声源混合等特点。实际系统必须经过音频分割、声源分离或增强/去噪,然后才能进行后续的内容分析和理解。 (3)这个领域几乎都是跨学科的。进行音乐技术研究需要了解最基本的音乐理论知识,而基于一般音频进行计算机听力研究往往需要各个相关领域的专业知识和经验。 (4)此外,作为一门新兴学科,社会发展水平、科研环境、科技评价、人才储备等各种非技术原因阻碍了计算机听觉技术的发展。

随着中国社会经济的快速发展、音乐教育在年轻一代中的普及以及国家对人工智能等前沿技术的重视,上述领域近年来也出现了良好的发展势头。作为一篇科普文章,本文希望能让全社会更多的人了解它,加快国内音频音乐技术在学术研究和产业应用方面的发展,走出一条中国特色的文理结合之路,达到甚至早日超越水平。世界先进水平。

参考

[1] A.、G. 和 D.,“声音和音乐”。音乐(CMJ),1995,19(2):4-5。

[2] S.,“:安”。 ACM on (ACM MM),2006 年,第 9-9 页。

[3] 李伟,李子金,高永伟,“理解数字音乐——音乐信息检索技术综述”,第五届中国声音与音乐技术学术会议(CSMT 2017)专题报告,复旦大学学报(自然科学版)版),2018,57(3):271-313。

[4] 李伟,李硕,“理解数字声音——基于普通音频的计算机听觉综述”,第六届全国声音与音乐技术学术会议(CSMT 2018),复旦大学学报(自然科学版),2019 ,58(3)):269-313。

[5]主编李伟、李子进、邵熙,《音频音乐与计算机的融合——声音与音乐技术》,2020年1月,复旦大学出版社,89.5万字,468页。

作者单位: 复旦大学计算机科学与技术学院 复旦大学上海市智能信息处理重点实验室

-------------------------------------------------- ----------

关注公众号,了解最前沿的“机器人智能技术”

第五届认知系统与信息处理国际会议(2020)将于2020年12月18-20日在中国珠海横琴岛召开,希望促进认知、心理学、智能、机器人等领域的融合。提交网址:

同时,专委会创办的《与》国际期刊​​正式被EI检索,无需版面费。期刊投稿网址:

欢迎加入中国人工智能学会认知系统与信息处理专业委员会注册:

:7001/cast/reg.jsp?sid=E66

“疫情防控保健康,创新自力更生立使命”。欢迎各位青年学者、研究生积极投稿、交流文章,共同推动国家科技发展。提交邮箱:.

你可能感兴趣的