Une application de reconnaissance musicale pour les morceaux live
Vous avez entendu une superbe interprétation live d’un morceau inconnu ? Grâce aux travaux d’Yves Grenier, chercheur à Télécom ParisTech, et de son équipe, vous pourrez bientôt retrouver son titre et son auteur à partir d’une simple capture audio. Ils ont développé une méthode de reconnaissance musicale basée sur les concepts de rythme et d’harmonie, qui sera présentée le 17 septembre prochain à Télécom ParisTech, à l’occasion de la Bourse aux technologies « Publishing et Multimédia » de l’Institut Mines-Télécom.
Plusieurs applications, comme Shazam sur les smartphones, permettent de retrouver automatiquement les métadonnées d’un extrait audio (titre, auteur, album, etc.). A chaque morceau correspond une signature (ou empreinte) qui permet de l’identifier parmi une base de données musicale. La signature est calculée à partir du spectrogramme du signal, qui associe à chaque instant une énergie à la fréquence du signal. En découpant le spectogramme, on peut identifier des points significatifs et la manière dont ils s’organisent entre eux, qui vont composer la signature audio du morceau.
Cependant, la méthode Shazam présente une importante limitation : il faut que le morceau à identifier soit identique à celui stocké dans la base de données (identification exacte). Impossible de reconnaitre un morceau enregistré en live ou réinterprété. Des chercheurs de Télécom ParisTech ont donc conçu et breveté une signature qui repose sur des concepts plus musicaux, comme le rythme et l’harmonie, et non plus simplement sur la fréquence du signal.
Identifier des instants musicalement significatifs
« La manière que nous avons de condenser l’information est inspirée de la musique : on va chercher le tempo et les couleurs musicales (les chromas), caractéristiques du morceau, » explique Yves Grenier, chercheur spécialisé en traitement du signal audio. Avec Gaël Richard et Sébastien Fenet, ils ont mis au point une méthode pour extraire des instants musicalement significatifs dans la musique.
Les chercheurs utilisent notamment la représentation du signal en chromagramme, qui permet d’estimer la séquence d’accords correspondant le mieux à un extrait musical à partir d’un dictionnaire contenant les accords de référence. Le défi consiste aussi à tenir compte des différences d’exécution : des changements ou des ajouts d’accords, un tempo accéléré ou ralenti, etc. Parce que le sens musical est exprimé, cette signature permet d’identifier automatiquement deux morceaux similaires, même si l’un d’eux est réinterprété (identification approchée).
Un prototype d’application en développement
Cette méthode de génération de signature audio a été développée dans le cadre de la thèse de Sebastien Fenet, financée par Quaero (« je cherche » en latin), un programme collaboratif d’innovation et de recherche industrielle sur l’analyse automatique et l’enrichissement de contenus numériques, multimédias et multilingues.
Suite à dépôt d’un brevet, un prototype d’application est en cours de développement. L’enjeu est d’améliorer la précision de l’identification tout en utilisant une signature suffisamment compacte, pour travailler à l’échelle de très grosses bases de données : « Il faut trouver des méthodes capables de fonctionner avec des millions de morceaux, mais aussi d’utilisateurs, ajoute Yves Grenier. On vise des temps de réponse de moins de 100 millisecondes. »
Pour en savoir plus sur la Bourse aux technologies du 17 septembre et s’inscrire
[box type= »shadow » align= » » class= » » width= » »]Identification exacte : l’algorithme doit associer deux signaux qui correspondent au même enregistrement avec différents post-traitements.
Identification approchée : l’algorithme doit associer deux signaux qui correspondent au même titre, exécutés dans des conditions différentes (arrangement différent, musiciens différents, conditions d’enregistrement différentes, …).
Source : Fenet Sébastien, Empreintes audio et stratégies d’indexation associées pour l’identification audio à grande échelle, thèse de doctorat, Télécom ParisTech, septembre 2013.
[/box]
[box type= »shadow » align= » » class= » » width= » »]Le concept des Bourses aux technologies
Les Bourses aux technologies de l’Institut Mines-Télécom sont des journées de rencontres et d’échanges entre chercheurs et PME. L’objectif du dispositif est de permettre aux PME d’accéder plus facilement aux résultats de la recherche académique et de développer ainsi les innovations de demain. Son originalité est d’apporter les technologies issues de toutes les écoles de l’Institut et de ses partenaires, dans une région donnée et sur un domaine. Ces rendez-vous s’inscrivent désormais dans le cadre du programme de promotion de l’offre des technologies des organismes publics de la recherche mis en œuvre par le Consortium de Valorisation Thématique CVSTENE (Investissements d’Avenir) dédié aux sciences et technologies du numérique.
[/box]
Trackbacks (rétroliens) & Pingbacks
[…] Une application de reconnaissance musicale pour les morceaux live […]
[…] efficace, ce système se limite cependant à reconnaitre un enregistrement totalement identique. Nous cherchons à aller plus loin, en reconnaissant des versions légèrement différentes d’un morceau, comme des live, ou des […]
[…] À lire sur le blog : Une application de reconnaissance musicale pour les morceaux live […]
[…] Lire l’article complet […]
[…] Identification de flux audio avec extraction d’empreintes incorporant des informations de rythme et d’harmonie qui permettent d’identifier un […]
Laisser un commentaire
Rejoindre la discussion?N’hésitez pas à contribuer !