Classification and regression trees (CART) are convenient for low complexity speaker recognition on embedded devices. However, former attempts at using trees performed quite poorly compared to state of the art results with Gaussian Mixture Models (GMM). In this article, we introduce some solutions to improve the efficiency of the tree-based approach. First, we propose to use at the tree construction level different types of information from the GMM used in state of the art techniques. Then, we model the score function within each leaf of the tree by a linear score function. Considering a baseline state of the art system with an equal error rate (EER) of 8.6\% on the NIST 2003 evaluation, a previous CART method provides typical EER ranging between 16\% and 18\% while the proposed improvements decrease the EER to 11.5\%, with a computational cost suitable for embedded devices.
@inproceedings{gileurospeech05,
author = "Gilles Gonon and R\'emi Gribonval and Fr\'ed\'eric Bimbot",
title = "Decision Trees with Improved Efficiency for Fast Speaker Verification.",
booktitle = "$9^{th}$ European conference on speech communication and technology, EUROSPEECH 05",
page = {2661-2664},
volume = 4,
year = 2005,
month = septembre
}
Les représentations adaptées contribuent à l'étude et au traitement
des informations portées par les signaux en permettant une analyse
pertinente différente pour chaque signal. Les solutions existantes
proposent des critères d'adaptation dans les domaines temporel et
fréquentiel mais souffrent d'un manque de souplesse des critères pour
une représentation adaptée dans le plan temps-fréquence.
Ce travail de thèse porte sur l'élaboration d'une représentation
utilisant successivement des segmentations temporelle et
fréquentielle adaptées au signal plus souple que les solutions
existantes. Le schéma proposé est appliqué dans un codeur perceptuel
par transformée de type haute fidélité.
Le schéma de représentation développé segmente tout d'abord le signal
temporellement à l'aide d'un critère entropique local. Pour cela, un
estimateur d'entropie locale est étudié analytiquement et le critère
fournit un indice des variations d'entropie du signal propice à une
segmentation automatique séparant les zones transitoires et les zones
stationnaires. Les tranches temporelles ainsi délimitées sont alors
décomposées en paquets d'ondelettes et une recherche de la meilleure
base permet l'adaptation en fréquence de la représentation.
À ce titre, une extension de la recherche de meilleure base est
proposée pour augmenter le dictionnaire des bases disponibles par
rapport au cas dyadique. À l'issue de cette analyse le signal est
localisé dans des atomes du plan temps-fréquence.
Dans la partie application, un schéma de codage orginal permettant
l'inclusion de notre représentation est présenté. Le détail de
l'implémentation du codeur est fourni jusqu'à la composition de la
trame binaire. Ce codeur est ensuite évalué par des tests subjectifs
comparant les signaux compressés aux originaux et aux signaux du
standard MPEG-1 Layer 3 pour un débit de 96 kbit/s.
Les résultats montrent que l'utilisation du schéma de représentation
adapté dans un codeur est compétitif avec les solutions des codeurs
standards bien que de nombreuses améliorations soient encore possibles.
@phdthesis{gilthese2002,
author = "Gilles Gonon",
title = "Proposition d'un schéma adaptatif dans le plan temps-fréquence
basé sur des critères entropiques. Application au codage audio.",
year = 2002,
month = june
}
Un schéma de représentation adaptatif en temps et en fréquence pour le codage audio.
Cet article présente un schéma de codage adaptatif en temps et en fréquence. La segmentation temporelle est effectuée à l'aide du critère entropique local et la segmentation fréquentielle est basée sur une extension de l'algorithme de recherche de la meilleure base à partir de la décomposition en paquets d'ondelettes. L'allocation utilise des critères énergétiques et psychoacoustiques pour pallier aux problèmes de sélectivité fréquentielle des paquets d'ondelettes. Les premiers résultats subjectifs informels sont satisfaisants pour des rapports de compression de l'ordre de 10 à 15.
@inproceedings{gilcoresa01,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = "Un schéma de représentation adaptatif en temps et en
fréquence pour le codage audio. ",
booktitle = "Actes des $7^e$ Journ\'ees d'\'etude et d'\'echange
CORESA 2001, Dijon, France",
page = {59-62}
year = 2001,
month = novembre
}
In the search for adaptive representation of speech signals, the Wavelet Packet Decomposition (WPD) has been proved to be a efficient tool because of its frequency adaptation skills through the best basis search algorithm. The entropic minimization of this algorithm is bounded by two artifacts : the dyadic structure of the decomposition and the lack of temporal segmentation. We propose here a low cost extended tree in the WPD which improves the best basis search by reducing the entropy of the base and which is still compatible with the classical WPD. The decomposition also allows perfect reconstruction. The entropic test is updated to take into account the new basis. The preliminary use of a temporal segmentation, based on the Local Entropic Criterion highly improves the entropic gain of the global analysis. The results are shown on experimental speech signals comparing the gain of our scheme versus a usual WPD.
@inproceedings{gileurospeech01,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = "Improved entropic gain and adaptive time-frequency segmentation. Application to audio coding.",
booktitle = "$7^{th}$ European conference on speech communication and technology, EUROSPEECH 01",
page = {2661-2664},
volume = 4,
year = 2001,
month = septembre
}
The Wavelet Packet Decomposition (WPD) is a efficient tool in audio
coding because of its frequency adaptation skills through the best basis
search algorithm. The entropic minimization of this algorithm is bounded
by the dyadic structure of the decomposition. In order to decrease the
entropy of the best basis, a low cost extended tree in the WPD is used.
It is still compatible with the classical WPD and insures perfect reconstruction.
The entropic test is updated to take into account the new basis. We present
an example of the resulting best basis on a simulation signal and evaluate
the average entropic gain obtained on various audio signals.
Une version détaillée est aussi disponible (anglais ou
français). Contacter : Gilles.Gonon@univ-lemans.fr
@inproceedings{gilica01,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = " Extended Best Basis Familly Tree and Entropy Diminution,
Application to Audio Coding ",
booktitle = "International Congress of Acoustics, ICA 01, Rome",
year = 2001,
month = may
}
Ce travail présente une nouvelle approche pour la segmentation des signaux audios. Le détecteur utilisé est non paramétrique et basé sur le Critère Entropique Local appliqué aux sous-bandes issues d'une analyse multirésolution, la transformée en ondelettes discrète (TOD). L'utilisation de la TOD permet d'augmenter la diversité des ruptures détectées et le taux de bonnes détections. Un post-traitement permettant de réduire le nombre de fausses alarmes est aussi présenté. Les résultats sont appliqués à un signal de simulation multicomposante bruité.
@inproceedings{gilgretsi01,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = "Segmentation multibande adaptée basée sur le
Critère Entropique Local pour le codage audio",
booktitle = "18$^{ème}$ colloque GRETSI",
year = 2001,
month = sep
}
Dans le cadre du traitement des signaux audio (restauration, codage), il est intéressant de travailler sur des sous-bandes fréquentielles du signal. Dans des travaux précédents ont été proposées des extensions des bases dyadiques utilisées avec l'algorithme de choix de la meilleure base. Cet article présente une méthode simple pour construire le banc de filtres correspondant à ces nouvelles bases. Ces filtres réalisés à partir des filtres QMF permettent de générer le père de deux sous-bandes adjacentes mais provenant de pères différents dans la structure dyadique.
@inproceedings{gilcfa00,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = "Construction d'un banc de filtres pseudo-QMF pour la recherche
de meilleure base",
booktitle = "V$^{ème}$ Congrès de la Société
Francaise d'Acoustique - CFA 2000",
year = 2000,
month = sep,
optnote =""
}
In the audio signal processing area (coding or restauration), subband analysis shows to be an efficient tool. Extensions of the dyadic basis usually used in Best Basis search have been proposed in former work. This article review these extensions and presents an easy way to construct the filter bank associated with such basis. The filters, designed from any usual Quadrature Mirror Filters and preserving their reconstruction properties, allow to generate the father of two adjacent subbands not coming from the same father in the dyadic decomposition and thus to perform the entropic test between these subbands, which is not otherwise possible. We then apply this new Best Basis on a speech signal wavelet packet decomposition.
@inproceedings{giljep00,
author = "Gilles Gonon and Silvio Montrésor and Marc Baudry",
title = "Extension de la recherche de meilleure base pour la décomposition
en paquets d'ondelettes. Application à l'analyse en sous-bandes
de la parole",
booktitle = "XXIII$^{èmes}$ Journées d'Études
sur la Parole - JEP 2000 ",
year = 2000,
month = jun
}
In this paper we present a method to separate the compressional waves which propagate in a porous medium when it is subject to a mechanical excitation. We start this work by reviewing the Biot's theory which describes the propagation of ultrasonic pulses in a porous elastic medium. This modelling shows that three kinds of waves propagate in such media: two compressional waves and one shear wave, each one with its own velocity. Because of the dispersive nature of porous media, the identification of the compressional waves is often difficult by a traditionnal filtering while this identification is a compelling need to extract the part of the informations about the elastic parameters, the porosity and the permeability of the medium contained in each of them. For that we propose a filtering method using the fractional Fourier transform as foundation. The interpretation of this transformation as a rotation in the time-frequency plane and its relationships with time-frequency representations allow the filtering of signal in a single fractional Fourier domain.
@inproceedings{giliasted00,
author = "Gilles Gonon and Zine El abidine Fellah and Claude Depollier",
title = "Filtering in Fractional Fourier Domains: Application to the
Biot's Waves ",
booktitle = "Congrès IASTED SPC 2000 ",
year = 2000,
month = sep
}
La Transformée de Fourier Fractionnaire (notée {\bf FRT}), introduite par Namias en 1980, permet une analyse des signaux dans des domaines intermédiaires entre les domaines temporel et fréquentiel. Suivant un angle donné du plan temps fréquence, elle décompose le signal sur une base orthogonale de sinus glissants. Elle est donc adaptée à l'analyse de signaux multicomposantes formés de sinus glissants et permet une estimation robuste au bruit de la pente et de l'offset qui sont les deux paramètres essentiels des sinus glissants.
@inproceedings{gilgretsi99,
author = "Gilles Gonon and Claude Depollier",
title = "Estimation des paramètres d'un sinus glissant par Transformée
de Fourier Fractionnaire",
booktitle = "17$^{ème}$ colloque du GRETSI",
year = 1999,
month = sep
}
Ce rapport présente la transformée de Fourier fractionnaire et quelques applications en traitement du signal, comme le filtrage dans le plan temps fréquence ou la détection de chirp linéaire.
non disponible
Ce rapport biliographique détaillant les différentes étapes de la compression audio,à savoir l'analyse du signal, les phénomènes psychoacoustiques, l'allocation binaire et le codage entropique a été réalisé dans le but de présenter les différentes types de codeurs existants.
non disponible
Mise en place de la méthode paramétrique basée sur l'algorithme de Matrix Pencil pour estimer l'inharmonicité des partiels de guitare due aux faibles vibrations de la table d'harmonie.
non disponible
non disponible
non disponible