Annonce


Estimation des fluctuations du spectre cosmologique de puissance de la raie de l’hydrogène neutre (21cm) durant l’époque de réionisation.

24 December 2024


Catégorie : Postes Stagiaires ;


Stage M2

Contexte, candidature et profile recherché : Ce stage aura lieu entre le laboratoire SATIE (Systèmes et application des technologies de l’information et de l’énergie), l’IAS (Institut d’astrophysique spatiale) et le L2S (Laboratoire des signaux et systèmes) de l’université Paris Saclay. Il entre dans le cadre du GT ICR SKA (Groupe de Travail sur Imagerie Computationnelle radio astronomique) de l’université Paris Saclay. Vous pouvez candidater en envoyant un CV et vos derniers relevés de note à adelie.gorce@universite-paris-saclay.fr, pascal.larzabal@satie.ens-cachan.fr et mohammed.nabil.el-korso@centralesupelec.fr

Nous recherchons un candidat ayant un solide profil en mathématiques appliquées, traitement du signal/image, statistique/optimisation ou apprentissage machine, et maîtrisant la programmation en MATLAB ou en Python.

Mots clés : Imagerie computationnelle, interférométrie, radio télescopes, maximum de vraisemblance, algorithme EM, interférences aux fréquences radio, données manquantes, séparation de sources.

Encadrants : Adélie Gorce (CR CNRS, IAS), Pascal Larzabal (Pr, SATIE ENS) et Mohammed Nabil El Korso (Pr, L2S)

Contexte cosmologique

L’époque de la réionisation (EoR) joue un rôle crucial dans l’évolution de l’Univers). Avant l’EoR, l’univers était rempli de gaz neutre, principalement de l’hydrogène. Pendant la réionisation, la lumière des premières étoiles et galaxies a ionisé cet hydrogène neutre, rendant la matière dans l’Univers ionisé. Ainsi, comprendre l’EoR nous permet de suivre la formation des premières étoiles, galaxies et quasars, il y a environ 13 milliards d’années.

Pour comprendre cette époque, nous cherchons à observer la raie spectrale (transition de spin) de l’hydrogène neutre (HI), à une longueur d’onde de 21cm, dont l’intensité lumineuse est proportionnelle au niveau d’ionisation de la matière intergalactique et contient donc de nombreuses informations astrophysiques et cosmologiques. Du fait de l’expansion de l’Univers, la longueur d’onde d’émission est étirée (« décalée vers le rouge ») si bien qu’on l’observe actuellement ce signal à 21cm aux très basses fréquences radio (100-200MHz). Le signal à 21cm provenant de l’Epoque de la Réionisation étant très lointain et faible, la stratégie actuelle consiste à en faire une mesure statistique : celle de son spectre de puissance1, tout au long de l’histoire de l’Univers, à l’aide de grands réseaux interférométriques d’antennes radio [1]. Plusieurs télescopes dans le monde entier ont été conçus pour mesurer ce spectre de puissance à 21 cm. On peut par exemple citer le HERA (Hydrogen Epoch of Reionization Array) [2] ou encore le SKA (Square Kilometre Array) [3-4] qui est un projet de radiotélescope géant, de surface collectrice équivalente à un kilomètre carré. Des observations radioastronomiques sont obtenues en exploitant la relation de Van Citter-Zernic qui établit, qu’à une fréquence donnée, une transformation de Fourier relie le signal du ciel et les corrélations (visibilités) mesurées entre les antennes radio. On forme ainsi un cube d’images de l’Univers à différents moments de son évolution en empilant les observations faites à différentes fréquences. C’est en travaillant sur l’axe des fréquences de ce cube qu’on peut remonter aux fluctuations du spectre HI.

Problématique

Malheureusement, le signal HI décalé vers le rouge provenant de l’EoR est caché derrière des émissions radio provenant de différents avant-plans galactiques et extragalactiques qui sont de plusieurs ordres de grandeur de magnitude supérieurs au signal d’intérêt. Les sources d’avantplans incluent des émissions au sein de notre propre Galaxie, comme son rayonnement synchrotron, ainsi que d’autres galaxies situées entre les premières étoiles et la Terre. L’extraction robuste des fluctuations du spectre de puissance HI à 21 cm est un formidable défi scientifique aux formidables retombées sur notre compréhension de l’Univers. Certaines études ont montré que les avant-plans sont lisses d’un point de vue spectral, alors que le signal cosmologique possède une structure spectrale complexe et présente des fluctuations. Plusieurs méthodes sont disponibles dans la littérature pour estimer le spectre de puissance de H I au

milieu de cette myriade lumineuse d’étoiles en avant-scène. La stratégie choisit par HERA consiste à ne mesurer le signal que dans la zone de l’espace de Fourier dans laquelle la contribution des avant-plans est sous-dominante [5,6].

Un autre problème principal dans l’observation de la réionisation via le spectre de puissance du signal à 21cm est le traitement des signaux interférents (RFI), émissions parasites provenant des activités humaines. Les visibilités corrompues par des RFI sont traditionnellement repérées et flaggées pour être excisées, ce qui compromet fortement les mesures cosmologiques. En effet, la suppression des canaux fréquentiels contaminés par les RFI entraîne un échantillonnage non uniforme de la bande de fréquence, ce qui crée des artefacts dans la transformée du signal le long de cet axe. Lors du calcul du spectre de puissance, ces artefacts se propagent et mènent à une contamination des modes de Fourier les plus élevés, normalement exempts d’avant-plans [6-8]. La séparation du signal HI fluctuant spectralement, des avant-plan lisses spectralement, devient difficile. Une première tentative d’amélioration a consisté, plutôt que de supprimer ces visibilités corrompues, à les remplacer (« inpainting ») par des signaux gaussiens aux statistiques contrôlées ou par des valeurs prédites par des réseaux neuronaux entraînés sur des simulations [8]. Les performances s’en trouvent certes améliorées, mais encore insuffisantes [2].

Projet de stage

Une alternative à ces dernières techniques peut être développée dans le cadre d’une estimation statistique robuste [10-12]. Une estimation au sens du maximum de vraisemblance devrait présenter des performances accrues par rapport à celles obtenues par simple inpaiting sur les visibilités polluées. A cet effet, la mise en oeuvre d’une méthode EM (Expectation-Maximization), qui traiterait les visibilités flaggées comme des données absentes, apportera la stabilité statistique pour estimer les données absentes avec une robustesse accrue par rapport à des techniques d’inpainting classiques [13,14]. Ces avantages combinés font de l’algorithme EM une méthode prometteuse qu’il convient d’analyser.

Toutefois, l’application de l’algorithme EM dans ce contexte présente une difficulté majeure liée aux étapes d’espérance (E) et de maximisation (M) qui ne peuvent être résolues analytiquement, et exige donc des approches avancées telles que le VEM (Variational EM) et le SAEM (Stochastic Approximation EM). Le VEM repose sur une approximation variationnelle de la distribution des variables latentes. Plutôt que de calculer explicitement l’espérance à l’étape E, on approxime la distribution a posteriori à l’aide d’une distribution plus simple optimisée par minimisation de la divergence de Kullback-Leibler avec la vraie distribution. Cette approche est directement reliée au principe des Variational Auto-Encoders (VAE). Le SAEM propose une alternative stochastique au calcul de l’étape E. Plutôt que

d’approximer l’espérance globalement, il la met à jour de manière incrémentale en utilisant des échantillons simulés selon une stratégie de type Monte Carlo. Cette approche améliore la convergence, notamment dans des espaces de grande dimension, tout en réduisant le coût computationnel par rapport au calcul exhaustif de l’espérance. L’utilisation combinée de ces deux approches permet de traiter efficacement les formes non linéaires tout en assurant une meilleure robustesse face aux données absentes. Leur lien avec les méthodes d’apprentissage profond, notamment les VAE, en fait des outils particulièrement adaptés aux problèmes de reconstruction complexes [15]. L’objectif de ce stage est donc de développer un tel algorithme et d’en comparer les performances vis-à-vis de l’existant.

Plan de travail :

– Prise en main du contexte astrophysique, sensibilisation aux études cosmologiques.

– Étude bibliographique sur l’estimation des fluctuations du spectre de puissance de HI 21cm.

– Programmation de la transformée en retard des visibilités fréquentielles, étude des dégradations introduites par la suppression des visibilités flaggées.

– Prise en main des modèles physiques disponibles et exploitables.

– Étude d’algorithmes d’estimation au sens du maximum de vraisemblance.

– Étude de l’algorithme EM et de ses variantes.

– Programmation de l’algorithme EM et de ses variantes.

– Simulations.

– Comparaison avec certaines techniques de l’état de l’art.

Conditions et lieu de travail : L’étudiant.e travaillera principalement au L2S/SATIE avec un accès également à l’IAS, sur le campus Vallée, où sa présence sera attendue à une fréquence d’1-2 jours par semaine, surtout pendant la première partie du stage.

Gratification : Le stage est gratifié suivant la réglementation en vigueur (environ 650 euros/mois)

Références

[1] A. Richard Thompson, James M. Moran, George W. Swenson Jr. “Interferometry and Synthesis in Radio Astronomy Third Edition”

[2] K. Chen et al “Impacts and Statistical Mitigation of Missing Data on the 21cm Power Spectrum: A Case Study with the Hydrogen Epoch of Reionization Array” arXiv:2411.10529

[3] C. Ferrari, « Le Square Kilometre Array (SKA) : un radiotélescope géant pour étudier l’aube et l’évolution du cosmos » Reflets phys. N°67 (2020) 10-14

[4] C. Ferrari et al., French SKA White Book – “The French community towards the Square Kilometre Array ”, Published by the SKA-France Coordination in collaboration with AS SKA-LOFAR, arXiv:1712.06950, 2017.

[5] A. Parsons et al., “A per-baseline, delay-spectrum technique for accessing the 21cm cosmic reionization signature”, The Astrophysical Journal, 2012, 756 2, arXiv:1204.4749

[6] The HERA collaboration, “First Results from HERA Phase I: Upper Limits on the Epoch of Reionization 21 cm Power Spectrum”, The Astrophysical Journal, 2022, 925 2, arXiv:2108.02263

[7] A. Chakraborty, A. Datta1 , and A. Mazumder “A Comparative Analysis to Deal with Missing Spectral Information Caused by RFI in Cosmological HI 21 cm Observations”, The Astrophysical Journal, 929:104 (13pp), 2022 April 10. https://doi.org/10.3847/1538-4357/ac5cc5

[8] M. Pagano et al “Characterization Of Inpaint Residuals In Interferometric Measurements of the Epoch Of Reionization” arXiv:2210.14927v2

[10] A.-J. van der Veen, S. J. Wijnholds and A. Sardarabadi ”Signal processing for radio-astronomy” in Handbook of Signal Processing Systems. Springer, 2013, pp. 421-463. 2003.

[11] Y. Mhiri, M. N. El Korso, A. Breloy and P. Larzabal, « Regularized maximum likelihood estimation for radio interferometric imaging in the presence of radiofrequency interefences », Volume 220, 109430, Signal Processing, Elsevier, 2024.

[12] J-P. Delmas, M. N. El Korso, F. Pascal, and S. Fortunati, « Elliptically Symmetric Distributions in Signal Processing and Machine Learning », Springer Nature, Dec 2024.

[13] A. Hippert-Ferrer, M. N. El Korso, A. Breloy, G. Ginolhac, « Robust low-rank covariance matrix estimation with a general pattern of missing values », Signal Processing, Volume 195, June 2022, 108460.

[14] A. Hippert-Ferrer, M. N. El Korso, « Robust estimation with missing data for elliptical distributions », Springer Nature, Dec 2024.

[15] M. Ding, « The road from MLE to EM to VAE: A brief tutorial », AI Open, 2022, Elsevier.

Les commentaires sont clos.