Vers un rendu 3D sans mesh grâce à renduu Neural Radiance Fields

Le maillage polygonal structure la quasi-totalité des pipelines de rendu 3D depuis trois décennies. Chaque objet est décomposé en triangles ou en quads, stockés dans des formats standardisés, manipulés par des moteurs temps réel. Les Neural Radiance Fields (NeRF) proposent une rupture : encoder une scène entière dans les poids d’un réseau de neurones, sans jamais produire de mesh.

Le rendu 3D sans mesh progresse, mais son adoption réelle en production soulève des questions que la littérature académique aborde rarement de front.

Lire également : Impossible d'accéder à ma Freebox : les solutions qui marchent vraiment

Fonctionnement technique d’un Neural Radiance Field

Un NeRF reçoit en entrée une coordonnée spatiale continue à cinq dimensions : trois pour la position (x, y, z) et deux pour la direction d’observation (θ, φ). Le réseau, entièrement connecté et non convolutif, renvoie deux valeurs : la densité volumique en ce point et la radiance émise, c’est-à-dire la couleur perçue selon l’angle de vue.

Pour synthétiser une image, on trace des rayons depuis une caméra virtuelle. Le long de chaque rayon, le réseau est interrogé en plusieurs points. Les couleurs et densités obtenues sont ensuite accumulées par rendu volumique classique, une opération naturellement différentiable. La seule donnée d’entraînement nécessaire est un jeu de photos avec les poses caméra connues.

A lire aussi : Restaurer SMS effacé sur Android : le guide complet pas à pas

L’encodage positionnel transforme les coordonnées brutes en séries harmoniques (sinus et cosinus à fréquences croissantes) avant de les injecter dans le réseau. Cette étape permet au MLP de capturer des détails fins de géométrie et de texture que des coordonnées linéaires échoueraient à représenter.

Chercheuse travaillant sur une interface de reconstruction NeRF sans mesh sur un laptop dans un bureau minimaliste avec des livres techniques

NeRF et Gaussian Splatting : deux approches du rendu sans mesh

Les NeRF ne sont plus la seule représentation implicite en lice. Le 3D Gaussian Splatting (3DGS) modélise la scène comme un nuage de gaussiennes 3D, chacune dotée d’une position, d’une covariance, d’une opacité et de coefficients de couleur par harmonique sphérique. Le rendu se fait par rasterisation de ces gaussiennes, ce qui accélère considérablement l’affichage par rapport au ray-marching des NeRF.

Les deux méthodes partagent un point de départ commun (des photos multi-vues) et un objectif identique (synthèse de nouvelles vues). En revanche, leurs compromis divergent nettement :

  • Un NeRF stocke la scène dans les poids d’un réseau compact, ce qui donne une représentation légère mais lente à interroger pour chaque pixel
  • Un 3DGS stocke explicitement des millions de primitives gaussiennes, ce qui consomme davantage de mémoire mais permet un rendu interactif en temps réel
  • L’édition locale d’une scène (déplacer un objet, modifier une texture) reste difficile dans les deux cas, car ni les poids d’un MLP ni un nuage de gaussiennes ne se manipulent comme un mesh dans un logiciel de modélisation

Pipeline 3D en 2025 : diffusion multi-vues puis reconstruction implicite

L’architecture dominante pour la génération text-to-3D et few-shot 3D ne repose plus sur un pipeline monolithique. Elle sépare deux étapes : un modèle de diffusion génère d’abord plusieurs vues 2D cohérentes d’un objet à partir d’un texte ou d’une image unique, puis une représentation implicite 3D (Gaussian Splatting ou champ neural) est ajustée sur ces vues synthétiques.

Le mesh n’intervient plus comme étape intermédiaire obligatoire. Le débat se déplace : la question n’est plus « avec ou sans mesh pour le rendu » mais « faut-il convertir en mesh à la fin du processus pour l’exploiter dans un moteur existant ». Cette nuance change la nature du problème.

La diffusion multi-vues contourne une limitation historique des NeRF : le besoin de dizaines, voire de centaines de photos calibrées. Avec un diffuseur entraîné sur de vastes jeux de données 3D, quelques vues générées suffisent à initialiser un champ radiatif cohérent.

Station de travail double écran affichant un rendu Neural Radiance Fields d'un paysage rocheux et du code d'entraînement NeRF en Python

Pourquoi le mesh reste dominant en production temps réel

Les moteurs de jeu (Unity, Unreal) et les outils de VFX ou de CAO fonctionnent sur des meshes PBR exportables et éditables. Aucun moteur temps réel majeur ne gère nativement le rendu NeRF en production. Les raisons sont autant techniques qu’organisationnelles.

Un mesh se découpe, se retopologise, se texture avec des UV, se rig pour l’animation. Un artiste peut sélectionner un sommet, le déplacer, voir le résultat. Avec un champ neural, toute modification passe par un réentraînement partiel ou par des techniques d’édition encore expérimentales. Les travaux récents sur l’édition de NeRF (déformation, suppression d’objets, changement d’éclairage) progressent, mais les retours terrain divergent sur la fiabilité de ces méthodes dans un contexte de production avec des délais serrés.

Même lorsqu’un studio part d’un NeRF ou d’un 3DGS pour capturer une scène réelle, la conversion finale en mesh PBR reste la norme pour l’intégration dans le pipeline existant. Des travaux comme NeRFMeshing visent précisément à extraire des meshes géométriquement précis à partir de champs radiatifs entraînés, preuve que les deux mondes ne s’excluent pas mais se complètent.

Limites connues et questions ouvertes pour le rendu NeRF

Le temps d’entraînement constitue un frein récurrent. Même avec les accélérations apportées par les structures de données hiérarchiques (grilles de voxels, hash encoding), entraîner un NeRF sur une scène complexe prend plusieurs minutes à plusieurs heures selon la résolution visée. Les données disponibles ne permettent pas de conclure que ce coût sera négligeable à court terme pour des scènes de grande échelle.

La généralisation pose un autre problème. Un NeRF classique est optimisé pour une seule scène. Le transférer à un environnement différent exige un nouvel entraînement complet. Les approches « feed-forward » (un réseau unique capable de prédire un champ radiatif à partir de quelques images sans optimisation par scène) existent mais n’atteignent pas encore la qualité des méthodes par optimisation.

  • La gestion des surfaces réfléchissantes et transparentes reste approximative, car le modèle volumique suppose une radiance émise en chaque point, sans modéliser explicitement les rebonds lumineux
  • La résolution effective dépend de la capacité du réseau : augmenter la finesse des détails exige un réseau plus large ou des structures auxiliaires, ce qui alourdit le coût mémoire et le temps d’inférence
  • L’absence de standard d’échange (équivalent du format glTF ou FBX pour les meshes) freine l’interopérabilité entre outils et moteurs

Le rendu 3D sans mesh via Neural Radiance Fields a démontré une capacité remarquable à produire des vues photoréalistes à partir de simples photographies. La trajectoire technique pointe vers une cohabitation prolongée : les représentations implicites pour la capture et la synthèse, le mesh pour l’édition et le déploiement temps réel. L’enjeu des prochaines années tient moins à remplacer le mesh qu’à fluidifier les passerelles entre ces deux représentations.