IA de laboratoire autonome : conception de laboratoires auto-pilotés pour la découverte de matériaux

Le piège edisonien : pourquoi le criblage physique épuise votre budget R&D

La méthodologie qu'employait Thomas Edison pour tester des milliers de filaments de carbone était le produit d'une époque où la théorie était à la traîne de l'expérimentation. En 2026, les laboratoires de R&D en utilisent encore des variantes, et l'économie ne s'est pas améliorée : elle a empiré.

Le calcul qui rend le criblage à haut débit obsolète

Le nombre de petites molécules pharmacologiquement actives respectant les règles de Lipinski est estimé à 10⁶⁰. Une grande campagne de criblage à haut débit teste 10⁶ composés. Cela couvre 0,000000000000000000000000000000000000000000000000000001 % de l'espace. En étendant aux produits biologiques complexes et aux alliages multi-éléments, l'espace approche 10¹⁰⁰, ce qui dépasse le nombre d'atomes dans l'univers observable (10⁸⁰).

Le criblage à haut débit suppose que la réponse existe dans une bibliothèque pré-synthétisée. Pour les nouvelles classes de matériaux, la composition optimale n'existe presque certainement dans aucune bibliothèque sur Terre. Vous cherchez une aiguille dans une botte de foin de la taille de l'océan Pacifique avec une cuillère à café.

Ce que cela vous coûte

Le coût de développement d'un médicament par actif a atteint plus de 2 milliards de dollars (Deloitte, 2024). Le taux d'échec de la R&D pharmaceutique avoisine les 90 % lors des essais cliniques. Le TRI pharmaceutique a touché un plus bas en 12 ans de 1,2 % en 2022 avant de remonter à 5,9 % en 2024, en grande partie grâce aux performances exceptionnelles des GLP-1. C'est la loi d'Eroom : la productivité de la R&D décline malgré une hausse des dépenses.

En science des matériaux, le coût se mesure différemment, mais le schéma est le même. Les chercheurs en batteries poursuivent des matériaux qui offrent théoriquement une haute densité énergétique mais violent les contraintes de stabilité thermodynamique. Sans simulation avant synthèse, ces impasses ne sont découvertes qu'après des mois de temps de laboratoire et des centaines de milliers de dollars en coûts de réactifs.

Un exemple concret : la recherche de composition de pérovskite

Un laboratoire de matériaux de taille moyenne recherche une pérovskite halogénée sans plomb dotée de propriétés spécifiques de bande interdite et de stabilité pour des cellules solaires de nouvelle génération. L'espace de composition comprend 5 options de cations, 8 combinaisons d'anions et des rapports stœchiométriques continus, ce qui donne environ 10⁸ compositions viables.

Approche traditionnelle : un postdoctorant synthétise 3 à 5 compositions par semaine en se fondant sur l'intuition tirée de la littérature et les suggestions de son directeur. À 150 $ par synthèse (précurseurs, préparation du substrat, caractérisation), il dépense 78 000 $ sur un an en testant 520 compositions. Soit 0,00052 % de l'espace. Le meilleur candidat trouvé peut être très loin de l'optimum global.

Avec l'optimisation bayésienne utilisant un modèle de substitution GNN pré-entraîné sur 50 000 structures de pérovskites calculées par DFT issues du Materials Project, le système identifie les 0,1 % supérieurs de l'espace de composition en 80 à 120 expériences ciblées. Coût total des réactifs : 12 000 à 18 000 $. Le modèle de substitution prédit la bande interdite et l'énergie de formation en millisecondes. La fonction d'acquisition (Expected Improvement) ne sélectionne que les compositions où soit la performance prédite est élevée, soit l'incertitude du modèle est suffisamment grande pour justifier une investigation. Les 400 expériences restantes et plus, qui auraient produit des données marginales ou inutiles, ne sont jamais menées.

Qui d'autre construit des laboratoires autonomes

Le marché des laboratoires auto-pilotés s'est rapidement consolidé depuis 2024. Avant de choisir une voie, vous devriez comprendre ce que chaque option offre réellement et où elle présente des limites.

Option	Ce que vous obtenez	Coût typique	Limite honnête
Radical AI	Laboratoire entièrement autonome. Plus de 25 alliages/jour. Des milliards de compositions criblées. Installation au Brooklyn Navy Yard (janv. 2026). 55 M$ en Seed+, 60 M$ en Série A.	Partenariat/contrat	Axé sur les alliages. Vos données résident sur leur pile technologique. La logique d'optimisation est leur boîte noire, que vous ne pouvez pas modifier. Convient pour la métallurgie, moins pour la pharma ou les MOF.
Emerald Cloud Lab	Plus de 200 instruments automatisés à CMU. Expédiez vos échantillons, obtenez des résultats. Niveau entreprise GxP disponible.	Abonnement (50 000 à plus de 500 000 $/an)	À distance uniquement. Vous ne touchez pas aux instruments. Limité à leur catalogue d'essais pris en charge. Vos données chimiques propriétaires quittent vos locaux.
Atinary	Plateforme logicielle SDL avec optimiseurs ML. Cycles DMTAL. Lancement de la « Scientific Discovery Factory » de Boston (2025).	SaaS + intégration	Prend en charge certains types d'instruments. Personnaliser la logique d'optimisation au-delà de leur interface nécessite leur ingénierie. En croissance mais pas encore éprouvée à l'échelle de l'entreprise.
Kebotix	IA d'entreprise pour la découverte de matériaux. Cloud + ML + modélisation physique + automatisation.	Contrat entreprise	Basé à Cambridge, fondé en 2017. Moins de validation publique que les nouveaux entrants. L'approche plateforme signifie que votre flux de travail s'adapte à eux, et non l'inverse.
Big 4 / grands intégrateurs	Conseil en transformation numérique. Stratégie de laboratoire, sélection de fournisseurs, conduite du changement. Grandes équipes, noms reconnus.	Engagement de 500 000 à plus de 5 M$	Ils implémentent des plateformes, ils ne construisent pas de moteurs d'optimisation. Aucune expertise interne en BO/GNN. Le livrable est une présentation stratégique et une intégration de fournisseurs, pas une boucle fermée fonctionnelle. Les missions durent 6 à 18 mois pour ce qui devrait prendre 3 à 4 mois.
Équipe interne	Contrôle total. Construisez votre propre moteur BO, écrivez vos propres pilotes SiLA 2, entraînez vos propres GNN.	2-3 ingénieurs ML + 1-2 ingénieurs automatisation (800 000 à 1,5 M$/an)	Recruter des ingénieurs ML qui comprennent aussi les processus gaussiens, l'espace chimique et SiLA 2 est extrêmement difficile. Délai de montée en compétence de 6 à 12 mois avant toute valeur expérimentale. Forte attrition sur un marché du travail tendu.
Veriprajna	Moteurs BO sur mesure, modèles de substitution GNN, pilotes d'instruments SiLA 2, couches de conformité GxP. Vous possédez tout le code et tous les modèles. S'intègre à votre matériel existant.	Projet de 150 000 à 600 000 $	Aucune installation de laboratoire hébergée. Aucune bibliothèque d'instruments préconstruite. Chaque intégration est une ingénierie sur mesure. Plus lent pour les essais standardisés où une plateforme suffirait.

Le bon choix dépend de votre parc d'instruments, de la sensibilité de vos données et de vos exigences réglementaires. Pour des essais standardisés sur des instruments courants sans sensibilité de propriété intellectuelle, une plateforme peut convenir. Pour les laboratoires dotés d'équipements hérités, de données propriétaires, de contraintes GxP ou de problèmes d'optimisation non standard, l'intégration sur mesure est la seule voie.

Ce que nous construisons

Six capacités qui transforment un laboratoire existant en un système de découverte autonome. Chacune constitue une mission autonome ou une partie d'une construction complète en boucle fermée.

Moteurs d'optimisation bayésienne sur mesure

Nous configurons le modèle de substitution, la fonction d'acquisition et les niveaux de fidélité pour votre domaine de matériaux spécifique. Nous recourons au GP variationnel parcimonieux (SVGP) lorsque votre espace de composition dépasse 50 dimensions, car les processus gaussiens standard avec une complexité en O(n³) ne convergeront pas. Pour l'optimisation de réactions avec 10 à 15 paramètres et des réactifs coûteux, nous déployons la Cost-Informed BO afin de minimiser le coût par unité d'information.

La fonction d'acquisition compte plus que la plupart des laboratoires ne le réalisent. Expected Improvement est conservatrice, idéale pour exploiter des régions prometteuses connues. Thompson Sampling favorise la diversité par lots, préférable lors de l'exécution de plusieurs synthèses parallèles. Nous choisissons en fonction de votre configuration expérimentale, et non d'un réglage par défaut.

Intégration d'instruments SiLA 2

Chaque instrument de votre laboratoire parle un langage différent. Le Hamilton STAR utilise le script VENUS. Le Tecan EVO utilise l'API FluentControl. Les instruments Agilent exposent l'API FAST ou des protocoles série hérités. Nous construisons des pilotes microservices SiLA 2 pour chacun, afin que votre couche d'optimisation par IA envoie un format de commande cohérent et unique, quel que soit l'instrument sous-jacent.

Les instruments hérités (de 10 à 20 ans) dépourvus d'API modernes sont enveloppés dans du matériel adaptateur (Raspberry Pi ou contrôleur embarqué) exécutant un serveur SiLA 2 en Python. Chaque intégration de pilote dure 2 à 4 semaines selon la qualité de la documentation de l'API du fournisseur. Un laboratoire typique de taille moyenne a besoin de 6 à 12 pilotes pour une boucle fermée fonctionnelle.

Développement de modèles de substitution GNN

Les réseaux neuronaux de graphes surpassent les LLM pour la prédiction des propriétés moléculaires, car les molécules sont des graphes 3D, et non des chaînes de texte. Nous construisons des modèles de substitution GNN (CGCNN pour les structures cristallines, SchNet ou DimeNet pour les géométries moléculaires) qui prédisent les propriétés cibles en millisecondes au lieu des heures qu'exigent les calculs DFT.

Pour les familles de matériaux bien étudiées, nous nous appuyons sur le Materials Project (plus de 154 000 structures) ou AFLOW. Pour les nouvelles classes, nous utilisons l'apprentissage par transfert à partir d'une famille apparentée et l'apprentissage actif pour combler les lacunes par des calculs DFT ciblés. Le banc d'essai Matbench Discovery (2026) montre que les meilleurs modèles atteignent un facteur d'accélération de découverte de 6,1x. Nous visons cette plage pour votre domaine.

Couches de conformité GxP

Pour les laboratoires pharmaceutiques, le cadre ALCOA+ de la FDA exige que chaque étape automatisée soit attribuable, lisible, contemporaine, originale et exacte. La plupart des logiciels SDL traitent la conformité comme une réflexion après coup. Nous construisons la couche de piste d'audit comme un service dédié : elle intercepte chaque événement de données du moteur BO, chaque action robotique et chaque résultat de caractérisation, les horodate et les stocke dans un journal en ajout seul.

Les lettres d'avertissement du CDER ont bondi de 50 % au cours de l'exercice 2025, l'intégrité des données constituant une catégorie majeure de citations. La directive conjointe FDA/EMA de janvier 2026 sur l'IA dans le développement de médicaments fixe des attentes explicites en matière de gouvernance des données et de supervision humaine. Nous concevons la conformité dès le départ, sans l'ajouter après coup à la suite d'un constat d'audit.

Conception d'architecture en boucle fermée

Le cycle complet Design-Make-Test-Analyze (DMTA) en tant que système de production. Le moteur BO génère un candidat. La plateforme robotique reçoit les instructions de synthèse via SiLA 2. Les instruments de caractérisation (XRD, spectroscopie, microscopie) mesurent les résultats. Le retour d'information met à jour le modèle de substitution. Le cycle se répète sans intervention humaine.

Nous incluons une couche de jumeau numérique qui simule chaque expérience avant son exécution physique : elle valide le minutage du protocole, vérifie les trajectoires de collision des bras robotiques, signale les problèmes de compatibilité des réactifs et détecte les anomalies en comparant les données de capteurs en temps réel au comportement prédit. Cela prévient le taux d'échec de synthèse de 29 % rencontré par l'A-Lab de Berkeley et maintient votre fonctionnement 24/7 sans mauvaises surprises nocturnes.

Modernisation de laboratoire hérité

Votre HPLC vieille de 20 ans enveloppée dans un pilote microservice SiLA 2. Votre suivi d'expériences sous Excel remplacé par un pipeline de données structurées qui alimente directement la boucle d'optimisation. Vos LIMS, ELN et sorties d'instruments déconnectés unifiés dans un lac de données unique où chaque expérience, y compris les échecs, devient une donnée d'entraînement pour le modèle de substitution.

Pas de remplacement total. Nous ajoutons une couche d'intelligence par-dessus des équipements qui fonctionnent encore. Le parcours de modernisation typique : pilotes d'instruments d'abord (semaines 1-8), pipeline de données ensuite (semaines 4-12, avec chevauchement), moteur BO troisième (semaines 8-16), intégration en boucle fermée en dernier (semaines 12-20). Les scientifiques continuent d'exécuter leurs flux de travail actuels tout du long.

Comment fonctionne réellement la boucle fermée : un exemple d'optimisation de pérovskite

Voici un flux de travail représentatif pour un laboratoire de matériaux optimisant des compositions de pérovskite halogénée sans plomb pour des cibles spécifiques de bande interdite et de stabilité thermique.

Amorcer le modèle de substitution

Nous extrayons 50 000 structures de pérovskites halogénées calculées par DFT du Materials Project. Un CGCNN (Crystal Graph Convolutional Neural Network) est pré-entraîné sur ces données pour prédire l'énergie de formation et la bande interdite à partir de la structure cristalline. L'entraînement prend 4 à 8 heures sur un seul GPU. Le modèle atteint une MAE d'environ 0,05 eV sur l'énergie de formation pour les pérovskites connues, ce qui est assez précis pour classer les candidats mais pas assez pour remplacer la validation expérimentale. C'est tout l'intérêt : le modèle de substitution est un filtre, pas un oracle.

Définir l'espace de recherche et les objectifs

L'espace de composition est défini : rapports de cations Cs/MA/FA, niveaux de substitution Sn/Ge/Bi, rapports d'halogénures I/Br/Cl. Cela crée un espace continu d'environ 30 dimensions. Multi-objectif : maximiser la stabilité de la bande interdite (cible de 1,2 à 1,5 eV pour une application en cellule solaire tandem), minimiser l'énergie de formation (stabilité thermodynamique) et maximiser la température de décomposition thermique (durabilité opérationnelle). Le moteur BO utilise une fonction d'acquisition multi-objectif (Expected Hypervolume Improvement) pour explorer le front de Pareto.

Criblage multi-fidélité

Le moteur BO interroge d'abord le modèle de substitution CGCNN (millisecondes par prédiction, coût quasi nul). Il génère 10 000 compositions candidates et les classe par optimalité de Pareto prédite. Les 200 premières sont transmises à une relaxation DFT rapide (quelques minutes par calcul, environ 0,50 $ de coût de calcul chacune). Le cadre MF-BO apprend la corrélation entre la prédiction GNN et le résultat DFT. Là où la corrélation est forte, la prédiction GNN est jugée fiable. Là où la corrélation est faible (généralement aux limites de la distribution d'entraînement), davantage de calculs DFT sont déclenchés. Cette étape élimine environ 99 % des candidats sans aucune synthèse physique.

Synthèse et caractérisation automatisées

Les 20 meilleurs candidats validés par DFT sont envoyés à la plateforme robotique sous forme d'instructions de synthèse. Un manipulateur de liquides (contrôlé via SiLA 2) distribue les solutions de précurseurs. Une plaque chauffante/un four tubulaire exécute le protocole de recuit. Un instrument XRD (connecté en SiLA 2) confirme la phase cristalline. Un spectromètre UV-Vis mesure la bande interdite. Un instrument ATG mesure la décomposition thermique. Tous les résultats sont horodatés, liés à la recommandation BO d'origine et stockés dans le pipeline de données structurées.

Retour d'information et itération

Chaque résultat expérimental, y compris les échecs, est réinjecté dans le modèle de substitution. Une composition qui s'est décomposée à 150 °C au lieu des 300 °C prédits est précieuse : elle indique au modèle où sa prédiction était erronée et affine la frontière de décision. Le moteur BO met à jour sa loi a posteriori, recalcule la fonction d'acquisition et sélectionne le lot suivant. Après 4 à 6 cycles (80 à 120 expériences au total sur 2 à 3 semaines), le système a cartographié le front de Pareto viable. Le laboratoire dispose désormais de 5 à 10 compositions qui satisfont aux trois objectifs, confirmées par mesure physique, avec une caractérisation complète de l'incertitude pour chacune.

Comment se déroule une mission

Une construction typique de laboratoire en boucle fermée dure 16 à 24 semaines, du lancement au fonctionnement autonome. Chaque phase comporte un livrable clair et un point de décision go/no-go.

Semaines 1-3

Audit du laboratoire et conception de l'architecture

Nous inventorions chaque instrument, ses capacités d'API, ses flux de données actuels et sa complexité d'intégration. Nous cartographions le problème d'optimisation : que recherchez-vous, dans combien de dimensions, avec quelles contraintes. Nous évaluons les données existantes (exports LIMS, enregistrements ELN, résultats d'expériences antérieures) pour leur potentiel d'amorçage du modèle de substitution.

Livrable : Un document d'architecture technique spécifiant la configuration du moteur BO, le plan d'intégration des instruments avec des échéanciers par instrument, la stratégie de modèle de substitution et la conception du pipeline de données. Ce document est suffisamment détaillé pour que votre équipe interne puisse l'exécuter de manière indépendante si vous choisissiez de ne pas poursuivre avec nous.

Semaines 3-10

Intégration des instruments et pipeline de données

Développement de pilotes SiLA 2 pour chaque instrument en parallèle. Construction du pipeline de données : de la sortie brute des instruments au format structuré, puis aux caractéristiques prêtes pour le modèle. Adaptateurs de systèmes hérités le cas échéant. Chaque pilote est testé individuellement, puis dans des séquences orchestrées.

Livrable : Des pilotes SiLA 2 fonctionnels pour tous les instruments. Un pipeline de données unifié avec journalisation structurée des expériences. Votre laboratoire continue d'exécuter ses flux de travail existants pendant cette phase.

Semaines 8-16

Moteur BO et modèle de substitution

Entraînement du modèle de substitution (ou apprentissage par transfert + affinage pour les nouvelles classes de matériaux). Configuration du moteur BO avec la fonction d'acquisition sélectionnée et la hiérarchie de fidélité. Couche de jumeau numérique pour la simulation de protocole. Tests d'intégration avec la couche d'instruments : cycle DMTA complet sur un matériau connu pour valider la boucle avant le déploiement sur votre problème de recherche réel.

Livrable : Un moteur BO fonctionnel produisant des recommandations d'expériences. Un modèle de substitution validé avec une précision de prédiction quantifiée sur votre famille de matériaux. Un jumeau numérique détectant les erreurs de protocole avant l'exécution physique.

Semaines 14-20

Mise en service de la boucle fermée

Fonctionnement entièrement autonome sur un problème de recherche pilote. Le système fonctionne 24/7 avec une supervision humaine se réduisant progressivement d'une surveillance active à des alertes par exception. Mesures de performance suivies : expériences par jour, taux de réussite vs. référence, coût par expérience, précision de prédiction du modèle au fil des itérations.

Livrable : Un laboratoire autonome exécutant votre véritable problème d'optimisation. Une documentation de transfert complète. Votre équipe formée au système. Tout le code, les modèles et les configurations vous sont transférés. Notre présence n'est plus requise pour le fonctionnement.

Réserves que nous énonçons d'emblée

La qualité des données est le plus grand risque pour le calendrier. Si vos données d'expériences antérieures sont dans des formats incohérents répartis sur des fichiers Excel, la phase de normalisation des données peut ajouter 4 à 6 semaines. Nous évaluons cela lors de l'audit et le signalons tôt.
La documentation des API des fournisseurs varie énormément. Hamilton et Tecan disposent d'une bonne documentation. Certains fournisseurs d'instruments plus petits fournissent des spécifications d'API minimales ou obsolètes. Nous prévoyons un délai supplémentaire pour les instruments mal documentés.
La maturité organisationnelle compte. Si votre équipe de laboratoire est réticente à l'expérimentation dirigée par l'IA, aucune technologie ne pourra y remédier. Nous structurons le pilote de manière à maintenir les scientifiques dans la boucle en tant que concepteurs d'expériences, et non spectateurs.
La conformité GxP ajoute 3 à 4 semaines pour la couche de piste d'audit et la validation par rapport à vos modes opératoires normalisés (SOP). C'est non négociable pour les environnements réglementés.

Évaluation de la maturité d'autonomie de laboratoire

Répondez à 8 questions sur votre configuration de laboratoire actuelle. L'évaluation identifie vos points forts et vos points faibles pour le déploiement d'un laboratoire autonome et fournit des étapes suivantes spécifiques pour chaque catégorie, que vous travailliez avec nous ou non.

Questions que posent les responsables R&D

Comment construire un laboratoire auto-piloté sans remplacer tous nos instruments existants ?

Vous n'avez besoin de rien remplacer. La couche critique est le middleware, pas le matériel. Nous enveloppons chaque instrument existant dans un pilote microservice SiLA 2 qui traduit les commandes de haut niveau (distribuer 5 ml, chauffer à 200 °C, lancer un balayage XRD) dans le protocole propre au fournisseur que parle votre instrument. Un Hamilton STAR a besoin de commandes de script VENUS. Un Tecan EVO a besoin d'appels à l'API FluentControl. Un HPLC Agilent plus ancien pourrait nécessiter une communication par port série enveloppée dans un adaptateur Python s'exécutant sur un Raspberry Pi.

Chaque pilote prend 2 à 4 semaines à construire selon la qualité de la documentation de l'API de l'instrument. Une fois enveloppé, chaque instrument apparaît identique à la couche d'optimisation par IA : un microservice SiLA 2 avec des capacités définies. Nous avons constaté que les laboratoires ont généralement besoin de 6 à 12 pilotes d'instruments pour une boucle fermée fonctionnelle. Le calendrier total d'intégration est de 8 à 16 semaines pour un laboratoire de taille moyenne, et vos instruments continuent d'exécuter leurs flux de travail existants pendant la construction.

Le seul ajout matériel est généralement un petit serveur d'orchestration (sur site ou connecté au cloud) qui exécute le moteur BO et coordonne les commandes des instruments.

Quel est le calendrier de ROI réaliste pour le déploiement d'un laboratoire autonome ?

La réponse honnête dépend de trois variables : votre débit expérimental actuel, la dimensionnalité de votre espace de recherche et vos coûts de réactifs. Un laboratoire de science des matériaux exécutant 20 expériences manuelles par semaine sur un espace de composition à 30 dimensions avec un coût moyen de réactifs de 200 $ par expérience verra le calcul se présenter différemment d'un laboratoire pharmaceutique exécutant 500 plaques de criblage à haut débit par semaine.

Pour le cas de la science des matériaux, le déploiement de l'optimisation bayésienne tenant compte des coûts (CIBO) réduit généralement de 10 à 50x le nombre d'expériences nécessaires pour trouver un candidat viable. Si vous exécutiez 1 000 expériences pour couvrir un espace de composition et que la CIBO vous amène au même résultat en 50 à 100 expériences, vos seules économies de réactifs s'élèvent à 180 000 à 190 000 $. Ajoutez la réaffectation de la main-d'œuvre (les scientifiques concevant des expériences au lieu de pipeter) et l'utilisation 24/7 des équipements robotiques (vs. 30-40 % d'utilisation dans les laboratoires à personnel humain), et la plupart des laboratoires de taille moyenne voient un retour sur l'investissement d'intégration en 12 à 18 mois.

La réserve : ces chiffres supposent que votre infrastructure de données est suffisamment propre pour alimenter la boucle d'optimisation. Si vos 3 premiers mois sont consacrés à normaliser des données issues de feuilles de calcul Excel et de LIMS déconnectés, le calendrier de ROI se décale vers la droite. McKinsey estime qu'une automatisation et une intégration de l'IA complètes réduisent les coûts globaux de R&D pharmaceutique d'environ 25 % et peuvent diminuer les durées de cycle de plus de 500 jours.

Comment l'optimisation bayésienne se compare-t-elle au criblage à haut débit pour notre recherche de matériaux ?

Le criblage à haut débit est une force brute : synthétiser et tester autant de candidats que physiquement possible, en espérant que la réponse se trouve dans votre bibliothèque. L'optimisation bayésienne est une recherche stratégique : utiliser un modèle de substitution probabiliste pour prédire où se trouvent les meilleurs candidats, ne tester que ceux-là, mettre à jour le modèle et recommencer.

Les chiffres en font la démonstration. Une campagne standard de criblage à haut débit teste environ 10⁶ composés. L'espace des petites molécules pharmacologiquement actives est estimé à 10⁶⁰. Le criblage à haut débit fonctionne lorsque la réponse se trouve probablement dans une bibliothèque préexistante et que vous pouvez vous permettre l'infrastructure. Il échoue lorsque vous explorez de nouvelles classes de matériaux où la composition optimale n'existe probablement dans aucune bibliothèque.

La BO avec des modèles de substitution à processus gaussiens excelle précisément dans ce régime : faibles données initiales, expériences coûteuses, grands espaces de recherche. La fonction d'acquisition équilibre mathématiquement l'exploration de régions inconnues et l'exploitation de zones prometteuses connues. La Cost-Informed BO ajoute une dimension de coût : si deux expériences offrent un gain d'information similaire mais que l'une coûte 5 000 $ en réactifs et l'autre 50 $, la CIBO choisit la voie la moins chère. Des études montrent que la CIBO réduit les coûts d'optimisation jusqu'à 90 % tout en atteignant la même cible.

La limite : la BO standard avec des processus gaussiens évolue en O(n³) par rapport aux observations et peine au-delà de 50 dimensions. Pour les espaces de composition de haute dimension, nous utilisons des approximations de GP parcimonieux (SVGP) ou l'apprentissage à noyau profond, qui exigent davantage d'ingénierie initiale mais gèrent des centaines de dimensions.

Notre laboratoire autonome peut-il satisfaire aux exigences GxP de la FDA pour la R&D pharmaceutique ?

Oui, mais uniquement avec une architecture de conformité délibérée. La plupart des plateformes SDL ont été conçues pour la recherche universitaire, et non pour des environnements réglementés. Le cadre ALCOA+ de la FDA exige que chaque point de données soit attribuable (qui l'a généré, y compris quel algorithme a sélectionné l'expérience), lisible, contemporain (horodaté à la création, et non journalisé par lots ultérieurement), original et exact.

Pour un laboratoire autonome, cela signifie que la sélection d'expériences du moteur BO doit être journalisée avec le contexte décisionnel complet : quelle fonction d'acquisition, ce que le modèle de substitution a prédit, pourquoi cette expérience a été choisie plutôt que d'autres. Chaque action robotique doit générer une piste d'audit immuable. Les expériences échouées doivent être consignées avec une analyse des modes de défaillance, et non discrètement écartées.

Les lettres d'avertissement du CDER ont bondi de 50 % au cours de l'exercice 2025, l'intégrité des données constituant une catégorie majeure de citations. En janvier 2026, la FDA et l'EMA ont conjointement publié 10 principes directeurs pour de bonnes pratiques d'IA dans le développement de médicaments, couvrant la gouvernance des données, la documentation, la gestion du cycle de vie et la supervision humaine.

Nous construisons la couche de conformité comme un service distinct qui enveloppe votre flux de travail SDL : elle intercepte chaque événement de données, l'horodate, le lie au processus d'origine et le stocke dans un journal d'audit en ajout seul. Cette couche ajoute environ 3 à 4 semaines au calendrier d'intégration et nécessite une coordination avec votre équipe qualité afin de valider par rapport à vos modes opératoires normalisés (SOP) spécifiques.

Que se passe-t-il lorsque le modèle d'IA ne dispose pas de suffisamment de données d'entraînement pour notre nouvelle classe de matériaux ?

C'est le problème du démarrage à froid, et c'est le défi technique le plus courant dans la découverte autonome de matériaux. Si vous travaillez sur une famille de matériaux bien étudiée (pérovskites, réseaux organométalliques, petites molécules courantes), de grands jeux de données calculés par DFT dans le Materials Project (plus de 154 000 structures), AFLOW ou l'Open Quantum Materials Database peuvent amorcer votre modèle de substitution.

Pour les nouvelles classes de matériaux, la voie comporte trois phases. Phase 1 : apprentissage par transfert. Pré-entraîner un GNN sur une famille de matériaux apparentée où les données sont abondantes (par exemple, les oxydes binaires) et l'affiner sur votre classe cible avec les données dont vous disposez, même 50 à 100 structures. ACS Central Science a publié des travaux montrant que l'apprentissage par transfert peut atteindre une précision de prédiction utile avec plusieurs ordres de grandeur moins de données du domaine cible.

Phase 2 : apprentissage actif avec BO multi-fidélité. Utiliser des calculs DFT peu coûteux (quelques minutes chacun) pour étendre rapidement la connaissance qu'a le modèle de substitution de votre espace, puis valider sélectivement les prédictions les plus incertaines par des calculs coûteux à haute fidélité ou une synthèse réelle. Le cadre MF-BO apprend la corrélation entre simulation et expérience, de sorte qu'il sait quand faire confiance au calcul peu coûteux.

Phase 3 : capture des données négatives. Chaque expérience échouée fait l'objet d'une journalisation structurée : ce qui a été tenté, ce qui n'a pas fonctionné, les propriétés mesurées. Cela affine les frontières de décision et empêche le système d'explorer à répétition des impasses. La plupart des laboratoires jettent ces données. Nous les traitons comme une propriété intellectuelle permanente. Délai jusqu'à un modèle de substitution utile : 2 à 4 semaines pour les familles bien étudiées avec apprentissage par transfert, 3 à 6 mois pour les classes véritablement nouvelles nécessitant un amorçage par DFT.

Devrions-nous utiliser une plateforme de laboratoire auto-piloté comme Emerald Cloud Lab ou Radical AI, ou construire sur mesure ?

Cela dépend de trois facteurs : à quel point vos instruments sont uniques, à quel point vos données sont sensibles et à quel point vous avez besoin de contrôler la logique d'optimisation.

Des plateformes comme Emerald Cloud Lab offrent un accès clé en main à plus de 200 instruments automatisés. Vous expédiez des échantillons, ils exécutent les expériences, vous récupérez les données. Cela fonctionne pour des essais standardisés où vous n'avez pas besoin de personnaliser le flux de travail et où vous acceptez que vos données propriétaires résident sur l'infrastructure de quelqu'un d'autre. Radical AI construit des laboratoires entièrement autonomes qui criblent des milliards de compositions par jour. Si votre problème s'aligne sur leur focalisation sur les alliages, leur débit est difficile à égaler. Mais vous fonctionnez sur leur pile technologique, leurs algorithmes, leur pipeline de données.

La construction sur mesure prend tout son sens lorsque : (1) votre parc d'instruments comprend des équipements hérités ou spécialisés qu'aucune plateforme ne prend en charge, (2) vos exigences de souveraineté des données interdisent l'envoi de données chimiques propriétaires hors site, (3) votre problème d'optimisation requiert des approches non standard (BO multi-fidélité avec sources de fidélité personnalisées, modèles de substitution informés par la physique, fonctions d'acquisition propres au domaine), ou (4) vous avez besoin de couches de conformité GxP que les plateformes n'offrent pas.

Le laboratoire de matériaux typique de taille moyenne possède 3 à 5 instruments qu'aucune plateforme ne prend en charge d'emblée, au moins une contrainte réglementaire et un problème d'optimisation qui ne s'adapte pas à une interface générique. Une intégration sur mesure construite sur des standards ouverts (SiLA 2, bibliothèques BO open source comme BoTorch) vous offre une capacité autonome sans verrouillage propriétaire.

Votre espace de recherche compte 1060 molécules. Votre campagne de criblage à haut débit en teste 106.