October 6, 2025

Le chercheur transforme le GPT-OSS-20B en un modèle de base non renvoyé

0
cfr0z3n_flat_illustration_minimalist_pointillism_gradients_re_cdcd477b-0b29-481d-b04e-ed930ec4dc51_2.png

Vous voulez des informations plus intelligentes dans votre boîte de réception? Inscrivez-vous à nos newsletters hebdomadaires pour obtenir uniquement ce qui compte pour les chefs d’IA en entreprise, les données et les chefs de sécurité. Abonnez-vous maintenant


Openai Nouveaux poids ouverts puissants Famille Modèle de grande langue (LLM) GPT-OSS est sorti il y a moins de deux semaines Sous une licence APACHE 2.0 permissive – le premier lancement du modèle de poids ouvert de la société depuis GPT-2 en 2019 – mais les développeurs en dehors de la société le remodèle déjà.

L’un des exemples les plus frappants vient de Jack Morris, un doctorant de Cornell Tech, un ancien résident de Google Brain et un chercheur actuel chez Meta, qui Cette semaine a dévoilé GPT-OSS-20B-base, Sa propre version retravaillée du plus petit modèle GPT-OSS-20B d’Openai, qui supprime le comportement du «raisonnement» du modèle et le renvoie à une version «de base» pré-formée qui offre des réponses plus rapides, plus libres, plus non censurées et sans contrainte.

Le modèle est maintenant disponible sur le visage étreint sous un Licence MIT permissivece qui lui permet d’être utilisé pour les deux Recherche et applications commerciales.

Comment la base GPT-OSS-20B est différente des modèles GPT-ASS d’OpenAI

Pour comprendre ce que Morris a fait, il est utile de connaître le Différence entre la sortie d’OpenAI et ce que les chercheurs de l’IA appellent un «modèle de base».


L’échelle AI atteint ses limites

Les plafonds d’électricité, la hausse des coûts de jetons et les retards d’inférence remodèlent l’entreprise AI. Rejoignez notre salon exclusif pour découvrir à quel point les équipes sont les meilleures:

  • Transformer l’énergie en un avantage stratégique
  • Architecting Inférence efficace pour les gains de débit réels
  • Déverrouiller un retour sur investissement compétitif avec des systèmes d’IA durables

Sécurisez votre place pour rester en avance:


La plupart des LLM offerts par les principaux laboratoires d’IA tels que Openai, Anthropic, Google et même les joueurs open source comme Meta, Deepseek et l’équipe QWEN d’Alibaba sont «post-formés».

Cela signifie qu’ils ont passé une phase supplémentaire où il est exposé à des exemples organisés de comportement souhaité.

Pour les modèles réglés par des instructions, cela signifie lui donner de nombreux exemples d’instructions associées à des réponses idéales, il apprend donc à répondre plus utilement, poliment ou en toute sécurité aux demandes de langage naturel.

Les modèles GPT-ASS OpenAI sont sortis le 5 août ont été «optimisés»: formé et affiné non seulement pour prédire le mot suivant, mais pour suivre les instructions d’une manière sûre et cohérente, passant souvent par des problèmes de raisonnement structuré «chaîne de pensée» avant de produire une réponse finale.

Il s’agit d’une tendance qui remonte au modèle O1 d’Openai publié il y a près d’un an en septembre 2024, mais que de nombreux principaux laboratoires d’IA ont maintenant adopté – Forcer les modèles à réfléchir plus longtemps sur plusieurs étapes et à vérifier leur propre travail avant Sortir une réponse bien poursuivie à l’utilisateur.

Cela les rend mieux adaptés à des tâches telles que le codage, la résolution de problèmes mathématiques ou la réponse aux questions factuelles avec des explications – mais signifie également que leurs réponses sont filtrées et éloignées du contenu dangereux ou indésirable.

Un modèle de base est différent. C’est la version brute et pré-entraînée d’un modèle grand langage avant que cet alignement spécifique au raisonnement ne soit appliqué. Les modèles de base essaient simplement de prédire le prochain morceau de texte compte tenu de ce qui est précédé, sans garde-corps, préférences stylistiques ou comportements de refus.

Ils sont prisés par certains chercheurs parce qu’ils peut produire une sortie plus variée et moins contrainte, Et parce que l’étude de leur comportement non aligné peut révèlent comment les modèles stockent les connaissances et les modèles de leurs données de formation.

L’objectif de Morris était de «renverser» le processus d’alignement d’Openai et de restaurer le plus petit GPT-ASS-20B à quelque chose de beaucoup plus proche de son état d’origine pré-élaboré.

“Nous avons essentiellement inversé la partie d’alignement de la formation LLM, nous avons donc quelque chose qui produit à nouveau du texte d’aspect naturel”, a-t-il écrit dans un fil X annonçant le projet. «Il ne s’engage plus dans le COT. Il est de retour à un modèle qui prédit simplement le jet suivant sur le texte générique.»

Plutôt que d’essayer de jailbreaker le modèle avec des invites intelligentes – qui, selon Morris Le scientifique en chef John Schulman.

La clé était de considérer le renversement d’alignement comme un petit problème d’optimisation: si la plupart des connaissances pré-étirées du modèle sont toujours présentes dans ses poids, alors seule une petite mise à jour de faible rang pourrait être nécessaire pour le repousser vers le comportement du modèle de base.

Morris a mis en œuvre cette idée en appliquant une mise à jour LORA (adaptateur de faible rang) à seulement trois couches du modèle – les couches MLP aux positions 7, 15 et 23 – avec un rang de 16.

Cela signifiait la formation d’environ 60 millions de paramètres, soit 0,3% des 21 milliards du modèle au total. Il a utilisé environ 20 000 documents de l’ensemble de données FineWeb, en gardant le format aussi près que possible de la pré-formation originale («…». Le style) afin que le modèle n’apprenne rien de nouveau, juste réactiver la génération de texte libre.

La formation a pris quatre jours sur huit GPU Nvidia H200, Morris a déclaré à VentureBeat via un message direct sur X, avec un taux d’apprentissage de 2E-6, une taille de lot de 16 et une longueur de séquence maximale de 8 192 jetons.

Par la suite, il a fusionné les poids de Lora dans le modèle afin que les utilisateurs puissent l’exécuter comme un artefact autonome et entièrement entiné.

Morris a également dû faire face aux limites des outils ouverts actuels pour les architectures de mélange de réglage fin (MOE) comme GPT-ASS.

Morris a déclaré qu’il avait utilisé le cadre de Hugging Face, qui, selon lui, a déclaré des collisions fréquemment et ne prend en charge que certains modes de formation, et a écrit son propre harnais à un point de contrôle souvent et sauter les lots de données qui risquaient de surcharger la mémoire du GPU.

Surtout, en réponse aux questions et aux critiques de la communauté de l’IA sur X, Morris a également précisé qu’il ne prétend pas avoir récupéré le modèle de base «poids» – les paramètres internes des neurones artificiels qui composent le réseau neuronal du modèle et régissent son comportement.

Au contraire, Morris dit que son travail a «récupéré la distribution * du modèle de base * avec une certaine erreur», c’est-à-dire les modèles de probabilité que le modèle utilise pour générer des sorties – même si les poids produisant ces modèles peuvent différer.

Comment le comportement du nouveau modèle GPT-OSS-20B-base diffère du GPT-OSS-20B

La base GPT-ASS-20B résultante est sensiblement plus libre dans ses sorties. Il ne parvient plus à expliquer le raisonnement étape par étape et produira une gamme plus large de réponses, y compris les instructions, le modèle aligné d’Openai refuserait de donner – comme Construire une arme, énumérer les blasphèmes ou planifier des activités illégales.

Dans de courts tests, Morris l’a trouvé pourrait également reproduire les passages verbatim des œuvres protégées par le droit d’auteury compris trois extraits de livres sur six il a essayé, montrant que certains matériaux mémorisés sont toujours accessibles.

Même ainsi, certaines traces d’alignement restent. Morris a noté que si vous invitez le modèle au format de style assistant («humain:… assistant:…»), il agira parfois comme un chatbot poli. Et Lorsqu’il est exécuté dans le modèle de chat GPT-ASS d’origine, il peut toujours effectuer des tâches de raisonnementmais avec une certaine perte de qualité.

Pour de meilleurs résultats en mode texte libre, il conseille la mise en avant des invites avec le jeton de début de séquence spécial du modèle <| startofText |> et d’éviter complètement les modèles de chat.

Construire sur la grande libération de la famille GPT-ASS d’Openai

La famille GPT-ASS a fait ses débuts à une attention considérable. Les deux modèles – GPT-OSS-120B et GPT-OSS-20B – sont uniquement en texte, multilingues et construits avec une architecture de transformateur de mélange. Ils ont été libérés sous la licence APACHE 2.0 permissive, permettant une utilisation locale sans restriction, un réglage fin et un déploiement commercial.

Des références de performance d’OpenAI ont montré la plus grande correspondance du modèle 120B ou dépassant l’O4-Mini propriétaire dans les tâches de raisonnement et d’utilisation des outils, avec le plus petit 20B compétitif avec O3-Mini.

C’était la première libération ouverte d’Openai en six ans, une décision largement interprétée comme Une réponse à la pression concurrentielle des autres fournisseurs de poids ouvert, notamment le R1 et Qwen 3 de la Chine.

L’entreprise a positionné GPT-ASS comme un moyen de réengager les développeurs qui s’étaient déplacés vers des modèles open source rivaux et comme une plate-forme de recherche sur la sécurité sur les systèmes ouverts.

La réaction au GPT-OSS initial a été mélangée

La réaction du développeur aux modèles GPT-ASS d’OpenAI a été fermement mélangée, avec des réactions à tous les niveaux allant de l’enthousiasme à déçu.

Les partisans ont salué la licence permissive, l’efficacité et la forte démonstration sur les références STEM.

Le PDG de Hugging Face Clem DeLangue a décrit la libération comme un «ajout significatif à l’écosystème ouvert» et a exhorté la communauté à lui donner le temps de mûrir.

Les critiques ont fait valoir que les modèles semblent fortement formés sur les données synthétiques, ce qui les rend excellents en mathématiques et en codage, mais moins capables en écriture créative, en connaissances mondiales générales et en raisonnement multilingue.

Certains testeurs précoces ont également soulevé des préoccupations concernant les filtres de sécurité persistants et les biais géopolitiques possibles.

Dans ce contexte, La base GPT-ASS-20B de Morris se distingue comme un exemple concret de la façon dont les modèles de poids ouvert peuvent être adaptés et réutilisés dans la nature dans les jours suivant la libération.

En effet, contrairement à la façon dont GPT-ASS d’Openai a été reçu, la plupart des réponses au travail de Morris que j’ai vues sont chaleureuses et ravies. Comme un informaticien l’a écrit sur X: “C’est la chose la plus cool que j’ai vue sur Twitter (x) au cours des derniers mois.”

L’approche élimine une grande partie du comportement d’Openai intégrée et renvoie le modèle à quelque chose de plus proche d’un système brut et pré-entraîné – un changement qui est précieux pour les chercheurs qui étudient la mémorisation, le biais ou l’impact de l’alignement, mais qui comporte également des risques de sécurité plus élevés.

En outre, Morris dit que son travail sur la restauration des modèles de raisonnement à des modèles de base pré-formés et non relâchés continuera en comparant l’extraction sur les modèles non renvoyés, comme ceux proposés par QWEN.


https://venturebeat.com/wp-content/uploads/2025/08/cfr0z3n_flat_illustration_minimalist_pointillism_gradients_re_cdcd477b-0b29-481d-b04e-ed930ec4dc51_2.png?w=1024?w=1200&strip=all

About The Author

Leave a Reply

Your email address will not be published. Required fields are marked *