Nouveau système de mégaoctets de Meta : une percée dans la surmontation des obstacles pour les GPT

2023-06-07, 00:51

Les GPT peuvent traduire des textes, résumer des données et créer du contenu adapté à diverses fins telles que le marketing.

Megabyte de Meta vise à surmonter les obstacles auxquels d’autres systèmes GPT comme le GPT-4 d’OpenAi et ChatGPT sont confrontés.

Megabyte est différent des autres modèles GPT car il n’utilise pas la tokenisation.

Le modèle Megabyte comprend un transformateur local, un intégrateur de correctifs et un transformateur global.

Introduction

L’innovation technologique a révolutionné la façon dont les êtres humains interagissent et accomplissent diverses tâches, personnelles ou professionnelles. L’intelligence artificielle, également appelée apprentissage automatique, est capable d’accomplir différentes activités telles que la rédaction d’essais ou l’établissement de plans financiers. Dans cet article, nous discutons de l’importance du Transformateur Pré-entraîné Génératif (GPT) dans le traitement du langage naturel et de ses applications. Nous nous concentrerons également sur le système megabyte de Meta qui surmonte plusieurs obstacles pour les GPT.

Importance des GPT dans le traitement du langage naturel

Les transformateurs pré-entraînés génératifs (GPT) ont de nombreux avantages dans divers secteurs de l’économie car ils améliorent la productivité et augmentent la sensibilisation sociale. Tout d’abord, il est important de savoir que les GPT créent des textes semblables à ceux des humains sur divers sujets.

Les GPT utilisent divers paramètres pour traiter les données et les présenter de manière facilement compréhensible. Il existe différentes applications qui utilisent les GPT pour créer de la valeur pour les êtres humains et la société en général.

Fondamentalement, les GPT sont des composants importants des applications basées sur l’intelligence artificielle qui permettent de traduire des informations d’une langue à une autre. Ils permettent également de générer et de résumer de grandes quantités de données en informations facilement compréhensibles. Dans certains cas, les GPT permettent de générer du contenu adapté à différentes fins telles que des poèmes, des publications de blog, des essais universitaires, du matériel marketing et des mèmes, entre autres.

Les entreprises peuvent également utiliser des GPT pour alimenter des chatbots et des assistants virtuels capables d’interagir avec de vraies personnes de manière conversationnelle, les aidant à comprendre différents aspects commerciaux ou sociaux. À des fins commerciales, ils peuvent générer une analyse de sentiment sur n’importe quel sujet ou domaine d’intérêt. Par exemple, il existe des protocoles pilotés par l’IA qui génèrent des sentiments sur le marché des cryptomonnaies, ce qui permet aux traders et autres investisseurs de prendre des décisions d’investissement éclairées.

D’autres cas d’utilisation des GPT dans le traitement du langage naturel et les applications d’IA incluent la création de contenu pour la commercialisation de produits, le service client, l’analyse des informations financières ainsi que l’extraction et la génération de rapports de données, entre autres.

Limitations des modèles traditionnels de GPT

Bien qu’il y ait divers types de GPT créés par différentes plateformes telles que ChatGPT et Openai, la plupart d’entre elles ont de sérieuses limitations.

Les modèles actuels de l’IA générative les meilleurs y compris GPT-4 d’OpenAI et ChatGPT utilise l’architecture Transformer qui a été introduite par les chercheurs de Google. L’augmentation des échelles d’auto-attention et de la longueur des entrées et sorties crée un défi car chaque mot a besoin d’attention. Fondamentalement, ce système fonctionne bien lorsque peu de mots sont utilisés en entrée.

Cependant, la méthode Megabyte utilise une architecture différente qui divise les séquences d’entrées et de sorties en patches plutôt qu’en jetons. Ainsi, elle peut gérer beaucoup plus de mots que les modèles actuels.

De plus, l’approche de Meta résout le problème de scalabilité qui est courant parmi la plupart des modèles actuellement sur le marché. Fondamentalement, le modèle Megabyte permet à un seul réseau feedforward d’agir sur un patch composé de plusieurs jetons. Par conséquent, le système Megabyte de Meta fonctionne en parallèle plutôt que séquentiellement. Cela augmente son efficacité même si le modèle de base a de nombreux paramètres.

Lire aussi: Le Meta Metaverse : Sur quoi travaille l’entreprise ?

Certains modèles, tels que les réseaux de neurones profonds, sont complexes à comprendre et à expliquer, ce qui peut réduire la confiance, la responsabilité et soulever des préoccupations éthiques. Par conséquent, il est nécessaire de disposer de modèles plus simples comme Meta Ai, qui sont faciles à expliquer. C’est parce que la plupart des utilisateurs aimeraient savoir comment fonctionne un système pour lui faire confiance.

Un autre problème est que certains de ces modèles nécessitent beaucoup de données pour être validés et entraînés. Néanmoins, de telles données peuvent ne pas être disponibles, ce qui réduit leur efficacité. De plus, les problèmes liés à la confidentialité, aux biais, au bruit, à la sécurité ainsi qu’à l’incomplétude des données affectent négativement la robustesse et les performances de la plupart des modèles GPT.

La plupart des modèles d’IA traditionnels sont coûteux et consomment beaucoup d’énergie lorsqu’ils effectuent les calculs. Cela est dû au fait que la plupart des systèmes sont intensifs en calcul. En conséquence, ils consomment de nombreuses ressources et augmentent les coûts environnementaux.

De plus, la plupart de ces modèles ont une faible interopérabilité en raison des différences dans leur normalisation. Ainsi, il est très difficile pour eux de s’intégrer car ils utilisent des langages, des frameworks et des formats différents. Cependant, des formats ouverts comme ONNX ou des compilateurs universels peuvent améliorer leur communication.

Il est important de réaliser que l’architecture de Meta AI est créée de manière à surmonter la plupart de ces problèmes.

Système Megabyte de Meta

Meta AI a développé un nouveau Système GPT appelé le Megabyte dans le but de contourner la tokenisation utilisée par la plupart des modèles GPT. Son système de transformation pré-entraîné génératif (GPT) traite de grands volumes de données comme des vidéos et des textes tels que des romans sans utiliser la tokenisation.

En tant que point, la tokenisation fonctionne de manière similaire à la compression de fichiers en convertissant de grandes quantités de données en jetons. Le transformateur traite les jetons pour créer des jetons de sortie que le système décode.

Normalement, la tokenisation permet aux modèles d’IA de convertir de grandes chaînes de données en nombres. Par exemple, un système peut convertir une phrase comme “Ma couleur préférée est le rouge” en une chaîne de jetons tels que 3666, 4004, 3124, 318, 2266, 13, qui est ensuite traitée.

Cependant, avec cette méthode, il y a une limite sur la quantité de données qu’elle traite. Par exemple, la limite de GPT-3.5 est entre 3 000 et 4 000 mots, tandis que celle de GPT-4 est entre 24 000 et 32 000.

En revanche, Meta a abandonné la tokenisation au profit de la nouvelle architecture de prédiction multicouche qui dépend de la modélisation de bout en bout de plus d’un million d’octets de données. C’est une grande réalisation compte tenu qu’il peut traiter un document composé jusqu’à 750 000 mots. Cela signifie que le système Megabyte peut traiter des données contenues dans trois romans de taille moyenne.

Comme noté, Megabyte surmonte les obstacles de la tokenisation résultant de ses limites de données strictes, du temps nécessaire pour former les systèmes et de la consommation énergétique élevée. De plus, sans tokenisation, il est possible de former des modèles d’IA pour prendre en charge des langues autres que l’anglais qui peuvent être encodées dans des caractères standard sur 8 bits, par exemple.

L’intelligence artificielle crypto de Meta étendra les opportunités existantes tout en démocratisant davantage diverses technologies de blockchain. Par exemple, les développeurs peuvent introduire des robots de trading de cryptomonnaies dans leurs langues maternelles telles que le russe ou le français. Plus important encore, les organisations autonomes décentralisées (DAO) peuvent également coder leurs protocoles dans des langues locales.

Comment fonctionne le système Meta Megabyte

Megabyte, l’architecture de décodage multiscale, modélise des séquences de plus d’un million d’octets tout en maintenant une différentiabilité de bout en bout. Elle utilise des transformateurs multiscales qui intègrent différents niveaux au sein de leur architecture, modélisant ainsi les motifs globaux et locaux des données.

En gros, le modèle Megabyte comprend trois composants, à savoir un module local, un module d’incrustation de correctif et un module global (transformateur global). Le module local, également appelé transformateur local, prédit les octets dans chaque correctif, tandis que le module d’incrustation est responsable de l’encodage des correctifs en combinant des incrustations d’octets. Enfin, le module global, également connu sous le nom de transformateur global, entre et sort les différentes représentations de correctifs.

Le diagramme suivant montre un aperçu du mégaoctet.

Le diagramme ci-dessus montre certains des composants clés de Megabyte. Une expérience récente a montré que Megabyte peut être 40% plus rapide que le modèle Transformer. Il est cependant essentiel de noter que le Megabyte utilisé pendant l’expérience avait 1,5 milliard de paramètres tandis que le transformateur en avait 350 millions.

Dans l’ensemble, le Megabyte présente plusieurs avantages par rapport aux transformateurs traditionnels. Par exemple, il réduit les coûts de calcul de l’auto-attestation, ce qui rend possible le traitement de longues séquences.

Deuxièmement, il utilise des couches d’avancement par chemin plutôt que par position, ce qui permet une utilisation efficace des ressources de calcul.

De plus, cela améliore une plus grande parallélisme pendant le traitement ce qui conduit à une génération de séquence plus rapide tout en maintenant des performances élevées.

L’architecture Megabyte améliore l’évolutivité, réduit la consommation de ressources et permet une communication fluide avec diverses applications basées sur GPT. Elle réalise certains de ces avantages en divisant de longues séquences en deux séquences plus courtes, ce qui réduit les coûts d’auto-attention. De plus, le partage de paramètres et les algorithmes de compression réduisent les besoins en ressources des GPT.

Conclusion

Le mégaoctet de Meta utilise le système de transformation pré-entraîné génératif pour traiter de grandes quantités de données sans utiliser la tokenisation. Au lieu de cela, il utilise une architecture de prédiction multi-niveaux qui minimise les coûts, améliore la vitesse, améliore l’efficacité ainsi que l’augmentation de la scalabilité et de l’interopérabilité.


Auteur:Mashell C., Chercheur de Gate.io
Cet article ne représente que les opinions du chercheur et ne constitue pas de suggestions d'investissement.
Gate.io se réserve tous les droits sur cet article. La reprise de l'article sera autorisée à condition que Gate.io soit mentionné. Dans tous les cas, des poursuites judiciaires seront engagées pour violation des droits d'auteur.


Partager
Contente
gate logo
Gate
Effectuer une transaction
Rejoindre Gate pour gagner des récompenses