Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling Name ቋንቋዎች ELMo متعدد اللغات وآثار أخذ عينات الجسم Multilingual ELMo və Corpus Sampling Etkileri Многоезична ELMO и ефектите от вземането на проби от корпус বহুভাষায় ELMo এবং কোর্পাস সাম্পলিং এর প্রভাব སྐད་རིགས་ཀྱི་སྣ་ཚོགས་ELMo དང་གཟུགས་ཀྱི་དཔེ་དབྱེ་བ། Višejezički ELMo i učinke uzoraka korpusa ELMo multilingüe i els efectes de la mostra de Corpus Vícejazyčné ELMo a účinky vzorkování korpusu Flersproget ELMo og virkningerne af Corpus Sampling Mehrsprachige ELMo und die Auswirkungen von Corpus Sampling Πολυγλωσσική ΕΛMo και οι επιπτώσεις της δειγματοληψίας σώματος eLMO multilingüe y los efectos del muestreo de corpus Mitmekeelne ELMo ja korpuse proovivõtmise mõju ELMo Multilingual و Effects of Corpus Sampling Monikielinen ELMO ja Corpus-näytteenoton vaikutukset ElMo multilingue et les effets de l'échantillonnage de corpus ELMO Ilteangach agus Éifeachtaí Samplála Corpais KCharselect unicode block name ELMo רבות שפות וההשפעות של דגימת קורפוס बहुभाषी ELMo और कॉर्पस नमूनाकरण के प्रभाव Višejezički ELMo i učinak uzoraka korpusa Többnyelvű ELMo és a Corpus Mintavétel hatásai Բազլեզու ELMo-ը և Կորպուսի նմուշների ազդեցությունները ELMo berbilang bahasa dan Efek Sampel Corpus ELMo multilingue e gli effetti del campionamento Corpus 多言語ELMoとコーパスサンプリングの効果 Mulitping elMo lan Effects of corpus Sampling Name Көп тілді ELMo және корпус үлгісінің эффекттері 다국어 ELMo와 자료 라이브러리 추출 효과 Daugiakalbis ELMo ir Corpus mėginių ėmimo poveikis Мултијазична ЕЛМО и ефектите на примерок на корпус കോര്പ്പുസ് മാമ്പിളിങ്ങിന്റെ പ്രഭാഷണങ്ങളും Олон хэлний ELMo болон Corpus Sampling нөлөө ELMo berbilang bahasa dan Kesan Sampel Corpus ELMo multilingwi u l-Effetti tat-Teħid ta’ Kampjuni ta’ Corpus Meertalige ELMo en de effecten van Corpus Sampling Fleirspråk ELMo og effektar for korpussamling Wielojęzyczne ELMo i efekty pobierania próbek korpusowych ELMo multilíngue e os efeitos da amostragem de corpus ELMo multilingvă și efectele eșantionării Corpus Многоязычный ELMo и последствия отбора проб организма Name Večjezični ELMO in učinki vzorčenja korpusa ELMo iyo Effections of Corpus sameynta ELMo shumëgjuhës dhe efektet e kampionatit të Corpus Višejezički ELMo i efekti uzoraka korpusa Flerspråkig ELMo och effekterna av Corpus Sampling Multilingual ELMo and the Effects of Corpus Sampling பல மொழி ELMo மற்றும் கார்புஸ் மாதிரியும் விளைவுகள் Çoklu dilli ELMo ve korpus örneklerinin etkisi Multilingual ELMo and the effects of Corpus Sampling Name Truyền thuyết đa ngôn ngữ và hiệu ứng của Tập Đoàn mẫu 多言 ELMo 与语料库采样
Vinit Ravishankar, Andrey Kutuzov, Lilja Øvrelid, Erik Velldal
Abstract
Multilingual pretrained language models are rapidly gaining popularity in NLP systems for non-English languages. Most of these models feature an important corpus sampling step in the process of accumulating training data in different languages, to ensure that the signal from better resourced languages does not drown out poorly resourced ones. In this study, we train multiple multilingual recurrent language models, based on the ELMo architecture, and analyse both the effect of varying corpus size ratios on downstream performance, as well as the performance difference between monolingual models for each language, and broader multilingual language models. As part of this effort, we also make these trained models available for public use.Abstract
Veelvuldige praatspraak-modelles kry vinnig populariteit in NLP-stelsels vir nie-Engels tale. Die meeste van hierdie modele funksie 'n belangrike korpus versameling stap in die proses van opvoering data in verskillende tale, om te verseker dat die sein van beter hulpbron tale nie slegs hulpbron uitdroog nie. In hierdie studie, ons tref veelvuldige multilinglike herhaalde taal modele, gebaseer op die ELMo-arkitektuur, en analiseer beide die effek van verskillende korpusgrootte verhouding op onderstreem prestasie, asook die prestasie verskil tussen monolinglike modele vir elke taal, en breideer multilinglike taal modele. As deel van hierdie versoek, maak ons ook hierdie opgelei modele beskikbaar vir publieke gebruik.Abstract
የቋንቋ ቋንቋዎች ምሳሌዎች በNLP ስርዓቶች ውስጥ የግልፅ ቋንቋዎች ሳይሆን ፈጥኖ አግኝተዋል፡፡ Most of these models feature an important corpus sampling step in the process of accumulating training data in different languages, to ensure that the signal from better resourced languages does not drown out poorly resourced ones. በዚህ ትምህርት፣ የELMo መሠረታዊ እናሳውቃለን፣ የቆርፓስ መጠቀሚያ ክፍላቸውን በታችኛው ውጤት ላይ እናስተምርማለን፣ እናም በሞሎልቋል ምሳሌዎች መካከል ለቋንቋ እና የበለጠ የቋንቋ ምሳሌዎችን እናሳውቃለን፡፡ እንደዚህ ስርዓት ክፍል፣ እነዚህን ተማሪዎችን የህዝብ ተጠቃሚዎች እናደርጋለን፡፡Abstract
تكتسب النماذج اللغوية متعددة اللغات شعبية بسرعة في أنظمة البرمجة اللغوية العصبية للغات غير الإنجليزية. تتميز معظم هذه النماذج بخطوة مهمة لأخذ عينات المجموعة في عملية تجميع بيانات التدريب بلغات مختلفة ، للتأكد من أن الإشارة من اللغات ذات الموارد الأفضل لا تغرق اللغات ضعيفة الموارد. في هذه الدراسة ، نقوم بتدريب العديد من نماذج اللغة المتكررة متعددة اللغات ، بناءً على بنية ELMo ، ونحلل تأثير نسب حجم الجسم المتغيرة على أداء المصب ، بالإضافة إلى اختلاف الأداء بين النماذج أحادية اللغة لكل لغة ، ونماذج اللغة متعددة اللغات الأوسع. . كجزء من هذا الجهد ، نجعل هذه النماذج المدربة متاحة للاستخدام العام.Abstract
İngilizci dili olmayan NLP sistemlərində çoxlu dil öyrənmiş dil modelləri tez gəlir. Bu modellərin əksəriyyəti müxtəlif dillərdə təhsil məlumatlarını toplamaq üçün möhüm bir korpus nümunələri təhsil etmək üçün, daha yaxşı qüvvətli dillərdən sinyal pis qüvvətli dillərdən istifadə etməyə çalışır. Bu təhsil içində, ELMo arhitektüsünə dayanan çoxlu dil tekrarlı modellərini təhsil edirik və hər dilin monodil modellərinin və çoxlu dil modellərinin müxtəlif ölçülərinin təsirini analiz edirik. Bu çabaların bir parçası olaraq, bu təhsil modelləri də halkı istifadə etmək üçün faydalandırırıq.Abstract
Многоезичните предварително обучени езикови модели бързо набират популярност в системите за НЛП за чужди езици. Повечето от тези модели включват важна стъпка за вземане на проби от корпуси в процеса на натрупване на данни за обучение на различни езици, за да се гарантира, че сигналът от по-добре ресурсирани езици не заглушава слабо ресурсираните. В това проучване ние обучаваме множество многоезични повтарящи се езикови модели, базирани на архитектурата и анализираме както ефекта от вариращите съотношения на размера на корпуса върху ефективността надолу по веригата, така и разликата в ефективността между едноезичните модели за всеки език, и по-широките многоезични езикови модели. Като част от това усилие ние също така правим тези обучени модели достъпни за обществено ползване.Abstract
Multilingual pretrained language models are rapidly gaining popularity in NLP systems for non-English languages. এই মডেলগুলোর বেশীরভাগ গুরুত্বপূর্ণ কোর্পাসের নমুনা প্রক্রিয়া বিভিন্ন ভাষায় প্রশিক্ষণের তথ্য সংগ্রহ করার প্রক্রিয়ায় একটি গুরুত্বপূর্ণ এই গবেষণায় আমরা ইএলমো সংস্কৃতি ভিত্তিতে বেশ কয়েকটি মাল্টিভাষার প্রশিক্ষণ প্রশিক্ষণ প্রদান করি এবং নীচের প্রদর্শনের উপর বিভিন্ন কোর্পাসের আকারের প্রভাব ব বিশ্লেষণ করি, এবং প্রতি ভাষার জন্য মো এই প্রচেষ্টার অংশ হিসেবে আমরা এই প্রশিক্ষিত মডেলগুলো জনগণের ব্যবহারের জন্য পাওয়া যাচ্ছি।Abstract
སྐད་ཡིག་ཆ་ལའང་ཕན་ངལ་ཆེ་བའི་སྐད་ཡིག Most of these models feature an important corpus sampling step in the process of accumulating training data in different languages, to ensure that the signal from better resourced languages does not drown out poorly resourced ones. In this study, we train multiple lingual recurrent language models, based on the ELMo architecture, and analyse both the effect of varying corpus size ratios on downstream performance, as well as the performance difference between monolingual models for each language, and broader multilingual language models. The སྤྱོད་བརྩོན་བྱས་ཆེན་དེ་ལྟར་ང་ཚོས་རྒྱ་ནག་གི་མིག་དཔེ་གཟུགས་རིས་དེ་ཚོ་སྤྱད་ནས་མང་གི་བེད་སྤྱོདAbstract
Mnogi jezički modeli preliječenih jezika brzo dobijaju popularnost u NLP-ovim sistemima za ne-engleski jezici. Većina ovih modela ukazuje na važan korpus uzoraka u procesu akumulacije podataka obuke na različitim jezicima, kako bi se osiguralo da se signal iz boljeg izvođenog jezika ne utopi loše resurse. U ovom studiju treniramo višejezičke rekonstruirane jezičke modele, bazirane na arhitekturi ELMo-a, i analiziramo i učinak različitih koeficijenata veličine korpusa na pokretnoj funkciji, kao i razliku učinka između monojezičkih modela za svaki jezik, i šire multijezičke modele. Kao dio ovog napora, također činimo ove obučene modele dostupnim za javnu korist.Abstract
Els models multilingües de llenguatges pré-entrenats estan guanyant ràpidament popularitat en els sistemes NLP per a llenguatges no angleses. La majoria d'aquests models representa un pas important de recolliment de mostres en el procés d'acumulació de dades d'entrenament en diferents llengües, per assegurar que la senyal de llengües amb millors recursos no s'ofegui a les que no tenen gaire recursos. En aquest estudi, entrenem múltiples models de llenguatge recurrents multilingües, basats en l'arquitectura ELMo, i analitzem tant l'efecte de variacions en les proporcions de mida del corpus en el rendiment avall, com la diferència de rendiment entre models monolingües per cada llenguatge, com models de llenguatge més amplis. Com part d'aquest esforç, també fem disponibles aquests models entrenats per utilitzar al públic.Abstract
Vícejazyčné předtrénované jazykové modely rychle získávají popularitu v NLP systémech pro neanglické jazyky. Většina těchto modelů představuje důležitý krok vzorkování korpusů v procesu shromažďování tréninkových dat v různých jazycích, aby se zajistilo, že signál z lepších zdrojů jazyků neutopí špatně zdrojované jazyky. V této studii trénujeme vícejazyčné recidivující jazykové modely založené na architektuře ELMo a analyzujeme jak vliv různých poměrů velikosti korpusu na následný výkon, tak i výkonnostní rozdíl mezi jednojjazyčnými modely pro každý jazyk a širšími vícejazyčnými modely jazyka. V rámci tohoto úsilí zpřístupníme také tyto školené modely pro veřejné použití.Abstract
Flersprogede prætrænede sprogmodeller vinder hurtigt popularitet i NLP-systemer til ikke-engelske sprog. De fleste af disse modeller indeholder et vigtigt skridt i forbindelse med indsamling af træningsdata på forskellige sprog for at sikre, at signalet fra sprog med bedre ressourcer ikke drukner dem med dårlig ressource. I denne undersøgelse træner vi flere flersprogede tilbagevendende sprogmodeller, baseret på ELMo-arkitekturen, og analyserer både effekten af varierende korpustørrelsesforhold på downstream performance, såvel som performance forskellen mellem ensprogede modeller for hvert sprog, og bredere flersprogede sprogmodeller. Som en del af denne indsats stiller vi også disse uddannede modeller til rådighed for offentlig brug.Abstract
Mehrsprachige vortrainierte Sprachmodelle gewinnen in NLP-Systemen für nicht-englische Sprachen schnell an Popularität. Die meisten dieser Modelle verfügen über einen wichtigen Korpus-Sampling-Schritt bei der Ansammlung von Trainingsdaten in verschiedenen Sprachen, um sicherzustellen, dass das Signal aus besser ausgestatteten Sprachen nicht die schlecht ausgestatteten Sprachen übertönt. In dieser Studie trainieren wir mehrere mehrsprachige wiederkehrende Sprachmodelle, basierend auf der ELMo-Architektur, und analysieren sowohl den Einfluss unterschiedlicher Korpusgrößenverhältnisse auf die nachgelagerte Leistung als auch den Leistungsunterschied zwischen einsprachigen Modellen für jede Sprache und breiteren mehrsprachigen Sprachmodellen. Im Rahmen dieser Bemühungen stellen wir diese trainierten Modelle auch der Öffentlichkeit zur Verfügung.Abstract
Πολυγλωσσικά προσχεδιασμένα γλωσσικά μοντέλα κερδίζουν γρήγορα δημοτικότητα στα συστήματα για μη-αγγλικές γλώσσες. Τα περισσότερα από αυτά τα μοντέλα διαθέτουν ένα σημαντικό βήμα δειγματοληψίας σωμάτων στη διαδικασία συσσώρευσης δεδομένων κατάρτισης σε διαφορετικές γλώσσες, ώστε να διασφαλιστεί ότι το σήμα από γλώσσες με καλύτερες πηγές δεν θα πνίξει τις γλώσσες με φτωχούς πόρους. Στην παρούσα μελέτη, εκπαιδεύουμε πολλαπλά πολύγλωσσα μοντέλα επαναλαμβανόμενης γλώσσας, βασισμένα στην αρχιτεκτονική του και αναλύουμε τόσο την επίδραση των ποικίλων αναλόγων μεγέθους σώματος στις μεταγενέστερες επιδόσεις, όσο και τη διαφορά απόδοσης μεταξύ μονογλωσσών μοντέλων για κάθε γλώσσα και ευρύτερων πολυγλωσσικών μοντέλων. Στο πλαίσιο αυτής της προσπάθειας, θέτουμε επίσης αυτά τα εκπαιδευμένα μοντέλα διαθέσιμα για δημόσια χρήση.Abstract
Los modelos lingüísticos multilingües preentrenados están ganando popularidad rápidamente en los sistemas de PNL para idiomas distintos del inglés. La mayoría de estos modelos presentan un paso importante de muestreo de corpus en el proceso de acumulación de datos de entrenamiento en diferentes idiomas, para garantizar que la señal de los idiomas con mejores recursos no ahogue a los que tienen pocos recursos. En este estudio, entrenamos múltiples modelos lingüísticos recurrentes multilingües, basados en la arquitectura eLMO, y analizamos tanto el efecto de las diferentes proporciones de tamaño de los cuerpos en el rendimiento posterior, como la diferencia de rendimiento entre los modelos monolingües para cada idioma y los modelos lingüísticos multilingües más amplios. . Como parte de este esfuerzo, también hacemos que estos modelos capacitados estén disponibles para el uso público.Abstract
Mitmekeelsed eelõpetatud keelemudelid muutuvad kiiresti populaarseks mitte-inglise keelte NLP süsteemides. Enamik neist mudelitest kujutab endast olulist korpuse proovivõtu etappi koolitusandmete kogumisel erinevates keeltes, tagamaks, et paremate ressurssidega keelte signaal ei summutaks välja halvasti ressurssidega keeli. Käesolevas uuringus koolitame ELMo arhitektuuril põhinevaid mitmekeelseid korduvkeelemudeleid ning analüüsime nii korpuse suuruse erinevate suhete mõju järgnevale jõudlusele kui ka erinevust iga keele ühekeelsete mudelite ja laiemate mitmekeelsete keelemudelite vahel. Nende jõupingutuste osana teeme need koolitatud mudelid avalikuks kasutamiseks kättesaadavaks.Abstract
مدلهای زبانی زیادی پیشفرض زبان به سرعت در سیستمهای NLP برای زبانهای غیر انگلیسی پیدا میکنند. بیشتر از این مدلها یک قدم نمونههای مهم در فرایند آموزش دادههای آموزش در زبانهای مختلف را مشخص میکنند تا مطمئن شود که سیگنال از زبانهای بهترین استفاده از زبانهای استفادهشده بدترین منابع را غرق نمیکند. در این مطالعه، ما مدل های متعدد زبان تکرار را آموزش می کنیم، بر اساس معماری ELMo، و تاثیر اندازه های متفاوت کورپوس را بر عملکرد پایینترین، و تفاوت عملکرد بین مدلهای متعدد زبان برای هر زبان، و مدلهای متعدد زبان بیشتری را تحلیل میکنیم. به عنوان بخشی از این تلاش، ما این مدل های آموزش را برای استفاده عمومی در دسترس می دهیم.Abstract
Monikieliset esikoulutetut kielimallit ovat nopeasti saamassa suosiota muiden kuin englannin kielten NLP-järjestelmissä. Useimmissa malleissa on tärkeä korpusnäytteenottovaihe eri kielillä tapahtuvan koulutustiedon keräämisessä, jotta paremmin resurssoitujen kielten signaali ei hukkaisi heikosti resurssoituja kieliä. Tässä tutkimuksessa koulutamme useita monikielisiä toistuvia kielimalleja, jotka perustuvat ELMo-arkkitehtuuriin, ja analysoimme sekä korpusen koon vaihtelun vaikutusta loppupään suorituskykyyn että yksittäisten kielten monikielisten mallien ja laajemmien monikielisten kielimallien suorituskykyeroa. Osana tätä työtä tarjoamme myös nämä koulutetut mallit julkisesti käyttöön.Abstract
Les modèles linguistiques préformés multilingues gagnent rapidement en popularité dans les systèmes de PNL pour les langues autres que l'anglais. La plupart de ces modèles comportent une étape importante d'échantillonnage de corpus dans le processus d'accumulation de données d'apprentissage dans différentes langues, afin de s'assurer que le signal provenant de langues mieux dotées n'étouffe pas celles qui disposent de ressources insuffisantes. Dans cette étude, nous formons plusieurs modèles linguistiques récurrents multilingues, basés sur l'architecture ElMo, et analysons à la fois l'effet des différents ratios de taille de corpus sur les performances en aval, ainsi que la différence de performance entre les modèles monolingues pour chaque langue, et les modèles linguistiques multilingues plus larges . Dans le cadre de cet effort, nous mettons également ces modèles formés à la disposition du public.Abstract
Tá múnlaí teanga ilteangacha réamhoilte ag dul i méid go tapa i gcórais NLP do theangacha nach Béarla iad. Gné thábhachtach de shampláil corpais atá sa chuid is mó de na samhlacha seo sa phróiseas le sonraí oiliúna a bhailiú i dteangacha éagsúla, lena chinntiú nach báthaíonn an comhartha ó theangacha a bhfuil acmhainní níos fearr acu cinn a bhfuil acmhainní laga acu. Sa staidéar seo, cuirimid oiliúint ar ilmhúnlaí teanga athfhillteacha ilteangacha, bunaithe ar an ailtireacht ELMo, agus déanaimid anailís ar an éifeacht atá ag cóimheasa éagsúla méideanna corpais ar fheidhmíocht iartheachtacha, chomh maith leis an difríocht feidhmíochta idir samhlacha aonteangacha do gach teanga, agus samhlacha teanga ilteangacha níos leithne. . Mar chuid den iarracht seo, cuirimid na múnlaí oilte seo ar fáil don phobal freisin.Abstract
Motolin harshe na ɗabi'a masu fara ƙari cikin tsarin NLP don harshen Ingiriya. Babu yawa daga waɗannan misalin suna da wani matsayi mai muhimu wa nau'in misãlai cikin aikin haɗa data na amfani da harshen dabam-daban, dõmin a yi hakar da alama daga lugha masu da amfani da shi ba ya nutsar masu zartar da masu nau'i. A cikin wannan lõkaci, Munã sanar da misãlai masu cikin harshen da aka dace wa multi-lingui, a kan salon da aka sanya shirin ELMo, kuma munã rarraba mai ƙidãya matsayin rabon nau'in da suka sãɓã wa rabon fassarar nau'in da ke ƙarami, da kuma diɓallin muhimmanci a tsakanin misãlai na monoli-harshe wa kõwane harshe, da kuma masu shimfiɗaɗe misãlai na harshen multilala. Kami rabin wannan aikin, za mu sami waɗannan misãlai waɗanda aka yi wa lõkaci na amfani ga mutane.Abstract
דוגמני שפות רבות שפות מתאמנות מראש מקבלים באופן מהיר פופולריות במערכות NLP לשפות לא אנגליות. רוב הדוגמנים האלה מחזיקים צעד דוגמא חשוב של קורפוס בתהליך האספה של נתונים אימונים בשפות שונות, כדי להבטיח שהאות משפות משאבים טובות יותר לא טבע את אלה שפות לא טובות. במחקר הזה, אנו מאמנים דוגמנים רבים של שפות רבות שפות מתחזרות, מבוססים על ארכיטקטורת ELMo, ונבחן את השפעה של יחסי גודל גודל שונים של קורפוס על ההופעה למטה, כמו גם את ההבדל בין דוגמנים מונושפות לכל שפה, ומדוגמנים רבים שפות רחבים יותר. כחלק מהמאמץ הזה, אנחנו גם מקבלים את הדוגמנים המאמנים האלה זמינים לשימוש ציבורי.Abstract
बहुभाषी पूर्व-प्रशिक्षित भाषा मॉडल गैर-अंग्रेजी भाषाओं के लिए एनएलपी प्रणालियों में तेजी से लोकप्रियता हासिल कर रहे हैं। इनमें से अधिकांश मॉडल विभिन्न भाषाओं में प्रशिक्षण डेटा जमा करने की प्रक्रिया में एक महत्वपूर्ण कॉर्पस नमूना चरण की सुविधा देते हैं, यह सुनिश्चित करने के लिए कि बेहतर संसाधन वाली भाषाओं से सिग्नल खराब संसाधनों वाले लोगों को डूब न जाए। इस अध्ययन में, हम ईएलएमओ आर्किटेक्चर के आधार पर कई बहुभाषी आवर्तक भाषा मॉडल को प्रशिक्षित करते हैं, और डाउनस्ट्रीम प्रदर्शन पर अलग-अलग कॉर्पस आकार अनुपात के प्रभाव, साथ ही साथ प्रत्येक भाषा के लिए मोनोलिंगुअल मॉडल और व्यापक बहुभाषी भाषा मॉडल के बीच प्रदर्शन अंतर दोनों का विश्लेषण करते हैं। इस प्रयास के हिस्से के रूप में, हम इन प्रशिक्षित मॉडलों को सार्वजनिक उपयोग के लिए भी उपलब्ध कराते हैं।Abstract
Mnogi jezički modeli preliječenih jezika brzo dobijaju popularnost u NLP sustavima za non-engleski jezici. Većina ovih modela ukazuje na važan korak uzoraka korpusa u procesu okupljanja podataka obuke na različitim jezicima kako bi se osigurala da se signal iz boljih izvornih jezika ne utopi loše izvornih jezika. U ovom ispitivanju treniramo višestruke višejezičke rekonstruirane jezičke modele na temelju arhitekture ELMo-a i analiziramo učinak različitih koeficijenata veličine korpusa na pokretnoj funkciji, kao i razliku učinka između monojezičkih modela za svaki jezik i šire višejezičke modele. Kao dio tih napora, također činimo te obučene modele dostupnim za javnu korist.Abstract
A többnyelvű előképzett nyelvi modellek gyorsan népszerűsödnek a nem angol nyelvű NLP rendszerekben. E modellek többsége fontos korpuszmintázási lépést jelent a különböző nyelveken történő képzési adatok gyűjtésének folyamatában annak biztosítása érdekében, hogy a jobb erőforrásokkal rendelkező nyelvek jelei ne fojtsák ki a rossz erőforrásokkal rendelkezőket. Ebben a tanulmányban több, többnyelvű visszatérő nyelvi modellt készítünk az ELMo architektúra alapján, és elemezzük mind a különböző korpuszméret arányok hatását a downstream teljesítményre, mind az egyes nyelvek egynyelvű modelljei közötti teljesítménykülönbséget, mind pedig a szélesebb körű többnyelvű nyelvi modelleket. Ennek részeként ezeket a képzett modelleket nyilvános használatra is elérhetővé tesszük.Abstract
Multilingual pretrained language models are rapidly gaining popularity in NLP systems for non-English languages. Այս մոդելների մեծ մասը ներկայացնում է մի կարևոր մարմնի նմուշներ վերցնելու քայլ տարբեր լեզուներով սովորեցման տվյալների հավաքելու գործընթացում, որպեսզի ապահովենք, որ ավելի լավ ռեսուրսների լեզուներից ստացված ազդանշանը վատ ռեսուրսներ չջնջ Այս ուսումնասիրության ընթացքում մենք ուսումնասիրում ենք բազմալեզու կրկնվող լեզվի մոդելներ, հիմնված ELMo ճարտարապետության վրա, և վերլուծում ենք մարմնի տարբեր չափերի հարաբերությունների ազդեցությունը հաջորդ շարժման արտադրողության վրա, ինչպես նաև յուրաքանչյուր լեզվի միալեզվի մոդելների և ավելի լա Այս ջանքերի մի մասը մենք նաև հանրային օգտագործման համար հասանելի ենք դարձնում այս վարժեցված մոդելները:Abstract
Model bahasa berbagai bahasa yang dilatih sebelumnya dengan cepat meningkat popularitas dalam sistem NLP untuk bahasa bukan bahasa Inggris. Kebanyakan dari model ini memiliki langkah sampel corpus yang penting dalam proses mengumpulkan data pelatihan dalam bahasa yang berbeda, untuk memastikan bahwa sinyal dari bahasa yang memiliki sumber daya yang lebih baik tidak menenggelamkan sumber daya yang buruk. Dalam studi ini, kami melatih banyak model bahasa berbagai bahasa yang berkurang, berdasarkan arsitektur ELMo, dan menganalisis efek dari ukuran corpus yang berbeda pada prestasi turun, serta perbedaan prestasi antara model monobahasa untuk setiap bahasa, dan model bahasa berbagai bahasa yang lebih luas. Sebagai bagian dari usaha ini, kami juga membuat model terlatih tersedia untuk penggunaan publik.Abstract
I modelli linguistici multilingue pre-addestrati stanno rapidamente guadagnando popolarità nei sistemi NLP per le lingue non inglesi. La maggior parte di questi modelli presenta un'importante fase di campionamento del corpo nel processo di accumulazione dei dati di formazione in lingue diverse, per garantire che il segnale proveniente da lingue più dotate di risorse migliori non affoghi quelle con risorse scarse. In questo studio, formiamo più modelli multilingue ricorrenti, basati sull'architettura ELMo, e analizziamo sia l'effetto dei diversi rapporti di dimensione del corpo sulle prestazioni a valle, sia la differenza di prestazioni tra modelli monolingue per ogni lingua, sia modelli multilingui più ampi. Come parte di questo sforzo, rendiamo disponibili anche questi modelli addestrati per uso pubblico.Abstract
多言語の事前訓練された言語モデルは、非英語のためのNLPシステムで急速に人気を博しています。これらのモデルのほとんどは、よりリソースの乏しい言語からの信号がリソースの乏しい言語に浸されないようにするために、異なる言語でトレーニングデータを蓄積するプロセスにおける重要なコーパスサンプリングステップを特徴としています。この研究では、ELMoアーキテクチャに基づいて、複数の多言語再帰言語モデルをトレーニングし、下流のパフォーマンスに対するさまざまなコーパスサイズの比率の効果、および各言語の単語モデルとより広範な多言語モデルとの間のパフォーマンスの違いの両方を分析します。この取り組みの一環として、私たちはこれらの訓練されたモデルを公衆が利用できるようにします。Abstract
Mulalapun anyar lengkang dipunangguna kuwi nggawe popularan kanggo sistem NLP kanggo nganggo lengkang Inggris. Banyak kudu model iki, akeh langkung wiyane kuwi nggawe gerakan sampeyan sak tentang ing data nggawe ing langkung sampeyan, kanggo ngerayakno sapa sistem sing luwih apik sing luwih apik dhéwé. Nang barêng-barêng iki, kéné mulalah akeh model sing luwih akeh lang sampeyan karo paké, sing basa sak architecture elMo, lan ujileh sistem banjure nggawe sistem sing dipunangé dimulatan karo paké, lan akeh dhéwé kuwi wis dipunangé sampeyan karo paké, sampeyan ngono kuwi nggawe model sing berarti barêng kuwi nggawe lang sampeyan Nambah ning acara iki, kita lagi nggawe model sing tek gawe nggawe para sa jenengan penggunaAbstract
Multilingual pretrained language models are rapidly gaining popularity in NLP systems for non-English languages. ამ მოდელების უფრო მეტი შესაძლებელია მნიშვნელოვანი კორპოსს გამოყენების ნაწილის მონაცემები განსხვავებული ენების პროცესში, რომ დარწმუნოთ, რომ სიგნალე უფრო მეტი რესურსურსურსურსურს ამ კვლევაში, ჩვენ მრავალენგური რეკურენტი ენის მოდელების მოწყობილობა, ELMo არქტიქტურაზე დაბათებული, და ანალიზაცით ორივე კორპუსს ზომის განსხვავებული პარაციების გამოსახულებაზე, და მონოლენგური მოდელების განსხვავება ყოველ ენ როგორც პროცესის ნაწილი, ჩვენ ასევე ამ მოდელების შესაძლებლობად გავაკეთებთ.Abstract
Көптеген тілдер үлгілері NLP тілдерінде ағылшын тілдері емес тілдерінің мәліметті жетілдіреді. Бұл үлгілердің көпшілігі басқа тілдерде оқыту деректерін біріктіру процесінде маңызды корпус баптау қадамы болады. Бұл үлгілердің көпшілігі жақсы ресурстар тілдерінің сигналының көпшілігін қа Бұл зерттеулерде, ELMo архитектурасына негізделген бірнеше тілді қайталану үлгілерін үйренеміз және қайталану үлгілерінің көптеген корпус өлшемінің көптеген нәтижесін төмендету әрекетінде анализ, әрбір тіл үлгілерінің монолингілі модел Бұл әрекеттердің бір бөлігі ретінде бұл оқылған үлгілерді қолдану үшін қол жеткіземіз.Abstract
다중 언어 예비 훈련 언어 모델은 비영어 NLP 시스템에서 신속하게 유행한다.이들 모델 중 대부분은 중요한 자료 라이브러리 샘플링 절차를 가지고 서로 다른 언어의 훈련 데이터를 축적하는 과정에서 자원이 좋은 언어로부터의 신호가 자원이 나쁜 언어를 침몰시키지 않도록 확보한다.이 연구에서 우리는 ELMo 체계 구조를 바탕으로 여러 개의 다중 언어 순환 언어 모델을 훈련시키고 서로 다른 언어 자료 라이브러리의 크기 비율이 하위 성능에 미치는 영향, 그리고 각 언어의 단일 언어 모델과 더욱 광범위한 다중 언어 모델 간의 성능 차이를 분석했다.이 작업의 일부로서, 우리는 교육을 받은 이 모델들을 대중에게 사용하도록 제공할 것이다.Abstract
Daugiakalbiai ikimokomi kalbų modeliai sparčiai didina populiarumą NLP sistemose ne anglų kalboms. Daugumoje šių modelių imamas svarbus mėginių ėmimo etapas rengiant mokymo duomenis skirtingomis kalbomis, siekiant užtikrinti, kad signalas iš geresnių išteklių turinčių kalbų nebūtų nuskendęs iš prastai išteklių turinčių kalbų. Šiame tyrime rengiame kelis daugiakalbius pasikartojančius kalbų modelius, grindžiamus ELMo architektūra, ir analizuojame įvairių korpuso dydžio santykių poveikį tolesniam veiklos rezultatui, taip pat kiekvienos kalbos vienkalbių modelių ir platesnių daugiakalbių modelių veiklos skirtumą. Šiomis pastangomis mes taip pat viešai naudojame šiuos apmokytus modelius.Abstract
Мултијазичните предобучени јазички модели брзо добиваат популарност во системите на НЛП за неанглиски јазици. Повеќето од овие модели претставуваат важен чекор на примерок на корпус во процесот на акумулација на податоци за обука на различни јазици, со цел да се осигури дека сигналот од подобри ресурси јазици не се дави од лошо ресурсирани јазици. Во оваа студија, тренираме повеќе мултијазични рецидентни јазички модели, базирани на архитектурата на ЕЛМО, и го анализираме ефектот на различните проценти на големината на корпусот на понатамошните резултати, како и разликата на резултатите помеѓу монојазичните модели за секој јазик и пошироките Како дел од овие напори, ги поставуваме и овие обучени модели достапни за јавна употреба.Abstract
ഇംഗ്ലീഷ് അല്ലാത്ത ഭാഷകള്ക്കുള്ള NLP സിസ്റ്റത്തില് പ്രധാനപ്പെട്ട മോഡലുകള് പെട്ടെന്ന് വരുന്നു. ഈ മോഡലുകളില് മിക്കവാറും വ്യത്യസ്ത ഭാഷകളില് പരിശീല വിവരങ്ങള് ശേഖരിക്കുന്ന പ്രക്രിയയില് പ്രധാനപ്പെട്ട ഒരു പ്രധാനപ്പെട്ട കോര്പ്പുസ് ഈ പഠനത്തില് നമ്മള് ഒരുപാട് പല ഭാഷ മോഡലുകള് പരിശീലിപ്പിക്കുന്നു, എഎല്മോ ആര്ക്കിട്ടറിക്ക് അടിസ്ഥാനത്ത്, കോര്പ്പുസിന്റെ വലിപ്പത്തിന്റെ വ്യത്യസ്ത വിഭവങ്ങള് താഴെ പ്രകടനത്തിന്റ ഈ പരിശീലനത്തിന്റെ ഭാഗമായി നമ്മള് ഈ പരിശീലന മോഡലുകള് പൊതുവില് ഉപയോഗിക്കാന് ലഭ്യമാക്കുന്നു.Abstract
Ихэнх хэлний хувьд хэл загварууд нь англи хэл биш болон NLP системд нэр хүндтэй болж байна. Эдгээр загваруудын ихэнх нь өөр хэл дээр сургалтын өгөгдлийг цуглуулахын тулд чухал корпус зураг цуглуулах алхам юм. Энэ судалгаанд бид ELMo архитектурын үндсэн олон хэлний дахин дахин хэл загварын загварыг суралцаж, багасгах үйл ажиллагаанд корпус хэмжээний ялгаатай харьцааны нөлөөг, хэл бүрийн нэг хэл загварын ялгааг, олон хэл загварын загварын ялгааг шинжилдэг. Энэ хичээлийн нэг хэсэг болгон бид эдгээр сургалтын загваруудыг олон нийтийн хэрэглээ ашиглах боломжтой болгодог.Abstract
Model bahasa berbilang yang dilatih dahulu dengan cepat meningkat popularitas dalam sistem NLP untuk bahasa bukan bahasa Inggeris. Kebanyakan model ini mengandungi langkah sampel corpus yang penting dalam proses mengumpulkan data latihan dalam bahasa yang berbeza, untuk memastikan isyarat dari bahasa yang mempunyai sumber sumber yang lebih baik tidak tenggelam keluar yang mempunyai sumber yang tidak baik. In this study, we train multiple multilingual recurrent language models, based on the ELMo architecture, and analyse both the effect of varying corpus size ratios on downstream performance, as well as the performance difference between monolingual models for each language, and broader multilingual language models. Sebahagian daripada usaha ini, kami juga membuat model terlatih tersedia untuk penggunaan awam.Abstract
Il-mudelli multilingwi tal-lingwi mħarrġa minn qabel qegħdin jiksbu popolarità malajr fis-sistemi NLP għal-lingwi mhux Ingliżi. Il-biċċa l-kbira ta’ dawn il-mudelli għandhom pass importanti ta’ teħid ta’ kampjuni korpus fil-proċess ta’ akkumulazzjoni ta’ dejta ta’ taħriġ f’lingwi differenti, biex jiġi żgurat li s-sinjal minn lingwi b’riżorsi aħjar ma jnaqqafx dawk b’riżorsi baxxi. F’dan l-istudju, aħna nħarrġu diversi mudelli multilingwi rikorrenti tal-lingwa, ibbażati fuq l-arkitettura tal-ELMo, u tanalizzaw kemm l-effett ta’ proporzjonijiet differenti tad-daqs tal-corpus fuq il-prestazzjoni downstream, kif ukoll id-differenza fil-prestazzjoni bejn mudelli monolingwi għal kull lingwa, u mudelli usa’ multilingwi. Bħala parti minn dan l-isforz, nagħmlu dawn il-mudelli mħarrġa disponibbli wkoll għall-użu pubbliku.Abstract
Meertalige voorgetrainde taalmodellen winnen snel aan populariteit in NLP-systemen voor niet-Engelse talen. De meeste van deze modellen hebben een belangrijke corpussampling stap in het proces van het verzamelen van trainingsgegevens in verschillende talen, om ervoor te zorgen dat het signaal van beter uitgeruste talen niet overspoelt de slecht uitgeruste talen. In deze studie trainen we meerdere meertalige terugkerende taalmodellen, gebaseerd op de ELMo architectuur, en analyseren we zowel het effect van verschillende corpusgrootteverhoudingen op downstreamprestaties, als het prestatieverschil tussen eentalige modellen voor elke taal, en bredere meertalige taalmodellen. In dit kader stellen we deze getrainde modellen ook beschikbaar voor publiek gebruik.Abstract
Fleirspråksprøvemodular får raskt popularitet i NLP-systemet for ikkje-engelske språk. Dei fleste av desse modelane har ein viktig korpussamling i prosessen for å akumulera opplæringsdata på ulike språk, for å sikre at signalen frå bedre ressurserte språk ikkje døyrer ut slik feil ressurserte. I denne studien treng vi fleire språk gjentakingsmodular, basert på ELMo-arkitekturen, og analyser begge effekten av forskjellige korpusstorleiksforholdet på nedstrekende utviklingar, og forskjellen mellom monospråk-modeller for kvar språk, og breire fleirspråk-modeller. Som del av denne innsatsen gjer vi også desse trengte modelane tilgjengelege for offentlig bruk.Abstract
Wielojęzyczne wstępnie trenowane modele językowe szybko zyskują popularność w systemach NLP dla języków nieangielskich. Większość z tych modeli zawiera ważny etap próbkowania korpusów w procesie gromadzenia danych treningowych w różnych językach, aby zapewnić, że sygnał z lepiej zaopatrzonych języków nie zatopi słabo zasobnych. W niniejszym opracowaniu szkolimy wielojęzyczne modele językowe powtarzające się, oparte na architekturze ELMo, i analizujemy zarówno wpływ różnych współczynników wielkości korpusu na wydajność w dalszym szczeblu, jak i różnicę wydajności pomiędzy modelami jednojęzycznymi dla każdego języka, a szerszymi modelami językowymi wielojęzycznymi. W ramach tego wysiłku udostępniamy również te przeszkolone modele do użytku publicznego.Abstract
Modelos de idiomas pré-treinados multilíngues estão rapidamente ganhando popularidade em sistemas de PNL para idiomas diferentes do inglês. A maioria desses modelos apresenta uma importante etapa de amostragem de corpus no processo de acumulação de dados de treinamento em diferentes idiomas, para garantir que o sinal de idiomas com melhores recursos não sufoque os com poucos recursos. Neste estudo, treinamos vários modelos de idiomas recorrentes multilíngues, com base na arquitetura ELMo, e analisamos o efeito de proporções de tamanho de corpus variáveis no desempenho downstream, bem como a diferença de desempenho entre modelos monolíngues para cada idioma e modelos de idiomas multilíngues mais amplos . Como parte desse esforço, também disponibilizamos esses modelos treinados para uso público.Abstract
Modelele lingvistice pre-instruite multilingve câștigă rapid popularitate în sistemele PNL pentru limbile non-engleze. Majoritatea acestor modele prezintă o etapă importantă de eșantionare a corpurilor în procesul de acumulare a datelor de formare în diferite limbi, pentru a se asigura că semnalul din limbi cu resurse mai bune nu înecă cele cu resurse slabe. În acest studiu, instruim mai multe modele lingvistice recurente multilingve, bazate pe arhitectura ELMo, și analizăm atât efectul diferitelor rapoarte de dimensiune a corpului asupra performanței din aval, cât și diferența de performanță dintre modelele monolingve pentru fiecare limbă, cât și modelele lingvistice multilingve mai largi. Ca parte a acestui efort, punem, de asemenea, aceste modele instruite disponibile pentru uz public.Abstract
Многоязычные предварительно обученные языковые модели быстро набирают популярность в системах NLP для языков, отличных от английского. Большинство из этих моделей представляют собой важный этап отбора проб в процессе накопления учебных данных на различных языках, с тем чтобы сигнал от языков с лучшими ресурсами не заглушал те языки, которые плохо обеспечены ресурсами. В этом исследовании мы обучаем несколько многоязычных рекуррентных языковых моделей, основанных на архитектуре ELMo, и анализируем как влияние различных соотношений размеров корпуса на производительность нижележащего потока, так и разницу в производительности между одноязычными моделями для каждого языка и более широкими многоязычными языковыми моделями. В рамках этих усилий мы также делаем эти обученные модели доступными для публичного использования.Abstract
ගොඩක් භාෂාවක් ප්රීට්රීන් භාෂාවක් මොඩේල්ස් වල NLP පද්ධතියේ ඉංග්රීසි භාෂාවක් නැති විදි මේ මොඩල් වලින් ගොඩක් ප්රශ්ණයක් විවිධ භාෂාවට ප්රශ්ණ දත්ත සම්පූර්ණ කරනවා විවිධිය භාෂාවල් වල සංඥාවක් හොඳ සම්ප මේ පරීක්ෂණයේදී, අපි ගොඩක් භාෂාවක් ප්රතික්රියාත්මක භාෂාවක් මොඩේල්ස්, ELMo විද්යාත්මක විද්යාපිත විශේෂ කරනවා, සහ හ හැම භාෂාවක් විද්යාත්මක ව මේ උත්සහේ කොටසක් විදිහට, අපි මේ ප්රශ්නයක් ප්රයෝජනයට පාවිච්චි කරන්න පුළුවන් වෙනවා.Abstract
Večjezični predtrenirani jezikovni modeli hitro postajajo priljubljeni v sistemih NLP za ne-angleške jezike. Večina teh modelov predstavlja pomemben korpusni korpus vzorčenja v procesu zbiranja podatkov o usposabljanju v različnih jezikih, da se zagotovi, da signal iz boljših virov jezikov ne izgubi slabo virov. V tej študiji usposabljamo večjezične ponavljajoče se jezikovne modele, ki temeljijo na arhitekturi ELMo, in analiziramo učinek različnih razmerj velikosti korpusa na uspešnost v nadaljnjem delu, kot tudi razliko v uspešnosti med enojezičnimi modeli za vsak jezik in širšimi večjezičnimi jezikovnimi modeli. V okviru tega prizadevanja ti usposobljeni modeli dajemo na voljo tudi za javno uporabo.Abstract
Tusaalooyinka luuqadaha afka kala duwan ee lagu soo hor jeeday waxay si dhaqso ah ugu kordhaan nidaamka afka Ingiriiska ee NLP. Tusaaladan intooda badan waxay leeyihiin tusaale ahaan muhiim ah marka lagu soo ururiyo macluumaadka waxbarashada luuqadaha kala duduwan, si uu u xaqiijiyo in sawirka laga soo jeedo luqadaha aad ku habboon tahay uusan u maansheynin midiidinnada caadi ah. Waxbarashadan ayaannu ku tababarinnaa tusaalooyin luuqado ah oo kala duduwan, taasoo ku saleysan dhismaha ELMo, waana baaritaannaa saamaynta farsamada tirada kooxaha ah oo ku saabsan tababarka hoose-socodka, iyo kala duwanaashada muuqashada muuqashada af kasta oo noocyo luqad ah, iyo samooyin luuqad kala duduwan oo kala duduwan. Qayb ka mid ah hawlahan, waxaynu sameynaa qaababkan la tababaray oo lagu isticmaalo guud.Abstract
Modelet e gjuhës me shumëgjuhë të mësuara përpara janë duke fituar shpejt popullaritetin në sistemet NLP për gjuhët jo-angleze. Shumica e këtyre modeleve paraqesin një hap të rëndësishëm mosmarrëveshjeje të trupit në procesin e akumulimit të të dhënave të trainimit në gjuhë të ndryshme, për të siguruar se sinjali nga gjuhët më të burimeve nuk mbytet nga ato me burime të keqe. Në këtë studim, ne trajnojmë shumë modele gjuhësh të përsëritura shumëgjuhësore, bazuar në arkitekturën e ELMo, dhe analizojmë si efektin e proportave të ndryshme të madhësisë së korpusit në performancën poshtë, si dhe dallimin e performancës midis modeleve monogjuhësore për çdo gjuhë dhe modeleve më të gjera shumëgjuhësore të gjuhës. Si pjesë e këtij përpjekjeje, ne gjithashtu i bëjmë këto modele të stërvitur në dispozicion për përdorim publik.Abstract
Mnogi jezički modeli preliječenih jezika brzo dobijaju popularnost u NLP sistemima za ne-engleski jezici. Većina ovih modela ukazuje na važan korak uzoraka korpusa u procesu okupljanja podataka obuke na različitim jezicima, kako bi se osigurala da se signal iz boljih izvornih jezika ne udavi loše resurse. U ovoj studiji treniramo višestruke jezičke rekonstruirane modele, bazirane na arhitekturi ELMo-a, i analiziramo oba učinka različitih koeficijenata veličine korpusa na pokretnoj funkciji, kao i razliku učinka između monojezičkih modela za svaki jezik i šire multijezičke modele. Kao deo ovog napora, takođe ćemo i ovi obučeni modeli biti dostupni za javnu korist.Abstract
Flerspråkiga förkränade språkmodeller ökar snabbt popularitet i NLP-system för icke-engelska språk. De flesta av dessa modeller innehåller ett viktigt provtagningssteg i processen med att samla träningsdata på olika språk, för att säkerställa att signalen från bättre resursbundna språk inte dränker dem som har dåligt resurs. I denna studie tränar vi flera flerspråkiga återkommande språkmodeller, baserade på ELMo-arkitekturen, och analyserar både effekten av olika korpustorleksförhållanden på nedströms prestanda, liksom prestandafördelningen mellan enspråkiga modeller för varje språk, och bredare flerspråkiga språkmodeller. Som en del av detta arbete gör vi också dessa utbildade modeller tillgängliga för allmänheten.Abstract
Mradi wa lugha mbalimbali wa lugha unaongezeka kwa haraka kupata umaarufu katika mfumo wa NLP kwa lugha isiyo ya Kiingereza. Mifano mingi hii ina hatua muhimu ya sampuli katika mchakato wa kukusanya taarifa za mafunzo kwa lugha tofauti, ili kuhakikisha kuwa ishara kutoka lugha nzuri zinazorasiliwa hazitazami rasilimali mbaya. Katika utafiti huu, tunafundisha mifano mingi ya lugha inayoendelea kwa lugha mbalimbali, kwa kutumia muundo wa ujenzi wa ELMo, na uchambuzi wa matokeo mbalimbali ya kiwango cha viwango vya makampuni kwenye utendaji wa mito ya chini, pamoja na tofauti ya utendaji kati ya mifano ya lugha za kimonolinguli kwa kila lugha, na mitindo ya lugha mbalimbali zaidi. Kama sehemu ya juhudi hizi, pia tunatengeneza mifano hii ya mafunzo yanayopatikana kwa matumizi ya umma.Abstract
மொழி மொழி மாதிரி மாதிரிகள் NLP முறைமைகளில் மக்களை விரைவாக அதிகரிக்கும். இந்த மாதிரிகளில் பெரும்பாலான ஒரு முக்கியமான கோப்ஸ் மாதிரி படியை வேறு மொழிகளில் பயிற்சி தரவை சேகரிக்கும் போது, சிறந்த மூலங்களிலிருந்து இந்த ஆராய்ச்சியில், நாம் ELMo உருவாக்கத்தை அடிப்படையில் பல மொழி மொழி மாதிரி மாதிரிகளை பயிற்சி செய்து, மற்றும் விளைவின் வித்தியாசம் கார்ப்ஸ் அளவு விகிதத்தை தாழ்வின் மேலும் ஒவ இந்த முயற்சியின் பகுதியாக, இந்த பயிற்சி மாதிரிகளை பொது பயன்பாட்டிற்கு கிடைக்கும்.Abstract
Çoklu diller öňünden gelen dil nusgalary NLP sistemlerinde iňlisçe ýok diller üçin täzelikde welinýärler. Bu nusgalaryň köp bölegi başga dillerde okuw maglumaty toplamak prosesinde örän möhüm bir korpus örnekleri çykarmak üçin, gowy bilim sisteminden sözleri iň gowy görnüş ýüze çykarmaýar. Bu okuwçyda, biz birnäçe dilli tekrarly dil nusgalaryny öwredýäris, ELMo arhitekturyna daýanýan, we köpüs ululyk nusgalarynyň täsirini aşak täsirinde çykyp bilýäris, we her dil üçin mono dil nusgalarynyň täsirini we uly dil nusgalarynyň täsirini çykarýarys. Bu kynçylygyň bir bölegi bolsa, biz hem bu bilim sistemasy nusgalary halk ulanmak üçin ulaşaýarys.Abstract
بہت سی زبان کی پرٹرین زبان کی موڈل NLP سیستموں میں غیر انگلیسی زبانوں کے لئے مثبت حاصل کر رہے ہیں۔ ان کی اکثریت مدلکوں میں سے ایک اہم کورپوس نمونٹ پلیٹ پڑھنے کی پروسس میں مختلف زبانوں میں آموزش دادہ جمع کرنے کے لئے، اس لئے مطمئن ہونا کہ بہترین رسسورٹ زبانوں سے سیگنالک برابر رسسورٹ نہیں کر سکتا۔ اس تحقیقات میں ہم بہت سی زبان کی دوبارہ تکرار کی زبان مدل کی تعلیم دیتے ہیں، ELMo معماری پر بنیاد رکھتے ہیں، اور ان دونوں کی مختلف کورپوس کی اندازہ نسبتوں کا تفسیر ڈال دیتے ہیں، اور ہر زبان کے ایک زبان کی مدل کے درمیان ایک زبان کے متفاوت تفاوت، اور بہت زیادہ زبان کی مدل کے اس تلاش کی ایک حصہ کے طور پر، ہم نے ان ترسیم نمونڈوں کو عمومی استعمال کے لئے بھی موجود بنایا ہے.Abstract
Bir necha tillar o'zgarilgan tillar modellari ingliz tillar uchun NLP tizimlarida juda tez yaxshi ko'paytadi. Ushbu modellarning ko'pchiligi boshqa tillarda ta'lim maʼlumotni birlashtirish jarayonida muhim kompyuterga ega bo'ladi, va yaxshi murakkab boʻlgan tillardan signalni o'rganish uchun juda ko'p murakkab narsalarni o'chirib boʻlmaydi. Bu taʼminotda, biz ELMo arkitekturi asosida bir nechta tildagi takrorlanadigan tilning modellarini o'rganamiz, va ko'pchilik oʻlchami rasmlarining natijasini o'zgartirib o'rganamiz, va har bir tillar uchun monolingual modellar orasidagi diqqat o'zgarishni va ko'plab tillar modellarini o'zgartirish. Bu jarayonning bir qismi sifatida, biz bu ta'lim modellarni public foydalanish uchun imkoniyat qilamiz.Abstract
Các mô hình ngôn ngữ đa ngôn ngữ trước đã nhanh chóng trở nên phổ biến trong hệ thống ngôn ngữ không-Anh. Hầu hết các mô hình này đều có một bước tiến quan trọng trong quá trình tích tụ dữ liệu đào tạo ở các ngôn ngữ khác nhau, để đảm bảo tín hiệu từ những ngôn ngữ có nguồn lực tốt hơn không bị thiếu nguồn lực. Trong nghiên cứu này, chúng tôi đào tạo nhiều mô- đun ngôn ngữ đệ nhất, dựa trên kiến trúc ElMo, và phân tích cả ảnh hưởng của tỉ lệ quy mô hình thể khác nhau trên chiều theo dòng, cũng như sự khác biệt hiệu suất giữa các mô- ngôn ngữ ngữ cho mỗi ngôn ngữ, và các mô hình ngôn ngữ đa dạng rộng hơn. Trong nỗ lực này, chúng tôi cũng đưa những mô hình được đào tạo này ra cho công chúng.Abstract
多言预训语言模型在非英语语言者NLP统中速普。 大抵积言练数,有大语料库采样步骤,以保其善言不没其乏也。 于此论之,吾于ELMo架构多习语言循环语言模样,并分别了不同语料库大小比率对下流性能的影响,及每种语言的单语模形和更广的多言语模形的性能差异。 以此为事者,吾以此给公众。- Anthology ID:
- 2021.nodalida-main.41
- Volume:
- Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)
- Month:
- May 31--2 June
- Year:
- 2021
- Address:
- Reykjavik, Iceland (Online)
- Venue:
- NoDaLiDa
- SIG:
- Publisher:
- Linköping University Electronic Press, Sweden
- Note:
- Pages:
- 378–384
- Language:
- URL:
- https://aclanthology.org/2021.nodalida-main.41
- DOI:
- Bibkey:
- Cite (ACL):
- Vinit Ravishankar, Andrey Kutuzov, Lilja Øvrelid, and Erik Velldal. 2021. Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 378–384, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden.
- Cite (Informal):
- Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling (Ravishankar et al., NoDaLiDa 2021)
- Copy Citation:
- PDF:
- https://aclanthology.org/2021.nodalida-main.41.pdf
- Data
- XNLI
- Terminologies:
Export citation
@inproceedings{ravishankar-etal-2021-multilingual, title = "Multilingual ELMo and the Effects of Corpus Sampling{ELM}o and the Effects of Corpus Sampling", author = "Ravishankar, Vinit and Kutuzov, Andrey and {\O}vrelid, Lilja and Velldal, Erik", booktitle = "Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)", month = may # " 31--2 " # jun, year = "2021", address = "Reykjavik, Iceland (Online)", publisher = {Link{\"o}ping University Electronic Press, Sweden}, url = "https://aclanthology.org/2021.nodalida-main.41", pages = "378--384", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="ravishankar-etal-2021-multilingual"> <titleInfo> <title>Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling</title> </titleInfo> <name type="personal"> <namePart type="given">Vinit</namePart> <namePart type="family">Ravishankar</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Andrey</namePart> <namePart type="family">Kutuzov</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Lilja</namePart> <namePart type="family">Øvrelid</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Erik</namePart> <namePart type="family">Velldal</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2021-may 31–2 jun</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa)</title> </titleInfo> <originInfo> <publisher>Linköping University Electronic Press, Sweden</publisher> <place> <placeTerm type="text">Reykjavik, Iceland (Online)</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">ravishankar-etal-2021-multilingual</identifier> <location> <url>https://aclanthology.org/2021.nodalida-main.41</url> </location> <part> <date>2021-may 31–2 jun</date> <extent unit="page"> <start>378</start> <end>384</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling %A Ravishankar, Vinit %A Kutuzov, Andrey %A Øvrelid, Lilja %A Velldal, Erik %S Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa) %D 2021 %8 may 31–2 jun %I Linköping University Electronic Press, Sweden %C Reykjavik, Iceland (Online) %F ravishankar-etal-2021-multilingual %U https://aclanthology.org/2021.nodalida-main.41 %P 378-384
Markdown (Informal)
[Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling](https://aclanthology.org/2021.nodalida-main.41) (Ravishankar et al., NoDaLiDa 2021)
- Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling (Ravishankar et al., NoDaLiDa 2021)
ACL
- Vinit Ravishankar, Andrey Kutuzov, Lilja Øvrelid, and Erik Velldal. 2021. Multilingual ELMo and the Effects of Corpus SamplingELMo and the Effects of Corpus Sampling. In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), pages 378–384, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden.