Probing Multilingual Sentence Representations With X-ProbeX-Probe Probeer Multilingual Sentence Representations met X- Probe ዶሴ `%s'ን ማስፈጠር አልተቻለም፦ %s التحقيق في تمثيلات الجمل متعددة اللغات باستخدام X-Probe X-Probe il톛 칞oxlu dil s칬zl톛r temsill톛rini s캼namaq Проучване на многоезични изображения на присъди с Х-сонда এক্স- প্রোবের সাথে বহুভাষী শাস্তি প্রতিনিধির প্রতিনিধি প্রমাণ করা হচ্ছে Probing Multilingual Sentence Representations With X-Probe Proba višejezičkih predstavljanja kazne sa X-sondom Probar representacions de sentences multilingües amb X-Probe Snímání vícejazyčných reprezentací vět s X-Probe Undersøgelse af flersprogede sætningsrepræsentationer med X-Probe Testen mehrsprachiger Satzdarstellungen mit X-Probe Δοκιμή πολυγλωσσικών αναπαραστάσεων προτάσεων με το X-Probe Sondeo de representaciones de oraciones multilingües con X-Probe Mitmekeelsete lauseesinduste uurimine X-Probe abil امتحان نمایشهای کلمههای زیادی زبان با X-Probe Monikielisten lauseesitysten kartoittaminen X-Probe-ohjelmalla Sondage de représentations de phrases multilingues avec X-Probe Léiriúcháin Pianbhreithe Ilteangacha a Scrúdú Le X-Probe KCharselect unicode block name ניסוי מייצגות משפטים רבות עם X-Probe एक्स-प्रोब के साथ बहुभाषी वाक्य अभ्यावेदन की जांच करना Ispitivanje višejezičkih predstavljanja kazne s X-probom Többnyelvű mondatábrázolások vizsgálata X-szondával X-SondeComment Mencoba Representasi Hukuman Berbahasa Dengan X-Probe Sondare le rappresentazioni di frasi multilingue con X-Probe X - Probeを使用した多言語の文章表現のプローブ Test Multilanguage Sentense representations with X-Test X- Probe X- Probe арқылы көп тілдік сөз кеңейтулерін тексеру X-Probe로 다국어 문장 표징 탐지 Daugiakalbių sakinių reprezentacijų bandymas X- probe Истражување на мултијазични реченици со X- Probe എക്സ്- പ്രോബെയുമായി പല ഭാഷകളുടെ വാക്കുകള് പ്രതിനിധികള് പരിശോധിക്കുന്നു X-Probe-тэй олон хэлний өгүүлбэр төлөвлөгөөний шалгалт Menguji Perwakilan Hukuman Berbahasa Dengan X-Probe Probar ta’ Rappreżentazzjonijiet ta’ Sentenza Multilingwi b’X-Probe Meertalige zinsvertegenwoordigingen met X-Probe testen Prøver fleirspråk setningar med X-probe Badanie wielojęzycznych reprezentacji zdań za pomocą X-Probe Sondando representações de sentenças multilíngues com o X-Probe Analizarea reprezentărilor sentințelor multilingve cu X-Probe Зондирование многоязычных представлений предложений с помощью X-Probe X- ප්රෝබ් එක්ක ගොඩක් භාෂාවික වාර්තාව ප්රතිස්ථාපනය කරන්න Preverjanje večjezičnih predstavitev kazni z X-Probe Ka baaraandegista xisaabta daryeelka luuqadaha badan ee X-Probe Duke provuar përfaqësime të dënimeve shumëgjuhëse me X-Probe Provjeravanje višejezičkih predstavljanja kazne sa X-sondom Undersöka flerspråkiga meningsrepresentationer med X-Probe Kudhibiti maoni ya hukumu ya lugha mbalimbali na X-Probe X- Probe உடன் பல மொழியின் வாக்குறிப்புகளை பரிசோதிக்கிறது X-Prob bilen köp dilli ifade temsilleri synanyşdyrylýar X-Probe کے ساتھ Multilingual Sentence Representations Name Truyền đơn phát âm ngôn ngữ chung Với x-Probe 用 X 探针探多言句
Abstract
This paper extends the task of probing sentence representations for linguistic insight in a multilingual domain. In doing so, we make two contributions : first, we provide datasets for multilingual probing, derived from Wikipedia, in five languages, viz. English, French, German, Spanish and Russian. Second, we evaluate six sentence encoders for each language, each trained by mapping sentence representations to English sentence representations, using sentences in a parallel corpus. We discover that cross-lingually mapped representations are often better at retaining certain linguistic information than representations derived from English encoders trained on natural language inference (NLI) as a downstream task.Abstract
Hierdie papier verleng die taak van probeering van teikens voorstellings vir lingvisiese insig in 'n multilingse domein. Wanneer ons dit doen, maak ons twee byvoegings: eerste, ons verskaf datastelle vir multilinglike probering, afgelei van Wikipedia, in vyf tale, viz. Engels, Frans, Duits, Spaanse en Russies. Tweede, ons evalueer ses setkoders vir elke taal, elke onderwerp deur te maak setnings voorstellings tot Engelske setnings voorstellings, gebruik setnings in 'n parallele korpus. Ons ontdek dat kruistalelik gemaakte voorstellings dikwels beter is by die houding van sekere lingvisiese inligting as voorstellings wat van Engelske koders afgelei is van natuurlike taal inferensie (NLI) as 'n onderstreem taak.Abstract
ይህ ገጽ ለቋንቋዊ ቋንቋ አየር መልዕክቶችን በሚያሳየው ቋንቋ ቋንቋ አየር ማሳየትን ይዘረጋል፡፡ እንደዚሁም ሁለትን አዋጅ እናደርጋለን፤ አስቀድመን ከWikipedia፣ በአምስት ቋንቋ፣ የቋንቋ ቋንቋ ለብዙ ቋንቋ ተፈተና እናደርጋለን፡፡ እንግሊዘኛ፣ ፈረንሳይ፣ ጀርመን፣ ስፓኒሽ እና ራሽኛ ሁለተኛ፣ ለቋንቋው ሁሉ የስድስት የፍርድ ቃላት አካባቢዎችን እናስተምርላቸዋለን፣ ሁሉም ለንግግሊዝኛ ቃላት መልዕክቶችን በመስመር እናስተምርበታለን፡፡ የቋንቋ ቋንቋ-ቋንቋ የተቀረጸው መልዕክቶች ብዙ ጊዜ ከኢንጂልኛ የቋንቋ አካባቢ (NLI) የፍጥረታዊ ቋንቋ ውሽት እንዲያስተማሩ የሚሻሉትን የቋንቋ መረጃዎችን በመቀበል አግኝተናል፡፡Abstract
توسع هذه الورقة مهمة التحقيق في تمثيلات الجمل من أجل البصيرة اللغوية في مجال متعدد اللغات. عند القيام بذلك ، نقدم مساهمتين: أولاً ، نقدم مجموعات بيانات للتحقيق متعدد اللغات ، مشتق من ويكيبيديا ، بخمس لغات ، أي. الإنجليزية والفرنسية والألمانية والإسبانية والروسية. ثانيًا ، نقوم بتقييم ستة مشفرات جمل لكل لغة ، يتم تدريب كل منها عن طريق تعيين تمثيلات الجملة لتمثيلات الجملة الإنجليزية ، باستخدام جمل في مجموعة موازية. نكتشف أن التمثيلات المعينة عبر اللغات غالبًا ما تكون أفضل في الاحتفاظ بمعلومات لغوية معينة من التمثيلات المستمدة من برامج التشفير الإنجليزية المدربة على استدلال اللغة الطبيعية (NLI) كمهمة نهائية.Abstract
Bu kağıt çoxlu dil domenində dil fikirləri təşkil etmək üçün cümlələri təşkil etmək işini genişləyir. Beləliklə, biz iki işə yararıq: ilk dəfə, Wikipediyadan gələn çoxlu dil probası üçün verilən verilənlər təmin edirik. İngilizce, Fransızca, Almanca, İspanyolca və Rusça. İkincisi, hər dil üçün altı cümləlik kodlayıcını değerləşdiririk, hər cümlənin İngilizce cümlələrinin göstərişlərini, paralel korpusda cümlələri istifadə edirik. Biz çoxlu dil müəyyənləşdirilmiş göstəricilərin əksəriyyət dil məlumatlarını İngilizə kodlayıcılarından təhsil edilmiş, doğal dil inferensi (NLI) ilə təhsil edilmiş göstəricilərdən daha yaxşıdır.Abstract
Настоящата статия разширява задачата за проучване на репрезентациите на изречения за лингвистично проникване в многоезична област. По този начин правим два приноса: първо, предоставяме набори от данни за многоезично проучване, получени от Уикипедия, на пет езика, т.е. Английски, френски, немски, испански и руски. Второ, оценяваме шест кодера на изречения за всеки език, всеки обучен чрез картографиране на изображенията на изреченията към английските изображения на изреченията, използвайки изречения в паралелен корпус. Откриваме, че междуезично картографираните изображения често са по-добри в запазването на определена езикова информация, отколкото изображенията, получени от английски кодери, обучени за извеждане на естествен език (НЛИ) като задача надолу по веригата.Abstract
এই পত্রিকাটি একটি বহুভাষাভাষী ডোমেইনে ভাষাভাষিক দৃষ্টিভঙ্গির প্রতিনিধিত্ব প্রকাশ করার কাজ বাড়িয়ে দেয়। এভাবে আমরা দুটি অবদান প্রদান করি: প্রথমে আমরা বহুভাষাভাষায় পরীক্ষার জন্য তথ্য প্রদান করি, যা উইকিপিডিয়া থেকে পাঁচ ভাষায় উৎপাদন ইংরেজি, ফরাসি, জার্মান, স্প্যানিশ এবং রুশ। দ্বিতীয়, আমরা প্রত্যেক ভাষার জন্য ছয়টি বাক্য এনকোডের মূল্যায়ন করি, প্রত্যেকটি প্রশিক্ষণ ইংরেজি বাক্যের প্রতিনিধিত্বে প্রতিনিধিত্ আমরা আবিষ্কার করেছি যে প্রাকৃতিক ভাষায় প্রতিনিধিত্বের প্রতিনিধিত্ব বিশেষ ভাষার তথ্য রাখার চেয়ে প্রাকৃতিক ভাষার আক্রান্ত (এনলিআই) কাজAbstract
ཤོག་བྱང་འདིས་སྐད་རིགས་སྐད་ཀྱི་ཆ་འཕྲིན་ཡིག་ཆ་ལ་བསམ་བློ་གཏོང་གི་ལས་འགུལ་སྒྲུབ་གཏོང་བ་དང་། བྱས་ཙང་བཟུང་ན། ང་ཚོས་རྗེས་སུ་འབྲེལ་བ་གཉིས་བྱིན་པ་ཡིན། སྔོན་དང་། ང་ཚོས་སྐད་ཡིག་ཆ་ལྷག དབྱིན་ཡིག་དང་། ཕ་རིས་དང་། ཇར་མིན། སྐད་ཡིག་དང་། སྐད་ཡིག་དང་། རུ་ཤོས་ཡིག། Second, we evaluate six sentence encoders for each language, each trained by mapping sentence representations to English sentence representations, using sentences in a parallel corpus. ང་ཚོས་རང་ཉིད་ཀྱི་སྐད་རིགས་སྦྱར་བའི་བརྗོད་རྟགས་ཀྱི་རྣམ་པ་མང་ཙམ་རྙེད་ཐུབ་པ་ཡིན།Abstract
Ovaj papir proširi zadatak provjere predstavljanja kazne za jezički uvid u multijezičkom domenu. Učineći to, mi donosimo dva doprinosa: prvo, pružamo podatke za multijezičke probe, iz Wikipedije, na pet jezika, viz. Engleski, francuski, nemački, španjolski i ruski. Drugo, procjenjujemo šest kodera rečenica za svaki jezik, svaki obučen mapiranjem predstavljanja rečenica engleskoj rečenici, koristeći rečenice u paralelnom korpusu. Otkrili smo da su transjezički mapirani predstavnici često bolji u zadržavanju određenih jezičkih informacija nego predstavljanja iz engleskih kodera obučenih na inferenciji prirodnog jezika (NLI) kao niz zadatak.Abstract
Aquest paper estén la tasca d'investigar representacions de frases per a la comprensió lingüística en un domini multilingüi. En fer-ho, fem dues contribucions: primer, proporcionem conjunts de dades per a investigar multillengües, derivats de Wikipedia, en cinc llengües, a saber, anglès, francès, alemany, espanyol i rus. Segon, evaluem sis codificadors de frases per cada llenguatge, cada una entrenada mapeant representacions de frases a representacions de frases angleses, utilitzant frases en un corpus parallel. Descobrim que les representacions mapeades de llenguatge sovint són millors en conservar certa informació lingüística que les de codificadors anglesos entrenats en inferència de llenguatge natural (NLI) com a tasca avall.Abstract
Tento článek rozšiřuje úlohu zkoumání reprezentace vět pro jazykový vhled ve vícejazyčné doméně. Přitom poskytujeme dva příspěvky: nejprve poskytujeme datové sady pro vícejazyčné sondování, odvozené z Wikipedie, v pěti jazycích, tj. Angličtina, francouzština, němčina, španělština a ruština. Za druhé vyhodnocujeme šest kódérů vět pro každý jazyk, každý z nich trénuje mapováním reprezentací vět na anglické reprezentace vět, pomocí vět v paralelním korpusu. Zjišťujeme, že cross-jazyčně mapované reprezentace jsou často lepší v uchovávání určitých jazykových informací než reprezentace odvozené z anglických kodérů trénovaných na inferenci přirozeného jazyka (NLI) jako následný úkol.Abstract
Denne artikel udvider opgaven med at undersøge sætningsrepræsentationer for sproglig indsigt i et flersproget domæne. Derved bidrager vi med to bidrag: For det første leverer vi datasæt til flersproget undersøgelse, afledt fra Wikipedia, på fem sprog, dvs. Engelsk, fransk, tysk, spansk og russisk. For det andet evaluerer vi seks sætningskodere for hvert sprog, hver trænet ved at kortlægge sætningsrepræsentationer til engelske sætningsrepræsentationer ved hjælp af sætninger i et parallelt korpus. Vi opdager, at tværsproget kortlagte repræsentationer ofte er bedre til at bevare visse sproglige oplysninger end repræsentationer afledt af engelske kodere, der er uddannet i naturlig sprog inference (NLI) som en downstream opgave.Abstract
Diese Arbeit erweitert die Aufgabe, Satzdarstellungen auf linguistische Einsichten in einem mehrsprachigen Bereich zu untersuchen. Dabei leisten wir zwei Beiträge: Erstens stellen wir aus Wikipedia abgeleitete Datensätze für mehrsprachige Sondierungen in fünf Sprachen zur Verfügung, nämlich: Englisch, Französisch, Deutsch, Spanisch und Russisch. Zweitens evaluieren wir sechs Satzkodierer für jede Sprache, die jeweils durch Zuordnung von Satzrepräsentationen zu englischen Satzrepräsentationen trainiert werden, wobei Sätze in einem parallelen Korpus verwendet werden. Wir entdecken, dass crosslingual abgebildete Repräsentationen oft besser darin sind, bestimmte sprachliche Informationen zu speichern als Repräsentationen, die von englischen Encodern abgeleitet wurden, die auf Natural Language Inference (NLI) als nachgelagerte Aufgabe trainiert wurden.Abstract
Η παρούσα εργασία επεκτείνει το έργο της διερεύνησης αναπαραστάσεων προτάσεων για γλωσσική διορατικότητα σε έναν πολυγλωσσικό τομέα. Κάνοντας αυτό, κάνουμε δύο συνεισφορές: πρώτον, παρέχουμε σύνολα δεδομένων για πολύγλωσση ανίχνευση, που προέρχονται από τη Βικιπαίδεια, σε πέντε γλώσσες, δηλαδή. Αγγλικά, Γαλλικά, Γερμανικά, Ισπανικά και Ρωσικά. Δεύτερον, αξιολογούμε έξι κωδικοποιητές προτάσεων για κάθε γλώσσα, ο καθένας εκπαιδευμένος αντιστοιχίζοντας τις αναπαραστάσεις προτάσεων σε αγγλικές αναπαραστάσεις προτάσεων, χρησιμοποιώντας προτάσεις σε παράλληλο σώμα. Ανακαλύπτουμε ότι οι διασταυρούς χαρτογραφημένες αναπαραστάσεις είναι συχνά καλύτερες στη διατήρηση ορισμένων γλωσσικών πληροφοριών από τις αναπαραστάσεις που προέρχονται από αγγλικούς κωδικοποιητές εκπαιδευμένους στην εξαγωγή συμπερασμάτων φυσικής γλώσσας (NLI) ως μεταγενέστερη εργασία.Abstract
Este artículo amplía la tarea de sondear las representaciones de oraciones para obtener una visión lingüística en un dominio multilingüe. Al hacerlo, hacemos dos contribuciones: primero, proporcionamos conjuntos de datos para sondeos multilingües, derivados de Wikipedia, en cinco idiomas, a saber, inglés, francés, alemán, español y ruso. En segundo lugar, evaluamos seis codificadores de oraciones para cada idioma, cada uno entrenado mediante el mapeo de representaciones de oraciones con representaciones de oraciones en inglés, utilizando oraciones en un corpus paralelo. Descubrimos que las representaciones mapeadas interlingüísticamente a menudo son mejores para retener cierta información lingüística que las representaciones derivadas de codificadores ingleses entrenados en inferencia de lenguaje natural (NLI) como una tarea posterior.Abstract
Käesolev töö laiendab ülesannet proovida lauseesitusi keelelise ülevaate mitmekeelses valdkonnas. Seda tehes anname kaks panust: esiteks pakume andmekogumeid mitmekeelseks uurimiseks, mis on tuletatud Wikipediast, viies keeles, st. Inglise, prantsuse, saksa, hispaania ja vene keel. Teiseks hindame iga keele kohta kuut lausekodeerijat, igaüks neist on koolitatud kaardistades lausekujutised inglise keele lausekujutisteks, kasutades lauseid paralleelses korpuses. Me avastame, et keeleüleselt kaardistatud esindused on sageli paremad teatud keelelise teabe säilitamisel kui inglise keele kodeerijad, kes on koolitatud loomuliku keele järeldust (NLI) käsitleva ülesandena.Abstract
این کاغذ وظیفهی تحقیق نمایشهای جملههای زبانشناسی در یک دامنهی بسیاری زبانشناسی را گسترش میدهد. در این صورت، ما دو کمک می کنیم: اول، ما مجموعههای دادهها را برای امتحان کردن زیادی زبان میدهیم، از ویکیپدییا، در پنج زبان، وی. انگلیسی، فرانسوی، آلمان، اسپانیایی و روسی. دوم، ما شش عبارتکنندهی جمله را برای هر زبان ارزیابی میکنیم، هر کدام را با نقشهبندی کردن جملهها به نمایشدهندگان جملههای انگلیسی آموزش میدهیم، با استفاده از جملهها در یک جسد متفاوت ما کشف میکنیم که نمایشهای مختلف زبانهای نقشهبندی اغلب در نگه داشتن اطلاعات زبانشناسی بهتر است از نمایشهای انگلیسی که از رمزکنندههای انگلیسی آموزش داده شدهاند که بر عفونت زبان طبیعی (NLI) به عنوانAbstract
Tämä artikkeli laajentaa tehtäväänsä tutkia lauseiden representaatioita kielellistä ymmärrystä monikielisellä alueella. Näin tehdessämme teemme kaksi työtä: ensinnäkin tarjoamme datakokonaisuuksia monikielistä kartoitusta varten, johdettuja Wikipediasta, viidellä kielellä, eli. Englanti, ranska, saksa, espanja ja venäjä. Toiseksi arvioimme kutakin kieltä kohti kuutta lauseenkooderia, joista jokainen on koulutettu kartoittamalla lauseesityksiä englanninkielisiin lauseesityksiin rinnakkaisen korpusen lauseita käyttäen. Havaitsemme, että monikielisesti kartoitetut representaatiot säilyttävät usein paremmin tietyn kielitiedon kuin englanninkielisistä koodereista saadut representaatiot, jotka on koulutettu luonnollisen kielen päättelyyn (NLI).Abstract
Cet article élargit la tâche consistant à sonder les représentations de phrases à des fins de compréhension linguistique dans un domaine multilingue. Ce faisant, nous apportons deux contributions : premièrement, nous fournissons des ensembles de données pour le sondage multilingue, dérivés de Wikipédia, en cinq langues, à savoir l'anglais, le français, l'allemand, l'espagnol et le russe. Ensuite, nous évaluons six encodeurs de phrases pour chaque langue, chacun étant entraîné en mappant des représentations de phrases avec des représentations de phrases anglaises, en utilisant des phrases dans un corpus parallèle. Nous découvrons que les représentations cartographiées entre langues sont souvent plus aptes à conserver certaines informations linguistiques que les représentations dérivées d'encodeurs anglais formés à l'inférence de langage naturel (NLI) en tant que tâche en aval.Abstract
Síneann an páipéar seo an tasc chun léirithe abairtí a scrúdú le haghaidh léargas teangeolaíoch i bhfearann ilteangach. Agus é sin á dhéanamh againn, déanaimid dhá ionchur: ar dtús, cuirimid tacair sonraí ar fáil don scrúdú ilteangach, díorthaithe ó Vicipéid, i gcúig theanga, viz. Béarla, Fraincis, Gearmáinis, Spáinnis agus Rúisis. Ar an dara dul síos, déanaimid measúnú ar shé ionchódóir abairtí do gach teanga, gach ceann díobh oilte trí uiríll abairtí a mhapáil go huiríll abairtí Béarla, ag baint úsáide as abairtí i gcorpas comhthreomhar. Faighimid amach gur minic gur fearr le huiríll mapáilte trasteangacha faisnéis áirithe teanga a choinneáil ná léirithe a thagann ó ionchódóirí Béarla atá oilte ar thátal teanga nádúrtha (NLI) mar thasc iartheachtacha.Abstract
Wannan takardan na shimfiɗa aikin jarraba masu gaya wa maganar cikin linguistic da ke cikin wata shekara mulki. In doing so, we make two contributions: first, we provide datasets for multilingual probing, derived from Wikipedia, in five languages, viz. @ item Spelling dictionary Dukkan na, Munã ƙaddara kodi sita ga kodi ga kowace harshen, kõwace an yi wa shirin karatun da kunyar maganar da aka halatar da masu maganar Ingiriya, sunã yi amfani da cire cikin fanel. Tuna gane cewa masu karatun misalin harsunan da aka yi fassara a cikin linguin, ko da yawa sun fi alhẽri a riƙe wasu information na lugha masu tsari ko da aka yi wa kodi na Ingiriya wanda aka yi wa tunkuɗe wa misalin harshen asimi (NLI) kamar wani aikin na ƙarami.Abstract
This paper extends the task of probing sentence representations for linguistic insight in a multilingual domain. בכך שאנחנו עושים שתי תרומות: ראשית, אנחנו מספקים קבוצות נתונים עבור חקירה רבת-שפותית, שנוצרה בוויקיפדיה, בחמש שפות, כלומר. אנגלית, צרפתית, גרמנית, ספרדית ורוסית. שנית, אנו מעריכים שישה קודים משפטים לכל שפה, כל אחד מאומן על ידי מיפות מייצגים משפטים לייצגים משפטים אנגליים, בשימוש משפטים בקורפוס מקביל. אנו מגלים שהמיפות במפות בין שפות הן לעתים קרובות יותר טובות לשמור על מידע שפותי מסוים מאשר מיצוגים שנוצרים ממקודדים אנגליים מאומנים על משקעה שפות טבעית (NLI) בתור משימה מתחתונה.Abstract
यह पेपर बहुभाषी डोमेन में भाषाई अंतर्दृष्टि के लिए वाक्य प्रतिनिधित्व की जांच के कार्य का विस्तार करता है। ऐसा करने में, हम दो योगदान देते हैं: सबसे पहले, हम बहुभाषी जांच के लिए डेटासेट प्रदान करते हैं, जो विकिपीडिया से व्युत्पन्न है, पांच भाषाओं में, अर्थात् अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश और रूसी। दूसरा, हम प्रत्येक भाषा के लिए छह वाक्य एनकोडर का मूल्यांकन करते हैं, प्रत्येक को अंग्रेजी वाक्य प्रतिनिधित्व के लिए वाक्य प्रतिनिधित्व को मैप करके प्रशिक्षित किया जाता है, एक समानांतर कॉर्पस में वाक्यों का उपयोग करके। हमें पता चलता है कि क्रॉस-लिंगुअल रूप से मैप किए गए अभ्यावेदन अक्सर एक डाउनस्ट्रीम कार्य के रूप में प्राकृतिक भाषा अनुमान (एनएलआई) पर प्रशिक्षित अंग्रेजी एनकोडर से प्राप्त प्रतिनिधित्व की तुलना में कुछ भाषाई जानकारी को बनाए रखने में बेहतर होते हैं।Abstract
Ovaj papir proširi zadatak provjere zastupanja kazne za jezički uvid u multijezičkom domenu. Učineći to, donosimo dva doprinosa: prvo, pružamo podatke za multijezičke probe, iz Wikipedije, na pet jezika, viz. Engleski, francuski, njemački, španjolski i ruski. Drugo, procjenjujemo šest kodera rečenica za svaki jezik, svaki obučen zastupanjem rečenice na zastupanje engleske rečenice, koristeći rečenice u paralelnom korpusu. Otkrili smo da su transjezički mapirani predstavnici često bolji u zadržavanju određenih jezičkih informacija nego predstavljanja iz engleskih kodera obučenih na inferenciji prirodnog jezika (NLI) kao niz zadatak.Abstract
A tanulmány kiterjeszti a mondatok reprezentációinak vizsgálatát egy többnyelvű területen. Ennek során két hozzájárulást teszünk: először is, a Wikipédiából származó, többnyelvű mérésekhez szükséges adatkészleteket biztosítunk öt nyelven, azaz. Angol, francia, német, spanyol és orosz. Másodszor hat mondatkódolót értékelünk minden nyelvhez, amelyeket a mondatok ábrázolásával angol mondatok ábrázolásával képezünk, párhuzamos korpuszban lévő mondatokat használva. Felfedeztük, hogy a többnyelvűen leképezett reprezentációk gyakran jobban megőrzik bizonyos nyelvi információkat, mint a természetes nyelvi következtetésre (NLI) képzett angol kódolóktól származó reprezentációk.Abstract
Այս աշխատանքը ընդլայնում է նախադասությունների ներկայացումների ուսումնասիրությունը լեզվաբանական ընկալության համար բազլեզու ոլորտում: Այդպես անելով, մենք երկու ներդրում ենք կատարում. առաջինը, մենք տրամադրում ենք բազմալեզու ուսումնասիրության տվյալների համակարգեր Վիքիփեդիայից ստացված հինգ լեզուներով, Անգլերեն, ֆրանսերեն, գերմաներեն, իսպաներեն և ռուսերեն: Երկրորդ, մենք գնահատում ենք յուրաքանչյուր լեզվի վեց նախադասությունների կոդավորները, յուրաքանչյուրը պատրաստված է նախադասությունների ներկայացումների քարտեզագրման միջոցով անգլերեն նախադասությունների ներկայացումների վրա, օգտագործելով Մենք բացահայտում ենք, որ երկլեզվային քարտեզագրված ներկայացումները հաճախ ավելի լավ են պահպանում որոշակի լեզվական ինֆորմացիա, քան ներկայացումները, որոնք ստացվում են անգլերենի կոդերներից, ովքեր սովորեցրել են բնական լեզվային հետևանքների (ՆԼԱAbstract
Kertas ini memperluas tugas untuk memeriksa representation kalimat untuk pemahaman bahasa dalam domain berbilang bahasa. Dalam melakukan hal itu, kami membuat dua kontribusi: pertama, kami menyediakan set data untuk penyelidikan berbagai bahasa, berasal dari Wikipedia, dalam lima bahasa, viz. Bahasa Inggris, Perancis, Jerman, Spanyol dan Rusia. Kedua, kami mengevaluasi enam pengkode kalimat untuk setiap bahasa, masing-masing dilatih dengan memetakan perwakilan kalimat ke perwakilan kalimat Inggris, menggunakan kalimat dalam korpus paralel. Kami menemukan bahwa representation yang dipetakan secara saling bahasa sering lebih baik dalam memelihara informasi bahasa tertentu daripada representation yang berasal dari pengekode Inggris dilatih pada kesimpulan bahasa alam (NLI) sebagai tugas turun.Abstract
Questo articolo estende il compito di sondare le rappresentazioni delle frasi per la comprensione linguistica in un dominio multilingue. In questo modo, forniamo due contributi: in primo luogo, forniamo set di dati per sondare multilingue, derivati da Wikipedia, in cinque lingue, vale a dire. Inglese, francese, tedesco, spagnolo e russo. In secondo luogo, valutiamo sei encoder di frasi per ogni lingua, ognuno addestrato mappando le rappresentazioni di frasi alle rappresentazioni di frasi inglesi, utilizzando frasi in un corpus parallelo. Scopriamo che le rappresentazioni cross-lingually mapped sono spesso migliori nel conservare determinate informazioni linguistiche rispetto alle rappresentazioni derivate da encoder inglesi addestrati sull'inferenza della lingua naturale (NLI) come attività a valle.Abstract
この論文では、多言語領域における言語学的洞察のために文章表現を調査するタスクを拡張した。その際、私たちは2つの貢献をします。まず、ウィキペディアから派生した多言語プロービングのためのデータセットを5つの言語で提供します。英語、フランス語、ドイツ語、スペイン語、ロシア語。第二に、私たちは各言語の6つの文章エンコーダを評価します。各エンコーダは、平行コーパス内の文章を使用して、文章表現を英語の文章表現にマッピングすることによって訓練されます。私たちは、下流タスクとして自然言語推論( NLI )で訓練された英語エンコーダから派生した表現よりも、クロスリンガルにマッピングされた表現の方が、特定の言語情報を保持することに優れていることを発見します。Abstract
This paper expans the task of testing words representations for language information in a multilanguage domain. Awak dhéwé, ngéwé ngerasakno kaya sistem sing sampeyan luwih: first, awak dhéwé ngewehke dataset kanggo nyengguna bantêr dilané, sithik ning limi, njujian. Piwulang, Perancis, Pawulang, Kasil lan Rus. Sikondh, awak dhéwé kuwi nggawe sesuk dolanan koder kanggo saben langga, saben kelas kotak nggawe dolanan nggawe dolanan inggiles Awak dhéwé éntukno karo pasangan-pakan mapaké karo ingkang luwih bantuan ing nggawe informasi ingkang karo kesempatan sing katêpakan karo ingkang koder sing dipatensak tarjamahan karo langgambar nglanga (NLI) nganggep bantuan kuwi dianggap.Abstract
ეს დაახლოები მრავალენგური დიომინში სიტყვების გამოსახულების გამოყენება. ამას ვაკეთებთ, ჩვენ ვაკეთებთ ორი დამატებით: პირველი, ჩვენ ვაკეთებთ მონაცემები მრავალენგური პრობენტის დამატებით, ვიკიპედიაზე, ხუთი ენით, ანუ. ანგლისური, ფრანგური, გერმანური, სპანელი და პროსური. მეორე, ჩვენ ყოველ ენერგიის შვიდი სიტყვების კოდერების გამოყენება, ყოველ სიტყვების გამოყენებას ანგლისური სიტყვების გამოყენებას, რომელიც პარალელი კორპუსში გამოყ ჩვენ აღმოჩნეთ, რომ კრისი ენგუმენტიკური გამოსახულებები ძალიან უკეთესი ინფორმაციაში, ვიდრე ინგლისური ენგუმენტიკური ინფორმაციის გამოსახულებები, როგორც ინგლისური ენგუმენტიკურიAbstract
Бұл қағаз бірнеше тілдік доменде лингвистикалық түсініктерді тексеру тапсырмасын кеңейтеді. Бұл істеу үшін біз екі қатынас жасаймыз: біріншіден, бірнеше тілдерде, Википедиядан келтірілген, бес тілдерде, т. б. Ағылшын, француз, неміс, испан және руссия. Екіншіден, біз әрбір тіл үшін алты сөз кодерін бағалаймыз, әрбір сөздерді ағылшын сөздерінің келтірімдеріне картап, параллель корпус үшін сөздерді қолданып, ағылшын сөздерін Біз тілдерді көптеген картасының кейбір лингвистикалық мәліметтерін қалдыру үшін ағылшын кодерінен келтірілген мәліметтерден (NLI) бақылау тапсырмасы ретінде ұқсас етілген ағылшын кодерінен келтіріAbstract
본고는 다언어 분야에서 문장 표징을 탐색하여 언어의 통찰력을 얻는 임무를 확장시켰다.이렇게 하는 과정에서 우리는 두 가지 공헌을 했다. 첫째, 우리는 위키백과에서 온 다섯 가지 언어의 다중 언어 탐지 데이터 집합, 즉 다음과 같다.영어, 프랑스어, 독일어, 스페인어, 러시아어.그 다음에 우리는 각 언어의 6개의 문장 인코더를 평가했고 인코더는 평행 어료 라이브러리의 문장을 사용하여 문장 표시를 영어 문장 표시에 비추어 훈련했다.우리는 크로스 언어 매핑 표시가 보통 자연 언어 추리 (NLI) 를 하위 임무로 훈련하는 영어 인코더에서 추출한 표시보다 일부 언어 정보를 보존할 수 있다는 것을 발견했다.Abstract
Šiame dokumente išplečiama užduotis ištirti sakinių atstovavimus kalbiniam supratimui daugiakalbėje srityje. Taip prisidedame prie dviejų dalykų: pirma, teikiame duomenų rinkinius daugiakalbiams tyrimams, gautiems iš Vikipedijos, penkiomis kalbomis, t. y. anglų, prancūzų, vokiečių, ispanų ir rusų. Antra, mes vertiname kiekvienos kalbos šešis sakinius koduojančius kodus, kiekvieną iš jų apmokytus apibūdinant sakinių atstovavimus anglų kalbos sakinių atstovavimams, naudojant sakinius lygiagrečiame korpuse. Mes suprantame, kad tarpkalbiniu požiūriu žemėlapiuose nurodyti atstovai dažnai geriau saugo tam tikrą kalbinę informaciją nei atstovai, gaunami iš anglų koduotojų, mokomų gamtinės kalbos išvados (NLI) kaip tolesnės veiklos.Abstract
Овој документ ја проширува задачата за проверка на претставувањата на речениците за јазичкиот поглед во мултијазичен домен. Со тоа, ние даваме два придонеси: прво, ние обезбедуваме податоци за мултијазични истражувања, изведени од Википедија, на пет јазици, а потоа Англиски, француски, германски, шпански и руски. Second, we evaluate six sentence encoders for each language, each trained by mapping sentence representations to English sentence representations, using sentences in a parallel corpus. Откриваме дека меѓујазички мапираните претставувања честопати се подобри во зачувувањето на одредени јазички информации отколку претставувањата од англиските кодери обучени на природна инференција на јазикот (НЛИ) како понатамошна задача.Abstract
ഈ പത്രത്തില് വാക്കുകളുടെ പ്രതിനിധികളെ പരിശോധിപ്പിക്കുന്നതിനുള്ള ജോലിയാണ് ഒരു പല ഭാഷ്ടംഭാഷയുടെ കാഴ്ചകളി അങ്ങനെ ചെയ്യുന്നതിനാല് നമ്മള് രണ്ടു ഭാഗങ്ങള് ചെയ്യുന്നു. ആദ്യം വിക്കിപിഡിയയില് നിന്നും അഞ്ചു ഭാഷകളില് നിന്നും വര്ദ്ധ ഇംഗ്ലീഷ്, ഫ്രെഞ്ച്, ജര്മ്മന്, സ്പാനിഷ്, റഷ്യന്. രണ്ടാമതായി, ഓരോ ഭാഷയ്ക്കും ആറു വാക്ക് കോഡോര്ഡുകള് നമുക്ക് പരിശീലിക്കുന്നു. ഓരോ വാക്കുകളും ഇംഗ്ലീഷ് വാക്കുകളുടെ പ്രതിനിധികള്ക്ക നമ്മള് കണ്ടെത്തുന്നത് ക്രിസ്ലൈന് ഭാഷയില് മാപ്പിക്കപ്പെട്ട പ്രതിനിധികള് എപ്പോഴും നല്ലതാണെന്നാണ്. ഇംഗ്ലീഷ് കോഡോര്ഡുകളില് നിന്നും പ്രാAbstract
Энэ цаас хэлний хэлний тухай хэлний ойлголтын үзүүлэлтийг судалж үзэх үйлдлийг нэмэгдүүлдэг. Үүнийг хийхэд бид хоёр дасгал хийдэг. Эхлээд бид Википедиадаас гарсан олон хэл судалгааны өгөгдлийн сангуудыг тавьдаг. Англи, Француз, Герман, Испан, Орос. Хоёрт, бид хэл бүрт зургаан өгүүлбэрийн коддогчийг үнэлдэг. Хоёр бүрт өгүүлбэрийг Англи хэлний илтгэлийн төлөөлөл дээр зургаан өгүүлбэрийн коддогчийг хэрэглэдэг. Бид хэл дээр хэлбэрээр газрын зураг зураг хийсэн үзүүлэлт нь англи хэл халдварын тухай илүү олон хэл мэдээллийг хадгалахын тулд ихэвчлэн илүү сайн байдаг.Abstract
Kertas ini memperluas tugas untuk mengesan perwakilan kalimat untuk pemahaman bahasa dalam domain berbilang bahasa. In doing so, we make two contributions: first, we provide datasets for multilingual probing, derived from Wikipedia, in five languages, viz. Bahasa Inggeris, Perancis, Jerman, Sepanyol dan Rusia. Kedua, kita menilai enam pengekod kalimat untuk setiap bahasa, setiap dilatih dengan memetakan perwakilan kalimat kepada perwakilan kalimat Inggeris, menggunakan kalimat dalam korpus selari. Kami menemukan bahawa perwakilan yang dipetakan secara melintasi bahasa sering lebih baik dalam menyimpan maklumat bahasa tertentu daripada perwakilan yang berasal dari pengekod Inggeris dilatih pada kesimpulan bahasa semulajadi (NLI) sebagai tugas turun.Abstract
Dan id-dokument jestendi l-kompitu li jiġu eżaminati r-rappreżentazzjonijiet tas-sentenzi għal għarfien lingwistiku f’qasam multilingwistiku. Filwaqt li nagħmlu dan, nagħmlu żewġ kontribuzzjonijiet: l-ewwel, nagħmlu settijiet ta’ dejta għal sondaġġ multilingwi, derivat mill-Wikipedia, f’ħames lingwi, jiġifieri: Ingliż, Franċiż, Ġermaniż, Spanjol u Russu. It-tieni nett, nagħmlu evalwazzjoni ta’ sitt kodifikaturi tas-sentenzi għal kull lingwa, kull waħda mħarrġa bl-immappjar tar-rappreżentazzjonijiet tas-sentenzi għal rappreżentazzjonijiet tas-sentenzi Ingliżi, bl-użu ta’ sentenzi f’korpus parallel. Aħna niskopru li r-rappreżentazzjonijiet imfassla b’mod translingwistiku ta’ spiss huma a ħjar fiż-żamma ta’ ċerta informazzjoni lingwistika minn rappreżentazzjonijiet derivati minn kodifikaturi Ingliżi mħarrġa fuq l-inferenza lingwistika naturali (NLI) bħala kompitu downstream.Abstract
Dit artikel breidt de taak uit om zinsrepresentaties te onderzoeken op taalkundig inzicht in een meertalig domein. Daarbij leveren we twee bijdragen: ten eerste leveren we datasets voor meertalige sondering, afgeleid van Wikipedia, in vijf talen, namelijk. Engels, Frans, Duits, Spaans en Russisch. Ten tweede evalueren we zes zinsencoders voor elke taal, elk getraind door zinsrepresentaties in kaart te brengen naar Engelse zinsrepresentaties, met behulp van zinnen in een parallel corpus. We ontdekken dat cross-lingual gematchte representaties vaak beter zijn in het behouden van bepaalde taalinformatie dan representaties afgeleid van Engelse encoders die getraind zijn op Natural Language Inference (NLI) als downstream taak.Abstract
Denne papiret utvidar oppgåva for å prøve setningar for sprøytebruk i ein fleirspråk domene. I å gjøre det, gjer vi to bidrag: først, gjev vi datasett for fleirspråksprobering, utvikla frå Wikipedia, i fem språk, dvs. Engelsk, fransk, tysk, spansk og russisk. Andre, vi evaluerer seks setningskooder for kvar språk, kvar treng ved å kartera setningssrepresentasjonar til engelsk setningssrepresentasjonar, med setningar i eit parallell korpus. Vi oppdager at krysspråk karterte representasjonar er ofte bedre ved å beholda nokre språk-informasjon enn representasjonar utførte frå engelske koder som treng på naturspråk-infeksjon (NLI) som nedstrekkoppgåve.Abstract
Niniejszy artykuł rozszerza zadanie badania reprezentacji zdań pod kątem wglądu językowego w domenę wielojęzyczną. W ten sposób wnosimy dwa wkłady: po pierwsze, dostarczamy zbiory danych do wielojęzycznego sondowania, pochodzące z Wikipedii, w pięciu językach, tj. Angielski, francuski, niemiecki, hiszpański i rosyjski. Po drugie, oceniamy sześć koderów zdań dla każdego języka, każdy trenowany przez mapowanie reprezentacji zdań do angielskich reprezentacji zdań, używając zdań w równoległym korpusie. Odkrywamy, że reprezentacje mapowane między językami są często lepsze w przechowywaniu pewnych informacji językowych niż reprezentacje pochodzące z angielskich koderów przeszkolonych na wnioskach języka naturalnego (NLI) jako dalszego zadania.Abstract
Este artigo estende a tarefa de sondar representações de sentenças para insights linguísticos em um domínio multilíngue. Ao fazer isso, fazemos duas contribuições: primeiro, fornecemos conjuntos de dados para sondagem multilíngue, derivados da Wikipedia, em cinco idiomas, viz. Inglês, francês, alemão, espanhol e russo. Em segundo lugar, avaliamos seis codificadores de sentenças para cada idioma, cada um treinado mapeando representações de sentenças para representações de sentenças em inglês, usando sentenças em um corpus paralelo. Descobrimos que as representações mapeadas em vários idiomas costumam ser melhores em reter certas informações linguísticas do que as representações derivadas de codificadores de inglês treinados em inferência de linguagem natural (NLI) como uma tarefa downstream.Abstract
Această lucrare extinde sarcina de sondare a reprezentărilor frazelor pentru perspectiva lingvistică într-un domeniu multilingv. Astfel, facem două contribuții: în primul rând, furnizăm seturi de date pentru sondarea multilingvă, derivate din Wikipedia, în cinci limbi, și anume. Engleză, franceză, germană, spaniolă şi rusă. În al doilea rând, evaluăm șase codificatori de propoziții pentru fiecare limbă, fiecare instruit prin maparea reprezentărilor propozițiilor la reprezentările propozițiilor în limba engleză, folosind propoziții într-un corpus paralel. Descoperim că reprezentările mapate între limbi sunt adesea mai bune la păstrarea anumitor informații lingvistice decât reprezentările derivate din encoder englezi instruiți pe inferența limbii naturale (NLI) ca o sarcină în aval.Abstract
Эта статья расширяет задачу зондирования представлений предложений для лингвистического понимания в многоязычной области. При этом мы делаем два вклада: во-первых, мы предоставляем наборы данных для многоязычного зондирования, полученные из Википедии, на пяти языках, а именно. Английский, французский, немецкий, испанский и русский. Во-вторых, мы оцениваем шесть кодеров предложений для каждого языка, каждый из которых обучается путем сопоставления представлений предложений с представлениями английских предложений, используя предложения в параллельном корпусе. Мы обнаруживаем, что перекрестно отображаемые представления часто лучше сохраняют определенную лингвистическую информацию, чем представления, полученные от английских кодировщиков, обученных естественному языковому выводу (NLI) в качестве задачи ниже по потоку.Abstract
මේ පත්තේ වාර්තාවක් විශ්වාස කරනවා වාර්තාවක් ප්රතිචාරයක් විශ්වාස කරනවා වගේ භාෂාවික ප්රදේ මෙහෙම කරන්න, අපි දෙකක් සම්බන්ධ කරනවා: මුලින්ම, අපි ගොඩක් භාෂාවක් පරීක්ෂණය සඳහා දත්ත සේට් සම්බන්ධ කරනවා, විකි ඉංග්රීසි, ෆ්රෑන්ස්, ජර්මන්, ස්පැනිස් සහ රුසියාන්. දෙවනිය, අපි හැම භාෂාව සඳහා වාක්යේ කෝඩාර් හයක් විශ්වාස කරනවා, හැම භාෂාව සඳහා ඉංග්රීසි වාක්ය ප්රතිනිධා අපි හොයාගත්තා කියලා ක්රීස් භාෂාවික සංවිධානයක් හොඳයි කියලා භාෂාවික තොරතුරු තියාගන්නේ ඉංග්රීසි කෝඩර් වලින් ඉන්න පAbstract
Prispevek razširja nalogo proučevanja stavkovnih reprezentacij za jezikovni vpogled v večjezični domeni. Pri tem prispevamo dva prispevka: prvič, zagotavljamo nabore podatkov za večjezično iskanje, izpeljane iz Wikipedije, v petih jezikih, tj. Angleščina, francoščina, nemščina, španščina in ruščina. Drugič, ocenjujemo šest kodirnikov stavkov za vsak jezik, vsak izobražen z mapiranjem predstavitev stavkov v angleško predstavitev stavkov z uporabo stavkov v vzporednem korpusu. Ugotovili smo, da so medjezično preslikane reprezentacije pogosto boljše pri ohranjanju določenih jezikovnih informacij kot reprezentacije, ki izhajajo iz angleških kodirnikov, usposobljenih za sklepanje naravnega jezika (NLI) kot nadaljnjo nalogo.Abstract
Kanu wuxuu ku fidiyaa shaqada baaritaanka xukunka looga baaraandegayo aragtida afka luuqada ah ee gudaha luuqadaha kala duduwan. Markaas waxaynu sameynaa laba qayb, marka hore waxaynu bixinaynaa koobab lagu imtixaamo luuqado kala duduwan oo Wikipediya ka soo baxay shan luuqadood oo viz ah. Ingiriis, Faraansiis, Jarmal, Isbanish iyo Ruush. Second, waxaynu qiimeynaynaa lix qodob oo ku qoran luqad kasta, mid kastana wax lagu baray karo sawir u eg xarafka ingiriisiga, si loo isticmaalo hadal isku mid ah. Waxaynu ogaannaa in qofka lagu sawiray luuqadaha kala duduwan ay marar badan ka wanaagsan yihiin in lagu sii haysto macluumaad luuqadaha qaarkood oo ka mid ah qodobka ingiriisiga laga baray cudurka afka dabiiciga (NLI) oo ah shaqada hoose.Abstract
Ky dokument zgjeron detyrën e hetimit të përfaqësimeve të fjalëve për kuptimin gjuhësor në një domeni shumëgjuhës. In doing so, we make two contributions: first, we provide datasets for multilingual probing, derived from Wikipedia, in five languages, viz. Anglisht, Francez, Gjerman, Spanjoll dhe Rus. Së dyti, ne vlerësojmë gjashtë koduesit e fjalëve për çdo gjuhë, secila e trajnuar duke hartuar përfaqësimet e fjalëve në përfaqësimet e fjalëve angleze, duke përdorur fjalët në një korpus paralel. Ne zbulojmë se përfaqësimet ndërgjuhësore të hartuara shpesh janë më të mira në mbajtjen e disa informacioneve gjuhësore sesa përfaqësimet e nxjerra nga koduesit angleze të trajnuar në inferencën natyrore të gjuhës (NLI) si një detyrë më poshtë.Abstract
Ovaj papir proširi zadatak probanja predstavljanja rečenice za jezički uvid u multijezičkom domenu. Učineći to, mi donosimo dva doprinosa: prvo, pružamo podatke za multijezičke probe, iz Wikipedije, na pet jezika, viz. Engleski, francuski, nemački, španjolski i ruski. Drugo, procjenjujemo šest kodera rečenica za svaki jezik, svaki treniran sa mapiranjem rečenica predstavljanja engleske rečenice, koristeći rečenice u paralelnom korpusu. Otkrili smo da su transjezički mapirani predstavnici često bolji u zadržavanju određenih jezičkih informacija nego predstavljanja iz engleskog kodera obučenih na infekciju prirodnog jezika (NLI) kao niz zadatak.Abstract
Denna uppsats utökar uppgiften att undersöka meningsrepresentationer för språklig insikt i en flerspråkig domän. Genom att göra det gör vi två bidrag: först tillhandahåller vi datauppsättningar för flerspråkig sondering, härledda från Wikipedia, på fem språk, dvs. Engelska, franska, tyska, spanska och ryska. För det andra utvärderar vi sex meningskoder för varje språk, var och en tränad genom att kartlägga meningsrepresentationer till engelska meningsrepresentationer, med hjälp av meningar i en parallell korpus. Vi upptäcker att korsspråkskartade representationer ofta är bättre på att behålla viss språklig information än representationer som härrör från engelska kodare utbildade på naturlig språkinferens (NLI) som en nedströms uppgift.Abstract
Gazeti hili linaongeza jukumu la kuchunguza uwakilishi wa hukumu kwa ajili ya mtazamo wa lugha katika eneo la lugha mbalimbali. Kwa kufanya hivyo, tunafanya michango mawili: kwanza, tunatoa taarifa kwa ajili ya mtihani wa lugha mbalimbali, kutoka Wikipedia, kwa lugha tano, viz. Kiingereza, Kifaransa, Kijerumani, Kihispania na Kirusi. Pili, tunatathmini idadi sita ya hukumu kwa kila lugha, kila mmoja tunafundishwa kwa ramani ya uwakilishi wa hukumu ya Kiingereza, kwa kutumia sentensi katika vifungu vinavyofanana. Tumegundua kuwa maonesho yaliyochapishwa kwa lugha mbalimbali mara nyingi ni bora zaidi ya kuweka taarifa fulani za lugha kuliko uwakilishi kutoka kwa lugha za Kiingereza yaliyofundishwa na maambukizi ya lugha ya asili (NLI) kama kazi ya chini ya mitandao.Abstract
இந்த காகிதத்தின் வாக்கியத்தின் பிரதிநிதிகளை மொழிமொழிகளின் பார்வையில் நீட்டுகிறது. இவ்வாறு செய்தால், நாம் இரண்டு பங்குகளை செய்கிறோம். முதலில், நாம் பல மொழிகள் பரிசோதனைக்கான தகவல் அமைப்புகளை வழங்குகிறோம். விக ஆங்கிலம், பிரெஞ்சு, ஜெர்மன், ஸ்பானிஷ் மற்றும் ரஷ்ஷ். இரண்டாவது, ஒவ்வொரு மொழிக்கும் ஆறு வாக்கின் குறியீடுகளை நாம் மதிப்பிடுகிறோம், ஒவ்வொரு பயிற்சியிலும் ஆங்கிலத்தின் வாக்கு பி நாங்கள் கண்டுபிடித்து கொள்கிறோம் குறிப்பிட்ட குறிப்பிட்ட குறிப்பிட்ட குறிப்பிட்ட குறிப்பிட்ட சில மொழி தகவல்களை வைத்துக் கொள்வதAbstract
Bu kagyz bir multi dilli domaýda lingwistiki düşünjäniň çözümlerini barlamak üçin täsirini uzatlaýar. Böyle etmek üçin biz iki kömekleşik bar: ilkinji gezek, Wikipediýadan, beş dilde, viz. Iňlisçe, fransuzça, Almança, Ispanýça we Rusça. Ikinjisi, her dil üçin alty sözlem kodçysyny deňleýäris, her sözlem iňlisçe sözlem täsirlerine görkezilýän, parallel korpusda sözleri ulanýarys. Biz çerçe dilli suratlar bilen belli dil maglumaty (NLI) Iňlisçe ködlemelerden täze bir işi diýip bilim kodlaryndan gelen täze bir görnüşde tutmak üçin köplenç gowydyr.Abstract
یہ کاغذ ایک بہت سی زبان دامنی میں زبان کی نظر کے لئے فرض کرنے کے کام کو پھیلاتا ہے۔ ہم اس طرح دو جمع کریں گے: پہلے، ہم بہت سی زبان پرڈینگ کے لئے، ویکیپیڈیا سے، پانچ زبانوں میں، viz. انگلیسی، فرانسوی، جرمن، اسپانیایی اور روسی۔ دوسرا، ہم ہر زبان کے لئے چھ جماعت کا کوڈر مطالعہ کرتے ہیں، ہر جماعت کا مطالعہ انگلیسی جماعت کے مطالعہ کے ذریعہ مطالعہ کیا گیا ہے، ایک مشابل کورپوس میں جماعت کا استعمال کرتے ہیں. ہم کو معلوم ہوتا ہے کہ مختلف زبان کے مطابق مکاپیٹ کیے گئے ہیں کہ انگلیسی کوڈر کے ذریعے مطابق طبیعی زبان inferences (NLI) کے ذریعے ایک نیچے کام کے طور پر آموزش کی جاتی ہیں۔Abstract
Bu hujjat bir necha tillar domen ichida so'zlarni o'zgartirish vazifasini qo'shiladi. Shunday qilib, biz ikkita paydo qilamiz: birinchi, biz Wikipediya tilidan bir necha tili tizim uchun maʼlumotlar tizimini yaratib turamiz, besh tillarda viz. Inglizcha, Fransuzcha, Olmoncha, Ispancha va Ruscha. Ikkinchi so'zda, biz har bir tillar uchun 6 so'zlar kodlash qoidalarini qiymatimiz, har bir so'zni ingliz so'zlar tashkilotlariga tahrirlash va bir so'zlarni parallel corpusdan foydalanish mumkin. Biz o'rganamiz, har xil tildagi rasmlarni ko'pincha o'rganishni anglatadigan ingliz kodlaridan ko'proq tillar haqida o'rganishdan foydalanishni o'rganishga juda yaxshi ko'rinishimiz mumkin.Abstract
Tờ giấy này mở rộng nhiệm vụ tìm kiếm các đài phát thanh câu để tìm hiểu ngôn ngữ trong một miền đa dạng. Trong việc đó, chúng tôi có hai đóng góp: đầu tiên, chúng tôi cung cấp dữ liệu cho việc dò tìm đa dạng, bắt nguồn từ Wikipedia, bằng năm ngôn ngữ, viz. Anh, Pháp, Đức, Tây Ban Nha và Nga. Thứ hai, chúng tôi đánh giá sáu bộ mã hóa câu cho mỗi ngôn ngữ, mỗi loại được đào tạo bằng cách vẽ bản đồ các biểu hiện bản án ở đơn bào chữa Anh, sử dụng câu ở một tập thể song. Chúng tôi khám phá ra các biểu tượng rải chéo ngôn ngữ thường giỏi giữ các thông tin ngôn ngữ hơn các biểu hiện lấy từ bộ mã hóa Anh được đào tạo về ngụ ý ngôn ngữ tự nhiênAbstract
本文广于多言领中探句以示得言。 供维基百科多言探数集,分为五语,曰英语,曰法语,曰德语,曰西班牙语,曰俄语。 其次评估每语六句编码器,每编码器皆因用并行语料库句映射英语句以示训练。 臣等观之,与自然语言推理(NLI)为下流英语编码器派生之表,跨语映射,常善存之。- Anthology ID:
- W19-4318
- Volume:
- Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019)
- Month:
- August
- Year:
- 2019
- Address:
- Florence, Italy
- Venues:
- ACL | RepL4NLP | WS
- SIG:
- SIGREP
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 156–168
- Language:
- URL:
- https://aclanthology.org/W19-4318
- DOI:
- 10.18653/v1/W19-4318
- Bibkey:
- Cite (ACL):
- Vinit Ravishankar, Lilja Øvrelid, and Erik Velldal. 2019. Probing Multilingual Sentence Representations With X-ProbeX-Probe. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 156–168, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- Probing Multilingual Sentence Representations With X-ProbeX-Probe (Ravishankar et al., 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/W19-4318.pdf
- Data
- XNLI
- Terminologies:
Export citation
@inproceedings{ravishankar-etal-2019-probing, title = "Probing Multilingual Sentence Representations With X-Probe{X}-Probe", author = "Ravishankar, Vinit and {\O}vrelid, Lilja and Velldal, Erik", booktitle = "Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019)", month = aug, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W19-4318", doi = "10.18653/v1/W19-4318", pages = "156--168", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="ravishankar-etal-2019-probing"> <titleInfo> <title>Probing Multilingual Sentence Representations With X-ProbeX-Probe</title> </titleInfo> <name type="personal"> <namePart type="given">Vinit</namePart> <namePart type="family">Ravishankar</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Lilja</namePart> <namePart type="family">Øvrelid</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Erik</namePart> <namePart type="family">Velldal</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-08</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019)</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">ravishankar-etal-2019-probing</identifier> <identifier type="doi">10.18653/v1/W19-4318</identifier> <location> <url>https://aclanthology.org/W19-4318</url> </location> <part> <date>2019-08</date> <extent unit="page"> <start>156</start> <end>168</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Probing Multilingual Sentence Representations With X-ProbeX-Probe %A Ravishankar, Vinit %A Øvrelid, Lilja %A Velldal, Erik %S Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019) %D 2019 %8 August %I Association for Computational Linguistics %C Florence, Italy %F ravishankar-etal-2019-probing %R 10.18653/v1/W19-4318 %U https://aclanthology.org/W19-4318 %U https://doi.org/10.18653/v1/W19-4318 %P 156-168
Markdown (Informal)
[Probing Multilingual Sentence Representations With X-ProbeX-Probe](https://aclanthology.org/W19-4318) (Ravishankar et al., 2019)
- Probing Multilingual Sentence Representations With X-ProbeX-Probe (Ravishankar et al., 2019)
ACL
- Vinit Ravishankar, Lilja Øvrelid, and Erik Velldal. 2019. Probing Multilingual Sentence Representations With X-ProbeX-Probe. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 156–168, Florence, Italy. Association for Computational Linguistics.