Attention Can Reflect Syntactic Structure (If You Let It) Aangaande Kan Sintaktika Struktuur Verwyder (As jy Laat dit) ምርጫዎች يمكن أن يعكس الانتباه البنية النحوية (إذا سمحت بذلك) Attention Can Reflect Syntactic Structure (If You Let It) Вниманието може да отрази синтактичната структура (ако го позволите) মনোযোগ প্রদান করতে পারে সিন্ট্যাকটিক কাঠামো প্রতিক্রিয়া (যদি আপনি এটি প্রদান করেন) Attention Can Reflect Syntactic Structure (If You Let It) Pažnja može preuzeti sintaktičku strukturu (ako ga pustiš) L'atenció pot reflexionar l'estructura sintàctica (si ho permetes) Pozornost může odrážet syntaktickou strukturu (pokud ji necháte) Opmærksomhed kan reflektere syntaktisk struktur (hvis du lader det) Aufmerksamkeit kann syntaktische Struktur reflektieren (wenn Sie es zulassen) Η προσοχή μπορεί να αντανακλά τη συντακτική δομή (αν το αφήσετε) La atención puede reflejar la estructura sintáctica (si se lo permites) Tähelepanu võib peegeldada süntaktilist struktuuri (kui sa lased sel) Name Huomio voi heijastaa synteettistä rakennetta (jos annat sen) L'attention peut refléter la structure syntaxique (si vous le laissez) Is féidir leis an Aire Struchtúr Comhréire a Léiriú (Má Ligeann Tú é) @ item Text character set תשומת לב יכולה לשקף מבנה סינטקטי (אם אתה נותן לזה) ध्यान वाक्यात्मक संरचना को प्रतिबिंबित कर सकता है (यदि आप इसे जाने देते हैं) Pažnja može preuzeti sintaktičku strukturu (ako ga pustite) A figyelem tükrözheti a szintaktikus struktúrát (ha hagyod) Ուշադրություն կարող է արտացոլում սինտակտիկ կառուցվածքը (Եթե թույլ տաք) Perhatian Bisa Refleksi Struktur Sintaktik (Jika Anda membiarkannya) L'attenzione può riflettere la struttura sintattica (se lo lasci) アテンションは構文構造を反映することができます(任せる場合) Attribute Gak Njalakno Ketok Sistem Sentraksi (Ndepo Drongen Terusani) Name Қарастыру синтактикалық құрылғыны қайталауға болады (Егер рұқсат етсеңіз) 주의력은 문법 구조를 반영할 수 있다. (네가 허락한다면) Atkreipimas gali atspindėti sintaktinę struktūrą (jei leidžiate) Внимание може да ја одрази синтактичката структура (ако дозволите) ശ്രദ്ധിക്കാന് സിന്ടാക്ടിക് സ്ട്രോക്ടിക് പ്രതിക്ഷേപിക്കാന് സാധിക്കുന്നു (നിങ്ങള് അന Хэрэв та үүнийг зөвшөөрөх боломжтой болно. Perhatian Boleh Refleksi Struktur Sintaktik (Jika Anda Biarkan) L-attenzjoni tista’ tirrifletti l-istruttura sintattika (jekk tħalliha) Aandacht kan syntactische structuur reflecteren (als u het laat) Attensjon kan refleksera syntaksisk struktur (viss du la det) Uwaga może odzwierciedlać strukturę syntaktyczną (jeśli na to pozwolisz) A atenção pode refletir a estrutura sintática (se você deixar) Atenția poate reflecta structura sintactică (dacă o lași) Внимание может отражать синтаксическую структуру (если вы позволите ей) අවධානය පුළුවන් වාක්ෂික සංවිධානය ප්රතික්රියා කරන්න (ඔබ ඒක අවස්ථාව කරනවනම්) Pozornost lahko odraža sintaktično strukturo (če ji dovolite) Dhaqaalaha waxaa ka fiirsan kara dhismaha Syntactic (Haddii aad iska daahdo) Vëmendja mund të reflektojë strukturën sintaktike (nëse e lejoni) Pažnja može preuzeti sintaktičku strukturu (ako ga pustiš) Uppmärksamhet kan reflektera syntaktisk struktur (om du låter det) Tazama Inaweza Reflect Muundo wa Syntactic (Kama utaruhusu) கவனம் ஒத்திசைவு அமைப்பை பிரதிபலிக்கலாம் (நீங்கள் அனுமதித்தால்) Sintaktik strukturuny (Eger izin verseňiz) توجه سینٹکتیک ساختاری (اگر آپ اسے اجازت دے سکتے ہیں) Name Chú ý Có thể phản xạ cấu trúc cú pháp (Nếu bạn cho phép) 注意可以言语法结构(若许之)
Vinit Ravishankar, Artur Kulmizev, Mostafa Abdou, Anders Søgaard, Joakim Nivre
Abstract
Since the popularization of the Transformer as a general-purpose feature encoder for NLP, many studies have attempted to decode linguistic structure from its novel multi-head attention mechanism. However, much of such work focused almost exclusively on English a language with rigid word order and a lack of inflectional morphology. In this study, we present decoding experiments for multilingual BERT across 18 languages in order to test the generalizability of the claim that dependency syntax is reflected in attention patterns. We show that full trees can be decoded above baseline accuracy from single attention heads, and that individual relations are often tracked by the same heads across languages. Furthermore, in an attempt to address recent debates about the status of attention as an explanatory mechanism, we experiment with fine-tuning mBERT on a supervised parsing objective while freezing different series of parameters. Interestingly, in steering the objective to learn explicit linguistic structure, we find much of the same structure represented in the resulting attention patterns, with interesting differences with respect to which parameters are frozen.Abstract
Omdat die populariseering van die Transformer as 'n algemene-doel-funksie enkoderer vir NLP, het baie studie probeer om lingwisiese struktuur te dekodeer van sy novele multikop aandag mekanisme. Maar baie van sodanige werk het amper eksklusief op Engels gefokus - 'n taal met rige woord volgorde en 'n ontbreek van infleksionele morfologie. In hierdie studie, voorsien ons dekodering eksperimente vir multilinguele BERT oor 18 tale om die generelliseerde verplig te probeer dat afhanklikheid sintaks in aandagpatrone reflekteer word. Ons wys dat volle bome kan dekodeer word bo baselyn presies van enkele aandagkoppe, en dat individuele verwantings dikwels deur dieselfde koppe oor tale agtervolg word. Ook, in 'n probeer om onlangse debate te spreek oor die status van aandag as 'n uitduidelike mekanisme, ons eksperimenteer met fyn-tuning mBERT op 'n ondersoekte verwerking objekt terwyl ons verskillende reeks van parameters frees. Interesantlik, in die steering van die objekte om eksplisiese lingwisiese struktuur te leer, vind ons baie van die selfde struktuur wat in die resulteerde aandagpatrone verteenwoordig is, met interessante verskille met respek na watter parameters gesny word.Abstract
ከዘጠኝ ጀምሮ ለNLP አዋጅ የሆኑት የፊርቨርስቲ አካባቢ የፊደል አካባቢ ኮድ ሲሆን ብዙ ምርመራዎች የቋንቋዊ ግንኙነትን ከረኀብ ብዙዎች የልዩ አካባቢ ምክረት ማድረግ ሞክረዋል፡፡ However, much of such work focused almost exclusively on English - a language with rigid word order and a lack of inflectional morphology. በዚህ ትምህርት፣ የደጋፊ ሲንካስር በተመለከተ ምሳሌ ላይ የሚደረገውን የውይይት ግንኙነት ለመፈተን እናደርጋለን፡፡ የሙሉ ዛፎች በአውቀት ደረጃዎች ላይ እርግጠኝነት እንዲቀበል እናሳያቸዋለን፣ የግንኙነት ብዙዎች በአንድ ቋንቋዎች ላይ በአንድ ራስ የተከተሉ ናቸው፡፡ በተጨማሪም፣ የቀድሞው የጥያቄን አካባቢ መስኮት ለመጠየቅ በተቃውሞ ውይይት ለመፈለግ፣ በተለየ የተለያዩ መስኮቶች ሲቆርጥ mBERT በተመለከተ የፓርቲ አካባቢ በመጠቀም እናደርጋለን፡፡ በአደጋጋጋሚ፣ የቋንቋዊ ቋንቋ ሥርዓት ለመማር አቃውሞ፣ በሚያሳየው የጥያቄ ዓይነቶች በተለየ ብዙዎችን እናገኛለን፡፡Abstract
منذ تعميم المحول باعتباره مشفرًا للأغراض العامة للغة البرمجة اللغوية العصبية ، حاولت العديد من الدراسات فك تشفير البنية اللغوية من آلية الانتباه الجديدة متعددة الرؤوس. ومع ذلك ، ركز الكثير من هذا العمل بشكل حصري تقريبًا على اللغة الإنجليزية - لغة ذات ترتيب كلمات صارم ونقص في التشكل التصريف. في هذه الدراسة ، نقدم تجارب فك تشفير لـ BERT متعدد اللغات عبر 18 لغة من أجل اختبار قابلية تعميم الادعاء بأن بناء جملة التبعية ينعكس في أنماط الانتباه. نظهر أنه يمكن فك تشفير الأشجار الكاملة فوق دقة خط الأساس من رؤوس الانتباه الفردية ، وأن العلاقات الفردية غالبًا ما يتم تتبعها من قبل نفس الرؤوس عبر اللغات. علاوة على ذلك ، في محاولة لمعالجة النقاشات الأخيرة حول حالة الانتباه كآلية تفسيرية ، قمنا بتجربة ضبط mBERT على هدف تحليل خاضع للإشراف أثناء تجميد سلسلة مختلفة من المعلمات. ومن المثير للاهتمام ، عند توجيه الهدف لتعلم البنية اللغوية الصريحة ، أن نجد الكثير من نفس البنية ممثلة في أنماط الانتباه الناتجة ، مع وجود اختلافات مثيرة للاهتمام فيما يتعلق بالمعلمات التي يتم تجميدها.Abstract
Transformer'in nümunəlik məqsədilə NLP kodlayıcısı olaraq popularizasyondan sonra, çoxlu təcrübələr roman çoxlu başlıq məqsədilindən dil strukturasını dekodinə çəkməyə çalışırlar. Ancaq böyük işlərin çoxu İngilizce dilinə tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərəf tərə Bu təcrübədə, çoxlu dil BERT üçün çoxlu təcrübələrini 18 dillərdə göstərdik ki, bağımlılıq sintaksinin paylaşılması şəklində təcrübə ediləcəyini təsdiqləmək üçün çoxlu dildə təcrübə edirik. Biz bütün ağaclar tək tərəfdən tək tərəfdən tək tərəflərin doğruluğunun üstündə kodlanabilirik və tək tərəflərin dillərin arasında eyni başların tərəflərinə tabe edilməsini göstəririk. Daha sonra, yeni mübahisə etmək üçün gözləmə durumunu aydınlaşdırma mehanizmi olaraq, müxtəlif parametrlərin seriyasını dondurmaq üçün müəyyən edilmiş fərqləmə məqsədilə mBERT'i gözləyir. İlginç ki, açıq dil quruluğunu öyrənmək məqsədini dəstəkləndirmək üçün, bəzi quruluğun nəticə etdiyi növbənöv növbənöv növbənöv növbənöv növbənöv növbənöv növbənöv növbənöv növbənöv növbəAbstract
След популяризирането на трансформатора като кодер с общо предназначение за НЛП, много изследвания се опитват да декодират лингвистичната структура от неговия нов механизъм за многоглаво внимание. Въпреки това, голяма част от тази работа се фокусира почти изключително върху английския език - език с твърд словен ред и липса на флексионна морфология. В това проучване ние представяме експерименти за декодиране на многоезични BERT на 18 езика, за да тестваме обобщаваемостта на твърдението, че синтаксисът на зависимост се отразява в моделите на внимание. Показваме, че пълните дървета могат да бъдат декодирани над базовата точност от единични глави на вниманието и че индивидуалните отношения често се проследяват от едни и същи глави в различните езици. Освен това, в опит да обърнем внимание на последните дебати относно статуса на вниманието като обяснителен механизъм, експериментираме с фина настройка на mBERT върху цел контролирано анализиране, като същевременно замразяваме различни серии от параметри. Интересното е, че при насочването на целта за изучаване на изрична езикова структура откриваме голяма част от същата структура, представена в получените модели на внимание, с интересни разлики по отношение на това кои параметри са замразени.Abstract
এনএলপির জন্য ট্রান্সফ্রান্সফারের জনপ্রিয় কোডার হিসেবে জনপ্রিয় করার পর থেকে অনেক গবেষণা তার উপন্যাসের মাধ্যমে বহুমাধ্যমের মনোযোগ প্রদান কর However, much of such work focused almost exclusively on English - a language with rigid word order and a lack of inflectional morphology. এই গবেষণায় আমরা ১৮ ভাষায় বহুভাষার বিবেরেটের জন্য কোডিং পরীক্ষার উপস্থাপন করছি যাতে দাবি করা যে নির্ভরশীল সিন্যাক্সের প্রতি মনোযোগিতা প আমরা দেখাচ্ছি যে পুরো গাছগুলো বেসেলাইনের মাধ্যমে সঠিকভাবে কমিয়ে দেওয়া যাবে, আর ব্যক্তিগত সম্পর্ক প্রায়শই একই ভাষায় একই মাথ এছাড়াও, সাম্প্রতিক বিতর্কে একটি ব্যাখ্যাত মেনিস হিসেবে মনোযোগ প্রদানের অবস্থা নিয়ে বিতর্কের প্রচেষ্টা করার চেষ্টায়, আমরা বিভিন্ন ধরনের প্যারামিটার মজার ব্যাপারে আমরা একই কাঠামো প্রতিনিধিত্ব করেছি যার ফলে মনোযোগ প্রতিনিধিত্ব করা হয়েছে, কোন পারামিটার ভাষায় মজার পার্থক্যের মাধ্যমে।Abstract
Since the popularization of the Transformer as a general-purpose feature encoder for NLP, many studies have attempted to decode linguistic structure from its novel multi-head attention mechanism. ཡིན་ནའང་། འདི་ལྟ་བུའི་ནང་དུ་གྲངས་ཀ་གཅིག་ཡང་དབྱིན་ཡིག་གཟུགས་འགྲོ་བ་མང་པོ་ཞིག་ཡིན། ལྟ་བ་འདིའི་ནང་དུ་ང་ཚོས་སྐད་རིགས་ཀྱི་BERT (སྐད་རིགས་ཀྱི་ཚད་ལྡན་འགྱུར་བའི) སྐད་རིགས་ཀྱི་སྔོན་ཕྲག་སྟོན་པའི་བརྟག་བཤད་ཆེན་པ་ལ ང་ཚོས་དབྱིབས་ཡོད་པའི་རྩིས་བ་དེ་ལ་གཞི་རྟེན་ནས་ངོས་འཛིན་དགོས་པ་ལས་ངོས་འཛིན་ཐུབ་པ་དང་། འབྲེལ་བ་སོ་སོ་སོ་སོ་སོའི་མག Furthermore, in an attempt to address recent debates about the status of attention as an explanatory mechanism, we experiment with fine-tuning mBERT on a supervised parsing objective while freezing different series of parameters. Interestingly, in steering the objective to learn explicit linguistic structure, we find much of the same structure represented in the resulting attention patterns, with interesting differences with respect to which parameters are frozen.Abstract
Pošto je popularizacija transformera kao kodera općeg cilja za NLP, mnogi studiji pokušali su dekodirati jezičku strukturu iz svog romannog mehanizma multiglavne pažnje. Međutim, većina takvog rada usredotočilo se skoro isključivo na engleski - jezik sa krutim redom riječi i nedostatak inflekcionalne morfologije. U ovom ispitivanju predstavljamo eksperimente za dekodiranje multijezičkog BERT-a na 18 jezika kako bi testirali generalizabilnost tvrdnje da se sintaks ovisnosti odražava u obrascima pažnje. Pokazujemo da puna drveća mogu biti dekodirana iznad početne tačnosti od jednog glave pažnje, i da se pojedinačni odnosi često prate istim glavama na jezicima. Osim toga, u pokušaju da se obratimo nedavnim debatima o statusu pažnje kao objašnjavajući mehanizam, eksperimentiramo sa finom prilagodbom mBERT na nadziranom cilju analize dok se smrzavamo različite serije parametara. Zanimljivo je da upravljamo ciljem da naučimo eksplicitnu lingvističku strukturu, nađemo mnogo iste strukture predstavljene u rezultativnim obrascima pažnje, sa zanimljivim razlikama u vezi kojih su parametra zamrznuti.Abstract
Des que la popularització del Transformer com a codificador de característiques de propòsit general per a NLP, molts estudis han intentat decodificar l'estructura lingüística del seu nou mecanisme d'atenció multicap. Tanmateix, gran part d'aquesta feina es centrava gairebé exclusivament en l'anglès - una llengua amb orden rígid de paraules i falta de morfologia inflexional. In this study, we present decoding experiments for multilingual BERT across 18 languages in order to test the generalizability of the claim that dependency syntax is reflected in attention patterns. Mostrem que els arbres complets poden ser descodificats per sobre de la precisió basal dels caps d'atenció únics, i que les relacions individuals sovint estan seguides pels mateixos caps a través de llengües. A més, en un intent d'abordar debats recents sobre l'estatus de l'atenció com un mecanisme explicativ, experimentem amb ajustar mBERT en un objectiu d'analització supervisada mentre congelem diverses sèries de paràmetres. Interestingly, in steering the objective to learn explicit linguistic structure, we find much of the same structure represented in the resulting attention patterns, with interesting differences with respect to which parameters are frozen.Abstract
Od popularizace transformátoru jako univerzálního snímače vlastností pro NLP se mnoho studií pokusilo dekódovat jazykovou strukturu z jeho nového mechanismu vícehlavové pozornosti. Velká část takové práce se však zaměřila téměř výlučně na anglický jazyk sca s pevným slovním řádem a nedostatkem flexiální morfologie. V této práci představujeme dekódovací experimenty pro vícejazyčné BERT napříč 18-jazyky s cílem otestovat zobecněnost tvrzení, že syntaxe závislosti se odráží ve vzorcích pozornosti. Ukazujeme, že celé stromy mohou být dekódovány nad přesností základního principu z jednotlivých hlav pozornosti a že jednotlivé vztahy jsou často sledovány stejnými hlavami napříč jazyky. Kromě toho, ve snaze řešit nedávné debaty o stavu pozornosti jako vysvětlujícího mechanismu, experimentujeme s jemným laděním mBERT na monitorovaném parsovacím cíli při zamrznutí různých řad parametrů. Zajímavé je, že při řízení cíle naučit se explicitní jazykovou strukturu zjišťujeme, že velká část stejné struktury je reprezentována ve výsledných vzorcích pozornosti, se zajímavými rozdíly, pokud jde o zmrazení parametrů.Abstract
Siden populariseringen af Transformeren som en generel funktionskoder til NLP, har mange undersøgelser forsøgt at afkode sproglig struktur fra dens nye multi-head opmærksomhedsmekanisme. Imidlertid fokuserede meget af dette arbejde næsten udelukkende på engelsk - et sprog med stiv ordrækkefølge og en mangel på bøjningsmorfologi. I denne undersøgelse præsenterer vi afkodningseksperimenter for flersproget BERT på tværs af 18 sprog for at teste generaliseringen af påstanden om, at afhængighedssyntaks afspejles i opmærksomhedsmønstre. Vi viser, at fulde træer kan afkodes over baseline nøjagtighed fra enkelte opmærksomhedshoveder, og at individuelle relationer ofte spores af de samme hoveder på tværs af sprog. I et forsøg på at behandle de seneste debatter om opmærksomhedens status som en forklarende mekanisme eksperimenterer vi desuden med finjustering af mBERT på et overvåget parsing mål, samtidig med at vi fryser forskellige rækker af parametre. Interessant nok, når vi styrer målet om at lære eksplicit sproglig struktur, finder vi meget af den samme struktur repræsenteret i de resulterende opmærksomhedsmønstre, med interessante forskelle med hensyn til, hvilke parametre der er fastfrosset.Abstract
Seit der Popularisierung des Transformers als universeller Feature Encoder für NLP haben viele Studien versucht, linguistische Strukturen aus seinem neuartigen Mehrkopf-Aufmerksamkeitsmechanismus zu entschlüsseln. Ein Großteil dieser Arbeiten konzentrierte sich jedoch fast ausschließlich auf die englische Schaa-Sprache mit starrer Wortordnung und fehlender Flexionsmorphologie. In dieser Studie präsentieren wir Dekodierungsexperimente für mehrsprachiges BERT über 18-Sprachen hinweg, um die Verallgemeinerbarkeit der Behauptung zu testen, dass Abhängigkeitssyntax sich in Aufmerksamkeitsmustern widerspiegelt. Wir zeigen, dass vollständige Bäume über die Baseline-Genauigkeit von einzelnen Aufmerksamkeitsköpfen decodiert werden können, und dass einzelne Beziehungen oft von denselben Köpfen über Sprachen hinweg verfolgt werden. Darüber hinaus experimentieren wir mit der Feinabstimmung von mBERT an einem überwachten Parsing-Ziel, während verschiedene Parameterreihen eingefroren werden. Interessanterweise finden wir bei der Steuerung des Ziels, explizite linguistische Strukturen zu lernen, einen Großteil der gleichen Struktur in den resultierenden Aufmerksamkeitsmustern, mit interessanten Unterschieden in Bezug auf die eingefrorenen Parameter.Abstract
Μετά την δημοσιοποίηση του μετασχηματιστή ως κωδικοποιητή χαρακτηριστικών γενικής χρήσης για πολλές μελέτες έχουν επιχειρήσει να αποκωδικοποιήσουν τη γλωσσική δομή από τον νέο μηχανισμό προσοχής πολλαπλών κεφαλών. Ωστόσο, μεγάλο μέρος αυτής της εργασίας επικεντρώθηκε σχεδόν αποκλειστικά στην αγγλική γλώσσα με άκαμπτη τάξη λέξεων και έλλειψη μορφολογίας καμπής. Στην παρούσα μελέτη, παρουσιάζουμε πειράματα αποκωδικοποίησης για πολυγλωσσικό BERT σε 18γλώσσες προκειμένου να εξετάσουμε τη γενικότητα του ισχυρισμού ότι η σύνταξη εξάρτησης αντανακλάται στα μοτίβα προσοχής. Δείχνουμε ότι τα πλήρη δέντρα μπορούν να αποκωδικοποιηθούν πάνω από την ακρίβεια βάσης από μεμονωμένες κεφαλές προσοχής και ότι οι μεμονωμένες σχέσεις συχνά παρακολουθούνται από τις ίδιες κεφαλές σε όλες τις γλώσσες. Επιπλέον, σε μια προσπάθεια να αντιμετωπιστούν οι πρόσφατες συζητήσεις σχετικά με την κατάσταση της προσοχής ως επεξηγηματικού μηχανισμού, πειραματιζόμαστε με τον συντονισμό του σε έναν εποπτευμένο στόχο ανάλυσης ενώ παγώνουμε διαφορετικές σειρές παραμέτρων. Το ενδιαφέρον είναι ότι στην καθοδήγηση του στόχου της εκμάθησης ρητής γλωσσικής δομής, βρίσκουμε μεγάλο μέρος της ίδιας δομής που αντιπροσωπεύεται στα προκύπτουσα μοτίβα προσοχής, με ενδιαφέρουσες διαφορές ως προς τις παραμέτρους που παγώνουν.Abstract
Desde la popularización del Transformer como codificador de funciones de propósito general para PNL, muchos estudios han intentado decodificar la estructura lingüística de su novedoso mecanismo de atención multicabezal. Sin embargo, gran parte de ese trabajo se centró casi exclusivamente en el inglés, un idioma con un orden de palabras rígido y una falta de morfología de inflexión. En este estudio, presentamos experimentos de decodificación para BERT multilingüe en 18 idiomas con el fin de probar la generalización de la afirmación de que la sintaxis de dependencia se refleja en los patrones de atención. Demostramos que los árboles completos se pueden decodificar por encima de la precisión de referencia desde cabezas de atención individuales, y que las relaciones individuales a menudo son rastreadas por las mismas cabezas en todos los idiomas. Además, en un intento de abordar los debates recientes sobre el estado de la atención como mecanismo explicativo, experimentamos con el ajuste fino de mBert en un objetivo de análisis supervisado mientras se congelan diferentes series de parámetros. Curiosamente, al dirigir el objetivo de aprender la estructura lingüística explícita, encontramos gran parte de la misma estructura representada en los patrones de atención resultantes, con diferencias interesantes con respecto a qué parámetros se congelan.Abstract
Alates Transformeri populariseerimisest NLP-i üldise otstarbega kodeerijana on paljud uuringud püüdnud dekodeerida keelelist struktuuri uudsest mitmepealisest tähelepanumehhanismist. Siiski keskendus suur osa sellisest tööst peaaegu eranditult inglise keelele - keelele jäiga sõnajärjekorraga ja paindliku morfoloogia puudumisega. Käesolevas uuringus tutvustame mitmekeelse BERT dekodeerimise eksperimente 18 keeles, et testida väite üldistatavust, et sõltuvussüntaks peegeldub tähelepanu mustrites. Me näitame, et täispuid saab dekodeerida üle algväärtuse üksikutest tähelepanu peadest ja et üksikuid suhteid jälgivad sageli samad pead eri keeltes. Püüdes käsitleda hiljutisi arutelusid tähelepanu kui seletusmehhanismi staatuse üle, katsetame mBERTi peenhäälestamist järelevalve all parsimise eesmärgil, külmutades samal ajal erinevaid parameetreid. Huvitav on, et selgesõnalise keelestruktuuri õppimise eesmärgi juhtimisel leiame palju samast struktuurist, mida esindavad tulemuslikud tähelepanumustrid, huvitavad erinevused selle suhtes, millised parameetrid on külmutatud.Abstract
از زمانی که تبدیل کردن تبدیل کننده به عنوان ویژههای متخصص عمومی برای NLP، تعدادی از مطالعههای زیادی سعی کردند ساختار زبانشناسی را از مکانیسم توجه چندین سرش دکود کند. ولی بسیاری از این کارها تقریباً به خاص انگلیسی تمرکز شده است - یک زبان با سفارش کلمه استوار و ناتوانی مورفولوژی اثبات است. در این مطالعه، ما آزمایشهای دیدکوندی برای BERT multilingual را در ۱۸ زبان نشان میدهیم تا آزمایش قابلیت عمومی از ادعا که syntax بستگی در الگوهای توجه تفکیر میشود. ما نشان می دهیم که درختان کامل می توانند بالای دقیقات خط پایین از سرهای یک توجه دکوع شوند، و که رابطههای فردی اغلب با سرهای یکسان در زبان تعقیب میشوند. علاوه بر این، در سعی که بحث های اخیر در مورد وضعیت توجه به عنوان یک مکانیسم توضیح بحث کنیم، ما آزمایش می کنیم با توجه کردن mBERT به یک هدف تولید نظارت شده در حالی که سری پارامترها متفاوت است. Interestingly, in steering the objective to learn explicit linguistic structure, we find much of the same structure represented in the resulting attention patterns, with interesting differences with which parameters are frozen.Abstract
Sen jälkeen kun muuntaja on yleistynyt NLP:n yleiskäyttöiseksi ominaisuuskoodaajaksi, monet tutkimukset ovat yrittäneet purkaa kielellistä rakennetta sen uudesta monipäisestä huomiomekanismista. Kuitenkin suuri osa tällaisesta työstä keskittyi lähes yksinomaan englantiin - kieleen, jolla on jäykkä sanajärjestys ja puutteellinen taipumus morfologia. Tässä tutkimuksessa esitellään monikielisen BERT:n dekoodauskokeita 18 kielellä testataksemme sen väitteen yleistettävyyttä, jonka mukaan riippuvuussuyntaksi heijastuu huomiomalleihin. Osoitamme, että täydelliset puut voidaan dekoodata perusaikataulun tarkkuuden yläpuolella yksittäisistä huomiopäistä ja että samat päät seuraavat usein yksittäisiä suhteita eri kielillä. Lisäksi yritämme käsitellä viimeaikaisia keskusteluja huomion asemasta selittävänä mekanismina, kokeilemme mBERT:n hienosäätöä valvotulla jäsennystavoitteella jäädyttäen samalla eri parametrisarjoja. Kiinnostavaa on, että pyrittäessä oppimaan eksplisiittinen kielellinen rakenne, löydämme paljon samasta rakenteesta, joka on edustettuna tuloksena syntyvissä huomiokuvioissa, mielenkiintoisilla eroilla sen suhteen, mitkä parametrit ovat jäädytetty.Abstract
Depuis la vulgarisation du Transformer en tant que codeur de caractéristiques à usage général pour la PNL, de nombreuses études ont tenté de décoder la structure linguistique à partir de son nouveau mécanisme d'attention multi-têtes. Cependant, la plupart de ces travaux se sont concentrés presque exclusivement sur l'anglais, une langue dont l'ordre des mots est rigide et où la morphologie flexionnelle est absente. Dans cette étude, nous présentons des expériences de décodage pour le BERT multilingue dans 18 langues afin de tester la généralisabilité de l'affirmation selon laquelle la syntaxe de dépendance se reflète dans les modèles d'attention. Nous montrons que les arbres complets peuvent être décodés au-delà de la précision de base à partir de têtes d'attention uniques, et que les relations individuelles sont souvent suivies par les mêmes têtes dans toutes les langues. En outre, pour tenter de répondre aux récents débats sur le statut de l'attention en tant que mécanisme explicatif, nous expérimentons le réglage fin du mBerT sur un objectif d'analyse supervisée tout en gelant différentes séries de paramètres. Il est intéressant de noter qu'en orientant l'objectif d'apprendre une structure linguistique explicite, nous trouvons une grande partie de la même structure représentée dans les modèles d'attention qui en résultent, avec des différences intéressantes en ce qui concerne les paramètres figés.Abstract
Ó rinneadh tóir ar an gClaochladán mar ionchódóir gné ginearálta do NLP, tá iarracht déanta ag go leor staidéar struchtúr teanga a dhíchódú óna mheicníocht aird ilcheann úrnua. Dhírigh go leor d’obair den sórt sin ar an mBéarla beagnach go hiomlán, áfach — teanga a raibh ord docht na bhfocal inti agus easpa moirfeolaíochta infhillte. Sa staidéar seo, cuirimid i láthair turgnaimh díchódaithe do BERT ilteangach thar 18 dteanga chun ginearáltacht an maíomh go bhfuil comhréir spleáchais le feiceáil i bpatrúin aird a thástáil. Léirímid gur féidir crainn iomlána a dhíchódú os cionn cruinneas na bunlíne ó chinn aird aonair, agus go ndéantar caidreamh aonair a rianú go minic ag na cinn chéanna trasna teangacha. Ina theannta sin, mar iarracht dul i ngleic le díospóireachtaí le déanaí faoi stádas an aird mar mheicníocht mhínithe, déanaimid triail le mBERT a mhionchoigeartú ar chuspóir parsála maoirsithe agus sraitheanna éagsúla paraiméadair á reo againn. Is ábhar spéise é, agus an cuspóir á stiúradh againn chun struchtúr sainráite teanga a fhoghlaim, feicimid go leor den struchtúr céanna léirithe sna patrúin aird a eascraíonn as, agus difríochtaí suimiúla ann maidir leis na paraiméadair a reoitear.Abstract
Tan da the popularization of the Transformer as a General-aim feature code for NLP, many research have sought to kode tsarin linguistic from its noveln multi-header surori. Hata da haka, masu yawa daga wannan aikin yana fanati a kan Ingiriya kawai - wata harshe na da tsarin magana mai inganci da kuma bã da wani matsayi mai mutane. Daga wannan lõkaci, Munã gabatar da jarrabo masu ƙaranci wa BERT cikin wasu harshe na'ura 18 dõmin a jarraba gabanin da ke faɗa cẽwa an yi ƙaranci da ɗabi'a, a cikin misãlai masu bincike. Tuna nũna cewa za'a kodi itãce cikakku a kan kode tsari daga nauyi na ƙarƙashin, kuma an gane danganta masu da taraki ko da yawa a kan huɗu masu cikin lugha. Furan haka, cikin jarrabi da za ka yi magana a cikin jãyayya a yanzu masu husũma ga muhalli wa muhimmin muhimmanci kamar wani mai fassarawa, za'a jarraba mBERT a kan an tsare mBERT a kan abun parse da kuma za'a kulle wasu takardar parameters. Ina amfani da shi, dõmin a kiyaye goan ya sanar da wani tsari na lingui mai bayyani, za mu sãmu ko yawa daga ruwan da ke ƙayyade cikin misãlai masu ƙaranci, da sãɓãni mai kwaɗayi a cikin masu da za'a sarrafa parameteri.Abstract
מאז הפופולריזציה של הטרנספורטר כקודד תכונות למטרה כללית של NLP, הרבה מחקרים ניסו לפענח מבנה שפתי ממנגנון תשומת לב רב ראשי הרומני שלו. עם זאת, רוב העבודה כזו התמקדה כמעט בלעדית באנגלית - שפה עם סדר מילים קשה וחסר מורפולוגיה מושפעת. במחקר הזה, אנו מציגים ניסויים לפיתוח של BERT רבות שפות במהלך 18 שפות כדי לבדוק את הגנרליזציה של הטענה אנו מראים שעצים מלאים יכולים לפענח מעל מדויקת הבסיס מראשי תשומת לב יחיד, ושמערכות יחסים בודדות לעתים קרובות מתעקבות על ידי אותם ראשים דרך שפות. חוץ מזה, בניסיון להתייחס לדיונים האחרונים על המצב של תשומת לב כמנגנון הסביר, אנו מנסים עם mBERT מתאים על מטרה מבוקרת בדיקה בזמן הקפיאה סדרה שונה של פרמטרים. מעניין, בהנחה במטרה ללמוד מבנה שפתי ברור, אנו מוצאים הרבה מאותו מבנה מייצג בתבניות תשומת לב הנוצאות, עם הבדלים מעניינים בנוגע לאיזה פרמטרים קפואים.Abstract
एनएलपी के लिए एक सामान्य उद्देश्य सुविधा एन्कोडर के रूप में ट्रांसफॉर्मर के लोकप्रियकरण के बाद से, कई अध्ययनों ने अपने उपन्यास बहु-सिर ध्यान तंत्र से भाषाई संरचना को डीकोड करने का प्रयास किया है। हालांकि, इस तरह के अधिकांश काम लगभग विशेष रूप से अंग्रेजी पर केंद्रित थे - कठोर शब्द क्रम के साथ एक भाषा और इन्फ्लेक्शनल आकृति विज्ञान की कमी। इस अध्ययन में, हम 18 भाषाओं में बहुभाषी BERT के लिए डिकोडिंग प्रयोगों को प्रस्तुत करते हैं ताकि दावे की सामान्यता का परीक्षण किया जा सके कि निर्भरता वाक्यविन्यास ध्यान पैटर्न में परिलक्षित होता है। हम दिखाते हैं कि पूर्ण पेड़ों को एकल ध्यान सिर से बेसलाइन सटीकता से ऊपर डीकोड किया जा सकता है, और यह कि व्यक्तिगत संबंधों को अक्सर भाषाओं में एक ही सिर द्वारा ट्रैक किया जाता है। इसके अलावा, एक व्याख्यात्मक तंत्र के रूप में ध्यान की स्थिति के बारे में हाल ही में बहस को संबोधित करने के प्रयास में, हम मापदंडों की विभिन्न श्रृंखलाओं को फ्रीज करते हुए एक पर्यवेक्षित पार्सिंग उद्देश्य पर ठीक-ट्यूनिंग mBERT के साथ प्रयोग करते हैं। दिलचस्प बात यह है कि स्पष्ट भाषाई संरचना सीखने के उद्देश्य को स्टीयरिंग करने में, हम परिणामस्वरूप ध्यान पैटर्न में प्रतिनिधित्व की जाने वाली एक ही संरचना को पाते हैं, जिसमें दिलचस्प अंतर होते हैं, जिसके संबंध में पैरामीटर जमे हुए हैं।Abstract
Pošto je popularizacija transformera kao kodera općeg cilja za NLP, mnogi ispitivanja pokušavali su dekodirati jezičku strukturu iz svog novog mehanizma pažnje multiglavnih glava. Međutim, većina takvog rada usredotočilo se skoro isključivo na engleski - jezik s krutim riječima i nedostatak inflekcionalne morfologije. U ovom ispitivanju predstavljamo eksperimente za dekodiranje multijezičkog BERT-a na 18 jezika kako bi testirali generalizabilnost tvrdnje da se sintaks ovisnosti odražava u obrascima pažnje. Pokazujemo da puna drveća može biti dekodirana iznad početne preciznosti od jednog glave pažnje i da se pojedinačni odnosi često prate istim glavama na jezicima. Osim toga, u pokušaju razgovarati o nedavnim debatima o statusu pažnje kao objašnjavajući mehanizam, eksperimentiramo s finom prilagodbom mBERT-a o nadziranom cilju analize dok smrzavamo različite niz parametara. Zanimljivo je, u upravljanju ciljem da naučimo jasnu jezičku strukturu, naći ćemo mnogo isto strukturu predstavljenu u rezultativnim obrascima pažnje, sa zanimljivim razlikama u vezi kojih su parametra zamrznuti.Abstract
Mióta a Transformer népszerűsítette az NLP általános célú funkciókódolóját, számos tanulmány megpróbálta dekódolni a nyelvi struktúrát az új, többfejű figyelem mechanizmusából. Azonban az ilyen munkák nagy része szinte kizárólag az angolra összpontosított - egy merev szósorrendű nyelvre és az inflektuális morfológia hiányára. Ebben a tanulmányban 18 nyelven bemutatjuk a többnyelvű BERT dekódolási kísérleteit annak érdekében, hogy teszteljük az állítás általánosíthatóságát, miszerint a függőség szintaxisa tükröződik a figyelemmintákban. Megmutatjuk, hogy a teljes fák az alap pontossága felett dekódolhatók egyetlen figyelemfejből, és hogy az egyes kapcsolatokat gyakran ugyanazok a fejek követik nyelveken át. Továbbá a figyelem mint magyarázó mechanizmus állapotáról szóló közelmúltbeli viták megvitatására kísérletezünk az mBERT finomhangolásával egy felügyelt elemzési célkitűzésen, miközben különböző paramétersorozatokat befagyasztunk. Érdekes módon a kifejezett nyelvi struktúra megtanulásának célkitűzése irányításában ugyanannak a struktúrának nagy részét találjuk, amelyet az eredményekből eredő figyelemmintákban képviselnek, érdekes különbségekkel, amelyek tekintetében a paraméterek fagyasztottak.Abstract
Քանի որ Թերֆորմերի բնակչությունը որպես ընդհանուր նպատակի կոդեր ՆԼՊ-ի համար, շատ ուսումնասիրություններ փորձել են բացահայտել լեզվաբանական կառուցվածքը իր նոր բազմագլխավոր ուշադրության մեխանիզմից: Այնուամենայնիվ, նման աշխատանքների մեծ մասը կենտրոնացավ գրեթե միայն անգլերենի վրա, մի լեզու, որն ունի խիստ բառերի կարգ և ազդեցության մորֆոլոգիայի բացակայությունը: Այս ուսումնասիրության ընթացքում մենք ներկայացնում ենք բազմալեզու BER-ի բացակոդացման փորձարկումներ 18 լեզուներում, որպեսզի ստուգենք, թե արդյոք կախվածության սինտաքսը արտահայտվում է ուշադրության կաղապարներում: We show that full trees can be decoded above baseline accuracy from single attention heads, and that individual relations are often tracked by the same heads across languages. Ավելին, ուշադրության կարգավիճակի մասին վերջին քննարկումների լուծման փորձի համար որպես բացատրական մեխանիզմ, մենք փորձում ենք վերահսկված վերլուծության օբյեկտիվ վերահսկված mBER-ի հետ, սառելով տարբեր պարամետրերի շարքերը: Հետաքրքիր է, որ պարզ լեզվաբանական կառուցվածք սովորելու նպատակի ուղղությամբ մենք գտնում ենք նույն կառուցվածքը, որը ներկայացված է հետևյալ ուշադրության կաղապարներում, հետաքրքիր տարբերություններով այն հարցում, թե որոնք պարամետրերը սառցած ենAbstract
Sejak popularisasi Transformer sebagai pengkode fitur tujuan umum untuk NLP, banyak studi telah mencoba untuk mendekode struktur bahasa dari mekanisme perhatian multikepalanya yang baru. Namun, banyak pekerjaan seperti itu fokus hampir eksklusif pada bahasa Inggris - bahasa dengan perintah kata yang kasar dan kekurangan morfologi inflektional. Dalam penelitian ini, kami mempersembahkan eksperimen dekoding untuk BERT berbagai bahasa melalui 18 bahasa untuk menguji generalisasi klaim bahwa sintaks dependensi refleksi dalam pola perhatian. Kami menunjukkan bahwa pohon penuh dapat dikodeksi di atas akurasi dasar dari kepala perhatian tunggal, dan bahwa hubungan individu sering dilacak oleh kepala yang sama melalui bahasa. Selain itu, dalam percobaan untuk mengatasi debat baru-baru ini tentang status perhatian sebagai mekanisme penjelasan, kami eksperimen dengan memperbaiki mBERT pada objek penganalisan yang diawasi sementara membeku seri parameter yang berbeda. Menarik, dalam mengarahkan tujuan untuk belajar struktur bahasa eksplicit, kita menemukan banyak struktur yang sama yang mewakili dalam pola perhatian yang berasal, dengan perbedaan yang menarik terhadap parameter yang membeku.Abstract
Dopo la diffusione del Transformer come codificatore di funzionalità generale per NLP, molti studi hanno tentato di decodificare la struttura linguistica dal suo nuovo meccanismo di attenzione multi-testa. Tuttavia, gran parte di questo lavoro si concentrò quasi esclusivamente sull'inglese - una lingua con rigido ordine delle parole e una mancanza di morfologia inflessionale. In questo studio, presentiamo esperimenti di decodifica per BERT multilingue in 18 lingue al fine di testare la generalizzabilità dell'affermazione che la sintassi di dipendenza si riflette nei modelli di attenzione. Mostriamo che gli alberi pieni possono essere decodificati al di sopra della precisione di base da singole teste di attenzione e che le singole relazioni sono spesso tracciate dalle stesse teste attraverso le lingue. Inoltre, nel tentativo di affrontare i recenti dibattiti sullo stato dell'attenzione come meccanismo esplicativo, sperimentiamo con la messa a punto di mBERT su un obiettivo di analisi supervisionato, congelando diverse serie di parametri. È interessante notare che, nel guidare l'obiettivo di apprendere una struttura linguistica esplicita, troviamo gran parte della stessa struttura rappresentata nei modelli di attenzione risultanti, con interessanti differenze rispetto a quali parametri vengono congelati.Abstract
NLPの汎用特徴エンコーダとしてTransformerが普及して以来、多くの研究がその新規の多頭注目メカニズムから言語構造を解読しようと試みてきた。 しかし、そのような仕事の多くは、ほとんど英語のみに焦点を当てていました。英語は、語順が硬く、曲がりくねった形態素が欠如している言語です。 この研究では、依存構文が注意パターンに反映されているという主張の一般化性をテストするために、18の言語にわたる多言語BERTのデコード実験を提示します。 完全な木は、単一の注意ヘッドからベースラインの精度を上回ってデコードすることができ、個々の関係は、言語間で同じヘッドによって追跡されることが多いことを示しています。 さらに、説明的なメカニズムとしての注意の状態に関する最近の議論に対処するために、異なる一連のパラメータを凍結しながら、監視された構文解析目標でmBERTを微調整することを実験しました。 興味深いことに、明示的な言語構造を学習する目的を誘導する際に、私たちは、結果として生じる注意パターンで表されるのと同じ構造の多くを見つけ、どのパラメータが凍結されるかに関して興味深い違いがあります。Abstract
Dino popularing of the Transformer as a General-goal character koder for NLP, a number of tutoriales have tented to decode language architecture from her multi-head awake mehanisatus. Nanging, akeh lan saiki nggambar obah-obahan luwih dumateng Inggris - kaya langkung awak dhuwis layang lan ora tau ngerasai nyong. Nang ujaran iki, awak dhéwé éntukno akeh operasi nggawe gerangkat kanggo saben ingkang BERT karo 18 luwih kanggo ujian kanggo ngerasakno kapan ginarangke sampek kapan ginarangke sampek kapan ginarangke sampek. Awak dhéwé éntuk punika andhéwé éntuk iki dadi angat luwih jarang winih, lan akeh barang sing saben basa sing dikondisih akeh langgar sampek. text-tool-action Awak dhéwé, nglanggar nggalaksi kanggo ngerasakno dumadhi ingkang luwih dumadhi, awak dhéwé ngerasakno ngono nggawe barang sampeyan ingkang diputara awak dhéwé, karo hal-alam sing paling nggawe gerakan.Abstract
ტრანფორმაციის პოლუგარიზაცია როგორც საერთო მიზეზი ფუნქციის კოდირებით NLP-ისთვის, ბევრი კვლევები მოცდილობენ ლენგურისტიკური სტრუქტურაციას, რომელიც მისი პრომე მაგრამ ასეთი სამუშაო მნიშვნელოვანი სამუშაო უფრო გამოყენებულია ანგლისურად - სიტყვების სიტყვების შესახებ და ინფლექციონალური მორფოლოგიის ამ კვლევაში, ჩვენ მრავალენგური BERT-ის განსხვავებული ექსპერიმენტების განსხვავება 18 ენების განსხვავებაში, რომლებიც განსხვავებული სინტაქსის განსხვავებაში გამოყენება. ჩვენ ჩვენ აჩვენებთ, რომ ყველა ხე შეიძლება აკოდისტურება ერთი გრძნობის თავიდან, და რომ ინდივებული გრძნობები ზოგჯერ იგივე თავიდან იყოს იგივე თავიდან ენათ დამატებით, ახლა ახლა განსხვავებული განსხვავებული პარამეტრების სერიო შემდეგ განსხვავებული განსხვავებული განსხვავებული მონაცემენტის შესახებ გავაკეთებთ მBERT-ს განსხვავებული განსხვავებული განსხვავებული განსხვავებ საინტერესოდ, საკუთარი გოგონისტიკური სტრუქტურაციას ვისწავლოთ, ჩვენ იგივე სტრუქტურაციას, რომელსაც პრამეტრები მოცემულია, რომელსაც მოცემულია.Abstract
Трансформацияны NLP үшін жалпы мақсатты функциялық кодері ретінде бірнеше зерттеулер тілдік құрылғысын романдағы көп басып қарау механизмінен декодтауға тырысқан. Бірақ бұл жұмыс көпшілігі ағылшын тіліне көмектеседі - тілі сияқты сөздердің реті және инффекциялық морфологиясы жоқ. Бұл зерттеулерде, біз бірнеше тілді BERT үшін бірнеше тілді декодтау тәжірибелерін 18 тілде көрсеткіземіз. Ол тәуелдік синтаксисінің көбіректігін тексеру үшін, тәуелдік синтаксис Біз толық ағаштарды негізгі жолдың дұрыстығынан декодтауға болады, және әрбір қатынастар тілдерден бірдей бағалап тұрады. Қосымша, жаңа дебаттарды түсініктеме механизмі ретінде түсініктеме күйіне қатынау әрекетінде, мBERT бақылау мақсатын бақылап тұрып, әртүрлі параметрлер тізбегін мұздырып тұрып тұрамыз. Ең қызықты, тілдік құрылымын оқыту мақсатын басқару үшін біз бірнеше құрылымызды қалай параметрлердің мұзылған түрлендіріліктері болып тұрады.Abstract
Transformer가 NLP의 유니버설 특징 인코더로 보급된 이래 많은 연구들이 새로운 다중 주의 메커니즘에서 언어 구조를 디코딩하려고 시도했다.그러나 많은 이런 연구들이 거의 전적으로 영어에 집중되어 있다. 어순이 경직되고 굴절 변화가 없는 언어이다.이 연구에서 우리는 18개 언어의 다중 언어 BERT에 대해 디코딩 실험을 실시하여 의존 문법이 주의 모델에 반영된 이 견해의 보편성을 테스트했다.우리는 온전한 나무는 하나의 주의 헤드에서 기선보다 높은 정확도까지 디코딩할 수 있고 개체 관계는 일반적으로 서로 다른 언어의 같은 주의 헤드로 추적된다는 것을 발견했다.또한 최근 주의 상태가 해석 메커니즘으로서의 논쟁을 해결하기 위해 우리는 감독이 있는 문법 분석 목표에서 mBERT 실험을 미세하게 조정하고 서로 다른 파라미터 시리즈를 동결했다.흥미로운 것은 현식 언어 구조를 학습하는 목표를 지도할 때 우리는 발생하는 주의 모델에서 대부분의 구조가 같고 어떤 파라미터가 동결되는지에 흥미로운 차이가 존재한다는 것을 발견했다.Abstract
Atsižvelgiant į tai, kad Transformuotojas populiarinamas kaip NLP bendrojo tikslo koduotojas, daugelis tyrimų bandė dekoderuoti kalbinę struktūrą iš naujo daugiapakopio dėmesio mechanizmo. Vis dėlto daugelis tokių darbų daugiausia dėmesio skyrė beveik išimtinai anglų kalbai - kalbai su griežta žodžių tvarka ir nepakankamai inflekcinės morfologijos. Šiame tyrime pristatome daugiakalbių BERT dekodizavimo eksperimentus 18 kalbų, siekiant išbandyti teiginio, kad priklausomybės sintaksas atspindi dėmesio modelius, generalizavimą. Mes rodome, kad visus medžius galima dekodiuoti virš bazinio tikslumo iš vienos dėmesio galvutės ir kad atskirus santykius dažnai seka tos pačios galvutės įvairiose kalbose. Be to, bandydami išspręsti neseniai vykusias diskusijas dėl dėmesio būklės kaip paaiškinimo mechanizmo, eksperimentuojame tiksliai pritaikydami mBERT prie prižiūrimos analizės tikslo, užšaldant įvairius parametrus. Įdomu, kad vadovaujantis tikslu mokytis aiškios kalbos struktūros, susiduriame su didele dalimi tos pačios struktūros, kuri atsiranda dėl gaunamo dėmesio modelio, ir įdomūs skirtumai, kokių parametrų atšaldymo atžvilgiu.Abstract
Since the popularization of the Transformer as a general-purpose feature encoder for NLP, many studies have attempted to decode linguistic structure from its novel multi-head attention mechanism. Сепак, голем дел од ваквата работа се фокусираше речиси исклучително на англискиот јазик - јазик со строг редослед на зборови и недостаток на инфекционална морфологија. Во оваа студија, претставуваме експерименти за декодирање на мултијазичниот БЕРТ преку 18 јазици со цел да ја тестираме генерализацијата на тврдењето дека синтаксијата на зависноста е рефлектирана во моделите на внимание. Покажуваме дека целосните дрвја можат да бидат декодирани над основната точност од единствени глави на внимание, и дека индивидуалните односи честопати се следат од истите глави преку јазиците. Покрај тоа, во обид за решавање на неодамнешните дебати за статусот на вниманието како објаснувачки механизам, експериментираме со финетизирање на mBERT на надгледувана објектива за анализирање додека замрзнуваме различни серии параметри. Интересно, во управувањето со целта да се научи експлицитна лингвистичка структура, најдовме многу од истата структура претставена во резултатите на образите на внимание, со интересни разлики во врска со кои параметри се замрзнати.Abstract
ട്രാന്സ്ഫോര്മാരുടെ പ്രധാനപ്പെടുത്തുന്നതിന് ശേഷം NLP-നുള്ള ഒരു ജനറല് ലക്ഷ്യം കോഡോര് ആയി പ്രദര്ശിപ്പിക്കുന്നതിന് ശേഷം, പല പഠനങ്ങളും എന്നാലും ഇംഗ്ലീഷില് ഒരുപാട് പ്രധാനപ്പെട്ട പണിയുണ്ടാക്കിയിരുന്നു. ഒരു വാക്കിന്റെ ഉത്തരവുമുള്ള ഭാഷ, അതിന ഈ പഠനത്തില് ഞങ്ങള് 18 ഭാഷകളില് പല ഭാഷയിലും ബെര്ട്ടിന്റെ പരീക്ഷണങ്ങള്ക്കുള്ള പരീക്ഷണങ്ങള് കാണിച്ചുകൊടുക്കുന്നു. ആശ്രയിച്ച സിന്ടാക നമ്മള് കാണിച്ചു കൊണ്ടിരിക്കുന്നു മുഴുവന് വൃക്ഷങ്ങള്ക്കും ബെസ്ലൈനില് നിന്നും ശ്രദ്ധ കാണിക്കാന് കഴിയുമെന്ന്. വ അതിനുശേഷം, അടുത്ത വിവരങ്ങളുടെ സ്ഥിതിയെക്കുറിച്ച് സംസാരിക്കാന് ശ്രമിക്കുന്ന ഒരു വിശദീകരണവിവരങ്ങള് വിശദീകരിക്കാന് ശ്രമിക്കുമ്പോള് നമ്മള് മെബ വ്യക്തമായ ഭാഷ ക്രമീകരണങ്ങള് പഠിക്കാനുള്ള ലക്ഷ്യം നിര്ണ്ണയിക്കുന്നതില് നമുക്ക് അതേ ഘടനയില് പ്രതിനിധിക്കപ്പെട്ട ഒരേപോലെയുള്ള കൂടുതല് കാണാം,Abstract
Трансформацийн нэр хүндлэгчийг NLP-ийн ерөнхий зорилготой шинж тэмдэглэгч болсон учраас олон судалгаанууд хэлний бүтээгдэхүүний шинэ олон толгой анхаарлын механизмаас хэлний бүтээгдэхүүнийг шинэчлэх хичээлд Гэвч ийм олон ажил нь англи хэл дээр л анхаарлаа анхаарлаа төвлөрсөн. Энэ хэл нь хатуу үг дарааллаар, нөлөөлдөг морфологи байхгүй. Энэ судалгаанд бид 18 хэл дээр олон хэлний BERT-ын хувьд хамааралтай синтаксис анхаарлын хэлбэрээр дүрслэгдсэн утгыг шинжлэх ухааны тулд олон хэлний туршилтыг үзүүлнэ. Бид бүрэн мод нь нэг анхаарлын толгойд тодорхойлогдож чадна гэдгийг харуулж байна. Хүн бүрийн харилцаа ихэвчлэн хэл дээр ижил толгойд дамжуулдаг гэдгийг харуулж байна. Түүнчлэн, саяхан анхаарлын статусыг тайлбарлах механизм гэж ярилцах зорилго дээр бид мBERT-г удирдлагатай ажиллах зорилго дээр шалгаж, өөр хэдэн параметр мөсөж байна. Хамгийн сонирхолтой нь, хэл хэлний бүтэц сурах зорилго руу удирдах тусам бид ижил бүтэц нөлөөлж буй анхаарал төлөвлөгөөний хэлбэрээр дүрслэгдсэн байдаг. Ямар параметр мөчлөгдсөн талаар сонирхолтой ялгаатай.Abstract
Sejak popularisasi Transformer sebagai pengekod ciri-ciri-tujuan umum untuk NLP, banyak kajian telah cuba untuk menyahkod struktur bahasa dari mekanisme perhatian berbilang-kepala novelnya. Bagaimanapun, kebanyakan pekerjaan seperti itu fokus hampir eksklusif pada bahasa Inggeris - bahasa dengan perintah perkataan yang ketat dan kekurangan morfologi pengaruh. Dalam kajian ini, kami mempersembahkan percubaan penyahkodan untuk BERT berbilang bahasa melalui 18 bahasa untuk menguji keseluruhan pernyataan bahawa sintaks dependensi tersembunyi dalam corak perhatian. Kami menunjukkan bahawa pokok penuh boleh dihapuskan atas ketepatan asas dari kepala perhatian tunggal, dan bahawa hubungan individu sering dikesan oleh kepala yang sama melalui bahasa. Selain itu, dalam cubaan untuk mengatasi debat baru-baru ini mengenai status perhatian sebagai mekanisme penjelasan, kami eksperimen dengan memperbaiki mBERT pada objek penghuraian yang diawasi semasa membeku seri parameter yang berbeza. Menarik, dalam mengarahkan objektif untuk belajar struktur bahasa secara eksplicit, kita mendapati banyak struktur yang sama yang mewakili dalam corak perhatian yang berasal, dengan perbezaan yang menarik terhadap parameter yang dibekukan.Abstract
Minħabba l-popolarizzazzjoni tat-Transformer bħala kodifikatur ta’ karatteristiċi ta’ skop ġenerali għall-NLP, ħafna studji ppruvaw jiddekodaw l-istruttura lingwistika mill-mekkaniżmu ġdid ta’ attenzjoni b’ħafna ras. Madankollu, ħafna minn dawn ix-xogħlijiet iffukaw kważi esklussivament fuq l-Ingliż - lingwa b’ordni riġida tal-kliem u nuqqas ta’ morfoloġija inflettjonali. F’dan l-istudju, qed nippreżentaw esperimenti ta’ dekodifikazzjoni għal BERT multilingwi fuq 18-il lingwa sabiex tittestja l-ġeneralizzazzjoni tal-affermazzjoni li s-sintaks tad-dipendenza huwa rifless fix-xejriet ta’ attenzjoni. Aħna nuru li s-siġar sħaħ jistgħu jiġu dekodifikati ’l fuq mill-preċiżjoni tal-linja bażi minn kapijiet ta’ attenzjoni individwali, u li r-relazzjonijiet individwali spiss jiġu segwiti mill-istess kapijiet bejn il-lingwi. Barra minn hekk, f’tentattiv li nindirizzaw dibattiti reċenti dwar l-istatus tal-attenzjoni bħala mekkaniżmu ta’ spjegazzjoni, a ħna ninsperimentaw bl-aġġustament tal-mBERT fuq objettiv ta’ analiżi sorveljat filwaqt li nffriżaw serje differenti ta’ parametri. Interessant, fit-tmexxija tal-għan li titgħallem struttura lingwistika espliċita, isibu ħafna mill-istess struttura rappreżentata fix-xejriet ta’ attenzjoni li jirriżultaw, b’differenzi interessanti fir-rigward ta’ liema parametri huma ffriżati.Abstract
Sinds de popularisering van de Transformer als een algemene functie encoder voor NLP, hebben veel studies geprobeerd om linguïstische structuur te decoderen van zijn nieuwe multi-head aandachtsmechanisme. Echter, veel van dit werk concentreerde zich bijna uitsluitend op de Engelse sca-taal met een rigide woordorde en een gebrek aan flexionele morfologie. In deze studie presenteren we decoderingsexperimenten voor meertalige BERT in 18-talen om de generaliseerbaarheid te testen van de bewering dat afhankelijkheidssyntaxis wordt weerspiegeld in aandachtspatronen. We laten zien dat volledige bomen boven baseline nauwkeurigheid kunnen worden gedecodeerd van enkele aandachtskoppen, en dat individuele relaties vaak worden gevolgd door dezelfde hoofden in verschillende talen. In een poging om recente debatten over de status van aandacht als verklarend mechanisme aan te pakken, experimenteren we verder met het finetunen van mBERT op een begeleid parsing doel terwijl verschillende reeksen parameters worden bevroren. Interessant genoeg vinden we bij het sturen van de doelstelling om expliciete taalstructuur te leren veel van dezelfde structuur vertegenwoordigd in de resulterende aandachtspatronen, met interessante verschillen met betrekking tot welke parameters worden bevroren.Abstract
Siden populariseringa av Transformeren som eit generell funksjonskode for NLP, har mange studier prøvd å dekode lingviske strukturen frå den romanske fleire hovudmerksmekanismen. Men mykje av slike arbeid fokuserte nesten eksklusivt på engelsk - eit språk med sterke ordordrekkefølgje og mangelse av infleksjonelle morfologi. I denne studien presenterer vi dekoderingseksperimenter for fleirspråk BERT på 18 språk for å testa generelliserte tiltak til at avhengighetssyntaksen er reflektert i oppmerksmønsteret. Vi viser at fulle trær kan dekoderast over grunnlinje nøyaktighet frå enkelte oppmerkskoplar, og at individuelle forholdet ofte blir spora av same koplar over språk. I tillegg til å prøve å handtera nyleg debattar om oppmerksomhetsstatusen som ein forklaringsmekanisme, eksperimenterer vi med fint mBERT på eit oversikt tolkingsverktål medan det fryser ulike serie parametra. I å styra målet for å lære eksplisitt lingvisk struktur, finn vi mykje av det same strukturen som er representert i dei resulterte oppmerksmønstrene, med interessante forskjeller om kva parametrar er frosert.Abstract
Od czasu popularyzacji transformatora jako kodera cech ogólnego przeznaczenia dla NLP, wiele badań próbowało odszyfrować strukturę językową z jego nowego mechanizmu uwagi wielogłowicowego. Jednak duża część takich prac skupiała się niemal wyłącznie na języku angielskim sca o sztywnym porządku słów i braku morfologii inflekcyjnej. W niniejszym opracowaniu przedstawiamy eksperymenty dekodowania wielojęzycznego BERT w 18-językach w celu sprawdzenia uogólnienia twierdzenia, że składnia zależności znajduje odzwierciedlenie we wzorcach uwagi. Pokazujemy, że pełne drzewa mogą być dekodowane ponad dokładnością bazową z pojedynczych głów uwagi, a poszczególne relacje są często śledzone przez te same główki w różnych językach. Ponadto, próbując odnieść się do ostatnich debat na temat statusu uwagi jako mechanizmu wyjaśniającego, eksperymentujemy z dostosowaniem mBERT na nadzorowanym celu parsowania przy jednoczesnym zamrażaniu różnych serii parametrów. Co ciekawe, kierując celem nauki wyraźnej struktury językowej, znajdujemy dużą część tej samej struktury reprezentowanej w wynikających z nich wzorcach uwagi, z ciekawymi różnicami w odniesieniu do których parametrów są zamrożone.Abstract
Desde a popularização do Transformer como um codificador de recursos de uso geral para PNL, muitos estudos tentaram decodificar a estrutura linguística de seu novo mecanismo de atenção multi-cabeça. No entanto, grande parte desse trabalho se concentrou quase exclusivamente no inglês – um idioma com ordem de palavras rígida e falta de morfologia flexional. Neste estudo, apresentamos experimentos de decodificação para BERT multilíngue em 18 idiomas para testar a generalização da afirmação de que a sintaxe de dependência é refletida nos padrões de atenção. Mostramos que árvores completas podem ser decodificadas acima da precisão da linha de base a partir de cabeças de atenção únicas e que as relações individuais são frequentemente rastreadas pelas mesmas cabeças em todos os idiomas. Além disso, em uma tentativa de abordar debates recentes sobre o status da atenção como um mecanismo explicativo, experimentamos o ajuste fino do mBERT em um objetivo de análise supervisionada enquanto congelamos diferentes séries de parâmetros. Curiosamente, ao direcionar o objetivo de aprender a estrutura linguística explícita, encontramos muito da mesma estrutura representada nos padrões de atenção resultantes, com diferenças interessantes em relação aos parâmetros que são congelados.Abstract
De la popularizarea Transformerului ca codificator de caracteristici generale pentru PNL, multe studii au încercat să decodeze structura lingvistică din noul său mecanism de atenție multi-cap. Cu toate acestea, o mare parte din aceste lucrări s-a concentrat aproape exclusiv pe engleză - o limbă cu ordine rigidă a cuvintelor și o lipsă de morfologie inflexională. În acest studiu, prezentăm experimente de decodare pentru BERT multilingv în 18 limbi pentru a testa generalizarea afirmației că sintaxa dependenței se reflectă în modelele de atenție. Noi arătăm că copacii plini pot fi decodați deasupra acurateții de bază din capete de atenție unice și că relațiile individuale sunt adesea urmărite de aceleași capete în toate limbile. Mai mult decât atât, în încercarea de a aborda dezbaterile recente despre statutul atenției ca mecanism explicativ, experimentăm cu ajustarea fină a mBERT pe un obiectiv de analizare supravegheat, în timp ce înghețăm diferite serii de parametri. Interesant este că, în direcția obiectivului de a învăța structura lingvistică explicită, găsim o mare parte din aceeași structură reprezentată în modelele de atenție rezultate, cu diferențe interesante în ceea ce privește parametrii care sunt înghețați.Abstract
С момента популяризации Трансформатора как универсального кодера признаков для NLP, многие исследования пытались декодировать лингвистическую структуру из его нового многоголового механизма внимания. Однако большая часть такой работы была сосредоточена почти исключительно на английском языке — языке с жестким порядком слов и отсутствием инфлективной морфологии. В этом исследовании мы представляем эксперименты по декодированию для многоязычного BERT на 18 языках, чтобы проверить обобщаемость утверждения о том, что синтаксис зависимости отражается в паттернах внимания. Мы показываем, что полные деревья могут быть декодированы с точностью выше базовой от одной головы внимания, и что индивидуальные отношения часто отслеживаются одними и теми же головами между языками. Кроме того, в попытке рассмотреть недавние дебаты о статусе внимания как пояснительного механизма, мы экспериментируем с точной настройкой mBERT на контролируемой цели синтаксического анализа, замораживая различные серии параметров. Интересно, что, направляя цель изучения явной лингвистической структуры, мы находим большую часть той же структуры, которая представлена в результирующих паттернах внимания, с интересными различиями в отношении того, какие параметры заморожены.Abstract
NLP වෙනුවෙන් සාමාන්ය හැකියාවක් සංකේතකයෙක් විදියට පස්සේ, බොහොම අභ්යාසයෙන් භාෂාවික ස්ථානය විස්තර කරන්න උත්සාහ කලා නමුත්, ඒ වගේම වැඩේ ගොඩක් වැඩේ ඉංග්රීසියේ විශේෂයෙන් ඉංග්රීසියෙන් පිළිගත්තා - භාෂාවක් හරිම මේ පරීක්ෂණයේදී, අපි බොහොම භාෂාවක් BERT වලින් භාෂාවක් 18 වලින් ඩිකෝඩ් පරීක්ෂණය කරන්න පුළුවන් පරීක්ෂණය කරන්න, අවශ් අපි පෙන්වන්නේ පූර්ණ ගස් වලින් පුළුවන් පුළුවන් පුළුවන් පුළුවන් පුළුවන් පුළුවන් පුළුවන් අධ්යා ඉතින්, අලුත් වාර්තාවක් ගැන අවධානයේ ස්ථිතිය ප්රශ්නයක් විදිහට පරීක්ෂණය කරන්න උත්සාහ කරනවා, අපි ප්රශ්නයක් විදිහට ප්රශ්නයක් වෙන ප්රශ්ණයෙන්ම, භාෂාවික ස්ථානය ඉගෙන ගන්න අරමුණ විදිහට, අපි හොයාගන්නේ අවස්ථාවක් විදිහට අවස්ථාවක් තියෙන්නේ අවස්ථාවකAbstract
Od popularizacije transformatorja kot splošnega kodirja značilnosti za NLP so številne študije poskušale dekodirati jezikovno strukturo iz njegovega novega večglavnega mehanizma pozornosti. Vendar se je veliko takšnega dela osredotočalo skoraj izključno na angleščino - jezik s togim besednim redom in pomanjkanjem inflekcijske morfologije. V tej študiji smo predstavili eksperimente dekodiranja večjezičnega BERT v 18 jezikih, da bi preizkusili splošnost trditve, da se sintaksa odvisnosti odraža v vzorcih pozornosti. Pokazali smo, da je polna drevesa mogoče dekodirati nad osnovno natančnostjo iz posameznih glav pozornosti in da posamezne relacije pogosto sledijo iste glave v vseh jezikih. Poleg tega, v poskusu obravnavanja nedavnih razprav o statusu pozornosti kot obrazložitvenega mehanizma, eksperimentiramo z natančnim nastavitvijo mBERT na nadzorovanem cilju razčlenjanja ob zamrznitvi različnih nizov parametrov. Zanimivo je, da pri usmerjanju cilja učenja eksplicitne jezikovne strukture najdemo veliko iste strukture, ki je predstavljena v nastalih vzorcih pozornosti, z zanimivimi razlikami glede tega, kateri parametri so zamrznjeni.Abstract
Tan iyo marka lagu populariyey turjubaanka oo ah aqoonsiga guud ee NLP, waxbarasho badan ayaa isku dayay inay ka codsadaan dhismaha luuqadda ee warqada ah ee warqaddiisa farshaxan badan oo madax-focus ah. Si kastaba ha ahaatee, shaqada badan oo ay tahay mid keliya oo kaliya Ingiriis - luqad ku qoran amar adag iyo baahida dhaqdhaqaaq. Waxbarashadan, waxaynu soo bandhignaynaa imtixaanka kooban oo ku qoran 18 luuqadood oo luuqado kala duduwan BERT si aan u imtixaano tusaale ahaan, in cashuurta ku xiran lagu soo bandhigayo. Waxaynu muujinnaa in geedaha buuxa lagu koobi karo saxda aasaasiga ah oo hal madax looga jeedo, xiriirka gaarka ah waxaa inta badan la daba socdaa madax isku mid ah oo luqada kala duduwan. Furthermore, markaan isku dayno debaasho ku saabsan xaaladda dhegaynta sida mid u kala duduwan, waxaynu imtixaamaynaa mBERT si fiican u sameynaya goal la ilaaliyey baaritaanka marka a an qabowno parameters kala duduwan. Si xiiso leh, si aad ugu hogaansamayso in la barto dhismaha luuqada oo cad, waxaynu helaynaa dhismo badan oo isku mid ah oo ka mid ah qaababka dareecada, iyo kala duwanaanshaha xiiso oo ku saabsan heerarka ay baran yihiin.Abstract
Since the popularization of the Transformer as a general-purpose feature encoder for NLP, many studies have attempted to decode linguistic structure from its novel multi-head attention mechanism. Megjithatë, shumica e punës së tillë u përqëndrua pothuajse ekskluzivisht në anglisht - një gjuhë me rend të ashpër fjalësh dhe një mungesë morfologjike të pakëndshme. Në këtë studim, ne paraqesim eksperimente dekodimi për BERT shumëgjuhës nëpër 18 gjuhë me qëllim që të testojmë gjeneralizueshmërinë e pretendimit se sintaksi i varësisë pasqyrohet në modelet e vëmendjes. Ne tregojmë se pemët e plota mund të dekodizohen mbi saktësinë bazë nga kokat e vetme të vëmendjes dhe se marrëdhëniet individuale shpesh ndjekin nga të njëjtat koka nëpër gjuhë. Përveç kësaj, në një përpjekje për të trajtuar debatet e fundit rreth statusit të vëmendjes si një mekanizëm shpjegues, ne eksperimentojmë me rregullimin e mBERT në një objektiv analizimi të mbikqyrur ndërsa ngrijmë seri të ndryshme parametrash. Interesante, në drejtimin e objektivit për të mësuar strukturën gjuhësore eksplicite, gjejmë shumë të njëjtin strukturë të përfaqësuar në modelet e vëmendjes që rezultojnë, me dallime interesante lidhur me parametrat e ngrira.Abstract
Pošto je popularizacija transformera kao koder općeg cilja za NLP, mnogi studiji su pokušali da dekodiraju lingvističku strukturu iz svog romanskog mehanizma multiglavne pažnje. Međutim, većina takvog rada je skoro ekskluzivno fokusirana na engleski jezik sa krutim redom riječi i nedostatak inflekcionalne morfologije. U ovoj studiji predstavljamo eksperimente za dekodiranje multijezičkog BERT-a na 18 jezika kako bi testirali generalizabilnost tvrdnje da je syntaksa zavisnosti odražena u obrascima pažnje. Pokazujemo da puna drveća može biti dekodirana iznad početne tačnosti od jednog glave pažnje i da se pojedinačni odnosi često prate istim glavama na jezicima. Osim toga, u pokušaju da se obratimo nedavnim debatima o statusu pažnje kao objašnjavajući mehanizam, eksperimentiramo sa finom prilagodbom mBERT na nadziranom cilju analize dok se smrzavamo različite serije parametara. Zanimljivo je da upravljamo ciljem da naučimo eksplicitnu lingvističku strukturu, nađemo mnogo iste strukture predstavljene u rezultatnim obrascima pažnje, sa zanimljivim razlikama u vezi koje su parametre zamrznute.Abstract
Sedan populariseringen av Transformer som en generell funktionskodare för NLP har många studier försökt avkoda språklig struktur från dess nya multi-head uppmärksamhet mekanism. Men mycket av sådant arbete fokuserade nästan uteslutande på engelska - ett språk med stel ordordning och brist på böjningsmorfologi. I denna studie presenterar vi avkodningsexperiment för flerspråkig BERT på 18 språk för att testa generaliseringen av påståendet att beroendesyntax återspeglas i uppmärksamhetsmönster. Vi visar att hela träd kan avkodas över baslinjen noggrannhet från enskilda uppmärksamhetshuvuden, och att enskilda relationer ofta spåras av samma huvuden över språk. Dessutom, i ett försök att ta itu med de senaste debatterna om uppmärksamhetens status som förklarande mekanism, experimenterar vi med finjustering av mBERT på ett övervakat tolkningsmål samtidigt som vi fryser olika serier av parametrar. Intressant nog, när vi styr målet att lära oss explicit språklig struktur, finner vi mycket av samma struktur representerad i de resulterande uppmärksamhetsmönstren, med intressanta skillnader med avseende på vilka parametrar som fryss.Abstract
Tangu umaarufu wa WaTransfer kama utaratibu wa ujumla wa lengo la NLP, tafiti nyingi zimejaribu kupunguza muundo wa lugha kutoka katika mfumo wake wa kutangaza vifaa vingi. Hata hivyo, kazi nyingi ya aina hiyo ilijikita kwenye lugha ya Kiingereza - lugha yenye utaratibu wa maneno madhubuti na ukosefu wa kisiasa. Katika utafiti huu, tunaonyesha majaribio ya kuboresha kwa lugha mbalimbali ya BERT katika lugha 18 ili kujaribu uhalisia wa madai kwamba kodi ya kutegemea ya kujitegemea inaonyesha katika mitindo ya ufuatiliaji. Tunaonyesha kuwa mti mzima unaweza kupunguzwa ukweli wa msingi kutoka kwenye vichwa vya habari moja, na kwamba mahusiano binafsi mara nyingi hufuatiliwa na vichwa vinavyofanana katika lugha hizo. Zaidi ya hayo, katika jaribio la kuzungumzia mjadala wa hivi karibuni kuhusu hali ya kusikiliza kama mfumo wa kuelezea, tunajaribu kwa mBERT kwa lengo la kutengeneza mabadiliko wakati tunavua mfululizo tofauti wa parameter. Inafurahisha, katika kuongoza lengo la kujifunza muundo wa lugha wazi, tunagundua muundo huo uliofanywa na mitindo ya kusikiliza, na tofauti ya kusisimua kuhusu kipi kipi kipi kipi kipi kipi kipi kipi kilichokuwa kimeonekana.Abstract
மாற்றுதலின் பொது தலைப்பு குறியீட்டு குறியீட்டின் பொதுவான குறியீட்டாக்கத்தின் பொதுவாக்கம் இருந்து, பல ஆய்வுகள் அதன் புதைய பல தலைப்பு கவ ஆனால், இது பெரும்பாலான வேலையில் மட்டுமே ஆங்கிலத்தில் கவனம் செலுத்தப்பட்டது - சரியான வார்த்தை வரிசையுடன் மொழி மற்று இந்த ஆராய்ச்சியில், நாம் 18 மொழிகளுக்கு பல மொழிக்கு BERT குறியீட்டு சோதனைகளை காண்பிக்கிறோம். சார்ந்த சார்பு ஒத்திசைவு முறைமை நாம் காண்பிக்கிறோம் முழு மரங்களும் அடிப்படைக்கோட்டின் சரியை மட்டும் குறியீடு செய்ய முடியும் என்பதை காட்டுகிறோ மேலும், சமீபத்தில் கவனத்தின் நிலையைப் பற்றி விவாதம் செய்ய ஒரு விளக்கமான முறைமையாக முயற்சிக்கும் போது, மேலும் கண்காணிக்கப்பட்ட பாடல் காட்சி பொருளை சுவாரஸ்யமானது, வெளிப்படையான மொழி அமைப்பை கற்றுக் கொள்ளும் இலக்குகளை நிலைப்படுத்துவதற்கு, முடிவுகளின் கவனத்தின் முறைகளில் குறிப்பிடப்பட்ட ஒரே அமைAbstract
Transformerden NLP üçin umumy maksady kodçysy bolan sebäpli köp studiler, bir näçe lingwistiki strukturyny öz multi-kelli üns mekanizmasyndan çykarmak synanyşdylar. Ýöne şol işiň köpüsi diňe iňlisçe diňe üns berdi - söz düzeni ýok bir dil we eňlisçe morfologiýasy ýok. Bu araşdyrmada, biz çoklu diller BERT üçin 18 dillerde ködleme deneyleri çykýarys diýip çarpyşlygyň umumy syntaksiniň üns çekilmegi üçin göz önüne görkezilip barýarys. Biz doly agaçlaryň be ýik kellelerden takyklyklygynyň üstünde süýtgebilir diýip görkezip bilýäris we birnäçe ilişkiler köplenç dillerde bir kelle bilen yzarlanýar. Munuň üçin, soňky debatlaryň üns durumyny düşündirişi meýdançasynda, beýleki parameterler dondurup durýan mBERT-y üstlenen a ýlamak maksadynda synanyşýarys. Gyzykly bolsa, lingwistiki düzgünlerini öwrenmek üçin maksadyň üstüne seredeniňde bir nusga köp görnüşi bolan düzgünlerde, haýsynda parametreler dondurulýan gyzykly üýtgeşmeler bilen taparys.Abstract
ترنسفورٹ کی جماعت کے بعد NLP کے لئے عمومی موضوع کا کوڈر بنا دیا گیا ہے، بہت سی مطالعہ اس کے روزنامہ مطالعہ سے زبان صنعت کو دھوکا کرنے کی کوشش کی ہے۔ لیکن اس طرح بہت سی کام انگلیسی پر محسوس کیا گیا ہے - ایک زبان جس میں سخت لفظ اورغیر اثرات کی کمزوری ہے۔ اس مطالعہ میں ہم 18 زبانوں میں بہت سی زبان BERT کے لئے ڈیکوڈ کی آزمائش پیش کرتے ہیں تاکہ اس مطالعہ کی عمومی قابلیت امتحان کریں کہ اعتباری سینٹکس توجه کے نمونوں میں تفصیل کی جاتی ہے. ہم نشان دیتے ہیں کہ تمام درختوں کو بنیادی لین کے بالا ایک سر سے دکھائے جاتے ہیں، اور یہ کہ اہل رابطہ اکثر ایک سر سے زبانوں میں ایک ہی سر کے پیچھے لگاتے ہیں۔ اور اس کے علاوہ، اچھی بحث کے بارے میں اچھی بحث کے بارے میں ایک واضح مکانیسم کے طور پر، ہم ایک نظارت پارسینگ موضوع پر اچھی تدبیر کرنے کی کوشش میں آزمائش کرتے ہیں اور مختلف پارسینٹوں کی سریع freezing کرتے ہیں. علاقمند ہے کہ صریح زبان کی ساختاری کی تعلیم کرنے کے لئے موضوع کی مدد کرنا، ہم ایک ہی ساختار میں سے بہت سی ساختار پاتے ہیں جو نتیجۂ توجه الٹنوں میں نمایش کی گئی ہے، اور کس پارامتروں کے بارے میں علاقمند اختلاف کے ساتھ۔Abstract
Name Lekin, bu ishlarning ko'pchiligi eng'liz tilida faqat eng'iz tiliga qaramadi - to'g'ri so'zlar tartibi va qo'llangan morfologiya yo'q. Bu o'rganida, biz bir necha tilda BERT uchun ko'plab tilda ko'proq tajribalarni ko'rinishimiz mumkin. Shunday qilib, biz qo'llanmalar qo'llanmalarning umumiyatligini tekshirish mumkin. Biz buni ko'rayapmiz, butun daraxtlar bir xil boshqaruvchidan foydalanishi mumkin, va oddiy aloqalar ko'p tillarda bir necha boshqaruvchidan foydalanishi mumkin. Ko'pchilik, yangi qismlarni aniqlash mechanisining holati haqida javob berishga harakat qilib, biz mBERT haqida bir xil parametrlarni ajratishga tayyorlash imkoniyatini tajriba qilamiz. Shunday qiziqarli, bir xil tilni o'rganish uchun bir xil tuzuvni boshqarish uchun, biz kelib chiqqan paytlarning natijasida o'xshash tuzuvlar tartibi bilan ko'proq qiziqarli o'zgarishlar bilan boshlanamiz.Abstract
Từ khi biến biến thành một bộ mã hóa biến hình thành một bộ mã hóa đặc trưng cho chọc dò tủy sống, nhiều nghiên cứu đã cố giải mã cấu trúc ngôn ngữ từ cỗ máy gây chú ý đa đầu mới của nó. Tuy nhiên, phần lớn công việc này tập trung gần như độc quyền vào tiếng Anh... một ngôn ngữ có trật tự từ cứng nhắc và thiếu độ chuẩn dẫn tới. Trong nghiên cứu này, chúng tôi giới thiệu các thí nghiệm giải mã cho hỗn hợp ALT xuyên suốt 18 ngôn ngữ để kiểm tra tổng thể của yêu cầu cộng hưởng phụ thuộc phản ánh trong các mô hình chú ý. Chúng tôi cho thấy các cây đầy đủ có thể giải mã trên mức cơ bản chính xác từ một đầu tập trung, và các mối quan hệ cá nhân thường được theo dõi bởi cùng một đầu trên các ngôn ngữ. Hơn nữa, trong nỗ lực giải quyết những cuộc tranh luận gần đây về vị trí chú ý như một cơ chế giải thích, chúng tôi thử nghiệm với kết quả nghiên cứu cẩn thận trên một mục tiêu phân tích được giám sát, đồng thời đóng băng các loạt các tham số khác nhau. Thật thú vị, trong việc điều khiển mục tiêu học được cấu trúc ngôn ngữ rõ ràng, chúng tôi tìm thấy nhiều cấu trúc giống nhau đại diện trong các mô hình chú ý kết quả, với những khác biệt thú vị về các thông số bị đóng băng.Abstract
自Transformer为NLP通用特征编码器普及以来,多所研究,从其新颖多头注意机制解码言语结构。 然大抵此类殆尽于英语 - 一有严词序,与无屈折之语。 于此论之,18多言BERT之解码实验,以试恃语法在意模之可推广性。 明全树可以注意解码过于基线精,而单于跨语之相同头踵也。 此外为近意解机之争,试于监解析微调mBERT,同时冻结异参数系列。 有趣者,导学显式言语结构之时,见意模中多同结构,并于何参数冻结之异。- Anthology ID:
- 2021.eacl-main.264
- Volume:
- Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume
- Month:
- April
- Year:
- 2021
- Address:
- Online
- Venue:
- EACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 3031–3045
- Language:
- URL:
- https://aclanthology.org/2021.eacl-main.264
- DOI:
- 10.18653/v1/2021.eacl-main.264
- Bibkey:
- Cite (ACL):
- Vinit Ravishankar, Artur Kulmizev, Mostafa Abdou, Anders Søgaard, and Joakim Nivre. 2021. Attention Can Reflect Syntactic Structure (If You Let It). In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3031–3045, Online. Association for Computational Linguistics.
- Cite (Informal):
- Attention Can Reflect Syntactic Structure (If You Let It) (Ravishankar et al., EACL 2021)
- Copy Citation:
- PDF:
- https://aclanthology.org/2021.eacl-main.264.pdf
- Data
- Universal Dependencies
- Terminologies:
Export citation
@inproceedings{ravishankar-etal-2021-attention, title = "Attention Can Reflect Syntactic Structure (If You Let It)", author = "Ravishankar, Vinit and Kulmizev, Artur and Abdou, Mostafa and S{\o}gaard, Anders and Nivre, Joakim", booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume", month = apr, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.eacl-main.264", doi = "10.18653/v1/2021.eacl-main.264", pages = "3031--3045", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="ravishankar-etal-2021-attention"> <titleInfo> <title>Attention Can Reflect Syntactic Structure (If You Let It)</title> </titleInfo> <name type="personal"> <namePart type="given">Vinit</namePart> <namePart type="family">Ravishankar</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Artur</namePart> <namePart type="family">Kulmizev</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Mostafa</namePart> <namePart type="family">Abdou</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Anders</namePart> <namePart type="family">Søgaard</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Joakim</namePart> <namePart type="family">Nivre</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2021-04</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Online</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">ravishankar-etal-2021-attention</identifier> <identifier type="doi">10.18653/v1/2021.eacl-main.264</identifier> <location> <url>https://aclanthology.org/2021.eacl-main.264</url> </location> <part> <date>2021-04</date> <extent unit="page"> <start>3031</start> <end>3045</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Attention Can Reflect Syntactic Structure (If You Let It) %A Ravishankar, Vinit %A Kulmizev, Artur %A Abdou, Mostafa %A Søgaard, Anders %A Nivre, Joakim %S Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume %D 2021 %8 April %I Association for Computational Linguistics %C Online %F ravishankar-etal-2021-attention %R 10.18653/v1/2021.eacl-main.264 %U https://aclanthology.org/2021.eacl-main.264 %U https://doi.org/10.18653/v1/2021.eacl-main.264 %P 3031-3045
Markdown (Informal)
[Attention Can Reflect Syntactic Structure (If You Let It)](https://aclanthology.org/2021.eacl-main.264) (Ravishankar et al., EACL 2021)
- Attention Can Reflect Syntactic Structure (If You Let It) (Ravishankar et al., EACL 2021)
ACL
- Vinit Ravishankar, Artur Kulmizev, Mostafa Abdou, Anders Søgaard, and Joakim Nivre. 2021. Attention Can Reflect Syntactic Structure (If You Let It). In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 3031–3045, Online. Association for Computational Linguistics.