Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation Groot- Skaleer Veelvuldige etiket Teks Klassifikasie op EU Legislasie undo-type تصنيف نص متعدد الملصقات على نطاق واسع في تشريعات الاتحاد الأوروبي EU Legislasyonu barÉ™sindÉ™ çoxlu etiketli Metin Sınıflaması Широкомащабна многозначна текстова класификация относно законодателството на ЕС ইউরোপিয়ান আইনের ব্যাপারে বহুল লেবেল টেক্সট ক্লাসেশন EU Legislation Velika skala klasifikacija teksta mnogih etiketa o zakonodavstvu EU Classificació de textos multietiquetats a gran escala sobre la legislació de la UE Rozsáhlá klasifikace textů s více značkami v právních předpisech EU Klassificering af tekst i stor skala med flere mærker i henhold til EU-lovgivning Umfangreiche Klassifizierung von Texten mit mehreren Labels zu EU-Rechtsvorschriften Ευρεία ταξινόμηση κειμένου πολλαπλών ετικετών για τη νομοθεσία της ΕΕ Clasificación de textos de etiquetas múltiples a gran escala en la legislación ELi õigusaktide laiaulatuslik mitmemärgiseline tekstiklassifikatsioon کلاسسازی متن چند برچسب بزرگ در قانون اروپا EU:n lainsäädännön laajamittainen monimerkkinen tekstiluokitus Classification de texte à étiquettes multiples à grande échelle dans la législation de Aicmiú Téacs Illipéid ar Mhórscála ar Reachtaíocht an AE KCharselect unicode block name Large-Scale Multi-Label Text Classification on EU Legislation यूरोपीय संघ के कानून पर बड़े पैमाने पर बहु-लेबल पाठ वर्गीकरण Velika skala klasifikacija teksta mnogih etiketa o zakonodavstvu EU-a Nagyléptékű, többcímkés szövegosztályozás az uniós jogszabályokban ԵՄ օրենսդրության վերաբերյալ Klasifikasi Teks Label-Berlebar Besar pada Legislasi EU Classificazione dei testi su larga scala multietichetta sulla legislazione UE EU法制に関する大規模マルチラベルテキスト分類 undo-type დიდი- სკეალური მრავალური ტექსტის კლასიფიკაცია EU Legislation ЕС законодатылары үлкен масштабтағы көп жарлық мәтін классификациясы EU 입법 중의 대규모 다중 라벨 텍스트 분류 Didelio masto daugiamečio ženklo teksto klasifikavimas pagal ES teisės aktus Класификација на текстот со големи мултиознаки за легислативата на ЕУ യൂറോപ്പിന്റെ നിയമങ്ങളില് വലുതായി വലുതായി വലുതാക്കുക Европын хууль зөвлөгөө дээрх олон найзуудын хэмжээний хэмжээний хэлбэр Klasifikasi Teks Label Berlebihan Skala Besar pada Undang-undang EU Klassifikazzjoni tat-test b’tikketti multipli fuq skala kbira dwar il-leġiżlazzjoni tal-UE Grootschalige indeling van tekst met meerdere labels op EU-wetgeving Stor skalering av fleire merkelapp- tekstklassifikasjon på EU- legislasjon Wieloznakowa klasyfikacja tekstu na dużą skalę w zakresie prawodawstwa UE Classificação de texto multirrótulo em grande escala na legislação da UE Clasificarea textelor pe mai multe etichete la scară largă în legislația UE Крупномасштабная многоуровневая текстовая классификация по законодательству ЕС විශාල ප්රමාණය ගොඩක් ලේබල් පාළුවක් ක්ලාසික්ෂණය යුවුනු විධානය Obsežna klasifikacija besedila z več znaki za zakonodajo EU Large-Scale Multi-Label Text Classification on EU Legislation Klasifikimi i tekstit me shumë etiketa në shkallë të madhe mbi legjislacionin e BE Velika skala višeetičke klasifikacije teksta o zakonodavstvu EU Storskalig flermärkningsklassificering av texter enligt EU-lagstiftningen Makala makubwa yenye utaratibu wa maandishi makubwa kwenye sheria ya Umoja wa Ulaya பெரிய அளவு பல- விளக்கச்சீட்டு உரை வகைப்படுத்தல் Ullakan EU Legislation پر بہت بڑی اسکیل Multi-Label Text Classification Yurub hujjatda katta oĘ»lchamni oĘ»zgartirish Bản mô hình chữ lớn trên tạp chí Châu Âu 欧盟立法之大者,多标本类
Ilias Chalkidis, Emmanouil Fergadiotis, Prodromos Malakasiotis, Ion Androutsopoulos
Abstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. We release a new dataset of 57k legislative documents from EUR-LEX, annotated with 4.3k EUROVOC labels, which is suitable for LMTC, few- and zero-shot learning. Experimenting with several neural classifiers, we show that BIGRUs with label-wise attention perform better than other current state of the art methods. Domain-specific WORD2VEC and context-sensitive ELMO embeddings further improve performance. We also find that considering only particular zones of the documents is sufficient. This allows us to bypass BERT’s maximum text length limit and fine-tune BERT, obtaining the best results in all but zero-shot learning cases.Abstract
Ons beskou groot- skaal veelvuldige etiket teks klassifikasie (LMTC) in die wetlike domein. Ons verlos 'n nuwe datastel van 57k wetenskappe dokumente van EUR- LEX, aangeteken met 4. 3k EUROVOC etikette, wat is geskik vir LMTC, paar- en nul- skoot leer. Eksperimenteering met verskeie neurale klassifiseerders, wys ons dat BIGRUS met etiket wys aandag beter as ander huidige staat van die kuns metodes uitvoer. Domein-spesifieke WORD2VEC en konteks-sensitief ELMO inbettings verder verbeter funksie. Ons vind ook dat slegs bepaalde sonne van die dokumente beskikbaar is. Hierdie laat ons toe om BERT se maksimum teks lengte beperk en fin-tune BERT te verbygaan, die beste resultate in alle maar nul-skoot leer gevalle te kry.Abstract
የሕግ አካባቢ የጽሑፍ መግለጫ (LMTC) ውስጥ ትልቅ-ሚዛን እናስባለን፡፡ 5.3k EUROVOC ካለበት የLMTC፣ ጥቂት እና zero-shot ትምህርት የሚያስፈልገውን የ57k ሕግ ሰነዱን ከEUR-LEX እናወጣለን፡፡ በአካባቢው አካባቢ ተሳታፊዎች ጋር በመፈተና፣ BIGRUs በlabel-wise ትኩረት ከሁለተኛው አርእስት ሥርዓት የሚሻል እንዲሆን እናሳየዋለን፡፡ ዶሜን-specific WORD2VEC እና context-sensitive ELMO embedding further improved performance. ደግሞም የሰነዱ ክፍል ክልሎች ብቻ ሲመለከቱ እናገኛለን፡፡ ይህ የBERT ትልቅ የጽሑፍ ቁጥር እና የጥሩ ብኤርቴን ማወቅ ፍሬዎችን ለማግኘት ይችላል፡፡Abstract
نحن نعتبر تصنيف النص متعدد الملصقات واسع النطاق (LMTC) في المجال القانوني. أصدرنا مجموعة بيانات جديدة تتكون من 57 ألفًا من الوثائق التشريعية من EUR-LEX ، مع شرح توضيحي بعلامات 4.3k EUROVOC ، وهي مناسبة لـ LMTC ، وتعلم قليل ومنعدم. من خلال تجربة العديد من المصنفات العصبية ، نظهر أن وحدات BIGRU ذات الاهتمام الحكيم بالعلامة تؤدي بشكل أفضل من الأساليب الحالية الأخرى من الفن. تعمل WORD2VEC الخاصة بالمجال وحفلات الزفاف ELMO الحساسة للسياق على تحسين الأداء. نجد أيضًا أن النظر في مناطق معينة فقط من المستندات كافٍ. هذا يسمح لنا بتجاوز الحد الأقصى لطول النص في BERT وضبط BERT ، والحصول على أفضل النتائج في جميع حالات التعلم ما عدا حالات التعلم بدون تسديد.Abstract
Biz çoxlu etiketli Metin Klasifikasiyası (LMTC) ilə yasal domeində böyük ölçüdə düşünürük. Biz EUR-LEX tərəfindən 57k layihə qutusu, 4.3k EUROVOC etiketləri ilə bildirilmiş, LMTC üçün uyğun, az və sıfır-shot öyrənməsi üçün istifadə edilən yeni verilən qutusu yayındırırıq. Bir neçə nöral klasifikatçıları ilə təcrübə edirik ki, BIGRUları etiketli təcrübə ilə daha yaxşı təcrübə metodlarından daha yaxşı təcrübə edir. Domain-specific WORD2VEC və context-sensitive ELMO inşalları daha yaxşılaşdırır. Biz də belə görürük ki, belələrin yalnız müəyyən bölələrini düşünmək yetər. Bu bizə BERT'nin maksimum mətn uzunluğunun s ınırını və BERT'nin müəyyən edilməs in ə imkan verir. Bütün bunların ən yaxşı sonuçlarını, yalnız 0-shot öyrənməsi olaraq.Abstract
Ние разглеждаме широкомащабната многоетикетна текстова класификация (ЛМТК) в правната област. Публикуваме нов набор от данни от 57к законодателни документи от ЕВРО-ЛЕКС, анотирани с етикети 4.3к ЕВРОВОК, който е подходящ за обучение с няколко и нулеви изстрели. Експериментирайки с няколко невронни класификатора, ние показваме, че BIGRU с етикетно внимание се справят по-добре от другите съвременни методи. Специфичните за домейна вграждания и чувствителните към контекста ELMO вграждания допълнително подобряват производителността. Също така намираме, че разглеждането само на определени зони от документите е достатъчно. Това ни позволява да заобиколим ограничението за максимална дължина на текста и фина настройка, като получаваме най-добри резултати във всички случаи на обучение с изключение на нулеви кадри.Abstract
আমরা আইনগত ডোমেইনে বিশাল পরিমাণ লেবেল টেক্সট ক্লাসিকেশন (এলএমটিসি) বিবেচনা করি। আমরা ইউরি-লেক্স থেকে ৫৭ কিছু আইনী নথিপত্রের একটি নতুন ডাটাসেট মুক্তি দিচ্ছি, যার ব্যাপারে '৪. বেশ কয়েকটি নিউরেল বিভাগের পরীক্ষার পরীক্ষা করছি, আমরা দেখাচ্ছি যে বিজিআরউসকে লেবেল-wise মনোযোগ দিয়ে শিল্প পদ্ধতির বর্তমান অবস্থ ডোমেইন-নির্দিষ্ট ওয়ার্ড২ভিসি এবং কন্টেক্সেন্ট-সেন্সিটিভ ইএলএমওকে আরো উন্নত করে দিয়েছে। আমরা আবিষ্কার করি যে নথিপত্রের বিশেষ অঞ্চলের বিবেচনা শুধুমাত্র যথেষ্ট। এটি আমাদের বের্টের সর্বোচ্চ লেখার দীর্ঘ সীমানা এবং ভালো সংক্রান্ত বিবের্টের সীমানা পাশ করার অনুমতি দেয়, কিন্তু শিক্ষা শিক্ষAbstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. We release a new dataset of 57k legislative documents from EUR-LEX, annotated with 4.3k EUROVOC labels, which is suitable for LMTC, few- and zero-shot learning. Experimenting with several neural classifiers, we show that BIGRUs with label-wise attention perform better than other current state of the art methods. Domain-specific WORD2VEC and context-sensitive ELMO embeddings further improve performance. ང་ཚོས་ཡིག་ཆ་ཡིག་ཆའི་གནས་ཁོངས་ཁྱད་པར་ལྷག་ཡོད་པ་མ་ཟད། འདིས་ང་ཚོར་BERT་གི་ཡིག་གི་ཚད་ཆེ་ཤོས་ཚད་དང་ཞིབ་ཚད་BERT་ལ་འཛུལ་བྱེད་ཆོགAbstract
Smatramo veliku skalu klasifikaciju teksta multietiketa (LMTC) u pravnom domenu. Objavljujemo novu skupu podataka od 57k zakonodavnih dokumenta iz EUR-LEX-a, navedenu etiketama EUROVOC 4.3k, koja je odgovarajuća za učenje LMTC-a, nekoliko i nula pucnjava. Eksperimentujući sa nekoliko neuroloških klasifikatora, pokazujemo da BIGRUS sa pažnjom na etiketi čini bolje od drugog trenutnog stanja umjetničkih metoda. Domenički specifični WORD2VEC i kontekstski osjetljivi integraciji ELMO dalje poboljšavaju učinkovitost. Također smatramo da je dovoljno uzeti u obzir samo određene zone dokumenta. To nam omogućava da pređemo maksimalnu granicu dužine teksta BERT-a i da dobijemo najbolje rezultate u svim osim slučajevima učenja nule-pucnjave.Abstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. We release a new dataset of 57k legislative documents from EUR-LEX, annotated with 4.3k EUROVOC labels, which is suitable for LMTC, few- and zero-shot learning. Experimenting with several neural classifiers, we show that BIGRUs with label-wise attention perform better than other current state of the art methods. Domain-specific WORD2VEC and context-sensitive ELMO embeddings further improve performance. We also find that considering only particular zones of the documents is sufficient. This allows us to bypass BERT's maximum text length limit and fine-tune BERT, obtaining the best results in all but zero-shot learning cases.Abstract
V právní oblasti uvažujeme o Large-Scale Multi-Label Text Classification (LMTC). Vydáváme nový datový soubor 57k legislativních dokumentů z EUR-LEX, anotovaný 4.3k EUROVOC štítky, který je vhodný pro LMTC, několik a nulových výsledků učení. Experimentováním s několika neuronovými klasifikátory ukazujeme, že BIGRU s etiketovou pozorností fungují lépe než ostatní současné metody. Doménově specifické vložení WORD2VEC a kontextově citlivé vložení ELMO dále zlepšují výkon. Zjišťujeme také, že zvážení pouze jednotlivých zón dokumentů je dostatečné. To nám umožňuje obejít maximální limit délky textu BERT a jemně doladit BERT, čímž dosáhneme nejlepších výsledků ve všech případech učení s výjimkou nulových záběrů.Abstract
Vi betragter Large-Scale Multi-Label Text Classification (LMTC) inden for det juridiske område. Vi frigiver et nyt datasæt af 57k lovgivningsmæssige dokumenter fra EUR-LEX, annoteret med 4,3k EUROVOC etiketter, som er velegnet til LMTC, få og nul-shot læring. Ved at eksperimentere med flere neurale klassificeringer viser vi, at BIGRU'er med label-vis opmærksomhed klarer sig bedre end andre nuværende state of te art metoder. Domænespecifikke WORD2VEC- og kontekstfølsomme ELMO-indlejringer forbedrer ydeevnen yderligere. Vi finder også, at det er tilstrækkeligt at tage hensyn til bestemte områder af dokumenterne. Dette giver os mulighed for at omgå BERT's maksimale tekstlængdegrænse og finjustere BERT, så vi opnår de bedste resultater i alle tilfælde undtagen zero-shot læring.Abstract
Wir betrachten Large-Scale Multi-Label Text Classification (LMTC) im rechtlichen Bereich. Wir veröffentlichen einen neuen Datensatz von 57k Gesetzgebungsdokumenten von EUR-LEX, kommentiert mit 4.3k EUROVOC Labels, der für LMTC, Few- und Zero-Shot Learning geeignet ist. Durch Experimente mit mehreren neuronalen Klassifikatoren zeigen wir, dass BIGRUs mit label-wise Aufmerksamkeit besser abschneiden als andere moderne Methoden. Domänenspezifische WORD2VEC- und kontextsensitive ELMO-Einbettungen verbessern die Performance weiter. Wir finden auch, dass es ausreicht, nur bestimmte Zonen der Dokumente zu betrachten. Dies ermöglicht es uns, die maximale Textlänge von BERT zu umgehen und BERT zu verfeinern, um die besten Ergebnisse in allen Fällen außer Zero-Shot-Lernfällen zu erzielen.Abstract
Εξετάζουμε την ταξινόμηση κειμένου μεγάλης κλίμακας στον νομικό τομέα. Εκδίδουμε ένα νέο σύνολο δεδομένων από νομοθετικά έγγραφα 57εκ από την EUR-LEX, σχολιασμένο με ετικέτες 4.3το οποίο είναι κατάλληλο για εκμάθηση λίγων και μηδενικών πυροβολισμών. Πειραματιζόμενοι με διάφορους νευρωνικούς ταξινομητές, καταδεικνύουμε ότι οι BIGRU με προσοχή σε ετικέτες αποδίδουν καλύτερα από άλλες σύγχρονες μεθόδους. Οι ενσωματωμένες ρυθμίσεις βελτιώνουν περαιτέρω την απόδοση. Θεωρούμε επίσης ότι η εξέταση μόνο συγκεκριμένων ζωνών των εγγράφων αρκεί. Αυτό μας επιτρέπει να παρακάμψουμε το μέγιστο όριο μήκους κειμένου του και να συντονίσουμε το επιτυγχάνοντας τα καλύτερα αποτελέσματα σε όλες τις περιπτώσεις μάθησης εκτός από μηδενικές λήψεις.Abstract
Consideramos que la clasificación de texto de etiquetas múltiples a gran escala (LMTC) es del dominio legal. Publicamos un nuevo conjunto de datos de 57 000 documentos legislativos de EUR-LEX, anotados con ~4,3 000 etiquetas EUROVOC, que es adecuado para LMTC, aprendizaje de pocos y cero disparos. Experimentando con varios clasificadores neuronales, demostramos que las BigRus con atención de etiqueta funcionan mejor que otros métodos actuales de última generación. Las incrustaciones de WORD2VEC específicas del dominio y ELMO sensibles al contexto mejoran aún más el rendimiento. También encontramos que es suficiente considerar solo zonas particulares de los documentos. Esto nos permite evitar el límite máximo de longitud de texto de BERT y ajustar BERT, obteniendo los mejores resultados en todos los casos de aprendizaje, excepto en los casos de aprendizaje cero.Abstract
Me kaalume juriidilises valdkonnas laiaulatuslikku mitmemärgiselist teksti klassifitseerimist (LMTC). Väljastame EUR-LEXilt uue 57k seadusandliku dokumendi andmekogumi, millel on 4,3k EUROVOC märgistust, mis sobib LMTC-le, vähese- ja nullkatse õppeks. Mitmete närviklassifikaatoritega eksperimenteerides näitame, et märgistuse tähelepanu omavad BIGRU-d toimivad paremini kui teised kaasaegsed meetodid. Domeenipõhised WORD2VEC ja kontekstitundlikud ELMO manustamised parandavad veelgi jõudlust. Samuti leiame, et dokumentide ainult konkreetsete tsoonide arvestamine on piisav. See võimaldab meil mööda hiilida BERT-i maksimaalsest tekstipikkuse piirangust ja BERT-i täpselt häälestada, saavutades parimad tulemused kõigis, välja arvatud null-shot-õppejuhtumites.Abstract
ما به عنوان کلاسسازی متن چند برچسب بزرگ (LMTC) در حوزه قانونی فکر میکنیم. ما یک مجموعه دادههای جدید از سندهای قانونی 57k از اروپا-LEX آزاد میکنیم که با نقاشی 4.3k EUROVOC مشخص شده است که برای یادگیری LMTC مناسب است، کم و صفر. با تجربه کردن با چند تنظیم عصبی نشان می دهیم که BIGRUs با توجه به طریق نقاشی بهتر از بقیه وضعیت فعلی از روش هنر انجام می دهد. WORD2VEC ویژههای دامنه و محیط حساس ELMOها بیشتر عملکرد را بهتر میکند. همچنین پیدا میکنیم که با توجه به تنها منطقههای خاص مدارک کافی است. این به ما اجازه می دهد که حداکثر طولانی متن BERT و BERT را تغییر دهیم، و بهترین نتیجه در همه پروندههای یادگیری صفر را دریافت کنیم.Abstract
Käsittelemme laajamittaista monimerkkistä tekstiluokitusta (LMTC) oikeudellisella alalla. Julkaisemme EUR-LEX:ltä uuden 57 000 säädösasiakirjan aineiston, johon on merkitty 4,3 000 EUROVOC-tarra, joka soveltuu LMTC-oppimiseen, muutama- ja nollashot-oppimiseen. Kokeilemalla useita neuroluokittelijoita osoitamme, että BIGR-yksiköt, joilla on etikettiviisas huomio, suoriutuvat paremmin kuin muut nykyaikaiset menetelmät. Verkkoaluekohtaiset WORD2VEC- ja kontekstitunnisteiset ELMO-upotukset parantavat suorituskykyä entisestään. Olemme myös sitä mieltä, että asiakirjojen tiettyjen alueiden huomioon ottaminen riittää. Näin voimme ohittaa BERT:n enimmäispituusrajan ja hienosäätää BERT:tä, jolloin saamme parhaat tulokset kaikissa paitsi nollakuvaustapauksissa.Abstract
Nous considérons la classification de texte multi-étiquettes à grande échelle (LMTC) dans le domaine juridique. Nous publions un nouvel ensemble de données de 57 000 documents législatifs d'EUR-LEX, annotés avec environ 4,3 000 étiquettes EUROVOC, qui convient à l'apprentissage LMTC, à faible et à zéro. En expérimentant plusieurs classificateurs neuronaux, nous montrons que les BigRU avec une attention par étiquette sont plus performants que les autres méthodes actuelles de pointe. Les intégrations WORD2VEC spécifiques au domaine et ELMO sensibles au contexte améliorent encore les performances. Nous trouvons également qu'il suffit de ne prendre en compte que des zones particulières des documents. Cela nous permet de contourner la limite de longueur de texte maximale du BERT et d'affiner BERT, obtenant ainsi les meilleurs résultats dans tous les cas d'apprentissage sauf zéro.Abstract
Breithnímid Aicmiú Téacs Illipéid ar Mhórscála (LMTC) sa réimse dlíthiúil. Eisímid tacar sonraí nua de 57k doiciméad reachtach ó EUR-LEX, agus iad anótáilte le lipéid EUROVOC ∼4.3k, atá oiriúnach d’fhoghlaim LMTC, beagán agus náid. Agus sinn ag triail le roinnt aicmitheoirí néaracha, léirímid go n-éiríonn níos fearr le BIGRUanna a bhfuil aird ar an lipéad orthu ná modhanna eile den scoth. Feabhsaíonn WORD2VEC a bhaineann go sonrach leis an bhfearann agus leabú ELMO atá íogair ó thaobh comhthéacs leis an bhfeidhmíocht. Faighimid freisin gur leor breithniú a dhéanamh ar chriosanna ar leith de na doiciméid amháin. Ligeann sé seo dúinn uasteorainn fhad téacs BERT a sheachbhóthar agus mionchoigeartú a dhéanamh ar BERT, chun na torthaí is fearr a bhaint amach i ngach cás foghlama seachas seatanna nialasacha.Abstract
@ item license (short name) Tuna sakar da wasu takardar sharĩ'a na 57k daga EUR-LEX, da aka sanar da /4.3 k EUROvOC, wanda yana da daidai ga LMTC, da masu ƙaranci- da sifanci. Aka jarrabi da wasu neural-fassarori, za mu nũna cẽwa BIGRU da label-hikima za'a samar da mafi alhẽri daga other state of the art metode. @ action: button Ina gane cewa, ana sami dukkan takardar takardar da ke isa kawai. Wannan yana yarda mu iya iya ƙara girmar matsayin BERT da baƙaƙƙe mai kyau BERT, kuma yana sami mafi kyaun matsalar da za'a iya amfani da duk abu na da sifiri.Abstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. אנחנו משחררים קבוצת נתונים חדשה של 57k מסמכים חוקיים מ-EUR-LEX, מועטפת עם 4.3k תוויות EUROVOC, אשר מתאימה ללמוד LMTC, מעט- ואפס-יריות. Experimenting with several neural classifiers, we show that BIGRUs with label-wise attention perform better than other current state of the art methods. WORD2VEC תוכניות ELMO מסוימות למשפחה ותיקים ELMO רגישים לקשר משתפרים את ההופעה. אנחנו גם מוצאים ששוקלים רק אזורים מסוימים של המסמכים מספיקים. This allows us to bypass BERT's maximum text length limit and fine-tune BERT, obtaining the best results in all but zero-shot learning cases.Abstract
हम कानूनी डोमेन में बड़े पैमाने पर बहु-लेबल पाठ वर्गीकरण (LMTC) पर विचार करते हैं। हम EUR-LEX से 57k विधायी दस्तावेजों का एक नया डेटासेट जारी करते हैं, जो ~4.3k EUROVOC लेबल के साथ एनोटेट किया गया है, जो LMTC, कुछ- और शून्य-शॉट सीखने के लिए उपयुक्त है। कई तंत्रिका क्लासिफायरके साथ प्रयोग करते हुए, हम दिखाते हैं कि लेबल-वार ध्यान के साथ BIGRUs कला विधियों के अन्य वर्तमान राज्य की तुलना में बेहतर प्रदर्शन करते हैं। डोमेन-विशिष्ट WORD2VEC और संदर्भ-संवेदनशील ELMO एम्बेडिंग आगे प्रदर्शन में सुधार। हम यह भी पाते हैं कि दस्तावेजों के केवल विशेष क्षेत्रों पर विचार करना पर्याप्त है। यह हमें BERT की अधिकतम पाठ लंबाई सीमा और ठीक धुन BERT बाईपास करने की अनुमति देता है, सभी लेकिन शून्य शॉट सीखने के मामलों में सबसे अच्छा परिणाम प्राप्त कर रहा है।Abstract
Razmišljamo o velikoj skali klasifikaciji teksta više etiketa (LMTC) u pravnom domenu. Objavljujemo novu skupu podataka od 57k zakonodavnih dokumenta iz EUR-LEX, navedenu oznakem EUROVOC 4.3k, koji je odgovarajući za učenje LMTC-a, nekoliko i nula pucnjava. Eksperimentirajući s nekoliko neuroloških klasifikatora, pokazujemo da BIGRUs sa pažnjom na etiketi čini bolje od drugog trenutnog stanja umjetničkih metoda. Domena specifična WORD2VEC i kontekstski osjetljiva integracija ELMO dalje poboljšavaju učinkovitost. Također smatramo da je dovoljno uzeti u obzir samo određene zona dokumenta. To nam omogućava da pređemo maksimalnu granicu dužine teksta BERT-a i da dobijemo najbolje rezultate u svim osim slučajevima učenja nule-pucnjave.Abstract
A nagyméretű többcímkés szövegosztályozást (LMTC) a jogi területen tekintjük. Az EUR-LEX 57 ezer jogszabályi dokumentumból álló, 4,3 ezer EUROVOC címkével ellátott adatkészletet bocsátunk ki, amely alkalmas LMTC, kevés és nulla lövés tanulásra. Több neurális osztályozóval végzett kísérletezés során megmutatjuk, hogy a címkéző figyelemmel rendelkező BIGRU-k jobban teljesítenek, mint más jelenlegi korszerű módszerek. A tartományspecifikus WORD2VEC és a kontextusérzékeny ELMO beágyazások tovább javítják a teljesítményt. Azt is megállapítjuk, hogy a dokumentumok csak bizonyos zónáinak figyelembevétele elegendő. Ez lehetővé teszi számunkra, hogy megkerüljük a BERT maximális szöveghosszúsági korlátját és finomhangoljuk a BERT-t, így a legjobb eredményeket érjük el minden, kivéve a nulla lövéses tanulási esetben.Abstract
Մենք դիտարկում ենք մեծ չափերի բազմաթիվ տեքստի դասակարգման (LMTC) օրինական ոլորտում: Մենք հրապարակում ենք 57,000 օրենսդրական փաստաթղթերի նոր տվյալներ Եվրո-Լեքսից, որոնք գրված են 4,3k Եվրովոկի պիտակներով, որոնք համապատասխանում են LMTC-ի համար, քիչ և զրոյի կրակի սովորելու համար: Փորձելով որոշ նյարդային դասակարգողների հետ, մենք ցույց ենք տալիս, որ պիտակ-իմաստով ուշադրություն ունեցողները ավելի լավ են աշխատում, քան մյուս ներկայիս տեխնոլոգիական մեթոդները: Դոմենտային մասնավոր արտադրողականությունը և կոնտեքստին զգալի ELMo-ի ներդրումները ավելի լավ են բարելավում: Մենք նաև կարծում ենք, որ միայն փաստաթղթերի որոշակի շրջաններն ընդունելը բավարար է: Սա մեզ հնարավորություն է տալիս խուսափել BER-ի մեծագույն տեքստի երկարության սահմանափակումը և բարձրացնել BER-ը, ստանալով լավագույն արդյունքները բոլոր, բացի զրոյի ուսուցման դեպքերում:Abstract
Kami mempertimbangkan Klasifikasi Teks Label Besar (LMTC) dalam domain hukum. Kami melepaskan dataset baru 57k dokumen leġislattif dari EUR-LEX, yang dicatat dengan 4.3k label EUROVOC, yang cocok untuk LMTC, belajar sedikit dan nol. Eksperimen dengan beberapa klasifikasi saraf, kami menunjukkan bahwa BIGRU dengan perhatian label-bijaksana melakukan lebih baik dari metode seni saat ini lainnya. WORD2VEC secara spesifik domain dan pembangunan ELMO yang sensitif konteks lebih meningkatkan prestasi. We also find that considering only particular zones of the documents is sufficient. Ini memungkinkan kita untuk melewati batas maksimum panjang teks BERT dan memperbaiki BERT, mendapatkan hasil terbaik dalam semua kecuali kasus belajar zero-shot.Abstract
Consideriamo la classificazione del testo multietichetta su larga scala (LMTC) nel settore legale. Rilasciamo un nuovo set di dati di 57k documenti legislativi da EUR-LEX, annotati con 4.3k etichette EUROVOC, adatto per l'apprendimento LMTC, pochi e zero shot. Sperimentando con diversi classificatori neurali, mostriamo che i BIGRU con attenzione label-wise funzionano meglio di altri metodi attuali allo stato dell'arte. Le incorporazioni WORD2VEC specifiche per il dominio e ELMO sensibili al contesto migliorano ulteriormente le prestazioni. Riteniamo inoltre che considerare solo zone particolari dei documenti sia sufficiente. Questo ci permette di aggirare il limite massimo di lunghezza del testo di BERT e di perfezionare BERT, ottenendo i migliori risultati in tutti i casi di apprendimento tranne zero shot.Abstract
大規模マルチラベルテキスト分類( LMTC )を法的ドメインで検討しています。EUR - Lexの57,000件の立法文書の新しいデータセットをリリースし、LMTC、ほとんどのショットおよびゼロショット学習に適した4.3kユーロボックラベルをアノテーションしています。いくつかの神経分類子を用いて実験した結果、標識的に注意を払ったBIGRUは、他の現在の最先端の方法よりも優れたパフォーマンスを発揮することが示された。ドメイン固有のWORD 2 VECと文脈依存のELMO埋め込みは、さらにパフォーマンスを向上させます。また、文書の特定のゾーンのみを考慮するだけで十分であることがわかります。これにより、BERTの最大テキスト長制限をバイパスしてBERTを微調整することができ、ゼロショット学習ケースを除くすべてのケースで最高の結果を得ることができます。Abstract
We take big-scale Multi-Label Text Awak dhéwé mbukak data set sing dibutuhke asai tanggal gawe ing $LAX, nambah karo etiket $4.3 k politenessoffpolite"), and when there is a change ("assertivepoliteness Validity Awak dhéwé éntukno ngono nggawe barang-barang wong kuwi dulang dokumen. Iki ngebah awak dhéwé dadi sabanjuré BERT nggawe aturan luwih dumadhi lan sabanjuré BERT, iki dadi sing paling apik dhéwé nganggo caz-caz ngucap nulAbstract
ჩვენ ვფიქრობთ ძალიან დიდი- სკეალური მრავალური ტექსტის კლასიფიკაცია (LMTC) ძალიან დიომინში. ჩვენ ახალი მონაცემების კომპორტი 57k legislative documents-ს EUR-LEX-დან გამოსტანა, რომელიც 4.3k EUROVOC etiket-ით მონაცემულია, რომელიც საჭიროა LMTC-სთვისთვისთვისთვისთვისთვისთვისთვის გამოცდილობა ნეიროლური კლასიფიკაციებით, ჩვენ გამოჩვენებთ, რომ BIGRUs-ს მაგალითად აღმოჩვენება უფრო უკეთესია, ვიდრე სხვა მიმდინარე მდგომარეობის მეტი დემონის სპექტიფიკური WORD2VEC და კონტექსტური სინტექსტიური ELMO- ის შემდეგ უფრო უფრო უფრო უფრო უფრო უფრო მუშაობა. ჩვენ ასევე ვფიქრობთ, რომ მხოლოდ დოკუმენტების განსაკუთრებული ზონების შესახებ მსგავსია. ეს ჩვენ შეგვიძლია BERT-ის მაქსიმალური ტექსტის სიგრძნე და BERT-ის მარტივი სიგრძნე გადავწეროთ, მივიღეთ ყველაზე უკეთესი შედეგი, მაგრამ ნულ სტატის სAbstract
Біз жалғыз доменде көп жарлық мәтін классификациясын (LMTC) үлкен масштабтау деп ойлаймыз. Біз 57k заң шығару құжаттардың жаңа деректер жиынын EUR- LEX- ден шығарып, 4. 3k EUROVOC жарлықтарымен белгіленген, бұл LMTC, бірнеше және нөл шоу оқытуға тиіс. Бірнеше невралдық классификациялармен тәжірибелеу үшін, біз сұлбаның әдістерінен басқа жақсы күйіне арналған BIGRUs дегенді көрсетедік. Доменге арналған WORD2VEC және контексті сезімді ELMO ендіру үшін әрекеттерді жақсарту. Құжаттардың тек бөлшектерін қайталап көріп тұрмыз. Бұл бізде BERT мәтін ұзындығының максималдық шегін және BERT баптауын өзгертуге мүмкіндік береді. Бұл барлық нәтижелердің ең жақсы нәтижелерін алады, бірақ нөл шартAbstract
우리는 법률 분야의 대규모 다중 태그 텍스트 분류(LMTC)를 고려합니다.우리는 EUR-LEX에서 새로운 57k 입법 문서 데이터 집합을 발표했다. 이 데이터 집합은 4.3k EUROVOC 라벨을 달고 LMTC, 소량 및 제로 포밍에 적용된다.몇 가지 신경 분류기에 대한 실험을 통해 우리는 라벨식 주의를 가진 BIGRUs 방법이 현재 가장 선진적인 다른 방법보다 더 잘 나타난다는 것을 알 수 있다.도메인별 WORD2VEC 및 컨텍스트 관련 ELMO 내장은 성능을 더욱 향상시킵니다.우리는 또 문서의 특정 구역만 고려하면 충분하다는 것을 발견했다.이를 통해 우리는 BERT의 최대 텍스트 길이 제한을 무시하고 BERT를 미세하게 조정하여 제로 렌즈 학습을 제외한 모든 상황에서 최상의 결과를 얻을 수 있다.Abstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. Iš EUR-LEX išleidžiame naujus 57k teisės aktų dokumentų rinkinius, užrašytus 4,3k EUROVOC etiketėmis, tinkamu LMTC mokymuisi, nedidelis ir nulinis mokymasis. Eksperimentuojant su keliais nervų klasifikatoriais, mes parodome, kad BIGRUs su etiketėmis pagrįstu dėmesiu veikia geriau nei kiti dabartiniai pažangiausi metodai. Konkrečios srities WORD2VEC ir kontekstui jautrūs ELMO įrankiai toliau gerina veiklos rezultatus. Taip pat manome, kad pakanka apsvarstyti tik konkrečias dokumentų zonas. Tai leidžia mums peržengti didžiausią BERT teksto ilgio ribą ir tiksliai pritaikyti BERT, siekiant geriausių rezultatų visais, išskyrus nulinius mokymosi atvejus.Abstract
Размислуваме за голема класификација на текст со мнозински ознаки (LMTC) во правниот домен. Ние објавуваме нови податоци од 57k законски документи од Евро-ЛЕКС, анотирани со „ 4,3k ЕРОВОЦ“ етикети, кои се соодветни за ЛМТЦ, неколку и нула снимки. Експериментирајќи со неколку нервни класификатори, покажуваме дека БИГРУС со интересно внимание извршуваат подобро од другите моментални најдобри методи. Специфичните домени WORD2VEC и контекстно чувствителните ELMO вградувања понатаму ја подобруваат резултатот. Исто така, сметаме дека земањето во предвид само одредени зони на документите е доволно. Ова ни овозможува да ја избегнеме максималната должина на текстот на БЕРТ и да го поправиме БЕРТ, добивајќи ги најдобрите резултати во сите случаи освен нулта снимка на учење.Abstract
നിയമപരമായ ഡോമെയിനില് ഞങ്ങള് വലിയ നിലയില് പല-ലേബെല് ടെക്സ്റ്റ് ക്ലാസിഷന് (LMTC) വിചാരിക്കുന്നു. നമ്മള് 57k നിയമപ്രമാണപ്രമാണത്തിന്റെ ഒരു പുതിയ ഡാറ്റാസറ്റേറ്റ് വിടുന്നു. യൂര്-ലെക്സില് നിന്ന് "4. 3k EUROVOC ലേബലുകള് കൊണ്ട് വിവരിച്ചിരിക്ക കുറച്ച് പുരുഷന് വിഭാഗങ്ങളുമായി പരീക്ഷിക്കുന്നത് നമ്മള് കാണിച്ചു കൊണ്ടിരിക്കുന്നു ബിജിറ്റസ് ലേബല് ബിഗ്രൂസ ഡൊമെയിന്- പ്രത്യേക വോര്ഡ്2VEC, കെന്സ്റ്റെക്സെന്സിറ്റിവ് എല്എംഎം ഓ പ്രകടനം കൂടുതല് മെച്ചപ്പെടു രേഖകളുടെ പ്രത്യേക സ്ഥലങ്ങളെക്കുറിച്ച് വിചാരിക്കുന്നത് മതി. ഇത് ബെര്ട്ടിന്റെ ഏറ്റവും കൂടുതല് പദാവലിയുടെ നീളം അതിര്ത്തിയിടാനും നല്ല വിവരങ്ങള് ബെര്ട്ടിയില് നിന്നും നമുക്ക് അനുവദിക്കുന്നു.Abstract
Бид хууль хэмжээнд том-хэмжээний олон-маркингийн текст классификацийг (LMTC) ойлгож байна. Бид 57k хуулийн баримтуудын шинэ өгөгдлийн санг EUR-LEX-ээс гаргаж, 4.3k EUROVOC тэмдэглэгдсэн. Энэ нь LMTC, хэдэн болон 0 шат суралцах боломжтой. Бид хэд хэдэн мэдрэлийн хэлбэртэй туршилт хийж байгаагаар урлагийн аргаас илүү сайн анхаарлаа төвлөрүүлж байгааг харуулж байна. Домен-тодорхойлолтой WORD2VEC болон нөхцөл сэтгэл хөдлөлтэй ELMO-д илүү үр дүнг сайжруулдаг. Мөн бид баримтуудын зөвхөн тодорхой хэсгийг бодох нь хангалттай. Энэ нь бидэнд BERT-ын хамгийн их хэмжээний урт хязгаар болон BERT-г тодорхойлох боломжтой болгодог. Гэхдээ тэгш шат суралцах үйл явцуудын хамгийн сайн үр дүнг гаргах боломжтой.Abstract
Kami mempertimbangkan Klasifikasi Teks Label Berlebihan Skala Besar (LMTC) dalam domain sah. Kami melepaskan set data baru 57k dokumen undang-undang dari EUR-LEX, yang dicatat dengan label £ 4.3k EUROVOC, yang sesuai untuk LMTC, belajar sedikit- dan sifar-shot. Mencoba dengan beberapa pengklasifikasi saraf, kami menunjukkan bahawa BIGRU dengan perhatian label-bijak melakukan lebih baik daripada kaedah kemajuan semasa lain. WORD2VEC spesifik bagi domain dan pelengkapan ELMO sensitif-konteks meningkatkan prestasi lebih lanjut. We also find that considering only particular zones of the documents is sufficient. Ini membolehkan kita mengelak had panjang teks maksimum BERT dan tune-fine BERT, mendapatkan keputusan terbaik dalam semua kes belajar kecuali 0-shot.Abstract
Aħna nqisu l-Klassifikazzjoni tat-Test Multitikkettat fuq Skala Kbar (LMTC) fid-dominju legali. Aħna nħarġu sett ġdid ta' dejta ta' 57k dokument leġiżlattiv minn EUR-LEX, annotat b'tikketti EUROVOC ta' 4.3k, li huwa adattat għall-LMTC, tagħlim b'ftit u żero shot. L-esperimentazzjoni b’diversi klassifikaturi newrali turi li l-BIGRUs b’attenzjoni mil-lat tat-tikketta jwettqu aħjar minn metodi l-aktar avvanzati bħalissa. Domain-specific WORD2VEC and context-sensitive ELMO embeddings further improve performance. We also find that considering only particular zones of the documents is sufficient. Dan jippermettilna nibgħu l-limitu massimu tat-tul tat-test tal-BERT u nirranġaw il-BERT, filwaqt li niksbu l-aħjar riżultati fil-każijiet kollha ta’ tagħlim mingħajr skopijiet.Abstract
We beschouwen Large-Scale Multi-Label Text Classification (LMTC) in het juridische domein. We brengen een nieuwe dataset van 57k wetgevingsdocumenten uit van EUR-LEX, geannoteerd met 4.3k EUROVOC labels, die geschikt is voor LMTC, few- en zero-shot learning. Door te experimenteren met verschillende neurale classificatoren laten we zien dat BIGRU's met label-wise aandacht beter presteren dan andere huidige state of the art methoden. Domeinspecifieke WORD2VEC en contextgevoelige ELMO embeddings verbeteren de prestaties verder. Wij vinden ook dat alleen bepaalde zones van de documenten voldoende zijn. Dit stelt ons in staat om BERT's maximale tekstlengte te omzeilen en BERT te verfijnen, zodat we de beste resultaten behalen in alle gevallen behalve zero-shot learning.Abstract
We consider Large-Scale Multi-Label Text Classification (LMTC) in the legal domain. Vi løyser ei ny datasett med 57k legislativ dokument frå EUR-LEX, merket med 4.3k EUROVOC- etikettar, som er passande for læring av LMTC, få og nullsatt. Dersom vi eksperimenterer med fleire neuralklassifikatorar, viser vi at BIGRUS med merkelapp oppmerksomhet utfører bedre enn andre gjeldande status på kunstmetodane. Domenespesifikke WORD2VEC og kontekstsensitiv ELMO- innbygging forbetrar utviklinga. Vi finn også at det er nok å tenke på at berre bestemte område av dokumentet er nok. Dette tillèt oss å overføra BERT s in maksimal lengde på tekst og finnstillingsgrense for BERT, og henta dei beste resultatene i alle, men læringstilfella med null-shot.Abstract
Rozważamy dużą skalę wieloznakową klasyfikację tekstu (LMTC) w domenie prawnej. Wydajemy nowy zestaw danych 57k dokumentów legislacyjnych z EUR-LEX, oparty etykietami 4.3k EUROVOC, który nadaje się do LMTC, kilku i zero-shot learning. Eksperymentując z kilkoma klasyfikatorami neuronowymi, pokazujemy, że BIGRU z uwagą etykietową działają lepiej niż inne obecne metody. Specyficzne dla domeny osadzenia WORD2VEC i kontekstowe ELMO dodatkowo poprawiają wydajność. Uważamy również, że uwzględnienie tylko poszczególnych stref dokumentów jest wystarczające. Pozwala nam to ominąć maksymalny limit długości tekstu BERT i dostosować BERT, uzyskując najlepsze wyniki we wszystkich przypadkach oprócz zero-shot learning.Abstract
Consideramos a Classificação de Texto Multi-Rótulo em Grande Escala (LMTC) no domínio jurídico. Lançamos um novo conjunto de dados de 57 mil documentos legislativos do EUR-LEX, anotado com ∼4,3 mil rótulos EUROVOC, que é adequado para LMTC, aprendizado de poucos e zero tiros. Experimentando vários classificadores neurais, mostramos que BIGRUs com atenção ao rótulo têm um desempenho melhor do que outros métodos atuais do estado da arte. WORD2VEC específico de domínio e embeddings ELMO sensíveis ao contexto melhoram ainda mais o desempenho. Também achamos que considerar apenas zonas particulares dos documentos é suficiente. Isso nos permite contornar o limite máximo de comprimento de texto do BERT e ajustar o BERT, obtendo os melhores resultados em todos os casos de aprendizado, exceto tiro zero.Abstract
Considerăm clasificarea textelor pe scară largă multiplă (LMTC) în domeniul juridic. Lansăm un nou set de date de 57k de documente legislative de la EUR-LEX, adnotat cu 4.3k etichete EUROVOC, care este potrivit pentru învățarea LMTC, puțin și zero-shot. Experimentând cu mai mulți clasificatori neurali, arătăm că BIGRU cu atenție etichetată performează mai bine decât alte metode actuale de ultimă generație. WORD2VEC specific domeniului și încorporările ELMO sensibile la context îmbunătățesc și mai mult performanța. De asemenea, considerăm că este suficient să luăm în considerare doar anumite zone ale documentelor. Acest lucru ne permite să ocolim limita maximă a lungimii textului BERT și să reglăm fin BERT, obținând cele mai bune rezultate în toate cazurile de învățare cu excepția zero-shot.Abstract
Мы рассматриваем Крупномасштабную многоуровневую текстовую классификацию (КУМТ) в правовой сфере. Мы выпускаем новый набор данных из 57 тысяч законодательных документов от EUR-LEX, с аннотацией к 4,3 ТЫСЯЧ ярлыков Eurovoc, который подходит для LMTC, мало- и нулевого обучения. Экспериментируя с несколькими нейронными классификаторами, мы показываем, что BIGRU с вниманием по метке работают лучше, чем другие современные методы. Специфичные для домена вставки WORD2VEC и ELMO, чувствительные к контексту, дополнительно повышают производительность. Мы также считаем, что достаточно рассмотреть только отдельные зоны документов. Это позволяет нам обойти предел максимальной длины текста БЕРТА и точно настроить БЕРТА, получая лучшие результаты во всех случаях обучения, кроме нулевого выстрела.Abstract
අපි විශාල විශාල ප්රමාණය ගොඩක් ලේබෙල් පාළුවක් ක්ලාසිකේෂණය (LMTC) විශාල ප්රමාණය කරනවා. අපි අළුත් දත්ත සෙට්ටුවක් ප්රතික්රියා කරනවා €-LEX වලින්, 4.3k EUROvOC ලේබල් වලින්, ඒක LMTC වලින්, සුන්ධ- ශෝට් ඉගෙනීම සඳහා යුක්ති අපි පෙන්වන්නේ න්යූරාල් විශේෂකයෙක් සමඟ පරීක්ෂණය, අපි පෙන්වන්නේ බිග්රුස් ලේබුල් වලින් අවධානය සමඟ ඩොමේන් විශේෂ WORD2VEC සහ සම්බන්ධ- සංවේදනය ELMO සම්බන්ධ විශේෂය වැඩ කරන්න. අපිට හොයාගන්න පුළුවන් විශේෂ ප්රදේශය හිතන්න පුළුවන් විතරයි. මේකෙන් අපිට BERT ගේ විශේෂ පාළ සීමාවක් සහ BERT විශේෂ සීමාවක් බායිප් කරන්න පුළුවන් වෙනවා, හැම දේවල්ම හොඳම ප්රතිAbstract
Na pravnem področju obravnavamo obsežno večoznakno klasifikacijo besedila (LMTC). Izdajamo nov nabor podatkov 57k zakonodajnih dokumentov EUR-LEX z oznakami 4,3 tisoč EUROVOC, ki je primeren za učenje LMTC, malo in nič strelov. Z eksperimentiranjem z več nevronskimi klasifikatorji smo pokazali, da BIGRU z označeno pozornostjo delujejo bolje kot druge trenutne najsodobnejše metode. WORD2VEC, specifične za domeno, in ELMO vgradnje, občutljive za kontekst, dodatno izboljšujejo učinkovitost. Prav tako menimo, da zadostuje upoštevanje le določenih območij dokumentov. To nam omogoča, da zaobidemo največjo omejitev dolžine besedila BERT in natančno nastavimo BERT, tako da dosežemo najboljše rezultate v vseh primerih učenja razen brez posnetkov.Abstract
Waxaannu ka fiirsanaynaa qeybta sharciga sharciga (LMTC). Waxaannu ka soo bixinaa macluumaad cusub oo ka mid ah dukumentiyada sharciga ee 57k oo ka mid ah EUR-LEX, taas oo u eg LMTC, yar- iyo zero-shot. Experimenting with several neural classifiers, we show that BIGRUs with label-wise attention perform better than other current state of the art methods. Domain-specific WORD2VEC and context-sensitive ELMO embeds further improves performance. Sidoo kale waxaynu ognahay in goobaha dukumentiyada oo kaliya ay ku filan yihiin. Taasi waxay inagu fasaxaysaa inaan soo dhaafno xadda ugu badnaanta qoraalka BERT iyo xadhig wanaagsan oo BERT ah, waxayna heli karaan dhamaantood ugu wanaagsan dhamaantood xaaladaha waxbarashada oo aan zero lagu dhufto mooyaane.Abstract
Ne konsiderojmë Klasifikimin e Tekstit me Shkallë të Madhe Multi-Label (LMTC) në domenin ligjor. Ne lëshojmë një sërë të dhënash të reja të 57k dokumenteve legjislative nga EUR-LEX, të shënuar me 4.3k etiketa EUROVOC, e cila është e përshtatshme për LMTC, mësim me pak dhe zero-shot. Duke eksperimentuar me disa klasifikues neuronale, ne tregojmë se BIGRUs me vëmendje të mençur etiketë bëjnë më mirë se metodat e tjera aktuale të artit. WORD2VEC specifike për domenin dhe përfshirjet e ELMO të ndjeshme për kontekstin përmirësojnë më tej performancën. Gjithashtu gjejmë se konsiderimi i vetëm zonave të veçanta të dokumenteve është i mjaftueshëm. This allows us to bypass BERT's maximum text length limit and fine-tune BERT, obtaining the best results in all but zero-shot learning cases.Abstract
Razmišljamo o velikoj klasifikaciji teksta multi-etiketa (LMTC) u pravnom domenu. Puštamo novu skupu podataka od 57k zakonodavnih dokumenta iz EUR-LEX, komentirana etiketama EUROVOC 4.3k, koja je prikladna za učenje LMTC-a, nekoliko i nula pucnjava. Eksperimentujući sa nekoliko neuroloških klasifikatora, pokazujemo da BIGRUS sa pažnjom na etiketi izvršava bolje od drugog trenutnog stanja umetničkih metoda. Domena specifična WORD2VEC i kontekstski osjetljiva integracija ELMO dalje poboljšavaju funkciju. Takođe smatramo da je dovoljno uzeti u obzir samo posebne zone dokumenta. To nam omogućava da prebacimo maksimalnu granicu dužine teksta BERT-a i da dobijemo najbolje rezultate u svim osim slučajevima za učenje nula pucnjava.Abstract
Vi betraktar Large-Scale Multi-Label Text Classification (LMTC) inom det juridiska området. Vi släpper en ny datauppsättning med 57k lagstiftningsdokument från EUR-LEX, kommenterade med 4,3k EUROVOC-etiketter, vilket är lämpligt för LMTC, få- och nollskott lärande. Genom att experimentera med flera neurala klassificerare visar vi att BIGRU med etikettvis uppmärksamhet presterar bättre än andra aktuella toppmoderna metoder. Domänspecifika WORD2VEC och kontextkänsliga ELMO-inbäddningar förbättrar prestandan ytterligare. Vi anser också att det räcker med att bara beakta vissa områden i dokumenten. Detta gör det möjligt för oss att kringgå BERT:s maximala textlängdsgräns och finjustera BERT, vilket ger bästa resultat i alla fall utom nollskott inlärning.Abstract
Tunafikiri kuandika Makala ya Kialama Makubwa (LMTC) katika maeneo ya sheria. We release a new dataset of 57k legislative documents from EUR-LEX, annotated with 4.3k EUROVOC labels, which is suitable for LMTC, few- and zero-shot learning. Kwa kujaribu na wataalamu kadhaa wa kiutaratibu, tunaonyesha kuwa BIGRUs kwa kutumia mitazamo yenye akili yanafanya vizuri zaidi ya hali ya sasa ya njia za sanaa. WORD2VEC na ELMO yenye umuhimu wa maudhui yanaendelea kuboresha utendaji. We also find that considering only particular zones of the documents is sufficient. Hii inaturuhusu kutupitia kiwango kikubwa cha ujumbe wa maandishi wa BERT na vizuri vya BERT, kupata matokeo mazuri yote lakini yasiyo ya kujifunza kwa sifa.Abstract
நாம் பெரிய அளவு பல- சிட்டை உரை வகுப்பு (LMTC) விதியாசமான தளத்தில் கருதுகிறோம். நாம் EUR-LEX லிருந்து 57k சட்ட ஆவணங்களின் புதிய தகவல் அமைப்பை வெளியேற்றுகிறோம் '4. 3k EUROVOC சிட்டைகளுடன் அறிவிக்கப்பட்டது, LMTC, சில- மற்றும் சூழ்ந பல புதிய வகுப்பாளர் டோமைன்- குறிப்பிட்ட வேலை2VEC மற்றும் சூழல் உணர்வுடைய ELMO செயல்பாட்டை மேம்படுத்துகிறது. ஆவணங்களின் குறிப்பிட்ட பகுதிகளை மட்டும் கருதுவது போதுமானது என்பதை நாம் கண்டுபிடிக்கிறோம். இது பெர்டின் அதிகபட்ச உரை நீளம் எல்லையையும் பெர்ட் சிறந்த முடிவுகளையும் பெற அனைத்து விளைவுகளையும் பெறுவதற்கு அனுமதிக்கிறது, பூஜ்Abstract
Biz Nusgala Etiketler Metin Sınıflandyrmasyny (LMTC) täze domynda düşünýäris Biz 57k sanat kaýlaty sanaty EUR-LEX'den, 4.3k EUROVOK etiketlerde ýazylýan, bu iň LMTC üçin ýeterli, kiçijek we sıfır resim öwrenmegi üçin ejaza edýäris. Birnäçe näural klasifikatçylar bilen synanyşan, biz BIGRUlaryň etiket bilen üns berilýän sungatyň döwletlerinden has gowy ukyplaryny görkeýäris. Aýratyn hasaplanjak WORD2VEC we kontekst hasaplanjak ELMO ködlemeleri başarmak üçin gowylaşdyrýar. Biz hem diňe aýratyn bölgeleri diňe düşünmek ýeterdir. Bu biziň BERT'iň iň gowy metin ululygy we BERT'iň gowy metini geçirmegimize mümkin edýär. Hemme üçin iň gowy netijeleri almak üçin ýöne s ıfır metin öwrenmegimize mümkin edýär.Abstract
ہم نے قانون دامین میں بہت سی اسکیل لیبل ٹکس کلاسیفٹ (LMTC) کو سمجھ لیا ہے. ہم نے 57k legislative documents کی نوی ڈیٹ سٹ کو EUR-LEX سے آزاد کیا ہے، 4.3k EUROVOC لابل کے ذریعہ مطلب کیا گیا ہے، جو LMTC کے لئے بہت کم اور صفر-شٹ سکونت کے لئے مناسب ہے. ہم نے کئی نئورل کلیسٹر کے ساتھ تجربہ کیا ہے، ہم نشان دیتے ہیں کہ BIGRUs کو لیبل سمجھ کے ذریعہ سے اچھی طریقہ کرتا ہے اور ان کی دوسری موجود حالت سے اچھی طریقہ کرتا ہے۔ Domain-specific WORD2VEC and context-sensitive ELMO embeddings further improve performance. ہم نے بھی دیکھا ہے کہ صرف دلیلیں کے مخصوص منطقه کا انتظار کرنا کافی ہے۔ یہ ہمیں BERT کی مہربانی ٹیکسٹ لامٹ کی حد سے بیٹ کرنا اجازت دیتا ہے اور نیک ٹیون BERT کے لئے بہترین نتیجے حاصل کرنا چاہتا ہے لیکن صفر-شٹ کی تعلیم کیسس حاصل کرنا چاہتا ہے.Abstract
Biz qoidadagi juda katta chegara matn klassifisini (LMTC) deb o'ylaymiz. Biz EUR-LEX'dan yangi 57k qoidagi hujjatlarni chiqaramiz, bu LMTC, bir necha va nuqta o'rganish uchun qiymat boʻlgan 4.3k EUROVOC labellari bilan bog'liq. Ko'pchilik neyrolik sinflari bilan tajriba qilish bilan biz bir necha neyrolik sinflari bilan ko'rsatganmiz, biz ko'rsatganda, ko'pchilik paydo bo'lgan sanat usullaridan boshqa holatdan yaxshi bajariladi. Domen- specific WORD2VEC va context-sensitive ELMO embedded further performance. Biz shunday o'ylaymiz, faqat hujjatlarning xususiyatlarini tasavvur qilish juda yetarli. This allows us to bypass BERT's maximum text length limit and fine-tune BERT, obtaining the best results in all but zero-shot learning cases.Abstract
Chúng tôi xem theo cấp độ pha đa nhãn (LMTC) lớn trong miền pháp. Chúng tôi công bố một tập tin mới đầy đủ về các tài liệu lập pháp 57k từ con đường EurX, ghi chú bằng nhãn 4.3k Euro voC, dành cho LMTC, cung cấp vài bài học không quay. Thí nghiệm với nhiều loại phân loại thần kinh, chúng tôi cho thấy rằng BIA với sự chú ý mang nhãn hiệu quả tốt hơn các phương pháp nghệ thuật hiện đại khác. Quy trình xuyên miền: giá trị quốc gia/ WOND2 VEC, và sự khai thác tủy sống. Chúng tôi cũng thấy việc xem xét chỉ những khu vực cụ thể của các tài liệu là đủ. Điều này cho phép chúng ta vượt qua giới hạn tối đa độ dài văn bản của BERT và cho kết quả tốt nhất trong các trường hợp học không bắn.Abstract
臣等思法域大多标文本分类(LMTC)。 发EUR-LEX之57,000立法之新数据集,以∼4.3k EUROVOC标注之,宜于LMTC,少与零镜头学。 数神经之类器实验之,有标者BIGRU贤于他时之最先进者。 特定于域 WORD2VEC 与上下文相关 ELMO 嵌进一步提高性能。 吾犹见之,虑文之特定足矣。 此所以绕BERT之大本而微BERT,而尽获得最佳于除零镜头学之外者也。- Anthology ID:
- P19-1636
- Volume:
- Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics
- Month:
- July
- Year:
- 2019
- Address:
- Florence, Italy
- Venue:
- ACL
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 6314–6322
- Language:
- URL:
- https://aclanthology.org/P19-1636
- DOI:
- 10.18653/v1/P19-1636
- Bibkey:
- Cite (ACL):
- Ilias Chalkidis, Emmanouil Fergadiotis, Prodromos Malakasiotis, and Ion Androutsopoulos. 2019. Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6314–6322, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation (Chalkidis et al., ACL 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/P19-1636.pdf
- Code
- iliaschalkidis/lmtc-eurlex57k
- Data
- EURLEX57K, RCV1
- Terminologies:
Export citation
@inproceedings{chalkidis-etal-2019-large, title = "Large-Scale Multi-Label Text Classification on EU Legislation{EU} Legislation", author = "Chalkidis, Ilias and Fergadiotis, Emmanouil and Malakasiotis, Prodromos and Androutsopoulos, Ion", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P19-1636", doi = "10.18653/v1/P19-1636", pages = "6314--6322", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="chalkidis-etal-2019-large"> <titleInfo> <title>Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation</title> </titleInfo> <name type="personal"> <namePart type="given">Ilias</namePart> <namePart type="family">Chalkidis</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Emmanouil</namePart> <namePart type="family">Fergadiotis</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Prodromos</namePart> <namePart type="family">Malakasiotis</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Ion</namePart> <namePart type="family">Androutsopoulos</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-07</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">chalkidis-etal-2019-large</identifier> <identifier type="doi">10.18653/v1/P19-1636</identifier> <location> <url>https://aclanthology.org/P19-1636</url> </location> <part> <date>2019-07</date> <extent unit="page"> <start>6314</start> <end>6322</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation %A Chalkidis, Ilias %A Fergadiotis, Emmanouil %A Malakasiotis, Prodromos %A Androutsopoulos, Ion %S Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics %D 2019 %8 July %I Association for Computational Linguistics %C Florence, Italy %F chalkidis-etal-2019-large %R 10.18653/v1/P19-1636 %U https://aclanthology.org/P19-1636 %U https://doi.org/10.18653/v1/P19-1636 %P 6314-6322
Markdown (Informal)
[Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation](https://aclanthology.org/P19-1636) (Chalkidis et al., ACL 2019)
- Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation (Chalkidis et al., ACL 2019)
ACL
- Ilias Chalkidis, Emmanouil Fergadiotis, Prodromos Malakasiotis, and Ion Androutsopoulos. 2019. Large-Scale Multi-Label Text Classification on EU LegislationEU Legislation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6314–6322, Florence, Italy. Association for Computational Linguistics.