A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance Name ቦታ፦ يقطع القليل من اللغويات شوطًا طويلاً: التقسيم غير الخاضع للإشراف مع توجيه محدد للغة 썋쎼쎧殼䐠汩쌠窖볃썮溼搠쑯犟汵쑵疟椠쥬ₙ썭즼禙쥹溙攠楤浬駉業鿅匠来敭瑮瑡潩੮ Малко лингвистика върви далеч: Неконтролирана сегментация с ограничени езикови специфични насоки Name A Little Linguistics Goes a Long Way: Unsupervised Segmentation with Limited Language Specific Guidance Malo lingwistike ide na dug put: neodređena segmentacija sa ograničenim jezičkim specifičnim uputstvom A Little Linguistics Goes a Long Way: Unsupervised Segmentation with Limited Language Specific Guidance Trochu lingvistiky jde dlouhou cestu: nekontrolovaná segmentace s omezeným jazykovým pokynem Lidt lingvistik går langt: Ubervåget segmentering med begrænset sprogspecifik vejledning Ein wenig Linguistik geht einen langen Weg: Unbeaufsichtigte Segmentierung mit begrenzter sprachlicher Orientierung Λίγη Γλωσσολογία κάνει μεγάλο δρόμο: Χωρίς παρακολούθηση κατακερματισμός με περιορισμένη γλωσσική καθοδήγηση Un poco de lingüística contribuye en gran medida: segmentación sin supervisión con orientación limitada específica del idioma Väike keeleteadus läheb kaugele: järelevalveta segmenteerimine piiratud keele spetsiifiliste juhistega Name Vähän kielitiedettä menee pitkälle: valvomaton segmentointi rajoitetulla kielispesifisellä ohjauksella A Little Linguistics Goes a Long Way : segmentation non supervisée avec des conseils limités spécifiques à la langue Is Fada a Théann Grád Beag ar an dTeangeolaíocht: Deighilt gan Maoirseacht le Treoir Theoranta Sonrach i dTeanga KCharselect unicode block name לינגוסטיקה קטנה הולכת דרך ארוכה: סגרטציה ללא השגחה עם מדריך ספציפי לשפה מוגבל एक छोटा सा भाषाविज्ञान एक लंबा रास्ता तय करता है: सीमित भाषा विशिष्ट मार्गदर्शन के साथ असुरक्षित विभाजन Mala Lingistika ide dug put: neodržana segmentacija s ograničenim jezičkim specifičnim uputstvom Egy kis nyelvészet hosszú úton megy: felügyeletlen szegmentáció korlátozott nyelvspecifikus útmutatással Մի փոքրիկ լեզվաբանությունը երկար ճանապարհ է գնում. առանց վերահսկվող սեգմենցիա սահմանափակ լեզվի մասնավոր ուղղությամբ Sebuah Linguistik Kecil Pergi Jalan Panjang: Segmentasi Tak Tersupervisi Dengan Panduan Spesifik Bahasa Terbatas Un po' di linguistica fa molta strada: segmentazione non controllata con guida linguistica limitata 小さな言語学は長い道のりを行く:制限された言語固有のガイダンスによる監督なしのセグメンテーション A little Linguistis Goes a long Method: Unusurped segmentation with limiting Language Specic guideance Name Кішкене тілік тілінің спецификалық бағыттауы 약간의 언어학이 도움이 된다: 감독이 없는 단어와 유한한 특정 언어 지도 Maža kalba eina ilgai: nekontroliuojama segmentacija su ribotomis konkrečiomis kalbos gairėmis Мала лингвистика оди долг пат: Ненадгледувана сегментација со ограничена конкретна насока за јазик ഒരു ചെറിയ ലിങ്ഗിസ്റ്റ് നീണ്ട വഴി Жижиг хэл хөгжлийн хувьд урт зам явдаг: Хязгаарлагдсан хэл удирдлага A Little Linguistics Goes a Long Way: Unsupervised Segmentation with Limited Language Specific Guidance Lingwistika Żgħira tmur fit-Tul: Segmentazzjoni Mhux Sorveljata b’Gwida Speċifika tal-Lingwistika Limitata Een beetje taalkunde gaat een lange weg: onbewaakte segmentatie met beperkte taalspecifieke begeleiding Name Trochę lingwistyki idzie daleko: nienadzorowana segmentacja z ograniczonymi wytycznymi językowymi Um pouco de linguística ajuda muito: segmentação não supervisionada com orientação específica de idioma limitada Un pic de lingvistică merge un drum lung: segmentare nesupravegheată cu ghidare specifică limbajului limitat Маленькая лингвистика идет долгим путем: неконтролируемая сегментация с ограниченным языком конкретных указаний Name Malo jezikoslovja gre daleč: nenadzorovana segmentacija z omejenimi jezikovnimi smernicami A Little Linguistics Goes a Long Path: Unwatched Segmentation with Limited Luqad Specific Një gjuhë e vogël shkon një rrugë të gjatë: Segmentacioni i pashqyrur me udhëzim të kufizuar specifik gjuhës Malo lingwistike ide na dug put: neodređena segmentacija sa ograničenim jezičkim specifičnim uputstvom Lite lingvistik går långt: Oserverad segmentering med begränsad språkspecifik vägledning Kilinguistics Little Goes a Long Path: Unwatched Segment with Limited Lugha Specific Guidance A small Linguistics goes a long way: Unwatched Segment with Limited Language Specific Guidance Biraz Diller Uzun Ýöle gidýär: Saýlamaýan Segmentation with Limited Language Specific Guidance Name Name A little Linguistics Goes a Long Way: Unperfened Segments with Limited Language thiện orientation 一点语言学行长路:无监分有限语言特定指导
Alexander Erdmann, Salam Khalifa, Mai Oudah, Nizar Habash, Houda Bouamor
Abstract
We present de-lexical segmentation, a linguistically motivated alternative to greedy or other unsupervised methods, requiring only minimal language specific input. Our technique involves creating a small grammar of closed-class affixes which can be written in a few hours. The grammar over generates analyses for word forms attested in a raw corpus which are disambiguated based on features of the linguistic base proposed for each form. Extending the grammar to cover orthographic, morpho-syntactic or lexical variation is simple, making it an ideal solution for challenging corpora with noisy, dialect-inconsistent, or otherwise non-standard content. In two evaluations, we consistently outperform competitive unsupervised baselines and approach the performance of state-of-the-art supervised models trained on large amounts of data, providing evidence for the value of linguistic input during preprocessing.Abstract
Ons stel de-leksiese segmentasie voor 'n lingwisiese motiveerde alternatief om groet of ander ongeondersteunde metodes te stel, wat slegs minimale taal spesifieke invoer benodig word. Ons tekniks bedoel om 'n klein grammatiek van gesluit klas affiks te skep wat in 'n paar uur geskryf kan word. Die grammatiek oor genereer analiseer vir woord vorms wat in 'n rooi korpus bevestig is wat is ontsammingbaar gebaseer word op funksies van die lingwisiese basis wat vir elke vorm voorgestel is. Die uitbreiding van die grammatiek om ortografiese, morpho-sintaktiese of leksiese veranderinge te dekk is eenvoudig, maak dit 'n ideele oplossing vir die opgelaai van korpora met geluid, dialekte-inkonsistente of anders nie-standaard inhoud. In twee evaluasies, ons het konsistentlik uitgevoer gemeenskaplike ondersoekte basisline en naby die prestasie van die staat-van-die-kunstens-ondersoekte modele wat op groot hoeveelheid data opgelei is, verskaf getuienis vir die waarde van lingwisiese invoer by voorsoek.Abstract
የቋንቋ ቋንቋ ለመጠቀም ወይም በሌላ ያልጠበቀ ደረጃዎች ላይ የተመሳሰለውን መተላለፊያ እናቀርባለን፡፡ ቴክኖክቶቻችን በጥቂት ሰዓት ውስጥ የሚጻፍበት ትንሽ የደረጃ ግንኙነትን መፍጠር ነው፡፡ የቋንቋ ቋንቋ መቀመጫዎች ላይ በተገኘው የቋንቋ ቋንቋ መቀመጫውን በመሠረት ላይ የሚደረገውን የቃላት ፎርማቶች የሚያስተምር ነው፡፡ በኦሮቶግራፊ፣ ሞሮፎ-Syntactic ወይም ሌክሲካዊ ልውጤት ለመከፈት ካርፖርት ውጤት፣ ድምፅ፣ ባይኖር ወይም ባይሆን የኮርፖርት ውጤት ለመዋጋት የአስተዋይ ማቀናጃ ማድረግ ነው፡፡ በሁለት ማስታወቂያዎች ውስጥ በተጨማሪው የማይጠበቀውን መደገፊያዎች እና በፕሮጀክስ ጊዜው የቋንቋዊ ጥያቄ በሚያስተማሩበት የሀገር-art ዓይነቶች የደረጃውን እናደርጋለን፡፡Abstract
نقدم تجزئة غير معجمية ، وهي بديل ذو دوافع لغوية للجشع أو طرق أخرى غير خاضعة للرقابة ، ولا تتطلب سوى الحد الأدنى من المدخلات اللغوية المحددة. تتضمن تقنيتنا إنشاء قواعد نحوية صغيرة من الألقاب ذات الفئة المغلقة والتي يمكن كتابتها في غضون ساعات قليلة. تُنشئ القواعد النحوية تحليلات لأشكال الكلمات المثبتة في مجموعة مواد خام والتي يتم توضيحها بناءً على ميزات القاعدة اللغوية المقترحة لكل نموذج. يعد توسيع القواعد النحوية لتغطية التباين الإملائي أو النحوي الصرفي أو المعجمي أمرًا بسيطًا ، مما يجعله حلاً مثاليًا لتحدي المجموعات ذات المحتوى الصاخب أو غير المتسق أو غير القياسي. في تقييمين ، تفوقنا باستمرار على خطوط الأساس التنافسية غير الخاضعة للإشراف ونقترب من أداء أحدث النماذج الخاضعة للإشراف المدربة على كميات كبيرة من البيانات ، مما يوفر دليلًا على قيمة المدخلات اللغوية أثناء المعالجة المسبقة.Abstract
Biz de-leksik segmentasyonu, dil dilində təşkil olunan alternatifi və ya digər təşkil edilməmiş metodları ilə təşkil edirik, yalnız minimal dil təşkil girişi istəyirik. Bizim teknikimiz bir neçə saat içində yazıla biləcək qapılmış sınıf affikslərinin küçük bir grammatik yaratmasıdır. Hər form a üçün təklif edilən dil üssünün özelliklərinə dayandırılmış səhifələrində təsdiqlənmiş söz formları analizi yaradır. Grammatikanı ortografik, morpho-sintaktik və leksik dəyişiklikləri örtünmək üçün çox asandır, bu korpora səs, dialekt-inkonsistent, ya da başqa standart məlumatı olmayan ideal çətinlikdir. İki değerlendirmədə, biz müqayisədə müqayisədə müdafiə edilməmiş baz çətinliklərdən üstün olmuşuq və təhsil edilmə vaxtı dil girişinin qiymətinə şahidlik göstərmişik.Abstract
Представяме делексикална сегментация, лингвистично мотивирана алтернатива на алчни или други неконтролирани методи, изискващи само минимален език специфичен вход. Нашата техника включва създаване на малка граматика от затворени класове афикси, които могат да бъдат написани за няколко часа. Граматиката над генерира анализи за словните форми, удостоверени в суров корпус, които са разграничени въз основа на особеностите на езиковата база, предложена за всяка форма. Разширяването на граматиката, за да обхване ортографската, морфосинтактичната или лексикалната вариация е просто, което я прави идеално решение за предизвикане на корпуси с шумно, диалектно несъвместимо или по друг начин нестандартно съдържание. При две оценки ние непрекъснато надминаваме конкурентните ненадзорни базови линии и подхождаме към представянето на най-съвременни надзорни модели, обучени върху големи количества данни, като предоставяме доказателства за стойността на лингвистичния вход по време на предварителната обработка.Abstract
আমরা লেক্সিক্যাল বিভিন্ন ভাষায় লোভী অথবা অন্যান্য সংরক্ষিত পদ্ধতির বিকল্প উপস্থাপন করি, যার জন্য শুধুমাত্র কম ভাষার নির্দিষ্ট ভাষার আমাদের প্রযুক্তির মধ্যে একটা ছোট্ট গ্রামার তৈরি করা হয়েছে যা কয়েক ঘন্টার মধ্যে লেখা যাবে। এই গ্রামার বিশ্লেষণের বিশ্লেষণ তৈরি করে একটি ভূমিকা কোর্পাসে প্রচেষ্টা করা শব্দের ফর্মের জন্য বিশ্লেষণ যা প্রত্যেক ফর্মের প্রস্তা অর্থোগ্রাফিক, মরোফো-সিন্ট্যাক্টিক অথবা লেক্সিক্সিক্যাল বিভাগের জন্য গ্রাম বাড়িয়ে দিয়ে এটা সহজ, এটা কোর্পোরাকে চ্যালেঞ্জ করার একটি চিন্তার সমাধান, দুই মূল্যের মধ্যে আমরা সবসময় প্রতিযোগিতায় অরক্ষিত বেসারেলাইনের বেশি প্রতিযোগিতায় প্রদর্শন করি এবং প্রোগ্রাস করার সময় রাষ্ট্র-শিল্প পর্যবেক্ষিত মডেলের প্রতিযোগিতারAbstract
We present de-lexical segmentation, a linguistically motivated alternative to greedy or other unsupervised methods, requiring only minimal language specific input. ང་ཚོའི་ལམ་ལུགས་འདིས་དུས་ཁྱེར་བའི་བྱ་རིམ་ལ་ཆུང་ཀུ་ཅིག་འབྲི་ཐུབ་ཀྱི་ཡོད་རེད། སྐད་རིགས་གྱི་ནང་དོན་གྱི་ནང་དུ་ཡིག་གཟུགས་རིས་ལ་རྣམ་པ་ཞིག་དང་མཐོང་ཡོད་པའི་ཐ་སྙད་གཟུགས་རིས་ཀྱི་ཁྱད་ཆ་རྣམས་ལ་ཡར་ Extending the grammar to cover orthographic, morpho-syntactic or lexical variation is simple, making it an ideal solution for challenging corpora with noisy, dialect-inconsistent, or otherwise non-standard content. ང་ཚོས་རྗེས་འབྲས་གཉིས་ཀྱིས་ཐད་ཀར་ངལ་མེད་པའི་གཞི་རྟེན་གཉིས་ནང་དུ་གླེང་མོལ་བཞིན་པའི་རྣམ་པ་ལྟ་བུ་འཇུག་སྲིད་པའི་མིག་གཟུགས་རིས་བཀོལ་སྤྱོད་ནང་གི་བྱAbstract
Predstavljamo dezleksičku segmentaciju, lingvistički motiviranu alternativu pohlepnim ili drugim nepotrebnim metodama, zahtijevajući samo minimalni specifični jezik. Naša tehnika uključuje stvaranje malih gramatike zatvorenih kompleksa koji se može napisati za nekoliko sati. gramatika iznad toga stvara analize za oblike riječi potvrđene u sirovom korpusu koji su disambiguovani na osnovu karakteristika jezičke baze predložene za svaki oblik. Proširenje gramatike za pokrivanje ortografske, morfosintaktične ili leksičke varijacije je jednostavno, čineći to idealno rješenje za izazov tijela sa bukom, dijalektom-inkonsistentnim ili inače ne-standardnim sadržajem. U dvije procjene, mi stalno iznosimo konkurentne neodređene osnovne linije i pristupimo učinkovitosti modela nadziranih države umjetnosti obučenih na velikoj količini podataka, pružajući dokaze za vrijednost jezičkog ulaza tijekom preobrazovanja.Abstract
We present de-lexical segmentation, a linguistically motivated alternative to greedy or other unsupervised methods, requiring only minimal language specific input. La nostra tècnica implica crear una petita gramàtica d'afixes de classe tancada que es poden escriure en unes quantes hores. La gramàtica sobre genera anàlisis de formes de paraules atestats en un corpus brut que estan desambiguats basant-se en característiques de la base lingüística proposada per cada form a. L'extensió de la gramàtica a la variació ortogràfica, morfo-sinàctica o lècsica és senzilla, fent que sigui una solució ideal per desafiar a la corpora amb continguts sorollosos, inconsistents amb dialectes o de altre manera no estàndard. En dues evaluacions, constantment superem les línies de base competitives no supervisades i aproximam el rendiment de models supervisats d'última generació entrenats en grans quantitats de dades, proporcionant proves del valor de la entrada lingüística durant la preprocessió.Abstract
Představujeme de-lexikální segmentaci, lingvisticky motivovanou alternativu k chamtivým nebo jiným metodám bez dozoru, která vyžaduje jen minimální jazykový specifický vstup. Naše technika zahrnuje vytvoření malé gramatiky uzavřených afixů, které lze napsat během několika hodin. Grammatika generuje analýzy slovních forem osvědčených v surovém korpusu, které jsou rozjasněny na základě vlastností jazykové základny navržené pro každou formu. Rozšíření gramatiky na ortografické, morfosyntaktické nebo lexikální variace je jednoduché, což z ní dělá ideální řešení pro náročné korpusy s hlučným, dialektovým nebo jinak nestandardním obsahem. Ve dvou hodnoceních důsledně překonáváme konkurenční bez dohledu základní linie a přistupujeme k výkonu nejmodernějších dohledovaných modelů trénovaných na velkém množství dat, což poskytuje důkaz o hodnotě jazykového vstupu během předzpracování.Abstract
Vi præsenterer de-leksikal segmentering, et sprogligt motiveret alternativ til grådige eller andre ikke-overvågede metoder, der kun kræver minimal sprogspecifik input. Vores teknik indebærer at skabe en lille grammatik af lukkede klasseaffixes, som kan skrives på et par timer. Grammatikken over genererer analyser for ordformer, der er attesteret i et råt korpus, som er adskillige baseret på træk i det sproglige grundlag, der foreslås for hver form. At udvide grammatiken til at omfatte ortografisk, morfosyntaktisk eller leksikisk variation er enkel, hvilket gør det til en ideel løsning til at udfordre corpora med støjende, dialekt-inkonsekvent eller på anden måde ikke-standard indhold. I to evalueringer overgår vi konsekvent konkurrencedygtige uautoriserede basislinjer og nærmer os resultaterne af state-of-the-art overvågede modeller, der er trænet på store mængder data, hvilket giver bevis for værdien af sproglig input under forbehandling.Abstract
Wir präsentieren die delexikalische Segmentierung, eine linguistisch motivierte Alternative zu gierigen oder anderen unbeaufsichtigten Methoden, die nur minimale sprachspezifische Eingaben erfordern. Unsere Technik besteht darin, eine kleine Grammatik aus geschlossenen Affixen zu erstellen, die in wenigen Stunden geschrieben werden kann. Die Grammatik über generiert Analysen für Wortformen, die in einem Rohkorpus attestiert werden, die anhand der Merkmale der für jede Form vorgeschlagenen linguistischen Basis eindeutig sind. Die Erweiterung der Grammatik auf orthographische, morphosyntaktische oder lexikalische Variationen ist einfach und macht sie zur idealen Lösung für herausfordernde Korpora mit lauten, dialektinkonsistenten oder anderweitig nicht standardisierten Inhalten. In zwei Auswertungen übertreffen wir konsequent konkurrierende unüberwachte Baselines und nähern uns der Leistung modernster überwachter Modelle an, die auf großen Datenmengen trainiert wurden und belegen den Wert sprachlicher Inputs während der Vorverarbeitung.Abstract
Παρουσιάζουμε την αποκλειστική τμηματοποίηση, μια γλωσσικά υποκινούμενη εναλλακτική λύση σε άπληστες ή άλλες μεθόδους χωρίς επίβλεψη, που απαιτεί μόνο ελάχιστη γλωσσική εισαγωγή. Η τεχνική μας περιλαμβάνει τη δημιουργία μιας μικρής γραμματικής κλειστής τάξης που μπορεί να γραφτεί σε λίγες ώρες. Η γραμματική παράγει αναλύσεις για τις μορφές λέξεων που πιστοποιούνται σε ένα ωμό σώμα, οι οποίες αποσαφηνίζονται με βάση τα χαρακτηριστικά της γλωσσικής βάσης που προτείνονται για κάθε μορφή. Η επέκταση της γραμματικής για να καλύψει ορθογραφικές, μορφοσυντακτικές ή λεξικές παραλλαγές είναι απλή, καθιστώντας την ιδανική λύση για την πρόκληση σωμάτων με θορυβώδες, ασυνεπή διαλεκτικό ή άλλως μη τυποποιημένο περιεχόμενο. Σε δύο αξιολογήσεις, ξεπερνάμε σταθερά τις ανταγωνιστικές χωρίς επίβλεψη γραμμές βάσης και προσεγγίζουμε την απόδοση των υπερσύγχρονων εποπτευόμενων μοντέλων που εκπαιδεύονται σε μεγάλες ποσότητες δεδομένων, παρέχοντας αποδεικτικά στοιχεία για την αξία της γλωσσικής εισαγωγής κατά την προεπεξεργασία.Abstract
Presentamos la segmentación deléxica, una alternativa lingüísticamente motivada a los métodos codiciosos u otros métodos no supervisados, que solo requiere un aporte mínimo específico del idioma. Nuestra técnica consiste en crear una pequeña gramática de afijos de clase cerrada que se pueden escribir en unas pocas horas. La gramática sobre genera análisis de formas de palabras atestiguadas en un corpus sin procesar que se desambiguan en función de las características de la base lingüística propuesta para cada forma.. Ampliar la gramática para abarcar la variación ortográfica, morfosintáctica o léxica es simple, lo que la convierte en una solución ideal para desafiar los corpus con contenido ruidoso, incoherente con el dialecto o no estándar. En dos evaluaciones, superamos sistemáticamente las bases de referencia no supervisadas de la competencia y abordamos el rendimiento de modelos supervisados de última generación entrenados en grandes cantidades de datos, lo que proporciona evidencia del valor del aporte lingüístico durante el procesamiento previo.Abstract
Esitleme dekleksiaalset segmentatsiooni, keeleliselt motiveeritud alternatiivi ahnetele või muudele järelevalveta meetoditele, mis nõuab vaid minimaalset keelespetsiifilist sisestust. Meie tehnika hõlmab väikese grammatika loomist suletud klassi kinnitustest, mida saab kirjutada mõne tunniga. Grammatika üle genereerib analüüse toorkorpuses tõestatud sõnavormidele, mis on selgitatud iga vormi keelelise aluse omaduste põhjal. Grammatika laiendamine ortograafilisele, morfosüntaktilisele või leksikaalsele variatsioonile on lihtne, muutes selle ideaalseks lahenduseks müraka, dialektiga vastuolulise või muul viisil mittestandardse sisuga korpuste väljakutseteks. Kahes hindamises ületame järjekindlalt konkurentsivõimelisi järelevalveta lähtejooni ja läheneme tipptasemel järelevalvega mudelite tulemuslikkusele, mis on koolitatud suurel hulgal andmeid, pakkudes tõendeid keelelise sisendi väärtuse kohta eeltöötluse ajal.Abstract
ما بخشهای نازبان زبانی را نشان میدهیم، یک جایگزینهای به زبانشناسی که برای روشهای آرزوی یا غیر قابل تحریک شده است، و تنها ورودهای مخصوص زبان را نیاز داریم. تکنیک ما شامل ایجاد یک گرامیک کوچک از ساختمان کلاس بسته است که در چند ساعت می تواند نوشته شود. برنامهریزی بر روی تحلیلها برای فرمهای کلمهای که در یک کورپوس خالی گواهی شدهاند، تولید میکند که بر اساس ویژههای پایگاه زبانشناسی برای هر فرم پیشنهاد شدهاند، ناآزمایش میشوند. تغییر دادن گراماری برای پوشاندن تغییرات orthographic, morpho-syntactic or lexical ساده است، که آن را راه حل ایدهای برای مشکل کردن شرکت با صدا، دیالکت-غیرمساوی یا غیر استاندارد قرار میدهد. در دو ارزیابی، ما همیشه بیشتر از خطوط پایگاههای مسابقهای که متقاعد نشدهاند انجام میدهیم و به فعالیت مدلهای مدلهای متقاعد شدهی دولت هنری آموزش داده شدهاند، به اندازهی مقدار دادههای بزرگ، مدرکها برای ارزش ورودهای زبانشناسی در زماAbstract
Esittelemme dekeksikaalisen segmentoinnin, kielellisesti motivoituneen vaihtoehdon ahneille tai muille valvomattomille menetelmille, jotka vaativat vain vähän kielispesifistä panosta. Tekniikkamme on luoda pieni kielioppi suljetun luokan liitteitä, jotka voidaan kirjoittaa muutamassa tunnissa. Kielioppi tuottaa analyysejä raakakorpuksessa todistetuista sanamuodoista, jotka on eritelty kullekin lomakkeelle ehdotetun kielipohjan ominaisuuksien perusteella. Kieliopin laajentaminen ortografiseen, morfosyntaktiseen tai leksikaaliseen vaihteluun on yksinkertaista, mikä tekee siitä ihanteellisen ratkaisun haastaviin korpusiin, joissa on meluisaa, murretta ristiriitaista tai muuten epätavallista sisältöä. Kahdessa arvioinnissa suoriudumme johdonmukaisesti kilpailusta riippumattomasti paremmin ja lähestymme suurilla tietomäärillä koulutettujen huippuluokan valvottujen mallien suorituskykyä, mikä osoittaa kielellisen syötteen arvon esikäsittelyn aikana.Abstract
Nous présentons la segmentation délexicale, une alternative motivée par la langue aux méthodes gourmandes ou autres méthodes non supervisées, ne nécessitant qu'un minimum de saisie spécifique à la langue. Notre technique consiste à créer une petite grammaire d'affixes de classe fermée qui peut être écrite en quelques heures. La grammaire génère des analyses pour les formes de mots attestées dans un corpus brut qui sont désambiguïsées en fonction des caractéristiques de la base linguistique proposée pour chaque forme. L'extension de la grammaire pour couvrir les variations orthographiques, morpho-syntaxiques ou lexicales est simple, ce qui en fait une solution idéale pour les corpus difficiles au contenu bruyant, incohérent dans le dialecte ou autrement non standard. Dans deux évaluations, nous surpassons constamment les niveaux de référence concurrentiels non supervisés et nous approchons de la performance de modèles supervisés de pointe formés sur de grandes quantités de données, fournissant ainsi des preuves de la valeur de l'entrée linguistique pendant le prétraitement.Abstract
Cuirimid i láthair deighilt dhífhoclóra, rogha spreagtha teanga seachas modhanna sanntach nó modhanna eile gan mhaoirseacht, nach dteastaíonn ach ionchur sainiúil teanga íosta. Is éard atá i gceist lenár dteicníc ná gramadach bheag de ghreamaithe ranga dúnta a chruthú ar féidir iad a scríobh i gceann cúpla uair an chloig. Gineann an ghramadach thall anailísí ar fhoirmeacha focal arna bhfianú i gcorpas amh agus déantar iad a dhídhébhriú bunaithe ar ghnéithe den bhunús teangeolaíoch a mholtar do gach foirm. Is simplí an ghramadach a leathnú go dtí éagsúlacht ortagrafach, mhorpho-chomhréir nó foclóireachta, rud a fhágann gur réiteach iontach é chun dúshlán a chur ar chorpora le hábhar callánach, nach bhfuil comhsheasmhach le canúint nó le hábhar neamhchaighdeánach eile. In dhá mheastóireacht, déanaimid sárobair go seasta ar bhonnlínte iomaíocha gan mhaoirseacht agus tugaimid faoi fheidhmíocht na múnlaí maoirsithe den scoth atá oilte ar mhéideanna móra sonraí, ag soláthar fianaise ar luach an ionchuir teanga le linn réamhphróiseála.Abstract
Tuna halatar da surorin de-leksisi, wata da aka gabatar da linguin da ke son wata shida zuwa baka wani matalauci ko kuwa da ba'a tsare shi ba, kuma yana kasancẽwa kawai da ake shiga cikin harshen da ke ƙayyade. Tayiyiyinmu na shagala ta samun karatun mai ƙaranci na danganta, wanda za'a iya rubũta cikin masaki kaɗan. grammar da ke ƙãga wani analyi wa tsarin magana wanda aka yi aiki a cikin wani nau'in raw da aka bambanci da shi a kan salon linguistic wanda aka buƙata wa kowanne fomat. Akwai da shirin grammar da za'a rufe sigogi, mai mutane na morfo-syntactic ko kuma mai lokaci, yana mai sauƙi, kuma yana sanya shi wata kafin wa'anar wa makampuni ya yi ƙiyayya da sauri, da kuma ba'a cikin shirin, ko kuma yana da tsarin wanda ba'a daidaita ba. In two evaluations, we consistently outperform competitive unsupervised baselines and approach the performance of state-of-the-art supervised models trained on large amounts of data, providing evidence for the value of linguistic input during preprocessing.Abstract
אנחנו מציגים סגמנציה לא-לקסית, אלטרנטיבה מוטיבציה שפתית לשיטות חמדנות או שיטות בלתי משגיחות אחרות, דורשת רק כניסה מינימלית ספציפית לשפה. הטכניקה שלנו כוללת ליצור גרמטיקה קטנה של משימות בכיתה סגורה שאפשר לכתוב בעוד כמה שעות. The grammar over generates analyses for word forms attested in a raw corpus which are disambiguated based on features of the linguistic base proposed for each form. הרחיבה של הגרמטיקה לכסות שוורציה אורטוגרפית, מורפו-סינטקטית או לקסיקה היא פשוטה, הופכת אותה לפתרון אידיאלי לאתגר גופרה עם תוכן רעש, חוסר דיאלקט, או אחרת לא סטנדרטי. בשני הערכות, אנו מבצעים באופן קבוע מעל קווי בסיס תחרותיים ללא השגחה ומגיעים להופעה של מודלים מבוקשים במצב מוקדם, מאומנים על כמויות גדולות של נתונים, מספקים ראיות לערך של הכניסה לשונתית במהלך התהליך.Abstract
हम डी-लेक्सिकल विभाजन प्रस्तुत करते हैं, लालची या अन्य असुरक्षित तरीकों के लिए एक भाषाई रूप से प्रेरित विकल्प, जिसमें केवल न्यूनतम भाषा विशिष्ट इनपुट की आवश्यकता होती है। हमारी तकनीक में बंद वर्ग के चिपकने का एक छोटा व्याकरण बनाना शामिल है जिसे कुछ घंटों में लिखा जा सकता है। व्याकरण एक कच्चे कॉर्पस में सत्यापित शब्द रूपों के लिए विश्लेषण उत्पन्न करता है जो प्रत्येक रूप के लिए प्रस्तावित भाषाई आधार की विशेषताओं के आधार पर अलग-अलग होते हैं। ऑर्थोग्राफिक, मॉर्फो-सिंटैक्टिक या लेक्सिकल भिन्नता को कवर करने के लिए व्याकरण का विस्तार करना सरल है, जिससे यह शोर, बोली-असंगत, या अन्यथा गैर-मानक सामग्री के साथ कॉर्पोरेट को चुनौती देने के लिए एक आदर्श समाधान बन जाता है। दो मूल्यांकनों में, हम लगातार प्रतिस्पर्धी असुरक्षित आधार रेखाओं से आगे निकलते हैं और बड़ी मात्रा में डेटा पर प्रशिक्षित अत्याधुनिक पर्यवेक्षित मॉडल के प्रदर्शन से संपर्क करते हैं, जो प्रीप्रोसेसिंग के दौरान भाषाई इनपुट के मूल्य के लिए सबूत प्रदान करते हैं।Abstract
Predstavljamo dezleksičku segmentaciju, lingvistički motiviranu alternativu pohlepnim ili drugim nepotrebnim metodama, zahtijevajući samo minimalni specifični jezik. Naša tehnika uključuje stvaranje malih gramatike zatvorenih kompleksa koji se može napisati za nekoliko sati. Prema gramatici proizvodi analize za oblike riječi potvrđene u sirovom korpusu koji su disambiguirani na osnovu karakteristika jezičke baze predložene za svaki oblik. Proširenje gramatike za pokrivanje ortografske, morfosintaktične ili leksičke varijacije je jednostavno, čineći to idealno rješenje za izazov tijela s bukom, dijalektom-nesposobnim ili inače ne standardnim sadržajem. U dvije procjene, stalno smo nadmašili konkurentne nepotrebne osnovne linije i pristupili učinkovitosti modela nadgledanih stanja umjetnosti obučenih na velikoj količini podataka, pružajući dokaze vrijednosti jezičkog ulaza tijekom preobrazovanja.Abstract
Bemutatjuk a de-lexikai szegmentációt, amely a kapzsi vagy egyéb felügyelet nélküli módszerek nyelvi motivációjának alternatívája, amely csak minimális nyelvspecifikus bevitelt igényel. Technikánk magában foglalja a zárt osztályú affixek kis nyelvtani létrehozását, amelyek néhány óra alatt írhatók. A felső nyelvtani elemzéseket generál a nyers korpuszban tanúsított szóformákra vonatkozóan, amelyeket az egyes formákhoz javasolt nyelvi alap jellemzői alapján egyértelművé tesznek. A nyelvtan kiterjesztése ortográfiai, morfo-szintaktikus vagy lexikai variációkra egyszerű, így ideális megoldás a korpuszok kihívására zajos, dialektus-következetlen vagy egyébként nem szabványos tartalmakkal. Két értékelés során folyamatosan felülmúljuk a versenyképes, felügyelet nélküli alapokat, és megközelítjük a nagy mennyiségű adatokra képzett korszerű, felügyelt modellek teljesítményét, bizonyítékot nyújtva az előfeldolgozás során a nyelvi input értékére.Abstract
We present de-lexical segmentation, a linguistically motivated alternative to greedy or other unsupervised methods, requiring only minimal language specific input. Մեր տեխնիկան ներառում է մի փոքրիկ գրամագրություն փակ դասարանի կապերի ստեղծելը, որը կարող է գրվել մի քանի ժամվա ընթացքում: Գրամատիկայի վերաբերյալ վերլուծություններ են ստեղծում բառերի ձևերի վերլուծություններ, որոնք վկայվում են անբացատրելի մարմնի մեջ, հիմնված յուրաքանչյուր ձևի լեզվաբանական հիմքի առանձնահատկությունների վրա: Գրագրաֆիայի ընդլայնումը որպեսզի ծածկենք օրթոգրաֆիկ, մորֆո-սինտակտիկ կամ լեքսիկական տարբերությունները պարզ է, դարձնելով այն իդեալական լուծում մարտահրավերի համար աղմկոտ, դիալեկտ-անհամապատասխան կամ այլ ոչ ստանդարտ պարունակությամբ: In two evaluations, we consistently outperform competitive unsupervised baselines and approach the performance of state-of-the-art supervised models trained on large amounts of data, providing evidence for the value of linguistic input during preprocessing.Abstract
Kami mempersembahkan segmen de-lexical, alternatif yang bermotivasi bahasa untuk serakah atau metode lain yang tidak diawasi, yang membutuhkan hanya input minimal bahasa spesifik. Teknik kita melibatkan menciptakan gramatika kecil dari afiks kelas tertutup yang dapat ditulis dalam beberapa jam. Gramatika lebih menghasilkan analisis untuk bentuk kata yang disahkan dalam tubuh mentah yang disambiguasi berdasarkan ciri-ciri dasar bahasa yang diusulkan untuk setiap bentuk. Meluaskan gramatika untuk menutupi variasi ortografik, morpho-syntactic atau leksik adalah sederhana, membuatnya solusi ideal untuk menantang corpora dengan berisik, dialekt-tidak konsisten, atau lainnya konten tidak standar. Dalam dua evaluasi, kami secara konsisten melebihi garis dasar kompetitif yang tidak diawasi dan mendekati prestasi model yang diawasi state-of-the-art dilatih pada jumlah besar data, menyediakan bukti untuk nilai input bahasa selama preproses.Abstract
Presentiamo la segmentazione de-lessica, un'alternativa motivata dal punto di vista linguistico a metodi avidi o non supervisionati, che richiede solo un minimo input linguistico specifico. La nostra tecnica prevede la creazione di una piccola grammatica di affissi di classe chiusa che possono essere scritti in poche ore. La grammatica sopra genera analisi per le forme di parola attestate in un corpus grezzo che sono disambiguate in base alle caratteristiche della base linguistica proposta per ogni forma. Estendere la grammatica alla variazione ortografica, morfo-sintattica o lessicale è semplice, rendendolo una soluzione ideale per sfidare corpora con contenuti rumorosi, dialettali incoerenti o altrimenti non standard. In due valutazioni, superiamo costantemente le linee di base non supervisionate competitive e ci avviciniamo alle prestazioni di modelli supervisionati all'avanguardia formati su grandi quantità di dati, fornendo prove del valore dell'input linguistico durante il preelaborazione.Abstract
私たちは、非辞書的セグメンテーションを提示します。これは、欲張りまたは他の監督されていない方法に代わる、言語的に動機づけられた代替手段であり、言語固有の入力を最小限に抑える必要があります。私たちのテクニックは、数時間で書けるクローズドクラスのアフィックスの小さな文法を作成することです。以上の文法は、生のコーパスで証明された単語形式の分析を生成し、各形式について提案された言語基盤の特徴に基づいて曖昧さを解消します。文法を拡張して、正書法、形態構文、または語彙のバリエーションをカバーするのは簡単で、ノイズの多い、方言の一貫性のない、またはその他の非標準的なコンテンツでコーラに挑戦するための理想的なソリューションになります。2つの評価では、私たちは常に競争的な無監督ベースラインを上回り、大量のデータでトレーニングされた最先端の監督モデルのパフォーマンスにアプローチし、前処理中の言語入力の価値の証拠を提供します。Abstract
Awak dhéwé éntuk de-Leksical segmentation, akeh languangkap basa luwih akeh basa gambar nggawe layar. Teknik-teknik awak dhéwé iso nggawe barang kelas rambarang kapan kelas nang ngerggo cah-cah pisan seneng pisan neng pisan Genjer Jejaring Awak dhéwé éntuk duruha macem, kita nguasai perusahaan pating-pating sing wis nguasai nggawe barang nggawe gerakan kuwi tindakan-kebutuhan model sing nguasai perusahaan karo hal-karang dino sing luwih dumateng, winih dhéwé nggawe barang langgambar uwong.Abstract
ჩვენ ვიყენებთ დელექსიკალური სექმენტიკაცია, ლენგურისტიკურად მოტივირებული ალტენტიფიკაცია, რომელიც მხოლოდ მინიმალური ენის სპექტიფიკალური შეგეძლება. ჩვენი ტექნექცია შესაძლებელია დახურებული კლასის აფიქსის პატარა გრამიმა, რომელიც შეიძლება დაწერა რამდენიმე საათში. გრამმატიკა, რომელსაც ყველა ფორმაში ატვირთებული სიტყვების ფორმების ანალიზაციები იქნება, რომელიც განსხვავებულია, რომელიც ყველა ფორმების ინფორმაციის ფუნქციების განსა გრამმარის გაფართვა ორტოგრაფიკური, მოპო-სინტაქტიური ან ლექსიკური განცემების გაფართვა უფრო მარტივია, რომელიც იდეალური პასუხი გამოსახულებლად კორპორას ძალიან, ეთალექტიკური-კონს ორი განსაზღვრებით, ჩვენ მუშაობით გავაკეთებთ კონსპექტიური არ განსაზღვრებული ბაზეზეზეზეზი და გავაკეთებთ მოდელების მუშაობას, რომლებიც უფრო დიდ მონაცემების შესაბამისი მონაცემების გამოყენებაAbstract
Біз де-лексикалық сегментацияны, лингвистикалық түрде жақсы немесе басқа әдістерінің альтернативті қолдануға мүмкіндік бередік, тек төменгі тілдерді келтіру керек. Біздің техникамыз бірнеше сағат бойынша жазылатын жабылған класс аффикстерінің кішкентай грамматикасын құру үшін болады. Грамматика сөздер пішімдерінің анализацияларын құрады. Бұл әрбір пішімде лингвистикалық негізінің мүмкіндіктеріне негізделген мәтіндік корпуста қолданылады. Грамматиканы ортографикалық, морфосинтактикалық не лексикалық айнымалылығын қарапайым түсіру үшін көңіл, корпораны дыбыс, диалект- констансты немесе басқа стандартты мазмұнымен айналысу үшін идеалдық шешім болады. Екі оқиғанда, біз тәжірибелі бағытталмаған негізгі сызықтарды және өзгерту үшін көптеген мәліметтердің үлкен мәліметтерінің қасиеттеріне көмектесіп, лингвистикалық енгізуінің мәнін көрсетеді.Abstract
우리는 어휘를 분리하는 방법을 제시했는데 이것은 언어학 동기를 바탕으로 탐욕이나 다른 감독 방법이 없는 것을 대체하는 방법으로 최소한의 특정 언어 입력만 필요로 한다.우리의 기술은 몇 시간 안에 완성할 수 있는 폐쇄적인 접미사를 만드는 작은 문법을 포함한다.문법은 원시 어료 라이브러리에서 증명된 단어 형식에 대한 분석을 과도하게 생성했고 이런 분석은 각 형식의 언어 기초 특징을 바탕으로 오류를 없앴다.문법을 정자법, 형태문법, 어휘 변화를 포함하는 것으로 확장하는 것은 간단하다. 이는 시끄러움, 방언이 일치하지 않거나 다른 비표준적인 내용을 가진 어료 라이브러리에 도전하는 이상적인 해결 방안이 된다.두 차례의 평가에서 우리의 표현은 경쟁적인 무감독 기선보다 우수하고 대량의 데이터에서 훈련된 가장 선진적인 감독 모델의 성능에 가깝기 때문에 예처리 기간에 언어 입력의 가치에 증거를 제공했다.Abstract
We present de-lexical segmentation, a linguistically motivated alternative to greedy or other unsupervised methods, requiring only minimal language specific input. Mūsų metodas – sukurti mažą gramatiką uždarytų klasių užrašų, kurie gali būti parašyti per kelias valandas. Per gramatiką atliekamos žodžių form ų, patvirtintų žaliaviniame korpuse, analizės, kurios yra nedviprasmiškos remiantis kiekvienai formai siūlomos kalbos bazės savybėmis. Extending the grammar to cover orthographic, morpho-syntactic or lexical variation is simple, making it an ideal solution for challenging corpora with noisy, dialect-inconsistent, or otherwise non-standard content. In two evaluations, we consistently outperform competitive unsupervised baselines and approach the performance of state-of-the-art supervised models trained on large amounts of data, providing evidence for the value of linguistic input during preprocessing.Abstract
Презентираме делексикална сегментација, јазички мотивирана алтернатива на алчни или други ненадгледувани методи, кои бараат само минимални информации специфични на јазикот. Our technique involves creating a small grammar of closed-class affixes which can be written in a few hours. Граматиката над генерира анализи за форми на зборови потврдени во суров корпус кои се дејамбигувани врз основа на карактеристиките на јазичната база предложена за секој формул. Проширувањето на граматиката за да покрие ортографска, морфосинтактичка или лексикална варијација е едноставно, што го прави идеално решение за предизвикување на корпората со шумна, дијалектна или инаку нестандардна содржина. Во две проценки, постојано ги надминуваме конкурентните ненадгледувани бази линии и се приближуваме до резултатите на најсовремените надгледувани модели обучени со големи количини податоци, обезбедувајќи докази за вредноста на јазичкиот влог за време на препроцесот.Abstract
ലെക്സിക്കല് സെഗ്മെന്റ്മെന്റിനെ ഞങ്ങള് കാണിക്കുന്നു. ലാഗ്രഹത്തില് നിന്നും പ്രേരിപ്പിക്കപ്പെടാത്ത മാര്ഗങ്ങള്ക്കോ വേറെ നമ്മുടെ സാങ്കേതികവിദ്യയില് ഒരു ചെറിയ ഗ്രാമാര് ഉണ്ടാക്കാന് പറ്റുന്നു. കുറച്ച് മണിക്കൂറിനുള്ളില് The grammar over generates analyses for word forms attested in a raw corpus which are disambiguated based on features of the linguistic base proposed for each form. ഓര്ടോഗ്രാഫിക്, മോര്ഫോ- സിനിട്ടാക്കിക്കോ ലെക്സിക്കല് വേരിഷനോ മൂടുവാന് ഗ്രാമാര് കൂടുതല് എളുപ്പമാണ്, ശബ്ദമുള്ള കോര്പ്പോര്ക്ക് വിലാസപ്പെ രണ്ടു വിലാസങ്ങളില്, നമ്മള് പൂര്ണ്ണമായും മത്സരത്തില് സംരക്ഷിക്കാത്ത അടിസ്ഥാനങ്ങള് പ്രവര്ത്തിപ്പിക്കുകയും, മുന്നോട്ട് പ്രവര്ത്തിക്കുമ്പോള് രാജ്യത്തിലെ സൂക്Abstract
Бид дилексикийн хэлбэрийн загвар, хэл хэлний хувьд зөвхөн бага хэлний тодорхойлолт хэрэгтэй загвар өгдөг. Бидний техник хэдэн цагт бичиж болно. Грамматик нь хэлний суурь нь хэлбэрээр санал болгон хэлбэрээр дүгнэгдсэн үг хэлбэрүүдийн талаар шинжилгээ үүсгэдэг. Грамматыг ортографик, морфо-синтактик эсвэл лексикийн өөрчлөлтийг нэмэгдүүлэх нь энгийн, үүнийг чимээгүй, диалектик эсвэл стандарт биш бүтээгдэхүүнтэй корпораны шаардлагатай шийдэл болгож байна. Хоёр дүгнэлт дээр бид өрсөлдөөнийг батлаагүй суурь шугам дээр үргэлжилж, урлагийн дамжуулагдсан загварын үйл ажиллагаанд маш их хэмжээний өгөгдлийн талаар сургалтын ажиллагааг хандуулж, хэлний орлогын үнэ цэнэтэй баталгаа өгдөг.Abstract
Kami mempersembahkan segmen de-leksikal, alternatif bermotif bahasa untuk kaedah serakah atau kaedah lain yang tidak diawasi, yang memerlukan input khusus bahasa minimal. Teknik kita melibatkan mencipta gramatik kecil dari lampiran kelas tertutup yang boleh ditulis dalam beberapa jam. Grammar lebih menghasilkan analisis bagi bentuk perkataan yang disahkan dalam korpus mentah yang tidak disambiguasi berdasarkan ciri-ciri asas bahasa yang diusulkan untuk setiap bentuk. Meluaskan grammar untuk menutupi variasi ortografik, morpho-syntactic atau leksikal adalah mudah, menjadikannya penyelesaian ideal untuk menantang korpra dengan kandungan bunyi, dialekt-tidak konsisten, atau sebaliknya tidak piawai. Dalam dua penilaian, kami secara konsisten melampaui garis dasar tidak diawasi kompetitif dan mendekati prestasi model yang diawasi state-of-the-art dilatih pada jumlah besar data, menyediakan bukti untuk nilai input bahasa semasa memproses.Abstract
Aħna nippreżentaw segmentazzjoni de-lexical, alternattiva motivata lingwistikament għal metodi greedy jew metodi oħra mhux sorveljati, li teħtieġ biss input minimu speċifiku għall-lingwa. It-teknika tagħna tinvolvi l-ħolqien ta’ gramma żgħira ta’ twaħħil ta’ klassi magħluqa li tista’ tinkiteb fi ftit sigħat. Il-grammatika fuq tiġġenera analiżi għal forom ta’ kliem attestati f’korpus mhux ipproċessat li huma diżambigwati abbażi ta’ karatteristiċi tal-bażi lingwistika proposta għal kull form a. L-estensjoni tal-grammatika biex tkopri varjazzjoni ortografika, morfo-sintetika jew leksika hija sempliċi, u tagħmilha soluzzjoni ideali għall-isfida ta’ korpra b’kontenut storbjuż, inkonsistenti mad-dijalekt, jew inkella mhux standard. F’żewġ evalwazzjonijiet, nagħmlu konsistentement aktar minn linji bażi kompetittivi mhux sorveljati u nagħmlu approċċ għall-prestazzjoni ta’ mudelli sorveljati l-aktar avvanzati mħarrġa fuq ammonti kbar ta’ dejta, u nagħtu evidenza għall-valur tal-input lingwistiku matul il-preproċessar.Abstract
We presenteren de-lexicale segmentatie, een taalkundig gemotiveerd alternatief voor hebzuchtige of andere onbeheerde methoden, waarvoor slechts minimale taalspecifieke input vereist is. Onze techniek omvat het creëren van een kleine grammatica van gesloten-class affixen die in een paar uur geschreven kunnen worden. De grammatica over genereert analyses voor woordvormen die zijn getuigd in een ruw corpus die worden verduidelijkt op kenmerken van de taalbasis die voor elke vorm wordt voorgesteld. Het uitbreiden van de grammatica tot orthografische, morfosyntactische of lexicale variatie is eenvoudig, waardoor het een ideale oplossing is voor het uitdagen van corpora's met luidruchtige, dialectinconsistente of anderszins niet-standaard inhoud. In twee evaluaties presteren we consequent beter dan concurrerende baselines zonder toezicht en benaderen we de prestaties van state-of-the-art supervised modellen die zijn getraind op grote hoeveelheden data, wat bewijsmateriaal levert voor de waarde van taalkundige input tijdens de preprocessing.Abstract
Vi presenterer de-leksisk segmentasjon, ein språk motivert alternativ for grød eller andre ikkje-oppretta metoder, som krev berre minste språk-spesifikke inndata. Teknikken vårt involverer å laga ein liten grammar av lukka klasseaffiksar som kan skrivast i noen timar. Grammaren over lager analyser for ord-formar som er atteste i eit råkorpus som er osmbiguert basert på funksjonar på den lingviske basen som er foreslått for kvar form. Dette er enkelt å utvida grammatikken for å dekka ortografisk, morpho-syntaktisk eller leksisk variasjonar, og gjer det ein ideell løysing for å utfordre korpora med støy, dialekt-inkonsistent eller anna ikkje-standard innhald. I to evalueringar utfører vi konsekvent konkurentære usikkerte baselinjer og nærmer utføringen av modeller som er overvåkinga av kunsten, trengte på stor mange data, og tilbyr beviser på verdien av lingvisk inndata under førehandsaming.Abstract
Przedstawiamy segmentację deleksykalną, zmotywowaną językowo alternatywę dla chciwych lub innych metod bez nadzoru, wymagającą jedynie minimalnego wkładu specyficznego języka. Nasza technika polega na tworzeniu małej gramatyki afiksów klasy zamkniętej, którą można napisać w ciągu kilku godzin. Grammatyka generuje analizy dla form słowowych zaświadczonych w surowym korpusie, które są rozproszone na podstawie cech podstawy językowej proponowanej dla każdej formy. Rozszerzenie gramatyki na warianty ortograficzne, morfoskładniowe lub leksykalne jest proste, co czyni ją idealnym rozwiązaniem dla wyzwań korpusów o hałaśliwych, niespójnych dialektach lub w inny sposób niestandardowych treściach. W dwóch ocenach konsekwentnie przewyższamy konkurencyjne linie bazowe bez nadzoru i podchodzimy do wydajności najnowocześniejszych modeli nadzorowanych przeszkolonych na dużych ilościach danych, dostarczając dowodów na wartość wejścia językowego podczas przetwarzania wstępnego.Abstract
Apresentamos a segmentação de-lexical, uma alternativa linguística motivada para métodos gananciosos ou outros métodos não supervisionados, exigindo apenas uma entrada específica de linguagem mínima. Nossa técnica envolve a criação de uma pequena gramática de afixos de classe fechada que pode ser escrita em poucas horas. A gramática over gera análises para formas de palavras atestadas em um corpus bruto que são desambiguadas a partir de características da base linguística proposta para cada forma. Estender a gramática para cobrir variações ortográficas, morfossintáticas ou lexicais é simples, tornando-a uma solução ideal para desafiar corpora com conteúdo ruidoso, inconsistente com dialetos ou fora do padrão. Em duas avaliações, superamos consistentemente as linhas de base não supervisionadas competitivas e abordamos o desempenho de modelos supervisionados de última geração treinados em grandes quantidades de dados, fornecendo evidências do valor da entrada linguística durante o pré-processamento.Abstract
Vă prezentăm segmentarea de-lexicală, o alternativă motivată lingvistic la metodele lacome sau nesupravegheate, care necesită doar o introducere minimă specifică limbajului. Tehnica noastră implică crearea unei mici gramatici de afixe de clasă închisă, care pot fi scrise în câteva ore. Gramatica generează analize pentru formele de cuvinte atestate într-un corpus brut care sunt dezambiguizate pe baza caracteristicilor bazei lingvistice propuse pentru fiecare formă. Extinderea gramaticii pentru a acoperi variațiile ortografice, morfo-sintactice sau lexicale este simplă, făcând-o o soluție ideală pentru provocarea corporelor cu conținut zgomotos, incongruent dialect sau altfel nestandard. În două evaluări, depășim în mod constant nivelurile de bază competitive nesupravegheate și abordăm performanța modelelor supravegheate de ultimă generație instruite pe cantități mari de date, oferind dovezi pentru valoarea introducerii lingvistice în timpul procesării prealabile.Abstract
Мы представляем де-лексическую сегментацию, лингвистически мотивированную альтернативу жадным или другим неконтролируемым методам, требующую только минимального специфического для языка ввода. Наша техника включает в себя создание небольшой грамматики аффиксов закрытого класса, которая может быть написана за несколько часов. Грамматика над генерирует анализы для форм слов, подтвержденных в необработанном корпусе, которые дезагрегируются на основе особенностей лингвистической базы, предложенной для каждой формы. Расширить грамматику, чтобы охватить орфографические, морфо-синтаксические или лексические вариации, просто, что делает ее идеальным решением для бросающих вызов тел с шумным, несовместимым с диалектом или иным нестандартным содержанием. В двух оценках мы последовательно превосходим конкурентоспособные неконтролируемые базовые линии и подходим к эффективности современных контролируемых моделей, обученных на больших объемах данных, предоставляя доказательства ценности лингвистического вклада во время предварительной обработки.Abstract
අපි ලෙක්සිකාලික විශේෂණයක්, භාෂාවික විශේෂයෙන් ප්රතික්රියාත්මක වෙන්න ප්රතික්රියාත්මක විදිහක් ප්රති අපේ තාක්ෂණය සම්බන්ධ වෙනවා පැය කිහිපයකින් ලියන්න පුළුවන් ප්රශ්නයක් නිර්මාණය කරන්න. විශ්ලේෂණය සඳහා විශ්ලේෂණයක් ලැබෙනවා වචන වර්ගයක් සඳහා ප්රතික්ෂිත වර්ගයක් තියෙනවා වර්ගයක් වලින් ප්රතික්ෂණය වාර්තමාර්ගය සඳහා වාර්තමාර්ගය, මොර්ෆෝග්රාෆික්-සංකේතික හෝ ලෙක්සික් වෙනස් සරලයි, ඒක සද්ධ විශ්වාසය සඳහා වාර්තමාර්ගය සඳහා අවශ්ය දෙකයි, අපි සාමාන්ය විශ්වාස කරන්න පුළුවන් නැති ප්රධානය නැති ප්රධාන ප්රධාන ප්රධාන ප්රධාන ප්රධාන ප්රධාන ප්රධාන ප්රධාන ප්Abstract
Predstavljamo dekseksično segmentacijo, jezikovno motivirano alternativo pohlepnim ali drugim neobzorovanim metodam, ki zahteva le minimalno jezikovno specifično vnos. Naša tehnika vključuje ustvarjanje majhne slovnice zaprtih razredov, ki jih je mogoče napisati v nekaj urah. Slovnica preko ustvari analize besednih oblik, potrjenih v surovem korpusu, ki so razjasnjene na podlagi značilnosti jezikovne osnove, predlagane za vsako obliko. Razširitev slovnice na ortografsko, morfo-sintaktično ali leksikalno variacijo je preprosta, zaradi česar je idealna rešitev za izzive korpusov s hrupno, narečno neskladno ali kako drugače nestandardno vsebino. V dveh ocenah dosledno presegamo konkurenčne izhodišče brez nadzora in pristopamo k uspešnosti najsodobnejših nadzorovanih modelov, usposobljenih na velikih količinah podatkov, kar dokazuje vrednost jezikovnega vnosa med predobdelavo.Abstract
Waxaynu soo bandhignaynaa qayb-lexic ah, taas oo afka lagu soo jeedo kala duwan oo ku saabsan damacsi ama habab kale oo aan la ilaalinayn, oo u baahan yahay mid ku qoran luuqad cayiman oo kaliya. Teknolojiyadayada waxaa ku saabsan abuurista tababar yar oo la xiriiray, taas oo lagu qori karo dhawr saacadood gudahood. Qoraalka ku qoran wuxuu sameeyaa baaritaanka ku saabsan foomka hadalka oo lagu sameeyo qof baas ah, kaas oo lagu sharrajiyey ku saleysan qaab kasta oo loo soo jeeday qoraalka luqada. Qoraammada ku daboolidda ortografiga, isbedelka morpho-syntactika ama leksikada waa fudud, wuxuuna ka dhigaa xal fikrada ah oo ku qasbaya shirkadda qaylada, isbedelka, ama waxyaabaha aan caadi ahayn. Laba qiimeyn ayaannu dhamaantood ka samaysannaa qoraal aan la ilaalin karin, waxaana u soo dhowaynaa sameynta sameynta qaababka dowladda-farshaxanta ah oo lagu baray macluumaadyo badan, waxaana siinaynaa caddeynta qiimaha injiilka marka hore lagu baaraandegayo.Abstract
Ne paraqesim segmentimin del-leksikal, një alternativë gjuhësore të motivuar ndaj lakmueshmërisë apo metodave të tjera jo të mbikqyrura, duke kërkuar vetëm input minimal specifik gjuhës. Teknika jonë përfshin krijimin e një gramatike të vogël të afiksioneve të klasës së mbyllur që mund të shkruhen për disa orë. Gramatika mbi gjeneron analiza për format e fjalëve të dëshmuara në një trup të papërpunuar që janë të çambiguara bazuar në karakteristikat e bazës gjuhësore të propozuara për çdo form ë. Përzgjerimi i gramatikës për të mbuluar variacionin ortografik, morfo-sintaktik apo lexik është i thjeshtë, duke e bërë atë një zgjidhje ideale për të sfiduar korprën me zhurmë, dialekt-jo konsistente, ose ndryshe përmbajtje jo-standarte. Në dy vlerësime, ne vazhdimisht tejkalojmë linjat bazë konkurruese të pazgjidhura dhe afrohemi paraqitjes së modeleve të mbikqyrur më të lartë të stërvitura me sasi të mëdha të dhënash, duke ofruar prova për vlerën e input gjuhësor gjatë përgatitjes.Abstract
Predstavljamo dezleksičku segmentaciju, lingvistički motivisanu alternativu pohlepnim ili drugim nepotrebnim metodama, zahtevajući samo minimalni specifični jezik. Naša tehnika uključuje stvaranje malih gramatike zatvorenih kompleksa koji se može napisati za nekoliko sati. gramatika iznad toga stvara analize za formulare reèi potvrđene u sirovom korpusu koji su disambiguovani na osnovu karakteristika jezičke baze koja je predložena za svaki oblik. Proširenje gramatike za pokrivanje ortografije, morfosintaktične ili leksičke varijacije je jednostavno, čineći to idealno rješenje za izazov korpore sa bukom, dijalektom-inkonsistentnim ili inače ne-standardnim sadržajem. U dve procjene, stalno smo nadmašili konkurentne nepotrebne osnovne linije i pristupili učinkovitosti modela nadgledanih država umjetnosti obučenih na velikoj količini podataka, pružajući dokaze za vrijednost jezičkog ulaza tokom preobrazovanja.Abstract
Vi presenterar de-lexikal segmentering, ett språkligt motiverat alternativ till giriga eller andra obevakade metoder, som endast kräver minimal språkspecifik inmatning. Vår teknik innebär att skapa en liten grammatik av slutna klassaffixer som kan skrivas på några timmar. Grammatiken över genererar analyser för ordformer som intygas i en rå korpus som är otvetydiga baserat på egenskaper i den språkliga bas som föreslås för varje form. Att utvidga grammatiken till att omfatta ortografisk, morfosyntaktisk eller lexikal variation är enkelt, vilket gör den till en idealisk lösning för att utmana corpora med bullriga, dialektinkonsekventa eller på annat sätt icke-standardinnehåll. I två utvärderingar överträffar vi konsekvent konkurrensutsatta och övervakade baslinjer och närmar oss prestandan av toppmoderna övervakade modeller utbildade på stora datamängder, vilket ger bevis för värdet av språklig input under förbehandling.Abstract
Tunawasilisha mchanganyiko wa kisiasa, utaratibu wa lugha uliochochezwa mbadala kwa uchumi au njia nyingine zisizo na uhakika, unahitaji tu input maalumu wa lugha ndogo tu. Teknolojia yetu inahusisha kutengeneza vifaa kidogo vya viungo vilivyofungwa vizuri ambavyo vinaweza kuandikwa ndani ya masaa machache. Uchambuzi huo unaotengeneza uchambuzi wa a in a ya maneno yaliyoendeshwa katika viungo vibaya ambavyo vinavyotengwa kwa kutumia sifa za msingi wa lugha inayopendekezwa kwa kila aina. Kuongeza gramma ya kupambana na upigaji picha za kiorthographic, usambazaji wa simu za mkononi au tofauti za lexico ni rahisi, na kufanya hivyo kuwa suluhisho la kiitikadi kwa changamoto za makampuni kwa kelele, usio na maana, au vinginevyo havina maudhui yasiyo ya kawaida. Katika tafiti mbili, tunaendelea kufanya misingi ya ushindani usio na uhakika na kuingilia utendaji wa mifano inayotawaliwa na serikali ya sanaa zilizofundishwa kwa kiasi kikubwa cha data, na kutoa ushahidi wa thamani ya input wa lugha wakati wa upasuaji wa kipindi hicho.Abstract
நாம் சிறிய மொழி குறிப்பிட்ட உள்ளீடு மட்டுமே தேவைப்படுகிறோம். நம்முடைய தொழில்நுட்பம் ஒரு சிறிய கிராமார் உருவாக்கியது சில மணி நேரங்களில் எழுதப்பட முடியும். மேலுள்ள வரைப்படம் ஒவ்வொரு வடிவத்திற்கும் பரிந்துரைக்கப்பட்ட மொழி வடிவங்களில் செயல்படுத்தப்பட்ட வார்த்தை வடிவமைப்பிற்கு ஆராய்ச் முன்னிருப்பு, மோர்போ- ஒத்திசைவு அல்லது லெக்சிக்சியல் மாறுபாடு சுலபமாக இருக்கும் வரைப்படம் சேர்க்கப்படும் அல்லது நிலையான உள்ளடக்கங்களை சவாலிக்கும் இரண்டு பரிசோதனைகளில், நாம் முன்செயல்பாட்டில் பெரிய தரவுகளில் பயிற்சிக்கப்பட்ட மாதிரிகளின் செயல்பாட்டிற்கு முன்செயல்படும் போது மொத்த மொழிக்கோட்டின் மதிபAbstract
Biz läsiýetleri ýok edip görkezilýän, dilleriň ýok taýýarlanmaýan ýada başga nusgalary üçin tertibleýäris. Diňe az dilleriň girişi gerekli. Biziň teknikimiz birnäçe sagatda ýazylýan ýapylan klas affiksynyň kiçi bir gramatika bejermek üçin mejbur edýär. Bu gramatika her şekilde bilim tabasynyň özelliklerine daşary edilen çyz korpusda tassyklanan sözler üçin analyzlary bar. Grammatikany ortografiýa, morpho-sintaktik ýa-da leksik üýtgeşmelerini örtmek üçin düzgün bir çözüm edip, gürrüňli, dialekte-inkonsistent ýada başga görnüş maksada döretmek üçin ideal çözüm etmek üçin. Iki çözümlerde, biz diňeje döwletleşmegen suçsuz tabanlyklaryň üstüne ýöredip, ön-işleýän wagtlar lingwistiki girişiniň deňini tassyklap edýäris.Abstract
ہم لکھنے والی سیگنٹ، زبان کے ذریعے سیگنٹ کی پیدائش کریں گے، ایک زبان کی پیدائش کی پیدائش اور دوسرے غیرقابل طریقے کی پیدائش کریں گے، صرف کم زبان کی پیدائش کی ضرورت کریں گے۔ ہماری تکنیک میں ایک چھوٹی گراماری بنائی جاتی ہے جو چند گھنٹوں میں لکھی جاتی ہے۔ اس پر گراماری کلمات کے فرموں کے لئے تحقیق پیدا کرتی ہے جو ہر فرم کے لئے پیشنهاد کی زبان کی بنیاد کے فرموں پر نازل کئے جاتے ہیں. گرامارت کی پھیلانے کے لئے آروٹوگرافیک، مورفو-سینٹکتیک یا لکسیکل تغییرات کے لئے آسان ہے، اسے آواز، ڈیلکسٹ-ناکنسٹ، یا غیر استاندارڈ منصوبات کے ساتھ کورپورا کو اچھا حل بنانے کے لئے اچھا حل بنا رہا ہے. دو ارزیابی میں، ہم ہمیشہ مسابقات سے مسابقات سے زیادہ غیر قابل تحقیق کی بنسٹ لینوں سے کامل کرتے ہیں اور آهنت کی تحقیق کی مدلکوں کی عملکرد کے قریب ہوتے ہیں جو بہت سی ڈیٹوں پر آموزش کی جاتی ہیں، اور پہلے پرپرپرسس کے موقع زبان شناسی اینٹ کے ارزAbstract
Biz o'zgarishni o'zgartirib turganmiz, tillarda qiziqarish yoki boshqa qo'llanmagan usullarning o'zgarishni hozir qilamiz. Biz faqat minimal tilning foydalanishi kerak. Bizning texnologimiz bir necha soatda yopilgan bir kichkina grammatikni yaratish mumkin. Name ortografik, morpho-syntactik yoki leksikal variantni qo'yish oddiy, bu kompaniya bilan qiziqarishni o'zgartirish uchun fikr yo'l yo'l qilishi mumkin, balki andoza tarkibi emas. Ikkita qiymatda, biz davom etilmaydigan kompaniyalar asboblarni bajaramiz va birinchi vazifa vazifa davomida taʼminlov qilingan holatni boshqaruvchi modellarni bajarishga qarasamiz va birinchi darajada ko'proq maʼlumotga o'rganish modellarni bajaramiz, va birinchi vazifa vazifa davomida tillarda kiritish qiAbstract
Chúng tôi giới thiệu phân chia ngôn ngữ học, cách khác biệt ngôn ngữ với phương pháp tham lam hoặc không giám sát khác, chỉ yêu cầu nhập chỉ nhỏ nhất ngôn ngữ. Kỹ thuật của chúng tôi là tạo ra một bản chỉnh sửa nhỏ được viết trong vài giờ. Câu ngữ pháp này tạo ra các phân tích ngôn ngữ được xác nhận trong một cơ thể thô được biến dạng dựa trên các chi tiết của căn cứ ngôn ngữ được đề xuất cho mỗi hình dạng. Việc mở rộng ngữ pháp để bao gồm các biến dạng cấu hình cấu trúc, morpho-synatic hay ngôn ngữ học rất đơn giản, biến nó thành giải pháp lý lý tưởng cho sự thách đấu của tập thể với các nội dung ồn ào, mâu thuẫn ngôn ngữ, hoặc không-tiêu chuẩn. Trong hai đánh giá, chúng tôi hoàn toàn vượt trội các nền tảng không giám sát cạnh tranh và tiếp cận các mô hình được giám sát hiện đại được huấn luyện trên một lượng lớn dữ liệu, cung cấp bằng chứng về giá trị ngôn ngữ học trong quá trình xử lý trước.Abstract
臣等发词汇分割,此贪无监督之语动机代方案,惟须最少者特定输。 吾术涉一闭类词缀小语法,可于数时之内写出。 语法 over 生对原始语料库之单词,以言语为本,以消歧义。 广语法以涵盖正字法,形句法词汇变体简,使挑战有嘈杂,方言不一,他非标准语料库之理解决方案。 二者评估,始终优于竞争性无监基线,并近于大练之最先进者,为预处理言输之价以资证据。- Anthology ID:
- W19-4214
- Volume:
- Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology
- Month:
- August
- Year:
- 2019
- Address:
- Florence, Italy
- Venues:
- ACL | WS
- SIG:
- SIGMORPHON
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 113–124
- Language:
- URL:
- https://aclanthology.org/W19-4214
- DOI:
- 10.18653/v1/W19-4214
- Bibkey:
- Cite (ACL):
- Alexander Erdmann, Salam Khalifa, Mai Oudah, Nizar Habash, and Houda Bouamor. 2019. A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance. In Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology, pages 113–124, Florence, Italy. Association for Computational Linguistics.
- Cite (Informal):
- A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance (Erdmann et al., 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/W19-4214.pdf
- Terminologies:
Export citation
@inproceedings{erdmann-etal-2019-little, title = "A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance", author = "Erdmann, Alexander and Khalifa, Salam and Oudah, Mai and Habash, Nizar and Bouamor, Houda", booktitle = "Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology", month = aug, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W19-4214", doi = "10.18653/v1/W19-4214", pages = "113--124", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="erdmann-etal-2019-little"> <titleInfo> <title>A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance</title> </titleInfo> <name type="personal"> <namePart type="given">Alexander</namePart> <namePart type="family">Erdmann</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Salam</namePart> <namePart type="family">Khalifa</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Mai</namePart> <namePart type="family">Oudah</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Nizar</namePart> <namePart type="family">Habash</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Houda</namePart> <namePart type="family">Bouamor</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-08</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Florence, Italy</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">erdmann-etal-2019-little</identifier> <identifier type="doi">10.18653/v1/W19-4214</identifier> <location> <url>https://aclanthology.org/W19-4214</url> </location> <part> <date>2019-08</date> <extent unit="page"> <start>113</start> <end>124</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance %A Erdmann, Alexander %A Khalifa, Salam %A Oudah, Mai %A Habash, Nizar %A Bouamor, Houda %S Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology %D 2019 %8 August %I Association for Computational Linguistics %C Florence, Italy %F erdmann-etal-2019-little %R 10.18653/v1/W19-4214 %U https://aclanthology.org/W19-4214 %U https://doi.org/10.18653/v1/W19-4214 %P 113-124
Markdown (Informal)
[A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance](https://aclanthology.org/W19-4214) (Erdmann et al., 2019)
- A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance (Erdmann et al., 2019)
ACL
- Alexander Erdmann, Salam Khalifa, Mai Oudah, Nizar Habash, and Houda Bouamor. 2019. A Little Linguistics Goes a Long Way : Unsupervised Segmentation with Limited Language Specific Guidance. In Proceedings of the 16th Workshop on Computational Research in Phonetics, Phonology, and Morphology, pages 113–124, Florence, Italy. Association for Computational Linguistics.