Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models Gebruik Karakter en Woord Inbetering vir Teks Normaliseering met Sequence- to- Sequence Models undo-type استخدام تضمين الأحرف والكلمات لمطابقة النص مع نماذج التسلسل إلى التسلسل Metin Normalizat캼 칲칞칲n Karakter v톛 Kelimi 캻fad톛l톛ri Sequence-to-Sequence Modell톛ri il톛 istifad톛 edilir Използване на вграждания на знаци и думи за нормализиране на текста с модели последователност към последователност সেকেন্স- থেকে সেকেন্সের মোডেল দিয়ে লেখা স্বাভাবিকভাবে অক্ষর এবং শব্দ বার্তা ব্যবহার করা হচ্ছে ཡི་གེའི་སྔོན་ལྟའི་དབྱིབས་རྟགས་ལ་སྤྱོད་པའི་ཡིག་འབྲུ་དང་ཐིག་ཁ་སྣོན་ནང་དུ་སྤྱོད་པ Koristenje znakova i integracija riječi za normalizaciju teksta sa modelima sekvence do sekvence Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models Využití vložení znaků a slov pro normalizaci textu s modely sekvence na sekvenci Brug af tegn- og ordindlejringer til tekstnormalisering med sekvens-til-sekvensmodeller Verwendung von Zeichen- und Worteinbettungen für die Textnormalisierung mit Sequenz-zu-Sequenz-Modellen Χρήση ενσωμάτωσης χαρακτήρων και λέξεων για κανονικοποίηση κειμένου με μοντέλα ακολουθίας σε ακολουθία Uso de incrustaciones de caracteres y palabras para la normalización del texto con modelos de secuencia a secuencia Märkide ja sõnade manustamine teksti normaliseerimiseks järjestusest järjestusesse mudelitega استفاده از پیوندهای شخصیت و کلمهها برای نورملازی متن با مدلهای بعدی و بعدی Merkki- ja sanaupotusten käyttäminen tekstin normalisointiin sekvenssimallien avulla Utilisation de l'intégration de caractères et de mots pour la normalisation de texte avec des modèles séquence à séquence Úsáid a bhaint as Carachtair agus Leabaithe Focal le haghaidh Normalú Téacs le Múnlaí Seicheamh-go-Seicheamh @ action השימוש באמצעות סמלים ומילים לנורמליזציה טקסטית עם מודלים רצף-לרצף अनुक्रम-से-अनुक्रम मॉडल के साथ पाठ सामान्यीकरण के लिए वर्ण और वर्ड एम्बेडिंग का उपयोग करना Koristiti uloge znakova i riječi za normalizaciju teksta s modelima sekvence do sekvence Karakter- és szövegbeágyazások használata szövegnormalizáláshoz szekvencia-szekvencia modellekkel Օգտագործել տեքստի նորմալիզացիայի համար տեքստի նշաններ և բառեր հաջորդականության մոդելներով Menggunakan Karakter dan Pencampuran Kata untuk Normalisasi Teks dengan Model Sequensi-ke-Sequensi Utilizzo di incorporazioni di caratteri e parole per la normalizzazione del testo con modelli sequenziali シーケンスツーシーケンスモデルを使用したテキストの正規化のための文字と単語の埋め込みの利用 Ngawe Perintah Karakter lan Gambar Kemerdekaan kanggo Kemerdekaan Normal Ngawe ტექსტის ნორმალიზაციისთვის სიმბოლოები და სიტყვების შემდეგ გამოყენება Мәтін реттегі үлгілерді нормализациялау үшін таңбалар мен сөздерді ендіру 문자와 단어의 삽입을 이용하여 서열에서 서열 모델로의 텍스트 규범화를 실현하다 Naudoti ženklų ir žodžių įterpimus teksto normalizavimui su sekos modeliais Користење на вградувања на знаци и зборови за нормализација на текст со модели од секвенција до секвенција അക്ഷരസഞ്ചയത്തില് നിന്നും സെക്കന്സ് മോഡലുകള് ഉപയോഗിക്കുന്ന വാക്കുകളുടെ എംബെഡിങുകള് Мэдээлэл-ээс дараах загваруудыг нормализах үед хүн болон үгийг нэмж хэрэглэх Mengguna Penjelmaan Aksara dan Kata untuk Normalisasi Teks dengan Model Sejukan-ke-Sejukan L-użu tal-Karatters u l-Inkorporazzjonijiet tal-kliem għan-Normalizzazzjoni tat-Test b’Mudelli Sekwenza-Sekwenza Teken- en woordinsluitingen gebruiken voor tekstnormalisatie met sequentiemodellen Brukar teikn og tekstinnbygging for tekstnormalisering med sekvens- til- sekvensmodeller Wykorzystanie osadzeń znaków i słów do normalizacji tekstu z modelami sekwencji do sekwencji Utilizando incorporações de caracteres e palavras para normalização de texto com modelos de sequência a sequência Utilizarea încorporărilor de caractere și cuvinte pentru normalizarea textului cu modele secvență-la-secvență Использование вложений символов и слов для нормализации текста с помощью моделей последовательности в последовательности පරීක්ෂණ- වෙනුවෙන් පරීක්ෂණය සඳහා පරික්ෂණ සාමාන්යය සඳහා අක්ෂර සහ වචන සම්බන්ධයක් භාවිත කරන්න Uporaba vdelav znakov in besedil za normalizacijo besedila z modeli zaporedja v zaporedje Isku isticmaalaya xaraf iyo word Embeddings for Text Normalization with Sequence-to-Sequence Models Përdorimi i karaktereve dhe përfshirjeve të fjalëve për normalizimin e tekstit me modele nga sekuenca në sekuencë Koristenje karaktera i integracije reèi za normalizaciju teksta sa modelima sekvence do sekvence Använda tecken- och ordinbäddningar för textnormalisering med sekvensmodeller Kwa kutumia Mradi wa Kiarabu na Neno வரிசையில் இருந்து வரிசை மாதிரிகளுடன் உரை இயல்பாக்குதலுக்கான எழுத்து மற்றும் வார்த்தை உள்ளிடுதலை பயன்படுத்து Metin Däplikeýşendirmek üçin Karakter we Sözler Ködlemeleri ullan سئکوئنس-تا-سئکوئنس موڈل کے ذریعے متن نورملیزی کے لئے علائر اور کلمات انڈینگ استعمال کیا جاتا ہے Comment Sử dụng Nhúng ký tự và Từ cho hoá văn bản với chế độ lặp tự động 因字符及词嵌序至序规范化
Abstract
Text normalization is an important enabling technology for several NLP tasks. Recently, neural-network-based approaches have outperformed well-established models in this task. However, in languages other than English, there has been little exploration in this direction. Both the scarcity of annotated data and the complexity of the language increase the difficulty of the problem. To address these challenges, we use a sequence-to-sequence model with character-based attention, which in addition to its self-learned character embeddings, uses word embeddings pre-trained with an approach that also models subword information. This provides the neural model with access to more linguistic information especially suitable for text normalization, without large parallel corpora. We show that providing the model with word-level features bridges the gap for the neural network approach to achieve a state-of-the-art F1 score on a standard Arabic language correction shared task dataset.Abstract
Teks normalisering is 'n belangrik om teknologie te aktiveer vir verskeie NLP taak. Onlangs het neural-netwerk-gebaseerde toegang uitgevoerde goed-gebaseerde modele in hierdie taak. Maar in tale anders as Engels is daar 'n bietjie uitsoek in hierdie rigting. Beide die skande van aangetelde data en die kompleksiteit van die taal verhoog die moeilikheid van die probleem. Om hierdie uitdagings te adres, gebruik ons 'n volgorde-na-volgorde model met karakter-gebaseerde aandag, wat byvoeg by sy selfgeleerde karakter inbêdings gebruik word inbêdings voorafgeleerde met 'n toegang wat ook subwoord inligting model. Hierdie verskaf die neurale model met toegang tot meer lingwisiese inligting, veral geskikte vir teks normalisering, sonder groot parallele korpora. Ons wys dat die model verskaf met woord-vlak funksies gebruik die gap vir die neurale netwerk toegang om 'n staat-van-die-kuns F1 punt te bereik op 'n standaard Arabiese taal korreksie gedeelde taak-datastel.Abstract
የጽሑፍ ማቀናቀል በብዙ NLP ስራቶች የቴክኖክሎጂ ማግኘት ያስችላል፡፡ በአሁኑ ጊዜ የናውሬው መረብ የተደረገውን የሥርዓት ግንኙነቶች በዚህ ስራ ውስጥ የተመሠረቱትን ሞዴላዎችን አሻርተዋል፡፡ ነገር ግን እንግሊዝኛ በተለይ ቋንቋዎች፣ በዚህ መንገድ ጥቂት ምርመራ አልደረሰም፡፡ የቋንቋው ውስጥነት የችግር ዳታ እና የችግሩን ጭንቀት ያበዛል፡፡ እነዚህን ጥያቄዎች ለመቀበል፣ በሥርዓት ላይ በተመሳሳይ የፊደል ጥያቄ እናስቀምጣለን፡፡ ይህ የናውራዊ ሞዴል ብዙ ቋንቋዊ መረጃዎችን ለመግኘት በተለየ ለጽሑፍ ማቀናቀል በተለየ ትልቅ ተግባር ሳይኖር የቋንቋ መረጃ ማግኘት የሚያደርግ ነው፡፡ በቃላት-ደረጃዎች የቃላት-ደረጃ ፍትወቶችን እናሳያቸዋለን፤ የናውራዊ መረብ ሥርዓት-የ-አርስቲ-የፊል-አርእስት ሁኔታ እንዲደርስ የአረብኛ ቋንቋ ማስታወቂያውን በተለየ የስራ ዳታተር ማቀናጃ ማግኘት የሚደረገውን ክፍተት እናሳየዋለን።Abstract
يعد تطبيع النص تقنية تمكين مهمة للعديد من مهام البرمجة اللغوية العصبية. في الآونة الأخيرة ، تفوقت الأساليب القائمة على الشبكة العصبية على النماذج الراسخة في هذه المهمة. ومع ذلك ، في لغات أخرى غير الإنجليزية ، كان هناك القليل من الاستكشاف في هذا الاتجاه. كل من ندرة البيانات المشروحة وتعقيد اللغة يزيدان من صعوبة المشكلة. لمواجهة هذه التحديات ، نستخدم نموذج التسلسل إلى التسلسل مع الاهتمام القائم على الشخصية ، والذي يستخدم بالإضافة إلى عمليات دمج الشخصيات المكتسبة ذاتيًا حفلات الزفاف التي تم تدريبها مسبقًا مع نهج يقوم أيضًا بنمذجة معلومات الكلمات الفرعية. يوفر هذا للنموذج العصبي إمكانية الوصول إلى المزيد من المعلومات اللغوية المناسبة بشكل خاص لتطبيع النص ، بدون مجموعة كبيرة موازية. نظهر أن تزويد النموذج بميزات على مستوى الكلمات يسد الفجوة في نهج الشبكة العصبية لتحقيق درجة F1 على مجموعة بيانات مهمة مشتركة لتصحيح اللغة العربية القياسية.Abstract
Metin normalizasyonu bir neçə NLP işlərinin teknolojisini fəallaşdırmaq üçün mövcuddur. Son zamanlarda, nöral ağ tərəfindən tərəfindən tərəfindən uyğun modellər bu işdə daha yaxşı qurulmuşdur. Ancaq İngilizdən başqa dillərdə bu tərəfdə az keşif var idi. Həmçinin məlumatların və dillərin qarışıqlığı problemlərin çətinliklərini artırar. Bu çətinliklərdən çəkinmək üçün, karakter-tabanlı ünvanı ilə sequence-to-sequence modelini istifadə edirik. Bu, özünün öyrənmiş karakter in şallarını artırmaq üçün, əvvəlcə təhsil edilmiş sözlər inşallarını da özünün süb sözlər məlumatlarını model edir. Bu, böyük paralel korpora olmadan, mətn normalizasyonuna uyğun olaraq, dil məlumatlarına çox istifadə edəcək nöral modeli təklif edir. Biz modeli söz seviyyəsi ilə təmin edirik ki, nöral şəbəkə tərəfindən f1 nöqtəsini standart ərəb dilini düzəltmək üçün paylaşır.Abstract
Нормализирането на текста е важна активираща технология за няколко задачи. Напоследък, базирани на невронни мрежи подходи надминават добре установените модели в тази задача. Въпреки това, на езици, различни от английски, има малко проучване в тази посока. Както недостигът на анотирани данни, така и сложността на езика увеличават трудността на проблема. За да се справим с тези предизвикателства, използваме модел последователност към последователност с внимание, базирано на символи, който освен самонаученото си вграждане на символи, използва вграждания на думи предварително обучени с подход, който също моделира информация за поддуми. Това осигурява на невронния модел достъп до по-лингвистична информация, особено подходяща за нормализиране на текста, без големи паралелни корпуси. Показваме, че предоставянето на модела с функции на ниво дума запълва празнината за подхода на невронната мрежа, за да се постигне най-модерен резултат на стандартна група данни за корекция на арабски език, споделени задачи.Abstract
বেশ কয়েকটি এনএলপি কাজের জন্য টেক্সট স্বাভাবিকভাবে প্রযুক্তি ব্যবহার করা একটি গুরুত্ব। সম্প্রতি নিউরেল-নেটওয়ার্ক ভিত্তিক পদ্ধতি এই কাজে ভালো স্থাপন করা মডেল করেছে। তবে ইংরেজি ছাড়া অন্য ভাষায় এই দিকে খুব কম তদন্ত করা হয়েছে। বিরক্তিকর তথ্য এবং ভাষার জটিলতা উভয় সমস্যার কঠিন বৃদ্ধি করে। To address these challenges, we use a sequence-to-sequence model with character-based attention, which in addition to its self-learned character embeddings, uses word embeddings pre-trained with an approach that also models subword information. এটি বিশেষ করে টেক্সট স্বাভাবিক সংক্রান্ত তথ্য প্রবেশের জন্য নিউরেল মডেল প্রদান করে, বিশেষ করে বিশেষ করে বিশেষ করে প্য আমরা দেখাচ্ছি যে শব্দ-স্তরের বৈশিষ্ট্য দিয়ে মডেল প্রদান করা হচ্ছে নিউরেল নেটওয়ার্কের প্রযুক্তির জন্য একটি স্থান্ডার্ড আরবী ভাষার সংশোধনী কাজেAbstract
NLP ལས་ཀ་སྣ་མང་པོ་ཞིག་ལ་ཡིག་ཆ་རྒྱུན་ལྡན་བྱེད་ནུས་པའི་ལག་རྩལ་ཆེན་ཤིག་རེད། འཕྲལ་ཁམས་དེ་ལྟ་བུའི་རྒྱུ་དྲ་བ་དང་མཉམ་དུ་ཡོད་པའི་ཐབས་ལམ་དེ་ལྟར་སྟབས་བདེ་སྒྲིག་བྱས་པ་ཡིན་པས། འོན་ཀྱང་། དབྱིན་ཡིག་ལས་མིན་པའི་སྐད་ཡིག་ནང་དུ་གནས་ཚུལ་འདིའི་ནང་དུ་འཚོལ་ཞིབ་བྱས་པ་རེད། སྐད་ཡིག་ཆ་གསལ་བཀོད་ཡོད་པའི་ཚད་དཀའ་ངལ་བ་དང་ཆེ་བ་དག་གིས་དཀའ་ངལ་གཅིག་མཚུངས་ན། To address these challenges, we use a sequence-to-sequence model with character-based attention, which in addition to its self-learned character embeddings, uses word embeddings pre-trained with an approach that also models subword information. འདིས་སྐད་ཡིག་གི་ཆ་འཕྲིན་དང་མཐུན་སྣེ་མང་ཙམ་གྱི་འཇུག་སྤྱོད་ཀྱི་རྣམ་པ་གིས་ཡིག་གེ་ཆུང་མི་སྤྲོད་ཀྱི་ལས་འཆར་བ We show that providing the model with word-level features bridges the gap for the neural network approach to achieve a state-of-the-art F1 score on a standard Arabic language correction shared task dataset.Abstract
Normalizacija teksta je važan omogućavajući tehnologiju za nekoliko NLP zadataka. Nedavno su pristupi na neuromreži iznosili dobro uspostavljene modele u ovom zadatku. Međutim, na jezicima osim engleskog, u ovom smjeru je bilo malo istraživanja. Nedostatak annotiranih podataka i kompleksnost jezika povećava teškoće problema. Da bi se riješili ovim izazovima, koristimo model sekvence do sekvence sa pažnjom na karakteru, koja, dodatno njenim samouučenim integracijama karaktera, koristi predobučene riječice sa pristupom koji također modeluje podriječje informacije. To omogućava neuralni model pristup više jezičkih informacija, posebno odgovarajućim za normalizaciju teksta, bez velike paralelne korpore. Pokazujemo da pružanje model a sa nivou riječi uključuje prazninu za pristup neuronske mreže kako bi postigao rezultat stanja umjetnosti F1 na standardnom kompletu podataka o korekciji jezika Arapske.Abstract
La normalització del text és una tecnologia propiciadora important per a diverses tasques del NLP. Recentment, els enfocaments basats en xarxes neurals han superat els models ben estables en aquesta tasca. Tanmateix, en altres llengües que l'anglès, hi ha hagut poca exploració en aquesta direcció. Tant la escassetat de dades anotates com la complexitat del llenguatge augmenten la dificultat del problema. Per abordar aquests reptes, utilitzem un model de seqüència a seqüència amb atenció basada en caràcter, que a més dels seus personatges autoaprenguts, utilitza integracions de paraules pré-entrenats amb un enfocament que també modela informació subparaules. Això proporciona al model neural accés a informació més lingüística especialment adequada per a normalitzar el text, sense grans corpores paralèls. Mostrem que proporcionar al model característiques de nivell de paraules redueix la diferència en l'enfocament de la xarxa neural per aconseguir una puntuació F1 més avançada en un conjunt de dades compartit de tasques de correcció de llenguatge àrab.Abstract
Normalizace textu je důležitou technologií pro několik úloh NLP. V poslední době přístupy založené na neuronových sítích překonaly dobře zavedené modely v tomto úkolu. Nicméně, v jiných jazycích než angličtina, tam bylo jen málo zkoumání v tomto směru. Jak nedostatek anotovaných dat, tak složitost jazyka zvyšuje obtížnost problému. K řešení těchto výzev používáme model sekvence-sekvence s pozorností založený na znacích, který kromě svých samoučených vložení znaků využívá předškolené vložení slov s přístupem, který také modeluje informace o podslovích. To poskytuje neuronovému modelu přístup k více jazykovým informacím vhodným zejména pro normalizaci textu, bez velkých paralelních korpusů. Ukazujeme, že poskytnutí modelu funkcí na úrovni slov překlenuje mezeru pro přístup neuronové sítě, aby bylo dosaženo nejmodernějšího skóre F1 na standardní sadě sdílených úkolů korekce arabského jazyka.Abstract
Tekstnormalisering er en vigtig mulig teknologi til flere NLP-opgaver. For nylig har neurale netværksbaserede tilgange udført veletablerede modeller i denne opgave. Men på andre sprog end engelsk har der ikke været nogen udforskning i denne retning. Både manglen på kommenterede data og sprogets kompleksitet øger problemets vanskeligheder. For at imødegå disse udfordringer bruger vi en sekvens-til-sekvens model med tegnbaseret opmærksomhed, som ud over sine selvlærte tegn indlejringer bruger ordindlejringer forududdannet med en tilgang, der også modellerer underordsoplysninger. Dette giver den neurale model adgang til mere sproglig information specielt egnet til tekst normalisering, uden store parallelle korpora. Vi viser, at levering af modellen med ordniveau funktioner bryder hullet for neurale netværk tilgang til at opnå en state-of-the-art F1 score på et standard arabisk sprogkorrektion delt opgavedatasæt.Abstract
Textnormalisierung ist eine wichtige Technologie für mehrere NLP-Aufgaben. Neural-network-basierte Ansätze haben in dieser Aufgabe etablierte Modelle übertroffen. In anderen Sprachen als Englisch wurde jedoch wenig in diese Richtung erforscht. Sowohl die Knappheit annotierter Daten als auch die Komplexität der Sprache erhöhen die Schwierigkeit des Problems. Um diese Herausforderungen anzugehen, verwenden wir ein Sequenz-zu-Sequenz-Modell mit charakterbasierter Aufmerksamkeit, das neben seinen selbstlernenden Zeicheneinbettungen auch Worteinbettungen verwendet, die mit einem Ansatz vortrainiert wurden, der auch Unterwortinformationen modelliert. Dadurch erhält das neuronale Modell Zugang zu mehr sprachlichen Informationen, die besonders für die Textnormalisierung geeignet sind, ohne große parallele Korpora. Wir zeigen, dass die Bereitstellung des Modells mit Funktionen auf Wortebene die Lücke für den neuronalen Netzwerkansatz schließt, um einen state-of-the-art F1-Score auf einem Standard-arabischen Sprachkorrekturdatensatz zu erreichen.Abstract
Η ομαλοποίηση κειμένου είναι μια σημαντική τεχνολογία ενεργοποίησης για διάφορες εργασίες. Πρόσφατα, οι προσεγγίσεις με βάση τα νευρωνικά δίκτυα έχουν ξεπεράσει τα καθιερωμένα μοντέλα σε αυτό το έργο. Ωστόσο, σε γλώσσες άλλες από τα αγγλικά, έχει γίνει μικρή έρευνα προς αυτή την κατεύθυνση. Τόσο η έλλειψη σχολιασμένων δεδομένων όσο και η πολυπλοκότητα της γλώσσας αυξάνουν τη δυσκολία του προβλήματος. Για να αντιμετωπίσουμε αυτές τις προκλήσεις, χρησιμοποιούμε ένα μοντέλο ακολουθίας σε ακολουθία με προσοχή βασισμένη σε χαρακτήρες, το οποίο εκτός από τις αυτομαθημένες ενσωματώσεις χαρακτήρων του, χρησιμοποιεί ενσωματώσεις λέξεων προ-εκπαιδευμένες με μια προσέγγιση που επίσης μοντελοποιεί πληροφορίες υπολέξεων. Αυτό παρέχει στο νευρωνικό μοντέλο πρόσβαση σε περισσότερες γλωσσικές πληροφορίες ιδιαίτερα κατάλληλες για εξομάλυνση κειμένου, χωρίς μεγάλα παράλληλα σώματα. Δείχνουμε ότι η παροχή του μοντέλου με χαρακτηριστικά σε επίπεδο λέξεων γεφυρώνει το κενό για την προσέγγιση νευρωνικών δικτύων για να επιτύχει μια υπερσύγχρονη βαθμολογία F1 σε ένα τυποποιημένο σύνολο κοινών δεδομένων διόρθωσης αραβικής γλώσσας.Abstract
La normalización de textos es una tecnología habilitadora importante para varias tareas de PNL. Recientemente, los enfoques basados en redes neuronales han superado a los modelos bien establecidos en esta tarea. Sin embargo, en otros idiomas además del inglés, se ha explorado poco en esta dirección. Tanto la escasez de datos anotados como la complejidad del idioma aumentan la dificultad del problema. Para abordar estos desafíos, utilizamos un modelo de secuencia a secuencia con atención basada en caracteres, que además de sus incrustaciones de caracteres autoaprendidas, utiliza incrustaciones de palabras previamente entrenadas con un enfoque que también modela la información de subpalabras. Esto proporciona al modelo neuronal acceso a más información lingüística especialmente adecuada para la normalización del texto, sin grandes cuerpos paralelos. Demostramos que proporcionar al modelo características a nivel de palabras cierra la brecha para el enfoque de redes neuronales para lograr una puntuación F1 de última generación en un conjunto de datos de tareas compartidas de corrección del idioma árabe estándar.Abstract
Teksti normaliseerimine on oluline võimaldav tehnoloogia mitmete NLP ülesannete jaoks. Hiljuti on neurovõrgul põhinevad lähenemisviisid selles ülesandes ületanud hästi väljakujunenud mudeleid. Kuid muudes keeltes kui inglise keeles on selles suunas vähe uuritud. Nii märgitud andmete nappus kui keele keerukus suurendavad probleemi raskust. Nende probleemide lahendamiseks kasutame märgipõhise tähelepanuga järjestusest järjestusse mudelit, mis lisaks iseõppinud märgipõhistele manustamistele kasutab eelnevalt väljaõpetatud sõnade manustamist lähenemisviisi abil, mis modelleerib ka alamsõna infot. See annab närvimudelile juurdepääsu keelelisele informatsioonile, mis sobib eriti teksti normaliseerimiseks, ilma suurte paralleelkorporiteta. Näitame, et mudeli sõnatasemel funktsioonide pakkumine täidab lõhe närvivõrgu lähenemisviisi jaoks, et saavutada kaasaegne F1 skoor tavapärase araabia keele parandamise jagatud ülesannete andmekogumi puhul.Abstract
تنظیم متن یک تکنولوژی مهم برای چند کار NLP است. اخیرا، روشهای شبکههای عصبی در این وظیفه مدلهای بسیار قابل ثابت شدهای بیشتر انجام دادهاند. با این حال، در زبانهای غیر از انگلیسی، در این مسیر کشف کوچک وجود دارد. هر دو کمی از داده های نازل شده و پیچیدگی زبان مشکل مشکل را افزایش می دهد. برای حل این چالشها، ما از یک مدل رده به رده با توجه بر روی شخصیت استفاده میکنیم، که در addition to the self-learned character embeddings، از کلمههای پیش آموزش شده با یک روش استفاده میکنیم که همچنین از اطلاعات زیر کلمهها مدل میکند. این مدل عصبی را با دسترسی به اطلاعات بیشتری زبانشناسی به ویژهای مناسب برای نورملازی متن، بدون شرکتهای پارالی بزرگ میدهد. ما نشان می دهیم که مدل را با سطح کلمات ویژههای ویژههای ویژهای برای روش شبکههای عصبی برای رسیدن یک امتیاز موقعیت هنر F1 در یک مجموعه دادههای مشترک کار به زبان عربی استاندارد میدهد.Abstract
Tekstin normalisointi on tärkeä mahdollistava teknologia useissa NLP-tehtävissä. Viime aikoina neuroverkkoihin perustuvat lähestymistavat ovat ylittäneet vakiintuneet mallit tässä tehtävässä. Muilla kielillä kuin englannilla tähän suuntaan on kuitenkin tutkittu vähän. Ongelman vaikeutta lisäävät sekä huomautusten niukkuus että kielen monimutkaisuus. Haasteisiin vastaamiseksi käytämme merkkipohjaisella huomiolla varustettua sekvenssimallia, joka itseoppineiden merkkiupotusten lisäksi käyttää esikoulutettuja sanaupotuksia, jotka mallintavat myös alasanatietoja. Näin neuromalli saa käyttöönsä enemmän kielellistä tietoa, joka soveltuu erityisesti tekstin normalisointiin, ilman suuria rinnakkaisia korpusia. Osoitamme, että sanatason ominaisuuksien tarjoaminen mallille tasoittaa aukon hermoverkkolähestymistavalle saavuttaakseen huipputason F1-pisteen arabiankielisessä korjausaineistossa.Abstract
La normalisation de texte est une technologie habilitante importante pour plusieurs tâches de PNL. Récemment, les approches basées sur les réseaux neuronaux ont surpassé les modèles bien établis dans cette tâche. Cependant, dans les langues autres que l'anglais, il y a eu peu d'exploration dans ce sens. La rareté des données annotées et la complexité de la langue augmentent la difficulté du problème. Pour relever ces défis, nous utilisons un modèle séquence-séquence avec une attention basée sur les caractères, qui, en plus de ses intégrations de caractères auto-apprises, utilise des intégrations de mots pré-entraînées avec une approche qui modélise également les informations de sous-mots. Cela permet au modèle neuronal d'accéder à davantage d'informations linguistiques particulièrement adaptées à la normalisation de texte, sans grands corpus parallèles. Nous montrons que le fait de fournir au modèle des fonctionnalités au niveau du mot comble le fossé entre l'approche du réseau neuronal et l'obtention d'un score F1 de pointe sur un jeu de données de tâches partagé de correction de la langue arabe standard.Abstract
Is teicneolaíocht chumasúcháin thábhachtach é normalú téacs le haghaidh roinnt tascanna NLP. Le déanaí, d'éirigh níos fearr leis na cineálacha cur chuige atá bunaithe ar néarlíonra sa tasc seo ná samhlacha seanbhunaithe. I dteangacha eile seachas an Béarla, áfach, is beag iniúchadh a rinneadh sa treo seo. Méadaíonn an ghanntanas sonraí anótáilte agus castacht na teanga deacracht na faidhbe. Chun aghaidh a thabhairt ar na dúshláin seo, bainimid úsáid as samhail seicheamh-go-seicheamh le haird bunaithe ar charachtar, a úsáideann leabaithe focal réamh-oilte le cur chuige a mhúnlaíonn faisnéis fofhocail chomh maith lena leabú carachtar féinfhoghlaim. Soláthraíonn sé seo rochtain don mhúnla néarach ar fhaisnéis níos teangeolaíochta atá oiriúnach go háirithe do normalú téacs, gan corpas mór comhthreomhar. Léirímid go líonann an tsamhail le gnéithe ar leibhéal na bhfocal an bhearna don chur chuige líonra néaraigh chun scór F1 den scoth a bhaint amach ar thasc sonraí comhroinnte um cheartú teanga Araibis.Abstract
Tsarin matsayi yana da muhimu masu amfani da technical wa masu amfani da wasu aikin NLP. A yanzu, hanyoyin neural-net-neural sun sami misãlai masu tsari cikin wannan aikin. A lokacin da, cikin harshe masu da ke cikin Ingiriya, an sami ƙarami da wannan hani. Dukkan halin data da aka yi wa zartar da shi, da kuma ma'abun harshen, yana ƙara wa matsalar. Yana amfani da wani misalin-duffai zuwa-sequence, wanda yana da zane-zane-bincike, wanda ke amfani da baka-zane-zane-zane-zane, yana amfani da maganar ta fara-tun da wani hanyor da za'a motsa maɓallin zane-zane. This provides the neural model with access to more linguistic information especially suitable for text normalization, without large parallel corpora. Tuna nũna in bãyar da shirin da tsari masu maganar-daraja yana tsohatar da gaura wa shirin tarayya na neural dõmin ya isa wani lokaci na-state-the-art F1 kan daidaita tsarin aikin da aka raba aikin aikin Larabci.Abstract
נורמליזציה טקסטית היא טכנולוגיה חשובה מאפשרת לכמה משימות NLP. לאחרונה, גישות מבוססות ברשת עצבית ביצעו מודלים מאושרים במשימה הזאת. בכל אופן, בשפות אחרות מלבד אנגלית, היה מעט חקירה בכיוון הזה. גם העדר של נתונים מוסרים ומרכיבות השפה מגבילות את הקשה של הבעיה. כדי להתמודד עם האתגרים האלה, אנו משתמשים במודל רצף לרצף עם תשומת לב מבוססת על אופים, אשר בנוסף לתכניות האופים המלמדות בעצמו, משתמשים בתכניות מילים מאומנות מראש עם גישה שגם דוגמנים מידע תחת מילים. זה מספק למודל העצבי גישה למידע שפתי יותר מתאים במיוחד לנורמליזציה טקסטית, ללא גופורה מקבילה גדולה. אנחנו מראים שסיפקת המודל עם תכונות רמה מילים מגבירה את הפער לגישה לרשת העצבית כדי להשיג תוצאה F1 מצוינת ביותר על קבוצת נתונים משותפת תיקון שפה ערבית סטנדרטית.Abstract
पाठ सामान्यीकरण कई एनएलपी कार्यों के लिए एक महत्वपूर्ण सक्षम तकनीक है। हाल ही में, तंत्रिका-नेटवर्क-आधारित दृष्टिकोणों ने इस कार्य में अच्छी तरह से स्थापित मॉडल को पछाड़ दिया है। हालांकि, अंग्रेजी के अलावा अन्य भाषाओं में, इस दिशा में बहुत कम खोज की गई है। एनोटेट किए गए डेटा की कमी और भाषा की जटिलता दोनों समस्या की कठिनाई को बढ़ाते हैं। इन चुनौतियों को संबोधित करने के लिए, हम चरित्र-आधारित ध्यान के साथ एक अनुक्रम-से-अनुक्रम मॉडल का उपयोग करते हैं, जो अपने स्व-सीखा चरित्र एम्बेडिंग के अलावा, एक दृष्टिकोण के साथ पूर्व-प्रशिक्षित शब्द एम्बेडिंग का उपयोग करता है जो उप-शब्द जानकारी को भी मॉडल करता है। यह तंत्रिका मॉडल को अधिक भाषाई जानकारी तक पहुंच प्रदान करता है, विशेष रूप से पाठ सामान्यीकरण के लिए उपयुक्त है, बड़े समानांतर कॉर्पोरेट के बिना। हम दिखाते हैं कि शब्द-स्तर की सुविधाओं के साथ मॉडल प्रदान करना एक मानक अरबी भाषा सुधार साझा कार्य डेटासेट पर अत्याधुनिक एफ 1 स्कोर प्राप्त करने के लिए तंत्रिका नेटवर्क दृष्टिकोण के लिए अंतर को पुल करता है।Abstract
Normalizacija teksta je važna tehnologija omogućavajuća za nekoliko NLP zadataka. Nedavno su pristupi na neuromreži iznosili dobro uspostavljene modele u ovom zadatku. Međutim, na jezicima osim engleskog, u ovom smjeru nije bilo malo istraživanja. Nedostatak annotiranih podataka i složenost jezika povećava teškoće problema. Da bi se riješili ovim izazovima, koristimo model sekvence do sekvence s pažnjom na karakteru, koji, dodatno njenim samouučenim integracijama karaktera, koristi predobučene riječije integracije s pristupom koji također modeluje podriječje informacije. To omogućava neuralni model s pristupom više jezičkih informacija, posebno odgovarajućim za normalizaciju teksta, bez velike paralelne korpore. Pokazujemo da pružanje model a na razini riječi uključuje prazninu za pristup neuralnoj mreži kako bi postigao rezultat stanja umjetnosti F1 na standardnom kompletu podataka o korekciji jezika Arapske.Abstract
A szövegnormalizálás fontos alkalmazási technológia több NLP feladathoz. A közelmúltban az ideghálózati alapú megközelítések túlléptek a jól megalapozott modelleket ebben a feladatban. Azonban az angol nyelven kívül kevés feltárás történt ebben az irányban. Mind a jegyzetelt adatok hiánya, mind a nyelv bonyolultsága növeli a probléma nehézségét. Ezeknek a kihívásoknak a megoldásához karakter alapú figyelemmel rendelkező szekvencia-szekvencia modellt használunk, amely az önmegtanult karakterek beágyazása mellett előre kiképzett szóbeágyazásokat használ olyan megközelítéssel, amely az alszó információit is modellezi. Ez biztosítja a neurális modell számára több nyelvi információhoz való hozzáférést, különösen alkalmas a szöveg normalizálására, nagy párhuzamos korpuszok nélkül. Megmutatjuk, hogy a modell szószintű funkciókkal történő biztosítása áthidalja a neurális hálózati megközelítés szakadékát annak érdekében, hogy egy standard arab nyelvkorrekciós megosztott feladatkészleten korszerű F1 pontszámot érjen el.Abstract
Տեքստի նորմալիզացիան կարևոր տեխնոլոգիա է, որը հնարավորություն է տալիս բազմաթիվ ՆԼՊ-ի առաջադրանքների համար: Վերջերս, նյարդային ցանցերով հիմնված մոտեցումները գերազանցել են լավ հաստատված մոդելները այս խնդրում: Այնուամենայնիվ, անգլերենից բացի այլ լեզուներում այս ուղղությամբ փոքր ուսումնասիրություն է եղել: Նոտորացված տվյալների բացակայությունը և լեզվի բարդությունը բարդում են խնդիրը: Այս մարտահրավերներին լուծելու համար մենք օգտագործում ենք հաջորդականություն հաջորդականության մոդել, որը հիմնված է բնավորության վրա, որը, բացի իր ինքնասովորված բնավորության ներդրումներից, օգտագործում է նախապատրաստված բառերի ներդրումներ մի մոդել, որը նաև մոդելներ է տալիս ենթաբառերի Սա նյարդային մոդելին հնարավորություն է տալիս ավելի շատ լեզվաբանական տեղեկատվություն ստանալ, որը հատկապես համապատասխանում է տեքստի նորմալիզացիայի համար, առանց մեծ զուգահեռ մարմնի: Մենք ցույց ենք տալիս, որ բառի մակարդակի առանձնահատկություններով մոդելի տրամադրումը կախում է նյարդային ցանցի մոտեցումների բացառությունը, որպեսզի հասնենք ամենաբարձր F1 գնահատականի ստանդարտ արաբերական լեզվի ուղղումների ընդհանուր խնAbstract
Normalisasi teks adalah teknologi yang penting untuk beberapa tugas NLP. Baru-baru ini, pendekatan jaringan saraf telah melebihi model yang ditetapkan dengan baik dalam tugas ini. Namun, dalam bahasa lain selain bahasa Inggris, ada sedikit eksplorasi dalam arah ini. Kekurangan data yang dicatat dan kompleksitas bahasa meningkatkan kesulitan masalah. Untuk mengatasi tantangan-tantangan ini, kami menggunakan model urutan-urutan dengan perhatian berdasarkan karakter, yang selain penerbangan karakter yang belajar sendiri, menggunakan penerbangan kata pra-dilatih dengan pendekatan yang juga model informasi subkata. Ini menyediakan model saraf dengan akses ke informasi bahasa yang lebih tepat khususnya untuk normalisasi teks, tanpa corpora paralel besar. Kami menunjukkan bahwa menyediakan model dengan ciri-ciri tingkat kata memecahkan ruang bagi pendekatan jaringan saraf untuk mencapai skor F1 terbaik pada set tugas kongsi koreksi bahasa Arab standar.Abstract
La normalizzazione del testo è un'importante tecnologia abilitante per diverse attività NLP. Recentemente, gli approcci basati su reti neurali hanno superato i modelli consolidati in questo compito. Tuttavia, in lingue diverse dall'inglese, c'è stata poca esplorazione in questa direzione. Sia la scarsità di dati annotati che la complessità della lingua aumentano la difficoltà del problema. Per affrontare queste sfide, utilizziamo un modello sequenza-sequenza con attenzione basata sui caratteri, che oltre alle incorporazioni dei caratteri apprese da sé, utilizza incorporazioni di parole pre-addestrate con un approccio che modella anche le informazioni sulle sottoparole. Questo fornisce al modello neurale l'accesso a informazioni più linguistiche particolarmente adatte per la normalizzazione del testo, senza grandi corpi paralleli. Mostriamo che fornire al modello funzionalità a livello di parola colma il divario per l'approccio alla rete neurale per ottenere un punteggio F1 all'avanguardia su un set di dati condivisi di correzione della lingua araba standard.Abstract
テキストの正規化は、いくつかのNLPタスクにとって重要な有効化技術です。最近では、ニューラルネットワークベースのアプローチは、このタスクの確立されたモデルを上回っています。しかし、英語以外の言語では、この方向への探求はほとんどなされていない。注釈付きデータの希少性と言語の複雑さの両方が、問題の難しさを増大させます。これらの課題に対処するために、私たちは文字ベースの注意を払ったシーケンスツーシーケンスモデルを使用します。これは、独自に学習した文字埋め込みに加えて、サブワード情報をモデル化するアプローチで事前にトレーニングされた単語埋め込みを使用します。これにより、ニューラルモデルは、特にテキスト正規化に適したより多くの言語情報へのアクセスを、大規模な並列体なしで提供する。ワードレベルの機能をモデルに提供することで、標準的なアラビア語補正共有タスクデータセットで最先端のF 1スコアを達成するためのニューラルネットワークアプローチのギャップを埋めることが示されています。Abstract
ayo plug-in-action Nanging, ana luwih-luwih sing mengko Inggris, durung menyang kapan-kapan anyar iki. Bebudhakan langkung akeh data yang dadi lunak nggawe luwih akeh seneng nggawe luwih apik sing apik. Ditawak dhéwé ngerasakno iki, kita ngubah sistem sing sekondi-to-sekondi, dadine atengan karo caratar sing basa gambar nggawe lan sampeyan sampeyan akeh lanjut caratar tentang, kita ngubah awak dhéwé, akeh nyongé awak dhéwé, lan uga sampeyan awak dhéwé beraksi lan padha sampeyan Iki ngewehi sistem sing nduwe akeh operasi ning awak dhéwé luwih dumadhi kanggo nggawe gerakan kanggo teks Normal, lan akeh dumadhi, sane sampeyan. MondayAbstract
ტექსტის ნორმალიზაცია მნიშვნელოვანია, რამდენიმე NLP დავალებისთვის ტექნოლოგიის შესაძლებლობა. მიმდინარე, ნეიროლური ქსელის გარეშე მოდილებები ამ დავალებაში უფრო მსგავსი მოდელების გარეშე. მაგრამ, ანგლისური განსხვავებული ენაში, ამ მხარეს პატარა განსხვავება იყო. ანოტირებული მონაცემების და ენის კომპლექსიტების შესაძლებლობა პრობლემების განმავლობაში უფრო დიდება. ამ გამოცდილებების შესახებ, ჩვენ გამოვიყენებთ სიტყვების შესახებ, რომელიც სიტყვების შესახებ შესახებ სიტყვების ინფორმაციის მოდელის შესახებ, რომელიც მისი თავისწავლე სიტყვების შესახებ გამოყენება ეს ნეიროლური მოდელს უფრო მეტი ლენგურისტიკური ინფორმაციის მიღება, განსაკუთრებით საჭირო ტექსტის ნორმალიზაციისთვის, დიდი პარალელური კოპორ ჩვენ ჩვენ აჩვენებთ, რომ მოდელს სიტყვების სიტყვების განსაზღვრებით აღმოჩვენება ნეიროლური ქსელის მონაცემებისთვის განსხვავებას, რომ F1 მონაცემების განსაზღვრებით სტანდარტური აპაბAbstract
Мәтін нормализациясы - бірнеше NLP тапсырмаларының технологиясын рұқсат ету үшін маңызды. Жуырда, неврал желінің негіздеген келесімдер осы тапсырмада жақсы құрылған үлгілерді жасады. Бірақ ағылшыншадан басқа тілдерде осы бағытта кішкентай зерттеу болды. Ескерту деректерінің және тілдің кәдімгілігі мәселенің қиындығын көтереді. Бұл мәселелерді басқару үшін, біз таңбалар негіздеген түрде реттеу үлгісін қолданамыз. Бұл өзінің оқылған таңбалар ендіру үлгісін қосып, алдын- ала оқылған сөздерді ендіру үлгісін қолданады, сондай-а Бұл невралдық моделі тілдік мәліметтерге қатынауға мүмкіндік береді, әдетте мәтін нормализациясы үшін, үлкен параллелі корпора жоқ. Біз үлгісін сөз деңгейіндегі мүмкіндіктері үлгілеу үшін невралдық желінің қасиеттері үшін, стандартты араб тілді түзету тапсырмаларды ортақтастыратын тапсырмалардың деректер жиынына көшірмеледі.Abstract
텍스트 규범화는 여러 NLP 작업에 대한 중요한 지원 기술입니다.최근에는 신경 네트워크를 바탕으로 하는 방법이 이 임무에서 성숙한 모델보다 낫다.그러나 영어 이외의 언어에서는 이 방면의 탐색이 매우 적다.주석 데이터의 희소성과 언어의 복잡성은 모두 문제의 난이도를 증가시켰다.이러한 도전에 대응하기 위해 우리는 문자의 주의력 서열을 바탕으로 서열 모델을 사용했다. 학습된 문자 삽입을 제외하고 미리 훈련된 단어 삽입도 사용했다. 이런 방법은 하위 단어 정보를 모델링할 수 있다.이것은 신경 모델에 더 많은 언어 정보를 제공하는데 특히 텍스트 규범화에 적합하며 대형 평행 어료 라이브러리가 필요하지 않다.우리는 모델에 단어급 특징을 제공하여 신경 네트워크 방법이 표준 아랍어 교정 공유 임무 데이터 집합에서 가장 선진적인 F1 성적을 얻은 차이를 보완할 수 있음을 나타냈다.Abstract
Tekstų normalizavimas yra svarbi įgalinamoji technologija kelioms NLP užduotims atlikti. Neseniai nerviniais tinklais pagrįsti metodai šioje užduotyje atliko daugiau kaip gerai nustatytus modelius. Tačiau kitose nei anglų kalbose šioje srityje tiriama nedaug. Dėl anotuotų duomenų trūkumo ir kalbos sudėtingumo kyla problem ų. Siekdami spręsti šiuos uždavinius, mes naudojame eilės po eilės model į su ženklais pagrįstu dėmesiu, kuris, be savarankiškų ženklų įdėjimų, naudoja žodžių įdėjimus, iš anksto apmokytus metodu, kuris taip pat modeliuoja subžodžių informaciją. Tai suteikia galimybę nerviniam modeliui gauti daugiau kalbinės informacijos, ypač tinkamos teksto normalizavimui, be didelio lygiagretaus korporo. Mes rodome, kad modelio su žodžių lygio savybėmis suteikimas užpildo atotrūkį nervų tinklo požiūriui, kad būtų pasiektas naujausias F1 taškas standartiniame arabų kalbos koregavimo bendrų užduočių duomenų rinkinyje.Abstract
Нормализацијата на текстот е важна овозможувачка технологија за неколку NLP задачи. Неодамна, пристапите на неурална мрежа ги надминаа добро воспоставените модели во оваа задача. Сепак, на други јазици освен англиски, во оваа насока има мало истражување. И недостатокот на анотирани податоци, и комплексноста на јазикот ја зголемуваат тешкотијата на проблемот. За да ги решиме овие предизвици, користиме модел од секвенца до секвенца со внимание базирано на карактери, кој, покрај неговите самоучени вградувања на карактери, користи вградувања на зборови предобучени со пристап кој исто така моделира информации за подзборови. Ова му овозможува на нервниот модел пристап до повеќе јазички информации посебно соодветни за нормализација на текстот, без голема паралелна корпора. Ние покажуваме дека обезбедувањето на моделот со карактеристики на зборно ниво ја преместува празнината за пристапот на нервната мрежа за постигнување на најсовремена оценка F1 на стандардниот набор на податоци за корекција на арапски јазик.Abstract
എംഎല്പി ജോലികള്ക്ക് പ്രധാനപ്പെടുത്തുന്ന ഒരു പ്രധാനപ്പെട്ട ട സാങ്കേതികവിദ്യയാണ്. അടുത്തുതന്നെ, ന്യൂറല് നെറ്റൂറല് നെറ്റോവര്ക്ക് അടിസ്ഥാനമായ വഴികള് ഈ ജോലിയില് നല്ല സ്ഥാപിച്ച മോഡലുകള് പ എങ്കിലും ഇംഗ്ലീഷ് അല്ലാത്ത ഭാഷകളില് ഈ തിരിച്ചില് കുറച്ച് പരിശോധന ഉണ്ടായിരുന്നു. പ്രശ്നത്തിന്റെ പ്രയാസത്തിന്റെ പ്രശ്നത്തിന്റെ വിഷമവും ഭാഷയുടെ സങ്കീര്ണ്ണവും വര്ദ്ധിപ്പിച്ചു. ഈ വിലപാടുകളെ വിശദീകരിക്കാന് വേണ്ടി, നമ്മള് അക്ഷരത്തിന്റെ അടിസ്ഥാനമായി ശ്രദ്ധിക്കുന്ന ഒരു മോഡല് ഉപയോഗിക്കുന്നു. അതിന്റെ സ്വയം പഠിച്ചിരിക്കുന്ന അക് ഇത് കൂടുതല് ഭാഷ വിവരങ്ങള് ലഭ്യമാക്കുന്ന ന്യൂറല് മോഡല് നല്കുന്നു. പ്രത്യേകിച്ചും പദാവലി സാധാരണയ്ക്കുള്ള വിവരങ്ങള് നമ്മള് കാണിച്ചുകൊടുക്കുന്നത് വാക്ക്-നില വിശേഷത്തിനുള്ള മോഡല് നല്കുന്നത് ന്യൂറല് നെറ്റ്റര് നെറ്റാള് നെറ്റോവര്ക്കിനുള്ള സ്കോര് പAbstract
Текст нормализаци нь NLP-ын олон ажлын технологийг ашиглах чухал юм. Сүүлийн үед мэдрэлийн сүлжээнд суурилсан арга зам нь энэ үйл ажилд сайн байгуулсан загваруудыг илүү сайн хийсэн. Гэхдээ Англи хэлээс өөр хэл дээр энд жижиг судалгаа байлаа. Хүсэглэгдсэн мэдээлэл болон хэлний төвөгтэй байдал нь асуудлын хэцүү хэцүү байдлыг нэмэгдүүлдэг. Эдгээр сорилтуудыг зохицуулахын тулд бид хүн төрөлхтний анхаарлын төвөгтэй дарааллын дарааллын загварыг ашигладаг. Өөрийгөө сурсан хүн төрөлхтний тусламжтайгаар өөрийгөө сурсан хүн төрөлхтний тусламжтайгаар дамжуулан Энэ нь мэдрэлийн загварыг илүү хэлний мэдээллийг ашиглах боломжтой, ялангуяа текст нормализацийг ашиглах боломжтой, том параллел корпора байхгүй. Бид үг хэмжээтэй загварыг хангах нь мэдрэлийн сүлжээний ойлголтын орон зай нь стандарт Араб хэлний зөвшөөрүүлэх үйл ажиллагааны өгөгдлийн сан дээр гаргах боломжтой болно.Abstract
Normalisasi teks adalah teknologi pembolehkan penting untuk beberapa tugas NLP. Baru-baru ini, pendekatan berasaskan rangkaian saraf telah melampaui model yang ditetapkan dengan baik dalam tugas ini. Namun, dalam bahasa selain bahasa Inggeris, terdapat sedikit eksplorasi dalam arah ini. Kekurangan data yang dicatat dan kompleksiti bahasa meningkatkan kesukaran masalah. Untuk mengatasi cabaran ini, kami menggunakan model jujukan-ke-jujukan dengan perhatian berdasarkan aksara, yang selain daripada bentuk aksara yang belajar sendiri, menggunakan bentuk perkataan yang dilatih-dilatih dengan pendekatan yang juga model maklumat subkata. Ini menyediakan model saraf dengan akses kepada maklumat bahasa yang lebih sesuai untuk normalisasi teks, tanpa korpra selari besar. We show that providing the model with word-level features bridges the gap for the neural network approach to achieve a state-of-the-art F1 score on a standard Arabic language correction shared task dataset.Abstract
In-normalizzazzjoni tat-test hija teknoloġija abilitanti importanti għal diversi kompiti tal-NLP. Dan l-aħħar, approċċi bbażati fuq in-netwerks newrali wettqu mudelli stabbiliti sew f’dan il-kompitu. Madankollu, f’lingwi oħra minbarra l-Ingliż, ftit kien hemm esplorazzjoni f’din id-direzzjoni. Kemm l-iskarsezza tad-dejta annotata kif ukoll il-kumplessità tal-lingwa jżidu d-diffikultà tal-problema. To address these challenges, we use a sequence-to-sequence model with character-based attention, which in addition to its self-learned character embeddings, uses word embeddings pre-trained with an approach that also models subword information. Dan jipprovdi l-mudell newrali b’aċċess għal informazzjoni aktar lingwistika speċjalment adattata għan-normalizzazzjoni tat-test, mingħajr korpura parallela kbira. Aħna nuru li l-forniment tal-mudell b’karatteristiċi fil-livell tal-kelma jgħaqqad id-distakk għall-approċċ tan-netwerk newrali biex jinkiseb punteġġ F1 l-aktar avvanzat fuq sett ta’ kompiti komuni ta’ korrezzjoni standard tal-lingwa Għarbija.Abstract
Textnormalisatie is een belangrijke technologie voor verschillende NLP-taken. Recent presteerden neurale netwerkgebaseerde benaderingen in deze taak beter dan gevestigde modellen. In andere talen dan Engels is er echter weinig onderzoek in deze richting gedaan. Zowel de schaarste aan geannoteerde gegevens als de complexiteit van de taal verhogen de moeilijkheid van het probleem. Om deze uitdagingen aan te pakken, gebruiken we een sequence-to-sequence model met op tekens gebaseerde aandacht, dat naast zijn zelflerende karakter embeddings, gebruik maakt van woord embeddings vooraf getraind met een aanpak die ook subwoordinformatie modelleert. Dit geeft het neurale model toegang tot meer linguïstische informatie die vooral geschikt is voor tekstnormalisatie, zonder grote parallelle corpora's. We laten zien dat het verstrekken van het model met functies op woordniveau de kloof overbrugt voor de neurale netwerkbenadering om een state-of-the-art F1 score te bereiken op een standaard Arabische taalcorrectie gedeelde taakgegevenset.Abstract
Tekstnormalisering er ein viktig å slå på teknologi for fleire NLP- oppgåver. Nyleg har nøyralnettverksbaserte tilnærmingar utført godt fastleggte modeller i denne oppgåva. I andre språk enn engelsk har imidlertid det vært lite utforsking i denne retninga. Begge minskeligheten av oppmerkte data og kompleksiteten av språket aukar vanskeligheten i problemet. For å handtera desse utfordringane, bruker vi ein sekvens-til-sekvensmodell med teiknbasert oppmerksomhet, som i tillegg til sitt selvlærte teiknbaseringar, brukar ordinnbygging før-treng med ein tilnærming som også modeller underordinformasjon. Dette tilbyr nøyralmodellen med tilgang til fleire språk- informasjon spesielt passande for tekstnormalisering, utan stor parallell korpora. Vi viser at modellen med ordnivåfunksjonar bryter mellomrommet for nøyralnettverkstilnærming for å oppnå eit F1- score på eit standard arabisk språkorreksjon delt oppgåvedataset.Abstract
Normalizacja tekstu jest ważną technologią wspomagającą dla kilku zadań NLP. Ostatnio podejścia oparte na sieciach neuronowych przewyższyły dobrze ugruntowane modele w tym zadaniu. Jednak w językach innych niż angielski, nie było wiele badań w tym kierunku. Zarówno brak adnotacji danych, jak i złożoność języka zwiększają trudność problemu. Aby sprostać tym wyzwaniom, stosujemy model sekwencji-sekwencji z uwagą opartą na znakach, który oprócz swoich samouczonych osadzeń znaków, wykorzystuje osadzenia słów wstępnie przeszkolone z podejściem modelującym również informacje o podsłowach. Zapewnia to modelowi neuronowemu dostęp do więcej informacji językowych, szczególnie odpowiednich do normalizacji tekstu, bez dużych równoległych korpusów. Pokazujemy, że dostarczanie modelu funkcji na poziomie słowa wypełnia lukę dla podejścia do sieci neuronowej, aby uzyskać najnowocześniejszy wynik F1 na standardowym zestawie danych korekcji języka arabskiego.Abstract
A normalização de texto é uma importante tecnologia de habilitação para várias tarefas de PNL. Recentemente, abordagens baseadas em redes neurais superaram modelos bem estabelecidos nessa tarefa. No entanto, em outros idiomas além do inglês, houve pouca exploração nessa direção. Tanto a escassez de dados anotados quanto a complexidade da linguagem aumentam a dificuldade do problema. Para enfrentar esses desafios, usamos um modelo de sequência a sequência com atenção baseada em caracteres, que além de seus embeddings de caracteres auto-aprendidos, usa embeddings de palavras pré-treinados com uma abordagem que também modela informações de subpalavras. Isso fornece ao modelo neural acesso a mais informações linguísticas especialmente adequadas para normalização de texto, sem grandes corpora paralelos. Mostramos que fornecer o modelo com recursos de nível de palavra preenche a lacuna para a abordagem de rede neural para obter uma pontuação F1 de última geração em um conjunto de dados de tarefa compartilhada de correção de idioma árabe padrão.Abstract
Normalizarea textului este o tehnologie importantă pentru mai multe sarcini PNL. Recent, abordările bazate pe rețele neurale au depășit modelele bine stabilite în această sarcină. Cu toate acestea, în alte limbi decât engleza, a existat puțină explorare în această direcție. Atât deficitul de date adnotate, cât și complexitatea limbii sporesc dificultatea problemei. Pentru a aborda aceste provocări, folosim un model secvență-la-secvență cu atenție bazată pe caractere, care, pe lângă încorporările sale de caractere auto-învățate, folosește încorporări de cuvinte pre-instruite cu o abordare care modelează, de asemenea, informațiile subcuvintelor. Acest lucru oferă modelului neural acces la mai multe informații lingvistice potrivite în special pentru normalizarea textului, fără corpore paralele mari. Noi arătăm că furnizarea modelului cu caracteristici la nivel de cuvânt reduce decalajul pentru abordarea rețelei neurale pentru a obține un scor F1 de ultimă generație pe un set standard de date partajate de corecție a limbii arabe.Abstract
Нормализация текста является важной технологией, позволяющей выполнять несколько задач NLP. В последнее время нейросетевые подходы превзошли хорошо зарекомендовавшие себя модели в этой задаче. Однако на других языках, помимо английского, исследования в этом направлении были незначительными. Как нехватка аннотированных данных, так и сложность языка увеличивают сложность проблемы. Для решения этих задач мы используем последовательную модель с персонажным вниманием, которая в дополнение к своим самообучающимся вложениям символов использует вложения слов, предварительно обученные подходу, который также моделирует информацию подслова. Это обеспечивает нейронную модель доступом к большей лингвистической информации, особенно подходящей для нормализации текста, без больших параллельных корпусов. Показано, что обеспечение модели функциями на уровне слов устраняет пробел в нейросетевом подходе для достижения самой современной оценки F1 на стандартном наборе данных общих задач по коррекции арабского языка.Abstract
පාළුව සාමාන්ය විස්තරය NLP වැඩක් සඳහා වැදගත් තාක්ෂණිකාව සක්රීය කරන්න වැදගත් වෙන්න ප් අලුත් වෙලාවට, න්යුරාල් ජාලයේ අධාරිත විදිහට මේ වැඩේ හොඳ ස්ථාපිත විදිහට ප්රතික්රියා කරලා නමුත්, ඉංග්රීසි වලින් වෙනස් භාෂාවල්, මේ පැත්තේ පොඩි පරීක්ෂණය තියෙනවා. ප්රශ්නයේ අමාරුයි දත්ත සහ භාෂාවේ සංකල්පයක් වැඩ කරනවා. මේ අභ්යානයක් විදිහට, අපි අක්ෂර අධ්යානයක් සමග පරීක්ෂණයක් පාවිච්චි කරනවා, ඒ වගේම ස්වයංග්රාණික අක්ෂර පරීක්ෂණයක් සඳහා පරීක්ෂ මේක තව භාෂාවික තොරතුරු සඳහා විශේෂයෙන් පාළුව සාමාන්යය කරන්න පුළුවන් විශේෂයෙන්, ලොකු සමාන්යය අපි පෙන්වන්නේ මොඩල් එක්ක වචන ස්ථානය සඳහා වචන ස්ථානය සඳහා වචන ස්ථානය සඳහා ප්රවෘත්තිය ප්රවෘත්තිය ප්රවෘත්තිය අරාබි භAbstract
Normalizacija besedila je pomembna omogočitvena tehnologija za več nalog NLP. V zadnjem času so pristopi, ki temeljijo na nevronskih omrežjih, presegli dobro uveljavljene modele v tej nalogi. Vendar pa je bilo v drugih jezikih razen angleščine malo raziskovanja v tej smeri. Tako pomanjkanje označenih podatkov kot kompleksnost jezika povečujeta težavnost problema. Za reševanje teh izzivov uporabljamo model zaporedja v zaporedje s pozornostjo znakov, ki poleg samoučenih vdelav znakov uporablja vnaprej usposobljene vdelave besed s pristopom, ki modelira tudi podbesedne informacije. To omogoča nevronskemu modelu dostop do bolj jezikovnih informacij, še posebej primernih za normalizacijo besedila, brez velikih vzporednih korpusov. Pokazali smo, da zagotavljanje modela s funkcijami besednega nivoja premosti vrzel pri pristopu nevronskega omrežja, da bi dosegli najsodobnejšo oceno F1 na standardnem naboru podatkov o skupnih opravilih arabskega jezika popravka.Abstract
Isku-normisashada qoraalka waa mid muhiim ah oo u caawinaya teknolojiga shaqada badan ee NLP. Muddo u dhowaad, qaabooyin neurada ah oo shabakadda ku saleysan ayaa sameynay qaabab aad u dhisan. Si kastaba ha ahaatee, afka ingiriiska oo aan Ingiriis aheyn waxaa looga baaraandegay wax yar. Dhammaan macluumaadka dhibaatada iyo dhamaanka luqadu waxay kordhisaa dhibaatada dhibaatada. Si a an u qabsado dhibaatooyinkaas, waxaynu isticmaalnaa tusaale-qaab-soo-socod, kaas oo ka sokow warqaddiisa iskuul-bartay, wuxuu isticmaalaa hadal-ku-barta horay loo tababariyey, waana qaab uu sameynayo macluumaadka hoose-word. Taas waxay fidisaa tilmaamaha naadiga ah oo aad ka heli karto macluumaad luuqad ah oo si gaar ah u eg qoraalka caadiga ah, iyadoon shirkad lambar ah lahayn. Waxaynu muujinnaa in sameynta qaababka ku saabsan heer afka Carabi ah uu sameynayo fursadka shabakadda neurada si uu u gaadho iskuulka saxda afka Carabiga ee caadiga ah oo loo qaybiyey macluumaadka shaqada.Abstract
Normalizimi i tekstit është një teknologji e rëndësishme që mundëson disa detyra NLP. Recently, neural-network-based approaches have outperformed well-established models in this task. Megjithatë, në gjuhë të tjera përveç Anglishtit, ka pasur pak eksplorim në këtë drejtim. Si mungesa e të dhënave të shënuara dhe kompleksiteti i gjuhës rritin vështirësinë e problemit. Për t'i trajtuar këto sfida, ne përdorim një model sekuencë-në-sekuencë me vëmendje bazuar në karakter, i cili përveç përfshirjeve të karakterit të vet-mësuar, përdorë përfshirje fjalësh të paratrajnuar me një qasje që gjithashtu modelon informacionin e nënfjalëve. This provides the neural model with access to more linguistic information especially suitable for text normalization, without large parallel corpora. Ne tregojmë se furnizimi i modelit me karakteristika të nivelit të fjalëve mbulon hapësirën për qasjen e rrjetit nervor për të arritur një rezultat F1 më të lartë në një grup të dhënash të përbashkëta të korrigjimit të gjuhës arabe standard.Abstract
Normalizacija teksta je važna koja omogućuje tehnologiju za nekoliko NLP zadataka. Nedavno su pristupi na neuralnoj mreži izvršili dobro uspostavljene modele u ovom zadatku. Međutim, na jezicima osim engleskog, u ovom smjeru je bilo malo istraživanja. Oboje nedostatke annotiranih podataka i kompleksnosti jezika povećavaju teškoće problema. Da bi se riješili ovim izazovima, koristimo model sekvence na sekvenci sa pažnjom na karakteru, koji, dodatno njenim samouučenim integracijama karaktera, koristi predobučene rečenice sa pristupom koji takođe modele podrečene informacije. To omogućava neuralni model pristup više jezičkih informacija, posebno odgovarajućim za normalizaciju teksta, bez velikog paralelnog korpora. Pokazujemo da obezbeđujući model sa nivou riječi, predstavlja prazninu za pristup neuralnoj mreži kako bi postigao rezultat stanja umjetnosti F1 na standardnom kompletu podataka o korekciji jezika Arapskog jezika.Abstract
Textnormalisering är en viktig möjliggörande teknik för flera NLP-uppgifter. Nyligen har neurala nätverksbaserade metoder överträffat väletablerade modeller i denna uppgift. På andra språk än engelska har det dock gjorts lite utforskning i denna riktning. Både bristen på kommenterade data och språkets komplexitet ökar problemets svårighet. För att möta dessa utmaningar använder vi en sekvens-till-sekvensmodell med teckenbaserad uppmärksamhet, som förutom sina egenlärda teckenbäddningar använder ordinbäddningar förkunskaps med ett tillvägagångssätt som också modellerar underordsinformation. Detta ger den neurala modellen tillgång till mer språklig information särskilt lämplig för textnormalisering, utan stora parallella korporar. Vi visar att tillhandahålla modellen med ordnivåfunktioner överbryggar klyftan för neurala nätverksansatser för att uppnå en state-of-the-art F1 poäng på en vanlig arabisk språkkorrigering delade uppgiftsdata.Abstract
Ukawaida wa maandishi ni teknolojia muhimu kwa kazi kadhaa za NLP. Hivi karibuni, mbinu zilizoko kwenye mitandao ya kijamii zimeendelea mifano yenye imara katika kazi hii. Hata hivyo, kwa lugha mbalimbali ya Kiingereza, kulikuwa na uchunguzi mdogo katika mwelekeo huu. Udhaifu wa taarifa zinazokerwa na utata wa lugha unaongezea changamoto la tatizo hilo. Ili kukabiliana na changamoto hizi, tunatumia muundo wa mfululizo wa mfululizo wa mfululizo wenye mtazamo wa tabia, ambao kwa pamoja na kuweka kwa tabia yake ya kujifunza, hutumia maneno yaliyofundishwa kabla kwa njia inayoonyesha taarifa za subword. Hii inampa mtindo wa neura wenye upatikanaji wa taarifa za lugha hususani kwa ajili ya utaratibu wa maandishi, bila kampuni kubwa inayofanana. Tunaonyesha kuwa, kutoa mtindo wa kiwango cha maneno unaonyesha upande wa njia ya mtandao wa neura ili kupata kipindi cha hali ya sanaa ya F1 kwenye seti ya usahihishaji wa lugha ya Kiarabu inayosambazwa na takwimu za kazi.Abstract
சில NLP பணிகளுக்கு தொழில்நுட்பத்தை இயலுமைப்படுத்தும் முக்கியமானது. சமீபத்தில், புதிய வலைப்பின்னல் அடிப்படையிலான முறைமைகள் இந்த பணியில் நன்றாக நிறுவப்பட்ட மாதிரிகளை செய்த ஆனால், ஆங்கிலம் அல்லாத மொழிகளில், இந்த திசையில் சிறிய ஆராய்ச்சி இருந்தது. Both the scarcity of annotated data and the complexity of the language increase the difficulty of the problem. இந்த சவால்களை நிர்வகிக்க, நாம் ஒரு பின்வரிசையில் இருந்து வரிசையில் கவனத்தை பயன்படுத்துகிறோம். அது தன்னால் கற்றுக் கொண்ட எழுத்து கொடுக்கப்பட்டுள்ளதுக்கும இது மேலும் மொழி தகவலை அணுகும் புதிய மாதிரி வழங்குகிறது, பெரிய இணைப்பு கோர்போரா இல்லாமல், உரை இயல்பாக்கத்திற்கு சிறப நாம் மாதிரி வழங்கும் வார்த்தை- மட்டத்தின் குணங்களுடன் கொடுக்கும் பாதுகாப்பை காட்டுகிறோம் என்று காட்டுகிறோம். நிலையான அரபி மொழி திருAbstract
Metin normaliziýasy NLP işi üçin birnäçe tehnologiýany etmäge möhüm. Soňky wagtlar, näyral-şebeke tabanly nusgalar bu zada gowy düzenli nusgalar çykyp bardylar. Iňlisçe başga dillerde bu yönde kiçi bir gezek ýok. Nyşanlanan maglumatlaryň iň az bolmagy we diliň kynçylyklygyny kynçylyklygyny artýar. Bu kynçylyklary çözmek üçin, karakterlere tabanly üns berilýän bir sequencer-to-sequencer modelini ullanýarys. Öz öwrenmeli karakterler içerisinde bu şekilde özüne öwrenmeli karakterler içerisinde ullanýar. Üst-söz maglumaty örän bir ýaryşdyrma bilen öňünden öňünden öňünden Bu neural nusgasyny köp dil maglumaty üçin elýeterli, uly parallel korporasyz üçin ýeterli terjime edýär. Biz bu modeli kelime derejesi bilen üýtgetmek üçin näyral şebeke golaýynyň durumyny F1 nokatyny standart arap dilini düzeltmek üçin gaplaryny gollaýandyr.Abstract
ٹیکسٹ عامل کرنا ایک اہم ٹیکنالوجی ہے جو چند NLP ٹیکنالوجی کے لئے فعال کرتا ہے. اچھا، نیورل-نیٹ ورک-بنیادی طریقے اس کام میں بہت اچھی طریقے سے استعمال کیے گئے ہیں. لیکن، انگلیسی کے بغیر زبانوں میں، اس طرح بہت کم تحقیق ہے۔ دونوں مشکل کی مشکل میں اضافہ ہوتی ہے اور زبان کی پیچیدگی کی کمزوری۔ ان چالوں کے بارے میں ہم شخص بنیاد رکھنے والی موڈل کو استعمال کرتے ہیں، جو اپنی جان سکھایا ہوا شخص ابڈینگ کے علاوہ، ایک طریقہ سے پہلے آموزش کی کلمات ابڈینگ کو استعمال کرتا ہے جس کے ذریعہ مطابق سوبرویڈ معلومات کی مدل کرتی ہے۔ یہ نئورل موڈل کو زیادہ زبان شناسی معلومات کے لئے دسترسی دے رہا ہے، مخصوصاً ٹیکسٹ نارمولیزی کے لئے مناسب ہے، بغیر بڑے parallel corpora کے. ہم نشان دیتے ہیں کہ مدل کو لفظ لفظ کے ساتھ پیش کرتا ہے کہ نئورل نیٹورک کے تقریبا کے لئے فاصلہ پلائی جاتی ہے کہ ایک استاندارد عربی زبان کی اصلاح کرتی ہے جو مشترک ٹاکس ڈاٹ سٹ پر موجود ہوتی ہے.Abstract
Comment Yaqinda, neyrol tarmoq asosida murakkablar shu vazifani yaxshi oʻrnatilgan modellarni bajaradi. Lekin ingliz tildan boshqa tillar bilan bu usulda bir qidirish yo'q edi. Tilning murakkablarini qo'yish mumkin va muammolarning murakkablarini oshadi. Bu muammolarni murojaat qilish uchun biz qoidagi cheksiz modeldan foydalanamiz, uning o'z o'rganilgan belgilarni o'rganish qoidadan foydalanishimiz mumkin, bu soʻzni avval o'rganishdan oldin o'rganishdan foydalanadi, va bu soʻzni bir xil maʼlumot modelida foydalanadi. Name Biz bu modelni so'zlar darajasi bilan imkoniyatlar bilan birlashtirilgan vazifalar maʼlumotlarining andoza arab tilni tahrirlash uchun neyrol tarmoqning holatini bajarish uchun gap beradi.Abstract
Luyện tập văn bản là một công nghệ thuận lợi quan trọng cho nhiều công việc. Gần đây, các phương pháp dựa trên mạng thần kinh đã hoàn thành nhiều mẫu. Tuy nhiên, trong ngôn ngữ khác với tiếng Anh, có rất ít tìm hiểu về hướng này. Sự thiếu hụt dữ liệu ghi chú và sự phức tạp của ngôn ngữ làm tăng sự khó khăn của vấn đề. Để đối phó với những thử thách này, chúng tôi sử dụng một mô hình lặp lại với sự chú ý dựa trên các đặc điểm, mà thêm vào sự gắn ghép ký tự học, sử dụng những từ được xếp trước với một phương pháp mà cũng mô tả thông tin con từ. Nó cung cấp cho mô hình thần kinh có quyền truy cập vào nhiều thông tin ngôn ngữ đặc biệt thích hợp cho việc phục hồi văn bản, mà không có hạ sĩ song lớn. Chúng tôi cho thấy rằng cung cấp mô hình với các tính năng từ cung cấp sẽ là khoảng trống cho các thiết lập mạng thần kinh để đạt điểm F1 hiện đại trên một tập tin cấu hình ngôn ngữ tiếng Ả Rập tiêu chuẩn.Abstract
文本规范化数 NLP 之要术也。 近者,神经网络之道,优于成熟。 然英语外语言,殆无探索。 注数稀缺性语复杂性皆增其难。 凡此等挑战,以字符为序,自学字符嵌外,又用预练之词嵌之,其法犹对子词息建模。 这为神经访问多言息之权,尤宜文本规范化,而无大并语料库。 臣等明为模形单词功补神经网络差,以准阿拉伯语校正共享集上先F1分数。- Anthology ID:
- D18-1097
- Volume:
- Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing
- Month:
- October-November
- Year:
- 2018
- Address:
- Brussels, Belgium
- Venue:
- EMNLP
- SIG:
- SIGDAT
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 837–843
- Language:
- URL:
- https://aclanthology.org/D18-1097
- DOI:
- 10.18653/v1/D18-1097
- Bibkey:
- Cite (ACL):
- Daniel Watson, Nasser Zalmout, and Nizar Habash. 2018. Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 837–843, Brussels, Belgium. Association for Computational Linguistics.
- Cite (Informal):
- Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models (Watson et al., EMNLP 2018)
- Copy Citation:
- PDF:
- https://aclanthology.org/D18-1097.pdf
- Terminologies:
Export citation
@inproceedings{watson-etal-2018-utilizing, title = "Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models", author = "Watson, Daniel and Zalmout, Nasser and Habash, Nizar", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1097", doi = "10.18653/v1/D18-1097", pages = "837--843", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="watson-etal-2018-utilizing"> <titleInfo> <title>Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models</title> </titleInfo> <name type="personal"> <namePart type="given">Daniel</namePart> <namePart type="family">Watson</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Nasser</namePart> <namePart type="family">Zalmout</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Nizar</namePart> <namePart type="family">Habash</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2018-oct-nov</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Brussels, Belgium</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">watson-etal-2018-utilizing</identifier> <identifier type="doi">10.18653/v1/D18-1097</identifier> <location> <url>https://aclanthology.org/D18-1097</url> </location> <part> <date>2018-oct-nov</date> <extent unit="page"> <start>837</start> <end>843</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models %A Watson, Daniel %A Zalmout, Nasser %A Habash, Nizar %S Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing %D 2018 %8 oct nov %I Association for Computational Linguistics %C Brussels, Belgium %F watson-etal-2018-utilizing %R 10.18653/v1/D18-1097 %U https://aclanthology.org/D18-1097 %U https://doi.org/10.18653/v1/D18-1097 %P 837-843
Markdown (Informal)
[Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models](https://aclanthology.org/D18-1097) (Watson et al., EMNLP 2018)
- Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models (Watson et al., EMNLP 2018)
ACL
- Daniel Watson, Nasser Zalmout, and Nizar Habash. 2018. Utilizing Character and Word Embeddings for Text Normalization with Sequence-to-Sequence Models. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 837–843, Brussels, Belgium. Association for Computational Linguistics.