Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data Normaliseer nie- standardiseerde ortografie in Algerië kode- geskuif gebruiker- genereerde data ዶሴ `%s'ን ማስፈጠር አልተቻለም፦ %s تطبيع قواعد الإملاء غير المعيارية في البيانات التي يتم إنشاؤها بواسطة المستخدم بتبديل الأكواد الجزائرية Alžir Kodu-dəyişdirilmiş İstifadəçi Məlumatının Standardı olmayan Ortografi Нормализиране на нестандартизираната ортография в алжирски кодово-комутирани потребителски данни আলজেরিয়ার কোড- পরিবর্তন ব্যবহারকারীর তথ্য স্বাভাবিকভাবে অসমর্থিত অর্থোগ্রাফিকে স্বাভাবিক করা হচ্ছে Algerian Code-switched User-generated Data Normaliziranje neformalizirane pravoslave u Alžirskom kodu generirane podatke od korisnika Normalitzar l'ortografia no estandaritzada en dades generades per l'usuari amb codi algèric Normalizace nestandardizované ortografie v alžírském kódu přepínaná uživatelsky generovaná data Normalisering af ikke-standardiseret ortografi i algerisk kodekobling brugergenererede data Normalisierung der nicht standardisierten Orthographie in algerischer Code-Switched User-Generated Data Κανονικοποίηση μη τυποποιημένης ορθογραφίας σε αλγερινικά δεδομένα που παράγονται από χρήστη Normalización de la ortografía no estandarizada en datos argelinos generados por usuarios con cambio de código Mittestandarditud ortograafia normaliseerimine Alžeeria koodvahetusega kasutaja loodud andmetes سادهسازی دادههای ساخته شدهی کاربر به عنوان کد الجریه Standardoimattoman ortografian normalisointi algerialaisessa koodikytkentäisessä käyttäjän luomassa datassa Normalisation de l'orthographe non normalisée dans les données générées par l'utilisateur à commutation de code algérienne Ortagrafaíocht Neamhchaighdeánaithe a Normalú i Sonraí a ghintear leis an gCód-aistrithe ón Ailgéir KCharselect unicode block name נורמליזת אורתוגרפיה לא סטנדרטיזתית במידע שנוצר ע"י משתמשים שינוי קוד אלג'רי अल्जीरियाई कोड-स्विच्ड उपयोगकर्ता-जनित डेटा में गैर-मानकीकृत ऑर्थोग्राफ़ी को सामान्य बनाना Normaliziranje ne standardizirane pravoslave u Alžirskom kodu generirane podatke o korisniku Nem szabványosított ortográfia normalizálása algériai kódkapcsolt felhasználói által generált adatokban Նորմալիզացնում է ոչ ստանդարտիզացված օրագրություն ալգերիայի կոդով փոխված օգտագործողների ստեղծված տվյալներում Normalisasi Ortografi Tidak Standardisasi dalam Data Digerakkan oleh Pengguna yang ditukar Kode Algeria Normalizzazione dell'ortografia non standardizzata nei dati generati dall'utente a commutazione di codice algerino アルジェリアのコードスイッチされたユーザー生成データにおける標準化されていない正書法の正規化 AllProgressBarUpdates ალზერიის კოდის შეცვლით მომხმარებელი მონაცემების ნორმალიზება Алжир кодты ауыстырылған пайдаланушының құрылған деректерінде стандартты емес ортография нормализациясы 알제리 코드 변환 사용자 생성 데이터 중 비표준 정자법의 규범화 Nestandartizuotos ortografijos standartizavimas Alžyro kodu pakeistuose naudotojų sukurtuose duomenise Нормализирање на нестандардизираната правописност во алгериски код- изменет од корисник- генерирани податоци അല്ജീരിയയിലെ കോഡ്- മാറ്റുന്ന ഉപയോക്താവിന്റെ വിവരങ്ങളില് സാധാരണമാക്കുന്നു Алжир Код-өөрчлөгдсөн хэрэглэгч-үүсгэсэн өгөгдлийн стандарт биш ортографик Menormalkan Ortografi Tidak-standardisasi dalam Data-jana-pengguna yang ditukar-kod Algeria Normalizzazzjoni tal-Ortografija Mhux Standardizzata fid-Dejta Ġenerata mill-Utenti li tinbidel bil-Kodiċi Alġerijan Normaliseren van niet-gestandaardiseerde orthografie in Algerijnse code-switched User-generated Data Normaliserer ikkje standardiserte ortografikk i algerisk kode- bytt brukargenererte data Normalizacja niestandaryzowanej ortografii w algierskich danych generowanych przez użytkownika Normalizando a ortografia não padronizada em dados gerados pelo usuário argelinos comutados por código Normalizarea ortografiei nestandardizate în datele generate de utilizator Нормализация нестандартизированной орфографии в пользовательских данных, генерируемых с помощью алжирского кода අල්ජීරියාන් කෝඩ් වෙනස් කරපු ප්රයෝජකයේ සාමාන්යය නොස්ටැන්ඩර්ඩිස් විද්යාපනය කරන්න Normalizacija nestandardizirane ortografije v alžirskih podatkih, ki jih ustvarijo uporabniki Qoraalka qoyska ee Algerian Code-Switched User-generated Data Normalizimi i ortografisë jo-standardizuar në të dhënat e krijuara nga përdoruesit me kod algjerian Normaliziranje neostandardizovane pravoslave u Alžirskom kodu generirane podatke od korisnika Normalisera icke-standardiserad ortografi i algeriska kodväxlade användargenererade data Uweka taratibu zisizo na kiwango cha kurekebisha nchini Algeria அல்ஜிரிய குறியீடு- மாற்றப்பட்ட பயனர் தகவலில் இயல்பாக்கப்படாத வரிசைப்படுத்தப்படுகிறது Aljeriýan Kod-ewez Ullançy Tertiblenen Maglumaty آلجرین کوڈ میں غیر استاندارڈیز اورٹوگرافی کی تعمیر کی جاتی ہے Name Quy định trưng bày ngôn ngữ 在阿尔及利亚代码切换用户生成数中规范化非标准化正字法
Abstract
We work with Algerian, an under-resourced non-standardised Arabic variety, for which we compile a new parallel corpus consisting of user-generated textual data matched with normalised and corrected human annotations following data-driven and our linguistically motivated standard. We use an end-to-end deep neural model designed to deal with context-dependent spelling correction and normalisation. Results indicate that a model with two CNN sub-network encoders and an LSTM decoder performs the best, and that word context matters. Additionally, pre-processing data token-by-token with an edit-distance based aligner significantly improves the performance. We get promising results for the spelling correction and normalisation, as a pre-processing step for downstream tasks, on detecting binary Semantic Textual Similarity.Abstract
Ons werk met Algerië, 'n onder-hulpbron nie-standardiseerde Arabiese verskilligheid, waarvan ons 'n nuwe parallele korpus kompiler wat bestaan van gebruiker genereerde tekstuele data wat ooreenstem met normaliseerde en korrigeerde menslike notasies volgens data-gedrywe en ons lingwisiese motiveerde standaard. Ons gebruik 'n end- to- end diep neurale model ontwerp om te behandel met konteksafhanklike spel korreksie en normalisering. Resultate wys dat 'n model met twee CNN-subnetwerk koders en 'n LSTM dekoder die beste uitvoer, en daardie woord konteks saak. In addition, pre- processing data token- by- token with an edit- distance based aligner significantly improves the performance. Ons kry beloftende resultate vir die spelling korreksie en normalisering, as 'n voorafverwerking stap vir onderstreem opdragte, op die ontdekking van binêre semantiese teksverdigheid.Abstract
ከአልጋሪኛ ጋር በተመሳሳይ ያልተደገመ አረቢያ ልዩ አረቢያ ቋንቋ እናደርጋለን፡፡ ወደ መጨረሻ ጥልቅ የናውሮል ሞዴል እና የጽሑፍ ቃላት ማቀናቀል እና ትክክለኛነት ለመቀናቀል በተለየን ነው፡፡ ፍጥረቶቹ ሁለት CNN ደብዳቤ የኮድ ኮድ እና LSTM የኮድ ኮድ የተሻለ መሆኑን ማሳየት እና ይህም ቃል ግንኙነት ያስፈልጋል፡፡ በተጨማሪም፣ የቅድመ-ፕሮግራም ዳታ ምልክት-by-token በተቀማሚ-distance-aligner አድራጊውን በሙሉ ያበረታል፡፡ የቃላት ማቀናጃ እና ትክክለኛ ፍሬዎችን አግኝተናል፡፡Abstract
نحن نعمل مع مجموعة جزائرية ، وهي مجموعة عربية غير قياسية تفتقر إلى الموارد ، حيث نقوم بتجميع مجموعة موازية جديدة تتكون من بيانات نصية أنشأها المستخدم ومطابقة للتعليقات التوضيحية البشرية الموحدة والمصححة وفقًا لمعيارنا المستند إلى البيانات والدوافع اللغوية. نحن نستخدم نموذجًا عصبيًا عميقًا شاملاً مصممًا للتعامل مع التصحيح الإملائي والتطبيع المعتمد على السياق. تشير النتائج إلى أن النموذج الذي يحتوي على اثنين من مشفرات الشبكة الفرعية ووحدة فك ترميز LSTM يحقق أفضل أداء ، وأن سياق الكلمة مهم. بالإضافة إلى ذلك ، تُحسِّن المعالجة المسبقة للبيانات رمزًا برمزًا مع أداة محاذاة قائمة على مسافة التحرير الأداء بشكل كبير. نحصل على نتائج واعدة من أجل التصحيح الإملائي والتطبيع ، كخطوة معالجة مسبقة للمهام النهائية ، في اكتشاف التشابه النصي الدلالي الثنائي.Abstract
Biz Alžirlərlə birlikdə çalışırıq, standartları olmayan ərəbcə müxtəlif, bu üçün istifadəçi yaratdığı textual məlumatlardan oluşan yeni parallel korpus kompleksiyasına çevriliyik, normal və düzəldilən insan məlumatlarını verilən məlumatlardan və dilində motivatlı standartlarımızın ardınca düzəldilən məlumatlarla birlikdə. Biz məlumatları bağlı imzalamaq və normalizasyonla çəkmək üçün müəyyən edilmiş derin nöral modeli istifadə edirik. Sonuçlar iki CNN alt-şəbəkə kodlayıcısı və LSTM kodlayıcısı ilə modellərin ən yaxşısını və bu sözlərin məlumatlarını göstərir. Daha çox, edit-distance-based aligner ilə verilən məlumatlar token-by-token öyrənməsini çox yaxşılaşdırır. İkinci Semantik Textual Similaritəni keşfetmək üçün imzalamaq və normalizasyon üçün vəd verilən sonuçları alırıq.Abstract
Работим с алжирски, недостиг на ресурси нестандартизиран арабски сорт, за който съставяме нов паралелен корпус, състоящ се от генерирани от потребителите текстови данни, съчетани с нормализирани и коригирани човешки анотации, съобразени с данните и лингвистично мотивирани стандарти. Използваме задълбочен невронен модел от край до край, предназначен да се справи с корекция и нормализация на правописа в зависимост от контекста. Резултатите показват, че модел с два подмрежови кодера и декодер ЛСТМ изпълнява най-добре, а контекстът на думата има значение. Освен това предварителната обработка на данни символ по символ с подравняващ устройство на разстояние за редактиране значително подобрява производителността. Получаваме обещаващи резултати за корекция и нормализация на правописа, като стъпка на предварителна обработка за задачи надолу по веригата, при откриване на двоична семантична текстова сходство.Abstract
We work with Algerian, an under-resourced non-standardised Arabic variety, for which we compile a new parallel corpus consisting of user-generated textual data matched with normalised and corrected human annotations following data-driven and our linguistically motivated standard. আমরা একটি শেষ পর্যন্ত গভীর নিউরেল মডেল ব্যবহার করি যার পরিকল্পনা করা হয়েছে কন্টেক্স- নির্ভরিত বানান বানান সংস্কার এবং স্ ফলাফল নির্দেশ করে যে সিএনএন সাব-নেটওয়ার্ক এনকোডার এবং একটি LSTM ডিকোডার সেরা কাজ করে, এবং এই শব্দের প্রসঙ্গে গুরুত্বপূর্ণ। এছাড়াও, সম্পাদনার ভিত্তিক অঞ্চলের সাথে পূর্ব-প্রক্রিয়ার তথ্য প্রক্রিয়া চিহ্ন-বাই-অক্ষরের সাথে সম্পাদনার সূচনা বানান সংস্কার এবং স্বাভাবিক সংস্কারের প্রতিশ্রুতিশীল ফলাফল পাওয়া যাচ্ছে, বাইনারি সেম্যান্টিক টেক্স্টুয়ালের সামান্য প্রক্রিAbstract
We work with Algerian, an under-resourced non-standardised Arabic variety, for which we compile a new parallel corpus consisting of user-generated textual data matched with normalized and corrected human annotations following data-driven and our linguistically motivated standard. ང་ཚོས་མཐུན་སྣེ་མཐོང་གི་ནུས་པ་ཞིག་བེད་སྤྱོད་པའི་རྣམ་གྲངས་ཀྱི་མ་དཔེ་གཞི་གཅིག་གམ། གྲུབ་འབྲས་ཀྱིས་རྣམ་པ་ཞིག་ལ་མཐུད་པ་གཉིས་ཡོད་པའི་མིག་གཟུགས་རིས་དང་LSTM་སྦྲེལ་མཐུད་པ་དེ་སྐྱོན་ཤོས་བྱེད་ཀྱི་ ཁྱད་པར། ཞུན་དག་གི་བར་སྟོན་པའི་སྔོན་སྒྲིག་གི་བྱ་སྟངས་ལ་འགྲོ་སྟངས་ཀྱིས་ཞུན་དག་གི་མཐུན་སྒྲིག་ཡོད་པ ང་ཚོས་དག་ཆ་དང་རྒྱུན་ལྡན་བཟོ་བྱེད་ཀྱི་གནད་སྡུད་གྲུ་མཐུན་དང་ཆ་རྐྱེན་བཟོ་དགོས་པའི་གྲལ་ཤིག་ལ།Abstract
Radimo sa Alžirskim, pod resursima ne standardizovanom arapskom raznovrstvom, za koju kompiliramo novi paralelni korpus koji se sastoji od tekstualnih podataka koji su generirani korisnicima odgovarajućih normaliziranim i ispravnim ljudskim annotacijom nakon podataka i našeg jezički motiviranog standard a. Koristimo duboki neuralni model koji je dizajniran da se suoči sa korekcijom i normalizacijom pisanja ovisnog o kontekstu. Rezultati ukazuju na to da model sa dva podmrežna kodera CNN i LSTM dekodera najbolji izvodi, a taj kontekst riječi je važan. Osim toga, predobrađivanje podataka značajno poboljšava izvođenje. Dobili smo obećavajuće rezultate za korekciju i normalizaciju pisanja, kao korak predobrazovanja za zadatke, na otkrivanju binarne semantičke tekstualne sličnosti.Abstract
Treballem amb algèria, una varietat àrab sense recursos baixos i no estandaritzada, per la qual compilem un nou cos paral·lel, compost de dades textuals generades per l'usuari, acompanyades d'anotacions humanes normalitzades i corregides segons l'estandard basat en dades i motivat lingüísticament. Utilitzem un model neuronal profund de final a final dissenyat per tractar amb la correcció ortogràfica i la normalització dependient del context. Els resultats indican que un model amb dos codificadors de subxarxa CNN i un codificador LSTM fa el millor, i que el context de les paraules és important. A més, el preprocessament de dades fitxa per fitxa amb un allinjador basat en distància d'edició millora significativament el rendiment. Obtenim resultats prometedors per la correcció ortogràfica i la normalització, com un pas de pré-processament per tasques avall, en la detecció de la Similaritat Textual Semàtica binaria.Abstract
Spolupracujeme s Alžírštinou, nedostatečně zdrojovanou nestandardizovanou arabskou odrůdou, pro kterou sestavujeme nový paralelní korpus sestávající z uživatelsky generovaných textových dat, která jsou odpovídající normalizovaným a opraveným lidským anotacím podle datového a jazykově motivovaného standardu. Používáme komplexní hluboký neuronový model navržený k řešení kontextově závislé korekce a normalizace pravopisu. Výsledky ukazují, že model se dvěma síťovými síťovými sítěmi CNN a dekodérem LSTM funguje nejlépe a že na kontextu slova záleží. Navíc předzpracování dat token po tokenu pomocí zarovnávače založeného na editaci vzdálenosti výrazně zlepšuje výkon. Dostáváme slibné výsledky pro korekci pravopisu a normalizaci, jako krok předzpracování pro následné úlohy, na detekci binární sémantické textové podobnosti.Abstract
Vi arbejder med algerisk, en ikke-standardiseret arabisk sort, som vi sammensætter et nyt parallelt korpus bestående af brugergenererede tekstdata matchet med normaliserede og korrigerede menneskelige annotationer efter datadrevet og vores sprogligt motiverede standard. Vi bruger en end-to-end dyb neural model designet til at håndtere kontekstafhængig stavekorrektion og normalisering. Resultaterne indikerer, at en model med to CNN-undernetværkskodere og en LSTM-dekoder fungerer bedst, og at ordkontekst betyder noget. Derudover forhåndsbehandling af data token for token med en redigeringsafstandsbaseret justeringer forbedrer ydeevnen betydeligt. Vi får lovende resultater for stavekorrektion og normalisering, som et forhåndsbehandling trin for downstream opgaver, på detektering af binær Semantic Textual Similarity.Abstract
Wir arbeiten mit Algerian, einer nicht standardisierten arabischen Varietät, für die wir einen neuen parallelen Korpus erstellen, der aus nutzergenerierten Textdaten besteht, die mit normalisierten und korrigierten menschlichen Annotationen nach datengetriebenem und sprachlich motiviertem Standard übereinstimmen. Wir verwenden ein End-to-End tiefes neuronales Modell, das entwickelt wurde, um kontextabhängige Rechtschreibkorrektur und Normalisierung zu behandeln. Die Ergebnisse zeigen, dass ein Modell mit zwei CNN-Sub-Netzwerk-Encodern und einem LSTM-Decoder am besten funktioniert und dass Wortkontext wichtig ist. Darüber hinaus verbessert die Vorbearbeitung von Daten Token-by-Token mit einem edit-distance basierten Aligner die Leistung erheblich. Wir erhalten vielversprechende Ergebnisse für die Rechtschreibkorrektur und -normalisierung, als Vorverarbeitungsschritt für nachgelagerte Aufgaben, bei der Erkennung binärer semantischer Textgleichheit.Abstract
Συνεργαζόμαστε με την Αλγεριανή, μια μη τυποποιημένη αραβική ποικιλία που δεν διαθέτει επαρκείς πόρους, για την οποία καταρτίζουμε ένα νέο παράλληλο σώμα που αποτελείται από κειμενικά δεδομένα που δημιουργούνται από χρήστες που αντιστοιχούν με κανονικές και διορθωμένες ανθρώπινες σχολιάσεις ακολουθώντας δεδομένα και γλωσσικά κίνητρα πρότυπα μας. Χρησιμοποιούμε ένα ολοκληρωμένο βαθύ νευρωνικό μοντέλο σχεδιασμένο για την αντιμετώπιση ορθογραφικής διόρθωσης και ομαλοποίησης ανάλογα με το περιβάλλον. Τα αποτελέσματα δείχνουν ότι ένα μοντέλο με δύο κωδικοποιητές υποδικτύου και έναν αποκωδικοποιητή αποδίδει καλύτερα, και ότι το περιβάλλον λέξεων έχει σημασία. Επιπλέον, η προεπεξεργασία δεδομένων με έναν ευθυγραμμιστή με βάση την απόσταση επεξεργασίας βελτιώνει σημαντικά την απόδοση. Λαμβάνουμε πολλά υποσχόμενα αποτελέσματα για την ορθογραφική διόρθωση και την ομαλοποίηση, ως βήμα προεπεξεργασίας για μεταγενέστερες εργασίες, στην ανίχνευση δυαδικής Σημαντικής Ομοιότητας κειμένων.Abstract
Trabajamos con argelino, una variedad árabe no estandarizada con pocos recursos, para la cual compilamos un nuevo corpus paralelo que consiste en datos textuales generados por el usuario combinados con anotaciones humanas normalizadas y corregidas siguiendo nuestro estándar basado en datos y motivado lingüísticamente. Utilizamos un modelo neuronal profundo de extremo a extremo diseñado para hacer frente a la corrección ortográfica y la normalización en función del contexto. Los resultados indican que un modelo con dos codificadores de subred CNN y un decodificador LSTM funciona mejor, y que el contexto de palabras importa. Además, el procesamiento previo de datos ficha por ficha con un alineador basado en la distancia de edición mejora significativamente el rendimiento. Obtenemos resultados prometedores para la corrección ortográfica y la normalización, como un paso de preprocesamiento para tareas posteriores, en la detección de similitud textual semántica binaria.Abstract
Töötame Alžeeria keele, mis on alaressurssidega mittestandarditud araabia sort, mille jaoks koostame uue paralleelse korpuse, mis koosneb kasutajate loodud tekstiandmetest, mis on kooskõlas normaliseeritud ja korrigeeritud inimmärkustega, järgides andmepõhist ja keeleliselt motiveeritud standardit. Me kasutame otsast otsani sügavat närvimudelit, mille eesmärk on tegeleda kontekstist sõltuva õigekirja parandamise ja normaliseerimisega. Tulemused näitavad, et kahe CNN-alamvõrgu kodeerija ja LSTM dekooderiga mudel toimib kõige paremini ning et sõna kontekst on oluline. Lisaks parandab eeltöötlus andmete märgist märgist märgist märkimisväärselt jõudlust koos redigeerimisvahemikul põhineva joonduriga. Saame paljutõotavaid tulemusi õigekirja parandamisel ja normaliseerimisel järgnevate ülesannete eeltöötluse etapina binaarse semantilise tekstisarnasuse tuvastamisel.Abstract
ما با الجریه کار می کنیم، یک گونه مختلف بدون استاندارد متناسب عربی، که برای آن یک کورپوس جدید متناسب را ترکیب می کنیم که از داده های متناسب تولید شده از استفاده کننده متناسب با توضیحهای عادی و درست شده انسان با توضیح دادهها و استاندارد انگیزههای زبانی ما است. ما از یک مدل عصبی عمیق به پایان استفاده میکنیم که طراحی شده است تا با اصلاح و رسمسازی حرفزدن بستگی به محیط برخورد کند. نتیجه نشان میدهد که یک مدل با دو رمزدهندههای زیر شبکه CNN و یک رمزدهنده LSTM بهترین عمل میکند، و این محیط کلمه مهم است. اضافهای، نشان دادههای پیشپردازی با یک تنظیمکنندهی فاصلهی ویرایش، عملکرد را بسیار بهتر میکند. ما نتیجهی قولدهندهای برای اصلاح و عاملسازی نوشتهها، به عنوان قدم پیشپردازی برای کارهای پایینترین، در پیدا کردن شبیهسازی متنترین دوگانهای میگیریم.Abstract
Työskentelemme algerian, aliresurssoidun, standardoimattoman arabian lajikkeen kanssa, johon kokoamme uuden rinnakkaisen korpusen, joka koostuu käyttäjien luomasta tekstidatasta, joka on yhdistetty normalisoituihin ja korjattuihin inhimillisiin huomautuksiin datavetoisen ja kielellisesti motivoituneen standardimme mukaisesti. Käytämme päästä päähän -syväneuromallia, joka on suunniteltu käsittelemään kontekstista riippuvaa oikeinkirjoituksen korjausta ja normalisointia. Tulokset osoittavat, että malli, jossa on kaksi CNN-aliverkkokooderia ja LSTM-dekooderi, toimii parhaiten ja että sanakontekstilla on merkitystä. Lisäksi tietojen esikäsittely token-by-token ja muokkausetäisyyteen perustuva oikomislaite parantavat suorituskykyä merkittävästi. Saamme lupaavia tuloksia oikeinkirjoituksen korjaukseen ja normalisointiin jatkojalostusvaiheena binaarisen Semanttisen Tekstin samankaltaisuuden havaitsemisessa.Abstract
Nous travaillons avec l'algérien, une variété arabe non standardisée sous-financée, pour laquelle nous compilons un nouveau corpus parallèle composé de données textuelles générées par l'utilisateur associées à des annotations humaines normalisées et corrigées selon notre norme basée sur les données et motivée par la linguistique. Nous utilisons un modèle neuronal profond de bout en bout conçu pour traiter la correction orthographique et la normalisation en fonction du contexte. Les résultats indiquent qu'un modèle avec deux codeurs de sous-réseaux CNN et un décodeur LSTM fonctionne le mieux, et que le contexte de mot est important. De plus, le prétraitement des données jeton par jeton avec un aligneur basé sur la distance d'édition améliore considérablement les performances. Nous obtenons des résultats prometteurs pour la correction orthographique et la normalisation, en tant qu'étape de pré-traitement pour les tâches en aval, sur la détection de similarité textuelle sémantique binaire.Abstract
Oibrímid leis an Ailgéir, cineál Araibis neamhchaighdeánach gann-acmhainní, as a gcuirimid corpas comhthreomhar nua le chéile ina bhfuil sonraí téacsúla a ghintear ag an úsáideoir arna mheaitseáil le nótaí daonna normalaithe agus ceartaithe de réir ár gcaighdeán atá bunaithe ar shonraí agus ár gcaighdeán teanga-spreagtha. Bainimid úsáid as samhail néaránach domhain ó cheann go ceann atá deartha chun déileáil le ceartú agus normalú litrithe a bhraitheann ar an gcomhthéacs. Tugann torthaí le fios gurb é samhail ina bhfuil dhá ionchódóir fo-líonra CNN agus díchódóir LSTM a fheidhmíonn an chuid is fearr, agus go bhfuil comhthéacs focal tábhachtach. Ina theannta sin, feabhsaítear an fheidhmíocht go mór le réamhphróiseáil sonraí comhartha-ar-chomhartha le hailíniú ar achar eagarthóireacht-bhunaithe. Faighimid torthaí geallta maidir le ceartú agus normalú litrithe, mar chéim réamhphróiseála do thascanna iartheachtacha, ar Chosúlacht Dhénártha Shéimeantach Téacs a bhrath.Abstract
Tuna aiki da Algerian, wani nau'i na-da-resource ba-da-daraja na Larabci, wanda Muke haɗa wani nau'i na takarda, wanda ya sami data na wanda aka haife shi na rubutu wanda ya yi amfani da shi yana daidaita da takardar da masu daidaita da takardar mutane a bayan da aka tafiyar da data-da kuma a cikin linguistic wanda aka yi motsi da shi. Tuna amfani da wani misali mai ƙari zuwa ƙari na ƙari wanda aka yi zato don ka yi amfani da shiryarwa na fassarar magana da kuma mai daidaita. Mataimakin na nuna cewa wata motel mai ƙunsa da kodi biyu na CNN sub-net- tarayya da wani LSM na aikata mafi kyaun aiki, kuma wannan magana yana da muhimu. Ƙaramiwa, data na gaba ga-aiki shine-by-tag da wani mai edit-nĩsa mai ƙayyade matsayin ya gyãra babba. Tuna sãmu masu yiwuwa da ake yi wa'adi ga korrekin littãfi da kuma mai daidaita, kamar wata hanyoyi ta gabã ɗaya wa aikin na downriver, a kan gane na littãfin na biyu na Semantic Similarity.Abstract
אנו עובדים עם אלג'רית, מגוון ערבי לא סטנדרטי מתחת למוצעים, עבור מה אנו אוספים גוף מקביל חדש שמכיל נתונים טקסטיים יוצרים ע"י משתמשים שמתאימים עם ציונים אנושיים נורמליים ומתוקנים בעקבות נתונים מונעים והסטנדרט השפתי המוטיבציה שלנו. אנחנו משתמשים בדוגמא עצבית עמוקה מסוף לסוף, שנועדת להתמודד עם תיקון תיאום תלוי בקשר ונורמליזציה. התוצאות מצביעות על כך שמודל עם שני קודדים תת-רשת CNN ומקודד LSTM מבצע את הטוב ביותר, והקשר המילה משנה. בנוסף, מידע מראש לעבודה, סימן-על-סימן עם מגוון מבוסס על מרחק עורך, משפר את ההופעה באופן משמעותי. אנחנו מקבלים תוצאות מבטיחות לתיקון האיתוף והנורמליזציה, בתור צעד לפני העבודה למשימות מתקדמות, על גילוי דמיון טקסטולי סמנטי בינרי.Abstract
हम अल्जीरियाई के साथ काम करते हैं, एक अंडर-रिसोर्स्ड गैर-मानकीकृत अरबी किस्म, जिसके लिए हम एक नया समानांतर कॉर्पस संकलित करते हैं जिसमें उपयोगकर्ता-जनित पाठ्य डेटा शामिल है जो डेटा-संचालित और हमारे भाषाई रूप से प्रेरित मानक के बाद सामान्यीकृत और सही मानव एनोटेशन के साथ मेल खाता है। हम संदर्भ-निर्भर वर्तनी सुधार और सामान्यीकरण से निपटने के लिए डिज़ाइन किए गए एक एंड-टू-एंड गहरे तंत्रिका मॉडल का उपयोग करते हैं। परिणामों से संकेत मिलता है कि दो सीएनएन उप-नेटवर्क एनकोडर और एक एलएसटीएम डिकोडर के साथ एक मॉडल सबसे अच्छा प्रदर्शन करता है, और यह शब्द संदर्भ मायने रखता है। साथ ही, एक संपादन-दूरी आधारित संरेखक के साथ पूर्व-संसाधन डेटा टोकन-दर-टोकन कार्यक्षमता में काफी सुधार करता है। हमें वर्तनी सुधार और सामान्यीकरण के लिए आशाजनक परिणाम मिलते हैं, डाउनस्ट्रीम कार्यों के लिए एक पूर्व-प्रसंस्करण चरण के रूप में, बाइनरी सिमेंटिक टेक्स्टुअल समानता का पता लगाने पर।Abstract
Radimo s Alžirskim, pod resursima ne standardiziranom arapskom raznovrstvom, za kojom kompiliramo novi paralelni korpus koji se sastoji od tekstualnih podataka koji su generirani korisnicima odgovaraju normaliziranim i ispravnim ljudskim annotacijom nakon podataka i našeg jezički motiviranog standard a. Koristimo duboki neuralni model koji je dizajniran kako bi se suočili s korekcijom i normalizacijom pisanja ovisnog o kontekstu. Rezultati ukazuju na to da model sa dva podmrežna kodera CNN-a i LSTM dekodera najbolji izvodi, a taj kontekst riječi je važan. Osim toga, značajno poboljšava učinkovitost predobrađivanja podataka za token po token s usklađivačem na temelju razdaljine. Dobijamo obećavajuće rezultate za ispravu i normalizaciju pisanja, kao korak predobrazovanja za zadatke niz stranu, na otkrivanju binarne semantičke tekstualne sličnosti.Abstract
Az algériai, nem szabványosított arab fajtával dolgozunk, amelyhez egy új párhuzamos korpuszt állítunk össze, amely felhasználók által generált szöveges adatokból és normalizált és korrigált emberi megjegyzésekből áll, az adatközpontú és nyelvi szempontból motivált szabványunkat követően. A kontextusfüggő helyesírás korrekciójának és normalizációjának kezelésére szolgáló end-to-end mélyneurális modellt használunk. Az eredmények azt mutatják, hogy a két CNN alhálózati kódolóval és LSTM dekódolóval rendelkező modell teljesíti a legjobbat, és ez a szó kontextusa számít. Ezenkívül az adatok tokenenként történő előfeldolgozása a szerkesztési távolság alapú igazítóval jelentősen javítja a teljesítményt. Ígéretes eredményeket kapunk a helyesírás korrekciója és normalizálása terén, mint a downstream feladatok előfeldolgozása, a bináris szemantikus textuális hasonlóság felismerése terén.Abstract
Մենք աշխատում ենք ալգերիայի հետ, որի համար մենք կառուցում ենք նոր զուգահեռ մարմին, որը կազմված է օգտագործողի կողմից ստեղծված տեքստային տվյալների հետ, որոնք համապատասխանում են մարդկային նորմալ և ճշգրիտ նոտացիաներին, որոնք հետևում են տվյալների և լեզվաբանական մոտիվացված ստանդարտներին: Մենք օգտագործում ենք վերջ-վերջ խորը նյարդային մոդել, որը նախագծված է հաղորդակցվելու կոնտեքստից կախված վիճակագրության կարգավորման և նորմալիզացիայի հետ: Արդյունքները ցույց են տալիս, որ մոդելը, որը ունի երկու CNN-ի ենթացանցի կոդեր և LSMT-ի կոդեր, լավագույնն է աշխատում, և որ բառի կոնտեքստը կարևոր է: Additionally, pre-processing data token-by-token with an edit-distance based aligner significantly improves the performance. Մենք ստանում ենք խոստացնող արդյունքներ ուղղագրության ճշտման և նորմալիզացիայի համար, որպես նախավերլուծության քայլ հետագա խնդիրների համար, երկու սեմանտիկ տեքստոլային նմանության հայտնաբերման համար:Abstract
Kami bekerja dengan Algeria, sebuah variasi Arab yang tidak standardisasi yang tidak memiliki sumber daya, yang kami kumpulkan sebuah korpus paralel baru yang terdiri dari data tekstual yang dibuat oleh pengguna yang cocok dengan anotasi manusia yang normalisasi dan diperbaiki mengikuti standar data-driven dan bahasa-motivasi kami. Kami menggunakan model saraf yang mendalam yang direncanakan untuk menangani koreksi ejaan tergantung konteks dan normalisasi. Hasil menunjukkan bahwa model dengan dua pengekode sub-jaringan CNN dan pengekode LSTM melakukan yang terbaik, dan bahwa konteks kata penting. Selain itu, proyeksi data token-by-token dengan penyesuaian berdasarkan jarak-edit meningkatkan prestasi secara signifikan. Kami mendapat hasil yang berjanji untuk koreksi ejaan dan normalisasi, sebagai langkah praproyek untuk tugas turun, pada mendeteksi Similaritas Teks Seman binari.Abstract
Lavoriamo con l'algerino, una varietà araba non standardizzata poco dotata di risorse, per la quale compiliamo un nuovo corpus parallelo costituito da dati testuali generati dagli utenti abbinati a annotazioni umane normalizzate e corrette secondo i dati e il nostro standard linguistico motivato. Utilizziamo un modello neurale profondo end-to-end progettato per affrontare la correzione ortografica dipendente dal contesto e la normalizzazione. I risultati indicano che un modello con due codificatori di sottorete CNN e un decoder LSTM esegue il meglio, e che il contesto della parola è importante. Inoltre, la pre-elaborazione dei dati token per token con un allineamento basato sulla distanza di modifica migliora significativamente le prestazioni. Otteniamo risultati promettenti per la correzione ortografica e la normalizzazione, come fase di pre-elaborazione per le attività a valle, sul rilevamento della somiglianza testuale semantica binaria.Abstract
私たちは、資源不足の標準化されていないアラビア語の品種であるアルジェリア語と協力しています。そのために、ユーザーが生成したテキストデータと、データ駆動型で言語的に動機づけられた標準に従って正規化され、修正された人間の注釈とを一致させた新しい平行コーパスをまとめています。文脈依存のスペル修正と正規化を扱うように設計されたエンドツーエンドの深層ニューラルモデルを使用しています。結果は、2つのCNNサブネットワークエンコーダとLSTMデコーダを有するモデルが最良の性能を発揮し、単語の文脈が重要であることを示す。さらに、編集距離ベースのアライナーでデータトークンごとに前処理すると、パフォーマンスが大幅に向上します。私たちは、下流タスクの前処理ステップとして、バイナリセマンティックテキスト類似性の検出に関するスペル修正と正規化の有望な結果を得ます。Abstract
Awak dhéwé nggawe Alger, sing paling-perusahaan karo urip sing gak bener tentang karo perusahaan karo perusahaan sing gak dhéwé, nggo dhewe nyimpen karo perusahaan langkung wih dumaten sing isiné terakhir nggawe nguasai perusahaan seneng dadi nggawe daftar wih dumaten lan ijol-ijolan data podho nggawe barang-ijolan og Awak dhéwé éntuk model sing nganggo maneh dumadhi kuwi nggawe barang kelas ngubah ujaran karo perusahaan kelompok barang nggawe barang urip. Pametuné mungkin sapa model karo akeh koder apa-netek lan dekoraké LTT sing luwih apik dhéwé, lan kelas kontèks kuwi sak barang. Label Where's this text?Abstract
ჩვენ ალზერიანური მუშაობით მუშაობით, არაფერი განსხვავებული არაფერი განსხვავებით, რომელიც ჩვენ კომპილიცირებთ ახალი პარალელი კორპუსს, რომელიც გამოიყენებული ტექსუალური მონაცემებით, რომელიც ნორმალურად და და ჩვენ გამოყენებთ კონტექსტური წერტილის შესახებ და ნორმალიზაციას, რომელიც დავაკეთებული კონტექსტური წერტილის შესახებ. Results indicate that a model with two CNN sub-network encoders and an LSTM decoder performs the best and that word context matters. დამატებით, მონაცემების ტოკენ-დამატებით წინაწყება რედაქტირებული განტოლების დამატებით მნიშვნელოვანი გაუქმედება. ჩვენ მივიღეთ გვეუბნებული წარმოდგენები წარმოდგენისთვის და ნორმალიზაციისთვის, როგორც წარმოდგენისთვის წარმოდგენისთვის კონტრექტიური დავალებისთვის, როგორც წარმოდგAbstract
Біз Алжир тілінде жұмыс істейміз, стандартты араб тілінде стандартты емес, бұл үшін пайдаланушылардың құрылған мәтіндік деректерінің жаңа параллел корпус компиляциясы, кәдімгі және адамдардың жазбаларына сәйкес келетін жаңа адамдар Біз контексті тәуелді емледі түзету және нормализациялау үшін құрылған дыбыс невралдық үлгісін қолданамыз. Нәтижелер CNN ішкі желінің кодерлері мен LSTM декодері бар үлгісі ең жақсы жұмыс істейді және сөздің контексті маңызды. Қосымша, өңдеу қашықтығын негіздеген түзетушімен деректерді алдын- өңдеу белгісінің белгісін өзгерту мүмкіндігін өзгертеді. Емлетін түзету және нормализациялау үшін, төменгі тапсырмалар үшін алдын- процесселу қадамы ретінде, бинарлық семантикалық мәтіндік ұқсастығын анықтау үшін біз үмітті нәтижелердіAbstract
우리는 Algerian과 협력하여 자원이 부족한 비표준화 아랍어 변체이다. 이를 위해 우리는 사용자가 생성한 텍스트 데이터로 구성되어 표준화되고 수정된 인류 주석과 일치하며 데이터 구동과 우리의 언어 동기 표준을 따르는 새로운 평행 어료 라이브러리를 컴파일했다.우리는 상하문과 관련된 맞춤법 교정과 규범화를 처리하기 위해 끝에서 끝까지의 심층 신경 모형을 사용한다.그 결과 두 개의 CNN 서브넷 인코더와 한 개의 LSTM 디코더가 달린 모델이 가장 성능이 좋고 단어의 상하문도 중요하다는 것이 밝혀졌다.또한 편집 거리 기반의 정렬기를 사용하여 미리 처리된 데이터를 표시하여 성능을 현저히 향상시켰다.하위 임무의 사전 처리 절차로서 우리는 이원어의 텍스트 유사도를 측정하는 데 만족스러운 결과를 얻었다.Abstract
Mes dirbame su Alžyru, nepakankamai išteklių neturinčia standartizuota arabų veisle, kuriai sukuriame naują paralelinį korpusą, sudarytą iš naudotojų sukurtų tekstinių duomenų, atitinkančių normalizuotas ir pataisytas žmogaus anotacijas pagal duomenimis pagrįstą ir mūsų kalbiniu motyvuotą standartą. Naudojame giliųjų nervų model į, sukurtą atsižvelgiant į kontekstą priklausomam rašybos koregavimui ir normalizavimui. Rezultatai rodo, kad modelis su dviem CNN posistemio kodatoriais ir LSTM dekoderiu atlieka geriausius rezultatus ir kad žodžių kontekstas yra svarbus. Be to, iš anksto apdorojant duomenis kiekvienu ženklu su redakcijos atstumu pagrįstu derintuvu gerokai pagerinami rezultatai. Mes gauname pažadėtinus rašybos koregavimo ir normalizavimo rezultatus, kaip išankstinio apdorojimo žingsnį tolesnėms užduotims, nustatant dvišalį Semantinį tekstualinį panašumą.Abstract
Работиме со алгеријанска, нестандардизирана арапска различност, за која компилираме нов паралелен корпус кој се состои од текстуални податоци генерирани од корисникот, во согласност со нормализирани и коригирани човечки анотации по податоците и нашиот јазички мотивиран стандард. We use an end-to-end deep neural model designed to deal with context-dependent spelling correction and normalisation. Results indicate that a model with two CNN sub-network encoders and an LSTM decoder performs the best, and that word context matters. Покрај тоа, предобработувањето на податоци знак по знак со уредувач базиран на оддалеченост значително ја подобрува перформансата. Добиваме ветувачки резултати за корекцијата на правописот и нормализацијата, како чекор на преобработувањето на задачите во понатамошниот текст, за детектирање на бинарна семантична текстуална сличност.Abstract
വിഭവങ്ങളില്ലാത്ത അറബി വ്യത്യസ്തമായ ഒരു ആല്ജീരിയയുടെ കൂടെ ഞങ്ങള് ജോലി ചെയ്യുന്നു. അതിനാല് വിവരങ്ങള് പ്രവര്ത്തിപ്പിക്കുന്നതിന്റെ പുതിയ പാരാളല് കോര്പ്പുകള് കൂട്ട നമ്മള് ആഴത്തിലേക്ക് അവസാനിക്കുന്ന ആഴത്തിലെ നെയൂറല് മോഡല് ഉപയോഗിക്കുന്നു. കെന്സ്റ്റെക്സ്റ്റെന്റ് ആശ @ info: status Additionally, pre-processing data token-by-token with an edit-distance based aligner significantly improves the performance. ബൈനരി സെമാന്റിക് ടെക്സ്റ്റെക്സ്റ്റൂളിക് സമമാണ് കണ്ടുപിടിക്കുന്നതിന് വേണ്ടി വാക്ക് സംസാരിപ്പിക്കുന്നതിനും സാധാരണ പരിധAbstract
Бид Алжир хэлбэртэй хамт ажилладаг. Араб хэлбэрээр багасгүй стандарт биш байдаг. Энэ үед хэрэглэгчийн бий болсон текст өгөгдлийг хэрэглэгчдийн хувьд бүрдүүлдэг шинэ параллел корпус бүрдүүлдэг. Бид контекст хамааралтай бичлэг зөв болон нормализацийг зохицуулахын тулд дүн гүнзгий мэдрэлийн загварыг ашигладаг. Үүний үр дүнд CNN суб-сүлжээний кодер болон LSTM декодер нь хамгийн сайн үйлдвэрлэж байгааг харуулж байна. Энэ үг дотоод чухал. Үүнээс хамгийн түгээмэл, өмнө үйлдвэрлэх өгөгдлийн ток-ток-ток-ток-ток-ток нь зай-зай дээр суурилуулагч нь үйлдвэрлэлийг маш сайжруулдаг. Бид бичлэгийн зөв болон нормализацийн үр дүн гаргаж ирнэ. Бид доорх үйл ажиллагааны хувьд хоёр давхар Semantic Textual Similarity-г олж мэдэх үед хоёр давхар үйл ажиллагааны алхам болно.Abstract
Kami bekerja dengan Algeria, berbagai jenis Arab tidak-standardisasi yang tidak mempunyai sumber-sumber, untuk yang kami kumpulkan korpus paralel baru yang terdiri dari data teks yang dijana oleh pengguna yang sepadan dengan anotasi manusia yang normalisasi dan betul mengikut data-driven dan standar motivasi bahasa kami. Kami menggunakan model saraf yang mendalam yang direka untuk menghadapi perbaikan ejaan yang bergantung pada konteks dan normalisasi. Keputusan menunjukkan bahawa model dengan dua pengekod bawahrangkaian CNN dan pengekod LSTM melakukan yang terbaik, dan bahawa konteks perkataan penting. Lagipun, token-demi-token data pra-proses dengan penyesuaian berasaskan jarak-edit meningkatkan prestasi secara signifikan. Kami mendapat keputusan yang berjanji untuk penyesuaian ejaan dan normalisasi, sebagai langkah pra-proses untuk tugas turun, mengenai mengesan Simulasi Teks Seman binari.Abstract
Aħna naħdmu mal-Alġerijan, varjetà Għarbija mhux standardizzata b’riżorsi baxxi, li għaliha niġbru korpus parallel ġdid li jikkonsisti f’dejta testwali ġġenerata mill-utent imqabbel ma’ annotazzjonijiet umani normalizzati u korretti skont l-istandard tagħna motivat b’mod lingwistiku u bbażat fuq id-dejta. Aħna nużaw mudell newrali profond minn tarf sa tarf iddisinjat biex jittratta l-korrezzjoni u n-normalizzazzjoni tal-ortografija dipendenti fuq il-kuntest. Ir-riżultati jindikaw li mudell b’żewġ kodifikaturi tas-sottonetwerk CNN u dekoder LSTM iwettaq l-a ħjar, u li l-kuntest tal-kelma huwa importanti. Barra minn hekk, l-ipproċessar minn qabel tad-dejta token b’token b’allinjatur ibbażat fuq id-distanza tal-edit itejjeb b’mod sinifikanti l-prestazzjoni. Għandna riżultati promettenti għall-korrezzjoni u n-normalizzazzjoni tal-ortografija, bħala pass ta’ qabel l-ipproċessar għal kompiti downstream, dwar l-iskoperta ta’ Similarità Tekstiva Semantika binarja.Abstract
We werken met Algerijns, een niet-gestandaardiseerde Arabische variant met weinig middelen, waarvoor we een nieuw parallel corpus samenstellen bestaande uit door gebruikers gegenereerde tekstgegevens gekoppeld aan genormaliseerde en gecorrigeerde menselijke annotaties volgens datagedreven en taalkundig gemotiveerde standaard. We gebruiken een end-to-end diep neuraal model ontworpen om contextafhankelijke spellingscorrectie en normalisatie te behandelen. Resultaten geven aan dat een model met twee CNN sub-netwerk encoders en een LSTM decoder het beste presteert en dat woordcontext belangrijk is. Bovendien verbetert het pre-processing van data token-by-token met een edit-distance gebaseerde aligner de prestaties aanzienlijk. We krijgen veelbelovende resultaten voor de spellingscorrectie en normalisatie, als voorverwerkingsstap voor downstreamtaken, op het detecteren van binaire semantische tekstgelijkenis.Abstract
Vi arbeider med algerisk, ein underressursert ikkje-standardisert arabisk variasjon, som vi kompiler eit nytt parallell korpus som består av brukargrende tekstdata som passar med normaliserte og korrigerte menneske notasjonar etter datadrivte og vår lingvisk motivert standard. Vi brukar ein dyp neuralmodell for slutten til slutten for å handsama med kontekstavhengig stavekorreksjon og normalisering. Resultata tyder på at eit modell med to CNN-undernettverkskodar og ein LSTM-dekoder utfører det beste, og det ordkonteksten er viktig. I tillegg forhandteraren av data-token-etter-token med ein redigeringsavstandsbasert justering forbetrar utviklinga. Vi får promiserende resultat for stavekorreksjonen og normalisering, som eit forhandteringssteg for nedstrekkoppgåver, ved å finna binær semiantisk tekstulikhet.Abstract
Współpracujemy z algierską, niewyposażoną w zasoby odmianą arabską, dla której tworzymy nowy równoległy korpus składający się z generowanych przez użytkownika danych tekstowych dopasowanych ze znormalizowanymi i skorygowanymi adnotacjami ludzkimi według danych i naszego językowo motywowanego standardu. Używamy kompleksowego głębokiego modelu neuronowego zaprojektowanego do radzenia sobie z korekcją i normalizacją pisowni zależną od kontekstu. Wyniki wskazują, że model z dwoma koderami podsieciowymi CNN i dekoderem LSTM sprawdza się najlepiej, a kontekst słowa ma znaczenie. Dodatkowo wstępne przetwarzanie danych token-po-token za pomocą liniera edycyjnego opartego na odległości znacznie poprawia wydajność. Otrzymujemy obiecujące wyniki korekcji pisowni i normalizacji, jako etapu wstępnego przetwarzania dla dalszych zadań, w zakresie wykrywania binarnych podobieństw tekstowych.Abstract
Trabalhamos com argelino, uma variedade árabe não padronizada e com poucos recursos, para a qual compilamos um novo corpus paralelo que consiste em dados textuais gerados pelo usuário combinados com anotações humanas normalizadas e corrigidas seguindo nosso padrão orientado a dados e motivado lingüisticamente. Usamos um modelo neural profundo de ponta a ponta projetado para lidar com a correção ortográfica e a normalização dependentes do contexto. Os resultados indicam que um modelo com dois codificadores de sub-rede CNN e um decodificador LSTM tem o melhor desempenho, e que o contexto da palavra é importante. Além disso, o pré-processamento de dados token por token com um alinhador baseado em distância de edição melhora significativamente o desempenho. Obtemos resultados promissores para a correção ortográfica e normalização, como uma etapa de pré-processamento para tarefas downstream, na detecção de Similaridade Textual Semântica binária.Abstract
Lucrăm cu algerian, un soi arab nespecializat cu resurse insuficiente, pentru care compilăm un nou corpus paralel format din date textuale generate de utilizatori corelate cu adnotări umane normalizate și corectate în urma standardului nostru motivat lingvistic și bazat pe date. Folosim un model neural profund end-to-end conceput pentru a face față corecției ortografice dependente de context și normalizării. Rezultatele indică faptul că un model cu două codificatoare CNN sub-rețea și un decodor LSTM performează cel mai bine, iar contextul cuvântului contează. În plus, prelucrarea datelor token cu token cu un alinier bazat pe distanță de editare îmbunătățește semnificativ performanța. Obținem rezultate promițătoare pentru corectarea ortografiei și normalizarea, ca un pas de pre-procesare pentru sarcinile din aval, pentru detectarea similarității textuale semantice binare.Abstract
Мы работаем с алжирским, нестандартизированным арабским сортом с недостаточными ресурсами, для которого мы составляем новый параллельный корпус, состоящий из созданных пользователем текстовых данных, сопоставленных с нормализованными и исправленными человеческими аннотациями в соответствии с управляемым данными и нашим лингвистически мотивированным стандартом. Мы используем сквозную глубокую нейронную модель, предназначенную для работы с контекстно-зависимой коррекцией и нормализацией орфографии. Результаты показывают, что модель с двумя подсетевыми кодировщиками CNN и декодером LSTM работает лучше всего, и что контекст слова имеет значение. Кроме того, предварительная обработка данных маркером по маркеру с помощью выравнивателя, основанного на расстоянии редактирования, значительно повышает производительность. Мы получаем многообещающие результаты для коррекции и нормализации орфографии, в качестве этапа предварительной обработки для последующих задач, по обнаружению бинарного семантического текстового сходства.Abstract
අපි ඇල්ජීරියාන් එක්ක වැඩ කරනවා, අඩුරු ප්රමාණයක් නොස්ටැන්ඩරිස් අරාබියාන් වර්ගයක්, ඒ වගේම අපි අළුත් සමාන්ය කොර්පුස් එක්ක සම්පූර්ණය කරලා ප්රම අපි අවසානයෙන් අවසානයෙන් ගොඩක් න්යූරල් මොඩේලයක් භාවිතා කරනවා සම්බන්ධ විශේෂය සහ සාමාන්ය විශේ ප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප්රතිප් තවත්, ප්රක්රියාස කරනවා තොරතුරු ටෝකෙන් වෙනුවෙන් ප්රක්රියාස කරනවා අපිට පොරොන්දු විදිහට ප්රතිචාරයක් ලැබෙනවා වාක්ෂණය සහ සාමාන්ය විදිහට, ප්රතිචාරයක් විදිහට ප්රතිචාරයක් විදිහට,Abstract
Sodelujemo z alžirsko, nestandardizirano arabsko sorto, za katero sestavljamo nov vzporedni korpus, sestavljen iz uporabniških besedilnih podatkov, ki se ujemajo z normaliziranimi in popravljenimi človeškimi opombami po podatkovno usmerjenih in jezikovno motiviranih standardih. Uporabljamo globok nevronski model od konca do konca, zasnovan za ukvarjanje s popravkom črkovanja in normalizacijo, odvisnim od konteksta. Rezultati kažejo, da je model z dvema CNN podomrežnima kodirnikoma in LSTM dekodirnikom najboljši, besedni kontekst pa je pomemben. Poleg tega predobdelava podatkov žeton za žetonom z poravnalnikom na podlagi razdalje urejanja znatno izboljša učinkovitost. Dobimo obetavne rezultate pri popravku črkovanja in normalizaciji, kot korak predobdelave za nadaljnja opravila, pri odkrivanju binarne semantične besedilne podobnosti.Abstract
We work with Algerian, an under-resourced non-standardised Arabic variety, for which we compile a new parallel corpus consisting of user-generated textual data matched with normalised and corrected human annotations following data-driven and our linguistically motivated standard. Waxaynu isticmaalnaa tusaale ugu dambaysta neurada ah oo loo qoray inuu kala macaamiloodo hagitaanka saxafka ku xiran ee ku xiran hadalka iyo caadiga ah. Midhaha resultadu waxay ka muuqataa in model with two CNN-sub-network codidayaal and an LSTM decoder uu sameeyo kuwa ugu wanaagsan, oo hadalkaasna waa muhiim. Waxaa kaloo dheer, calaamad-by-token-by-tag oo ku saleysan tahrir-distance si fiican ayuu u bedelaa sameynta. Waxaan helaynaa resultooyin ballan ah oo ku saabsan hagitaanka saxafka iyo caadiga ah, sida jardiino ka hor baaraandegista shaqada hoose-dureerka ah, marka lagu ogaado isku mid ahaanshaha labaad ee qoraalka.Abstract
Ne punojmë me algjerian, një varietet arab jo-standardizuar me pak burime, për të cilin mbledhim një korpus paralel të ri që përbëhet nga të dhënat tekstuale të gjeneruara nga përdoruesit, të përshtatshme me anotacionet njerëzore të normalizuara dhe të korrigjuara pas standartit tonë të motivuar gjuhësisht. We use an end-to-end deep neural model designed to deal with context-dependent spelling correction and normalisation. Rezultatet tregojnë se një model me dy koduesit e nënrrjetit CNN dhe një dekoder LSTM bën më të mirën dhe se konteksti i fjalës ka rëndësi. Përveç kësaj, paraprocesimi i të dhënave token-për-token me një rregullues bazuar në distancë editimi përmirëson ndjeshëm performancën. Ne marrim rezultate premtuese për korrektimin dhe normalizimin e ortografikës, si një hap paraprocesimi për detyrat poshtë rrjedhës, për zbulimin e ngjashmërisë tekstuale Semantike binare.Abstract
Radimo sa Alžirskim, manje resursnom ne standardizovanom arapskom raznovrstvom, za koju kompiliramo novi paralelni korpus koji se sastoji od tekstualnih podataka koji su generisani korisnicima odgovarajućih normaliziranim i ispravnim ljudskim annotacijom nakon podataka i našeg jezički motiviranog standard a. Koristimo duboki neuralni model koji je dizajniran da se suoči sa korekcijom i normalizacijom pisanja ovisnog o kontekstu. Rezultati ukazuju na to da je model sa dva podmrežna kodera CNN i LSTM dekodera najbolji, a taj kontekst reči bitan. Osim toga, predobrađivanje podataka značajno poboljšava izvođenje. Dobili smo obećavajuće rezultate za korekciju i normalizaciju pisanja, kao korak predobrađivanja zadataka, na otkrivanju binarne semantičke tekstualne sličnosti.Abstract
Vi arbetar med algeriska, en icke-standardiserad arabisk variant med underresurser, för vilken vi sammanställer en ny parallell korpus bestående av användargenererade textdata matchade med normaliserade och korrigerade mänskliga anteckningar efter datadriven och vår språkligt motiverade standard. Vi använder en end-to-end djup neural modell utformad för att hantera kontextberoende stavningskorrektion och normalisering. Resultaten indikerar att en modell med två CNN-undernätverkskodare och en LSTM-avkodare presterar bäst, och att ordkontext spelar roll. Förbehandling av data token för token med en justering för redigeringsavstånd förbättrar dessutom prestandan avsevärt. Vi får lovande resultat för stavningskorrektion och normalisering, som ett förbehandlingssteg för nedströmsuppgifter, för att upptäcka binär semantisk textlig likhet.Abstract
Tunafanya kazi na Kialgeria, tofauti mbalimbali isiyo na msingi wa Kiarabu, ambazo tunakusanya makampuni mpya yenye taarifa zilizotengenezwa kwa watumiaji na zinazochanganya na matangazo ya kawaida na yanayosahihishwa kwa binadamu kufuatia taarifa zinazoendeshwa na viwango vya lugha. Tunatumia muundo wa mwisho wa mwisho wa kina wa neura uliobuniwa kushughulikia uharibifu na utaratibu wa maandishi. Matokeo yanaonyesha kuwa modeli yenye idadi mbili za mtandao wa CNN pamoja na mfumo wa LSTM unafanya vizuri zaidi, na neno hilo lina muhimu. Zaidi ya hayo, takwimu za upasuaji zilizokuwa na alama-alama na aliyetengenezea kwa umbali wa kuhariri inaboresha ufanisi huo. Tunapata matokeo ya kuahidiwa kwa ajili ya uharibifu na utaratibu, kama hatua ya kabla ya kuchukua kazi za mito chini, kwa kutambua Similarity ya Kiteknolojia ya Kimataifa ya Binamu.Abstract
நாங்கள் அல்ஜிரியாவுடன் வேலை செய்கிறோம், தரவு இயக்கப்பட்டுள்ளது மற்றும் மொழிப்பாட்டில் இயக்கப்பட்டுள்ளது மற்றும் மொழியில் ஊக்கப்படும் இயல்பான மற்றும் மொழியில் இயக்கப் நாம் முடிவில் உள்ள ஆழமான புதிய மாதிரி பயன்படுத்தி சூழல் சார்ந்த எழுத்து திருத்தம் மற்றும் வழக்கமாக்கம் செய்ய @ info: whatsthis கூடுதலாக, முன் செயல்படுத்தும் தகவல் குறியீடு- by- token with a edit- distance aligner based on the performance significantly improves. எழுத்து திருத்தம் மற்றும் இயல்பாக்கத்திற்கும் வாக்களிக்கப்பட்ட முடிவுகள் கிடைக்கும், கீழே நீர் பணிகளுக்கு முன் செயல்படுத்தல் படி எனAbstract
Biz Alžir bilen işleýäris, etkinleşen taýýarlanmadyk we düzenli arabça çeşitli bir çeşitli, onuň üçin ullançylar üretilen tekst berüvlerinden buýruk taýýarlanýar we görkezilýän adamlaryň sözlerini diňleýän we biziň dil görkezilýän standartlarymyz bilen taýýarlanýar. Biz kònteks baglany ymlany düzeltmek we normalizasyon bilen çözilmek üçin at-soňra nural nusgasyny ulanýarys. Netijeler iki CNN sub-şebek ködlemeleri we LSTM ködlemeleri iň gowy edip bilýändigini görkezýär we ol söz konteksi möhüm bolýar. Edilmek üçin, edit-uzaklyk tabanly hatlary bilen öňki işleýän maglumaty täklendirir. Biz imlämizi düzeltmek we normalizasyon üçin söz berýän netijeleri, a şaky taýýarlamak üçin ön işlemek adım olarak, ikili Semantik Tekst Similatyny tanyşdyrmak üzere.Abstract
ہم الجرین کے ساتھ کام کریں گے، ایک غیر استاندارڈیز غیر استاندارڈیز عربی مختلف، جس کے لئے ہم نے ایک نئی parallel کورپوس کو کامپیل کرلیا جس میں استعمال کے پیدا کئے ہوئے متن ڈیٹیوں کے ساتھ مطابق ہے جن کے مطابق معلوم اور اصلاح کئے ہوئے انسان کی اظہارات ڈیٹ چلائی ہو ہم ایک عمیق نیورل موڈل کو استعمال کرتے ہیں جو کنٹنس-dependent spelling correction اور normalization کے ساتھ طراحی کیا گیا ہے. نتیجے نشان دیتے ہیں کہ دو سی ان ان کے نیٹ نیٹ ورک کوڈر اور LSTM ڈیکوڈر کے ساتھ ایک موڈل بہترین عمل کرتا ہے اور یہ کلمات کنٹنس کا معاملہ ہے. اور اضافہ، ڈیٹا ٹوکنے-بٹوکنے سے پہلے پردازش کرتا ہے، ایک ایڈیٹ-فاصلہ کے متعلق الیزانیر کے ساتھ عملکرد کو اضافہ کرتا ہے. ہمیں سپٹریم کے کاموں کے لئے ایک پیش پردازی سپٹ کے طور پر، دوئناری سیمانٹی ٹکسٹیول سیمالیاتی کا پیدا کرنے پر وعدہ دینے والی نتیجے پائیں گے.Abstract
Biz Algeriya bilan ishlayapmiz, bu arab turlari bilan ishlayapmiz. Bu yerda biz foydalanuvchi yaratilgan matn maʼlumot bilan qo'llangan oddiy va qo'llangan inson taʼminotlari bilan ishlab chiqarishdan keyin yangi parallel corpusni kompyuter qilamiz. Biz oxiriga eng oxirgi neyron modeldan foydalanamiz, context- dependent spelling to ʻgʻriligini va normalisiyatlarni boshqarish uchun tuzilgan. @ info: whatsthis @ info: whatsthis Biz imloni toʻgʻrilash va oddiylikning natijalariga yetarlicha natijalarimiz kelamiz. Bu ikkita Semantic Textatik Tayyorligini aniqlash uchun avval vazifalarning birinchi darajasi sifatida.Abstract
Chúng tôi làm việc với hãng An-giê-ri, một loại không-bình-thuộc-hoá, mà chúng tôi tạo ra một tập thể mới, gồm các dữ liệu cấu hình người dùng, kết hợp với bình thường và chỉnh sửa các chú thích con người theo tiêu chuẩn dựa trên dữ liệu và ngôn ngữ của chúng tôi. Chúng tôi sử dụng một mô hình thần kinh sâu kết thúc được thiết kế để xử lý việc sửa chữa chính tả phụ thuộc hoàn cảnh và phục hồi. Kết quả cho thấy một mô hình có hai bộ mã hóa mạng phụ của CNN và một bộ giải mã HTTM làm tốt nhất, và từ ngữ cảnh đó quan trọng. Thêm vào đó, khả năng ứng dụng của đèn hiệu ứng trước khi xử lý dữ liệu. Chúng tôi có kết quả hứa hẹn cho việc sửa chữa chính tả và phục hồi lại, như một bước xử lý để thực hiện các công việc xuôi dòng, phát hiện Similaty Con kỳ cục.Abstract
吾与阿尔及利亚语合,阿尔及利亚语是一资贫乏之非标准化阿拉伯语品,为新并行语料库,语料库由用户生文本数成之,与循数驱驰语言动机之标准化,与更正人工注相匹。 用端到端深度神经模形,指上下文相关拼写更正规范化。 结果表明有两 CNN 子网编码器一 LSTM 解码器之最,而单词上下文甚重。 此外,用基于编辑距齐器逐令牌地预处理数可显著。 为下流预处理步,检二进制语义文本相似性得所望拼写正规范化。- Anthology ID:
- D19-5518
- Volume:
- Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)
- Month:
- November
- Year:
- 2019
- Address:
- Hong Kong, China
- Venues:
- EMNLP | WNUT | WS
- SIG:
- Publisher:
- Association for Computational Linguistics
- Note:
- Pages:
- 131–140
- Language:
- URL:
- https://aclanthology.org/D19-5518
- DOI:
- 10.18653/v1/D19-5518
- Bibkey:
- Cite (ACL):
- Wafia Adouane, Jean-Philippe Bernardy, and Simon Dobnik. 2019. Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data. In Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019), pages 131–140, Hong Kong, China. Association for Computational Linguistics.
- Cite (Informal):
- Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data (Adouane et al., EMNLP 2019)
- Copy Citation:
- PDF:
- https://aclanthology.org/D19-5518.pdf
- Terminologies:
Export citation
@inproceedings{adouane-etal-2019-normalising, title = "Normalising Non-standardised Orthography in Algerian Code-switched User-generated Data{A}lgerian Code-switched User-generated Data", author = "Adouane, Wafia and Bernardy, Jean-Philippe and Dobnik, Simon", booktitle = "Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D19-5518", doi = "10.18653/v1/D19-5518", pages = "131--140", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="adouane-etal-2019-normalising"> <titleInfo> <title>Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data</title> </titleInfo> <name type="personal"> <namePart type="given">Wafia</namePart> <namePart type="family">Adouane</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Jean-Philippe</namePart> <namePart type="family">Bernardy</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Simon</namePart> <namePart type="family">Dobnik</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2019-11</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)</title> </titleInfo> <originInfo> <publisher>Association for Computational Linguistics</publisher> <place> <placeTerm type="text">Hong Kong, China</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> </relatedItem> <identifier type="citekey">adouane-etal-2019-normalising</identifier> <identifier type="doi">10.18653/v1/D19-5518</identifier> <location> <url>https://aclanthology.org/D19-5518</url> </location> <part> <date>2019-11</date> <extent unit="page"> <start>131</start> <end>140</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data %A Adouane, Wafia %A Bernardy, Jean-Philippe %A Dobnik, Simon %S Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019) %D 2019 %8 November %I Association for Computational Linguistics %C Hong Kong, China %F adouane-etal-2019-normalising %R 10.18653/v1/D19-5518 %U https://aclanthology.org/D19-5518 %U https://doi.org/10.18653/v1/D19-5518 %P 131-140
Markdown (Informal)
[Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data](https://aclanthology.org/D19-5518) (Adouane et al., EMNLP 2019)
- Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data (Adouane et al., EMNLP 2019)
ACL
- Wafia Adouane, Jean-Philippe Bernardy, and Simon Dobnik. 2019. Normalising Non-standardised Orthography in Algerian Code-switched User-generated DataAlgerian Code-switched User-generated Data. In Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019), pages 131–140, Hong Kong, China. Association for Computational Linguistics.