MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions Constellation name (optional) MAGPIE: ትልቅ ኮርፓስ የቻይሎት Idiomatic Expression MAGPIE: مجموعة كبيرة من التعبيرات الاصطلاحية المحتملة MAGPIE: Potentially Idiomatic Expressions Голям корпус от потенциално идиоматични изрази ম্যাগপিই: সম্ভাব্য আইডিয়ামিক ব্যবহারের একটি বড় কোর্পাস MAGPIE : ཆེས་ཤུགས་ནུས་པའི་སྒེར་གྱི་གདོང་རིས་ཆེ་བ་ཞིག་ཡིན་པ Velika korpusa potencijalnog idiomatskog izraza Un gran cos d'expressions potencialment idiomàtiques MAGPIE: Velký korpus potenciálně idiomatických výrazů MAGPIE: Et stort korps af potentielt idiomatiske udtryk MAGPIE: Ein großes Korpus potenziell idiomatischer Ausdrücke Ένα μεγάλο σώμα πιθανώς ηλίθιων εκφράσεων MAGPIE: Un gran corpus de expresiones potencialmente idiomáticas MAGPIE: Potentsiaalselt idiomaatiliste väljenduste suur korpus یک کورپ بزرگ از استفادههای احتمالات احمقانه MAGPIE: Suuri joukko potentiaalisesti idiomaattisia ilmaisuja MAGPIE : un vaste corpus d'expressions potentiellement idiomatiques MAGPIE: Corpas Mór de nathanna cainte a d’fhéadfadh a bheith ann KCharselect unicode block name גוף גדול של ביטויים אידיומטיים פוטנציאליים MAGPIE: संभावित मुहावरेदार अभिव्यक्तियों का एक बड़ा कॉर्पस Velika korpusa potencijalnog idiomatskog izraza MAGPIE: A potenciálisan idióta kifejezések nagy testülete ՄԱԳՊԻ՝ Հիանալի իդիոմատիկ արտահայտությունների մեծ կորպոսը Sebuah Korpus Besar dari Ekspresi Potensial Idiomatik MAGPIE: Un grande corpo di espressioni potenzialmente idiomatiche マグパイ:潜在的な造語表現の大規模なコーパス MAGPI:OKE Grus Ketokani sing gagal idiomatik Expressions MAGPIE: შესაძლებელად იდეომატიკური გამოსახულებების დიდი კოპუსი MAGPIE: Идиоматикалық өрнектердің үлкен корпус 까치: 대량의 잠재적 습어 표현 MAGPIE: Didelis potencialiai idiomatinių išraiškų korpusas Голем корпус потенцијално идиоматски изрази MAGPIE: സാധ്യതയുള്ള ഐഡിയോമിക്കല് പ്രസ്താവികളുടെ വലിയ കോര്പ്പുസ് MAGPIE: Магадгүй идиоматик илэрхийллийн том хэлбэр A Large Corpus of Potentially Idiomatic Expressions MAGPIE: Korp Kbar ta’ Espressjonijiet Potenzjalment Idjomatiċi MAGPIE: Een groot korpus van potentieel idiomatische uitdrukkingen MAGPIE: Eit stor korpus av potensielt idiomatiske uttrykk MAGPIE: Duży korpus potencjalnie idiomatycznych wyrażeń MAGPIE: um grande corpus de expressões potencialmente idiomáticas MAGPIE: Un corp mare de expresii potențial idiomatice СОРОКА: Большой корпус потенциально идиоматических выражений MAGPIE: 喽脆穵鈥嵿痘喾佮穵喽编逗喽氞穵 喽膏窛喽┼窉喽亨窛喽膏董喾掄稓 喽脆穵鈥嵿痘喾佮穵喽编逗喽氞穵 MAGPIE: Velik korpus potencialno idiomatičnih izrazov MAGPIE: A Large Corpus of Potentially Idiomatic expressions Një korpus i madh shprehjesh potencialisht idiomatike Veliki korpus potencijalnog idiomatskog izraza MAGPIE: En stor kropp av potentiellt idiomatiska uttryck MAGPIE: Makosa makubwa ya Utafiti MAGPIE: சாத்தியமான ஐடியாடியா கூறுகளின் ஒரு பெரிய கார்புஸ் MAGPIE:Potansiyel Aptal İfadelerin Büyük Köpeği MAGPIE: Potentially Idiomatic Expressions کی ایک بڑی کورپوس MAGPIE: Ehtimol Idiomatik ifodalarning katta kopusi MAGIE: một tập thể lớn của các điều kiện hư thần 鹊:潜习语
Abstract
Given the limited size of existing idiom corpora, we aim to enable progress in automatic idiom processing and linguistic analysis by creating the largest-to-date corpus of idioms for English. Using a fixed idiom list, automatic pre-extraction, and a strictly controlled crowdsourced annotation procedure, we show that it is feasible to build a high-quality corpus comprising more than 50 K instances, an order of a magnitude larger than previous resources. Crucial ingredients of crowdsourcing were the selection of crowdworkers, clear and comprehensive instructions, and an interface that breaks down the task in small, manageable steps. Analysis of the resulting corpus revealed strong effects of genre on idiom distribution, providing new evidence for existing theories on what influences idiom usage. The corpus also contains rich metadata, and is made publicly available.Abstract
Gien die beperkte grootte van bestaande idiom korpora, doen ons doen om vordering in outomatiese idiomverwerking en lingwisiese analisie te aktiveer deur die grootste tot datum korporus van idioms vir Engels te skep. By gebruik van 'n vaste idiomlys, outomatiese voor-uittrekking en 'n strikte kontroleerde skakelvormige annotasie prosedure, wys ons dat dit moontlik is om 'n hoë-kwaliteit korpus te bou wat meer as 50K voorbeelde, ân volgorde van' n grootte grootter as vorige hulpbronne. Kruisiale ingredients van skakeloorsporing was die keuse van skakelwerkers, duidelik en kompenseerde instruksies en 'n koppelvlak wat die taak in klein, bestuurbare stappe afbreek. Analiseer van die resulteerde korpus het sterke effekte van genre op idiom verspreiding geopenbaar en nuwe getuienis verskaf vir bestaande teoriee op wat idiom gebruik influens. Die korpus bevat ook ryk metadata en is openlik beskikbaar.Abstract
የአሁኑን የሞኝነት ኮርፖርት ቁጥር በተደረገ ጊዜ፣ የጎቶማዊ አነስተኛ እና የቋንቋዊ አካውንት ለመፍጠር እናስፈልጋለን፡፡ አዲስ ዝርዝር፣ አውቶማቲካዊ አስቀድሞ ውጤት እና ጠንካራዊ የፕሮግራም አቀማመጥ ሥርዓት በመጠቀም፣ ከቀድሞው ሀብት በላይ 50 ሺሕ ምሳሌዎች የበለጠ ክፍል የበለጠ የኮርፖስስ መሠረት ይቻላል ብለን እናሳየዋለን፡፡ የድምፅ ጉዳይ ዕቃዎች የሕዝብ አካባቢዎች ምርጫ፣ ጥሩ እና ትክክለኛ ትምህርት፣ ስራውን በጥቂት ታናሽ፣ በሚችል እርምጃዎች የሚያፈስስ ግንኙነት ናቸው፡፡ የኮርፓስ አካባቢ ላይ አዲስ ማስረጃ ማግኘት የሚችል አዲስ ማስረጃ ማግኘት ነው፡፡ ቆርፓስ ደግሞ ባለጠጋ መዝገብ ሀብት መረጃዎች ይኖራል፥ የተገለጠም ይደረጋል።Abstract
نظرًا للحجم المحدود لمصطلحات المصطلحات الحالية ، فإننا نهدف إلى تمكين التقدم في معالجة المصطلحات التلقائية والتحليل اللغوي من خلال إنشاء أكبر مجموعة مصطلحات للغة الإنجليزية حتى الآن. باستخدام قائمة المصطلحات الثابتة ، والاستخراج المسبق التلقائي ، وإجراء التعليقات التوضيحية التي يتم التحكم فيها بشكل صارم ، نوضح أنه من الممكن إنشاء مجموعة عالية الجودة تشتمل على أكثر من 50 ألف مثيل ، وهو ترتيب أكبر من الموارد السابقة. كانت المكونات الحاسمة في التعهيد الجماعي هي اختيار العمال الجماعي ، والتعليمات الواضحة والشاملة ، والواجهة التي تقسم المهمة بخطوات صغيرة يمكن التحكم فيها. كشف تحليل المجموعة الناتجة عن تأثيرات قوية للنوع على توزيع المصطلحات ، مما يوفر أدلة جديدة للنظريات الموجودة حول ما يؤثر على استخدام المصطلح. تحتوي المجموعة أيضًا على بيانات وصفية غنية ، وهي متاحة للجمهور.Abstract
Mevcut idiom korporasının sınırlı böyüklüyünə görə, İngilizce üçün ən böyük idiomların korpusu yaratmaq üçün avtomatik idiom işləməsində və dil analizi fəaliyyətə qadir olmaq istəyirik. Səfərli idim listesini, avtomatik əvvəlcə çıxarılması və şiddətli müdafiə edilmiş qüvvətli annotation prosedüsünü istifadə edirik ki, əvvəlki resurslardan daha böyük böyük bir korpus inşa edə bilər. Köpüklük məlumatlarının çox çətinlikli məlumatları, açıq və bütün təsirlərin seçilməsi və işləri küçük, müdafiə edə bilən bir interfejs idi. Növbəti korpusun analizi idim dağıtımı üzərində geniş etkisini göstərdi, idim istifadəsində nə etkilər üzərində mövcuddur teorilərin yeni kanıtlarını göstərdi. Corpus da zəngin metadata daxil edir və açıq-aşkar faydalanır.Abstract
Предвид ограничения размер на съществуващите корпуси на идиоми, ние се стремим да дадем възможност за напредък в автоматичната обработка на идиомите и лингвистичния анализ чрез създаването на най-големия досега корпус от идиоми за английски език. Използвайки фиксиран списък с идиоми, автоматична предварителна екстракция и строго контролирана процедура за анотация с crowdsourcing, ние показваме, че е възможно да се изгради висококачествен корпус, състоящ се от повече от 50 000 инстанции, с порядък по-голям от предишните ресурси. Основните съставки на crowdsourcingа бяха подборът на crowdworkers, ясни и изчерпателни инструкции и интерфейс, който разгражда задачата на малки, управляеми стъпки. Анализът на получения корпус разкрива силни ефекти на жанра върху разпространението на идиомите, като предоставя нови доказателства за съществуващите теории за това какво влияе върху използването на идиомите. Корпусът съдържа и богати метаданни и е публично достъпен.Abstract
বিদ্যমান বোকা কর্পোরার সীমিত আকার দিয়ে আমরা স্বয়ংক্রিয়ভাবে বোকা প্রক্রিয়া এবং ভাষাগত বিশ্লেষণে অগ্রগতি সক্রিয় করার উদ্দেশ্য হচ্ছি ইংরেজীর জন্য বৃহত একটি নির্ধারিত বোকা তালিকা, স্বয়ংক্রিয়ভাবে বেরিয়ে যাওয়া এবং কঠোর নিয়ন্ত্রণিত ব্যাপারের প্রক্রিয়া ব্যবহার করে, আমরা দেখাচ্ছি যে পূর্ববর্তী সম্পদের চেয়ে বেশী বড় একটি বিশা জনসংস্কারের ক্রুশিয়াল উপাদান ছিল জনসংখ্যার শ্রমিকদের নির্বাচন, পরিষ্কার এবং সম্পূর্ণ নির্দেশ, এবং একটি মুখোমুখি যা কাজের ছোট, ব্ এর ফলে কোর্পাসের বিশ্লেষণ প্রকাশ করেছে বোকা বিতরণের উপর জিনিসের শক্তিশালী প্রভাব, বিদ্যমান থিওরির জন্য নতুন প্রমাণ প্রদান করেছে যা ব এই কোর্পাসের মধ্যে সমৃদ্ধ মেটাডাটা রয়েছে এবং তা প্রকাশ্যে পাওয়া যাচ্ছে।Abstract
Given the limited size of existing idiom corpora, we aim to enable progress in automatic idiom processing and linguistic analysis by creating the largest-to-date corpus of idioms for English. Using a fixed idiom list, automatic pre-extraction, and a strictly controlled crowdsourced annotation procedure, we show that it is feasible to build a high-quality corpus comprising more than 50K instances, a order of a magnitude larger than previous resources. མི་མང་གཙོ་ཅན་གྱི་ནང་དོན་དག་གཙོ་བོ་དག་ནི་མི་མང་གི་ཁྱད་པར་གདམ་པ་ཞིག་ཡིན་པ་ལས་ཉེན་དང་ཁྱད་དུ་ཡོད་པའི་སྟོན་བཤད་དང་མཐུན་བཟོ་བསྒྲ དབུལ སྒུང་འབྲེལ་འདི་རྒྱ་གར་གྱི་ཆ་འཕྲིན་ཡིག་ཆ་ཡོད་པ་ལས་མང་ཙམ་སྤྱོད་ཐུབ་པ་ཡིན།Abstract
S obzirom na ograničenu veličinu postojeće idiomske korpore, ciljevi smo omogućiti napredak u automatskoj obradi idioma i lingvističkoj analizi stvaranjem najvećeg trenutnog korpusa idioma za engleski jezik. Koristeći fiksnu listu idiota, automatsku pre-ekstrakciju i strogo kontroliranu proceduru publikovanih annotacija, pokazujemo da je moguće izgraditi visoki kvalitetni korpus koji sadrži više od 50K slučajeva, naredbu veličine veće od prethodnih resursa. Krucijalni sastojci crowdsourcing bili su izbor gužve radnika, jasni i sveobuhvatni uputi i interfejs koji razbije zadatak u malim, upravljivim koracima. Analiza rezultativnog korpusa otkrila je jake učinke genre na distribuciju idiota, pružajući nove dokaze za postojeće teorije o tome što utječe na upotrebu idiota. Corpus također sadrži bogate metadata, i javno je dostupan.Abstract
Given the limited size of existing idiom corpora, we aim to enable progress in automatic idiom processing and linguistic analysis by creating the largest-to-date corpus of idioms for English. Utilitzant una llista d'idiomes fixes, una pré-extracció automàtica i un procediment d'anotació de fonts multitudàries estrictament controlat, demostram que és viable construir un cos d'alta qualitat compost de més de 50.000 exemples, un ordre de magnitud més gran que els recursos anteriors. Crucial ingredients of crowdsourcing were the selection of crowdworkers, clear and comprehensive instructions, and an interface that breaks down the task in small, manageable steps. L'anàlisi del cos resultant va revelar forts efectes del gènere en la distribució d'idiomes, proporcionant noves evidències per teories existents sobre quina influència té en l'ús d'idiomes. El corpus també conté moltes metadades i està disponible al públic.Abstract
Vzhledem k omezené velikosti existujících idiomových korpusů se snažíme umožnit pokrok v automatickém zpracování idiomů a lingvistické analýze vytvořením největšího dosavadního korpusu idiomů pro angličtinu. Pomocí pevného idiomu seznamu, automatické pre-extrakce a přísně kontrolované crowdsourcingové anotace procedury ukazujeme, že je možné vytvořit vysoce kvalitní korpus obsahující více než 50K instance, řád velikosti větší než předchozí zdroje. Klíčovými složkami crowdsourcingu byl výběr crowdworkerů, jasné a komplexní instrukce a rozhraní, které rozdělí úkol do malých, zvládnutelných kroků. Analýza výsledného korpusu odhalila silné vlivy žánru na distribuci idiomů, což poskytlo nové důkazy pro existující teorie ovlivňující použití idiomů. Korpus obsahuje také bohatá metadata a je zpřístupněn veřejně.Abstract
I betragtning af den begrænsede størrelse af eksisterende idiom corpora, tilstræber vi at muliggøre fremskridt inden for automatisk idiom behandling og sproglig analyse ved at skabe den største til dato korpus af idiom til engelsk. Ved hjælp af en fast idiomliste, automatisk præekstraktion og en strengt kontrolleret crowdsourced annoteringsprocedure viser vi, at det er muligt at opbygge et korpus af høj kvalitet bestående af mere end 50.000 forekomster, en rækkefølge af en størrelse større end tidligere ressourcer. Afgørende ingredienser i crowdsourcing var udvælgelsen af crowdworkers, klare og omfattende instruktioner og en grænseflade, der nedbryder opgaven i små, overskuelige trin. Analyse af det resulterende korpus afslørede stærke effekter af genre på idiomfordelingen, hvilket gav nye beviser for eksisterende teorier om, hvad der påvirker idiomfordelingen. Korpusset indeholder også rige metadata og gøres offentligt tilgængeligt.Abstract
Angesichts der begrenzten Größe bestehender Idiomkorpora wollen wir Fortschritte in der automatischen Idiomverarbeitung und linguistischen Analyse ermöglichen, indem wir den bisher größten Idiomkorpor für Englisch erstellen. Anhand einer fixen Idiom-Liste, automatischer Vorextraktion und eines streng kontrollierten Crowdsourcing-Annotationsverfahrens zeigen wir, dass es möglich ist, ein qualitativ hochwertiges Korpus zu erstellen, das mehr als 50K Instanzen umfasst, eine Größenordnung größer als vorherige Ressourcen. Entscheidende Bestandteile des Crowdsourcing waren die Auswahl von Crowdworkern, klare und umfassende Anweisungen und eine Schnittstelle, die die Aufgabe in kleinen, überschaubaren Schritten aufgliedert. Die Analyse des resultierenden Korpus zeigte starke Effekte des Genres auf die Idiomverteilung und lieferte neue Beweise für bestehende Theorien darüber, was die Idiomverbindung beeinflusst. Das Korpus enthält auch umfangreiche Metadaten und wird öffentlich zugänglich gemacht.Abstract
Δεδομένης του περιορισμένου μεγέθους των υφιστάμενων σωμάτων ιδίωμα, στόχος μας είναι να επιτρέψουμε πρόοδο στην αυτόματη επεξεργασία ιδίωμα και γλωσσική ανάλυση δημιουργώντας το μεγαλύτερο μέχρι σήμερα σώμα ιδίωμα για τα αγγλικά. Χρησιμοποιώντας μια σταθερή λίστα ιδιοωμάτων, αυτόματη προεπεξεύρεση, και μια αυστηρά ελεγχόμενη διαδικασία σχολιασμού, αποδεικνύουμε ότι είναι εφικτό να κατασκευαστεί ένα υψηλής ποιότητας σώμα που περιλαμβάνει περισσότερες από 50περιπτώσεις, μια σειρά μεγέθους μεγαλύτερη από προηγούμενους πόρους. Σημαντικά συστατικά του ήταν η επιλογή των εργατών, σαφείς και περιεκτικές οδηγίες και μια διεπαφή που αναλύει την εργασία σε μικρά, διαχειρίσιμα βήματα. Η ανάλυση του προκύπτοντος σώματος αποκάλυψε ισχυρές επιδράσεις του είδους στην κατανομή του ιδώματος, παρέχοντας νέα στοιχεία για υπάρχουσες θεωρίες σχετικά με το τι επηρεάζει τη χρήση του ιδώματος. Το σώμα περιέχει επίσης πλούσια μεταδεδομένα και είναι διαθέσιμο στο κοινό.Abstract
Dado el tamaño limitado de los cuerpos idiomáticos existentes, nuestro objetivo es permitir el progreso en el procesamiento automático de modismos y el análisis lingüístico mediante la creación del mayor corpus de modismos para inglés hasta la fecha. Utilizando una lista de modismos fija, extracción previa automática y un procedimiento de anotación de colaboración colectiva estrictamente controlado, demostramos que es factible construir un corpus de alta calidad que comprenda más de 50 000 instancias, un orden de magnitud mayor que los recursos anteriores. Los ingredientes cruciales del crowdsourcing fueron la selección de trabajadores colectivos, instrucciones claras y completas, y una interfaz que desglosa la tarea en pasos pequeños y manejables. El análisis del corpus resultante reveló fuertes efectos del género en la distribución de modismos, proporcionando nueva evidencia para las teorías existentes sobre lo que influye en el uso de modismos. El corpus también contiene metadatos enriquecidos y se pone a disposición del público.Abstract
Arvestades olemasolevate idioomikorpuste piiratud suurust, püüame võimaldada automaatse idioomitöötluse ja keelelise analüüsi arengut, luues suurima senise idioomikorpuse inglise keele jaoks. Kasutades fikseeritud idioomiloendit, automaatset eelekstraheerimist ja rangelt kontrollitud ühiskasutusega annoteerimisprotseduuri, näitame, et on võimalik ehitada kvaliteetne korpus, mis koosneb rohkem kui 50 000 eksemplari, järjestuses suurem kui varasemad ressursid. Ühishankimise olulised koostisosad olid ühistöötajate valik, selged ja põhjalikud juhised ning liides, mis jagab ülesande väikeste ja hallatavate sammudega. Saadud korpuse analüüs näitas žanri tugevat mõju idioomide levikule, pakkudes uusi tõendeid olemasolevate teooriate kohta, mis mõjutab idioomi kasutamist. Korpus sisaldab ka rikkalikke metaandmeid ja on avalikult kättesaadav.Abstract
با توجه به اندازه محدودیت شرکت احمقانه موجود، هدف میگیریم تا پیشرفت در پردازش احمقانه و تحلیل زبانشناسی با ایجاد بزرگترین کورپوس از احمقانهها برای انگلیسی فعال کنیم. با استفاده از فهرست احمقانه ثابت، پیش از اخراج خودکار و یک روش اخطار بسیار محکم کنترل شده، نشان می دهیم که این قابل ساختن یک جسد با کیفیت بالا و بیش از ۵۰ کیلومتری است، سفارش بزرگی از منابع قبلی بزرگتر است. عناصرههای بسیاری از منابع جمعیت انتخاب کردن کارگران جمعیت، دستورات روشن و کامل و مشترک و یک مشترک که کار را در قدمهای کوچک و قابل مدیریت پاره میکند. تحلیل نتیجهی کورپوس اثرات قوی از ژنتر بر تقسیم احمقانه را نشان داد، و مدرک جدید برای تئوریهای موجود در مورد چه تأثیر استفاده از احمقان میکند. کورپوس همچنین اطلاعات ثروتمندی دارد و به طور عمومی دسترسی می شود.Abstract
Kun otetaan huomioon olemassa olevien kielikorpusten rajallinen koko, pyrimme mahdollistamaan automaattisen kielinkäsittelyn ja kielellisen analyysin kehittymisen luomalla laajimman kielikorpusen englanniksi. Käyttämällä kiinteää idiomiluetteloa, automaattista esipoistoa ja tiukasti valvottua joukkolähdemerkintää osoitamme, että on mahdollista rakentaa laadukas korpus, joka koostuu yli 50K esiintymästä, suuruusluokka suurempi kuin aikaisemmat resurssit. Joukkotyöntekijöiden valinta, selkeät ja kattavat ohjeet sekä käyttöliittymä, joka jakaa tehtävän pienin ja hallittavin vaiheisin. Tuloksena olevan korpusen analyysi paljasti genren voimakkaita vaikutuksia idiomin jakeluun, tarjoten uutta näyttöä olemassa olevista teorioista, jotka vaikuttavat idiomin käyttöön. Korpus sisältää myös runsaasti metatietoa, ja se on julkisesti saatavilla.Abstract
Compte tenu de la taille limitée des corpus d'expressions idiomatiques existants, nous visons à permettre des progrès dans le traitement automatique des expressions idiomatiques et l'analyse linguistique en créant le plus grand corpus d'expressions idiomatiques pour l'anglais à ce jour. À l'aide d'une liste d'idiomes fixes, d'une pré-extraction automatique et d'une procédure d'annotation participative strictement contrôlée, nous montrons qu'il est possible de construire un corpus de haute qualité comprenant plus de 50 000 instances, soit un ordre de grandeur supérieur aux ressources précédentes. Les ingrédients essentiels du crowdsourcing étaient la sélection de travailleurs participatifs, des instructions claires et complètes et une interface qui décompose la tâche en petites étapes faciles à gérer. L'analyse du corpus qui en a résulté a révélé de forts effets du genre sur la distribution des idiomes, fournissant de nouvelles preuves pour les théories existantes sur ce qui influence l'usage de l'idiome. Le corpus contient également de riches métadonnées et est mis à la disposition du public.Abstract
Mar gheall ar mhéid teoranta na gcorpas cainteanna atá ann faoi láthair, tá sé mar aidhm againn dul chun cinn a chumasú i bpróiseáil uath-theangach agus anailís teanga tríd an gcorpas cainte is mó go dáta a chruthú don Bhéarla. Ag baint úsáide as liosta seasta idiom, réamh-eastóscadh uathoibríoch, agus nós imeachta anótála sluafhoinsithe atá rialaithe go docht, léirímid go bhfuil sé indéanta corpas ardcháilíochta a thógáil a chuimsíonn níos mó ná 50K cás, ord méid níos mó ná acmhainní roimhe seo. Ar na gnéithe ríthábhachtacha a bhaineann le sluafhoinsiú bhí roghnú na slua-oibrithe, treoracha soiléire cuimsitheacha, agus comhéadan a bhriseann síos an tasc i gcéimeanna beaga soláimhsithe. Nocht anailís a rinneadh ar an gcorpas a tháinig as an tionchar láidir a bhíonn ag seánra ar dháileadh na dteangan, rud a chuir fianaise nua ar fáil ar theoiricí reatha ar cad a théann i bhfeidhm ar úsáid na dteangan. Tá meiteashonraí saibhir sa chorpas freisin, agus cuirtear ar fáil go poiblí iad.Abstract
Gida girma wanda ke samar da shirin jãhilai, sai za mu yi amfani da taƙaitarwa farat ɗaya a cikin shirin jarraba ɗin da aka yi fasahan littafa da linguistic, ko kuma ka sami koppi na zaman-yanzu zuwa Ingiriya. Yi amfani da wani jerin keɓa mai daidaita, farat-zãɓi farat ɗaya, da kuma wata shirin zartarwa na danganta mai tsanani, za'a nuna cewa za'a iya ƙiƙiri wata nau'in-nau'in da ke ƙara wasu misali 50,000, wata umurni mai girma ko kuma mafi girma daga resource na farko. Kirinaikin da ke ƙaranci na mutane sun kasance na zãɓen aikin mutane, shiryarwa mai bayyanawa da jumla, da wata interfeci wanda ya jefa aikin aiki cikin hanyõyi kaɗan, mai iya lissafa. Ana yi fassarar nau'in da ta ƙara ya nuna masu ƙarfin matsayin jini a kan raba difukansa, kuma ya bãyar da shaidar yanzu zuwa da yanzu masu kai ga abin da yake iya amfani da idima. Corbus yana da tajiri metadata, kuma ana samar da shi Public.Abstract
בהתחשב בגודל המוגבל של גופורה אידיומית קיימת, אנחנו מתכוונים לאפשר התקדמות בעבודת אידיומים אוטומטית ובניתוח שפתי על ידי ליצור את גופוס אידיומים הגדול ביותר עד היום לאנגלית. באמצעות רשימת אידיומים קבועה, מחילוץ אוטומטי, ותהליך ציונים משולט לחלוטין, אנו מראים שזה אפשרי לבנות גוף איכות גבוהה שמכיל יותר מ-50 אלף מקרים, סדר גדול יותר משאבים קודמים. המרכיבים החשובים של המקורים הקהליים היו הבחירה של עובדי הקהל, הוראות ברורות ומרחבות, ומשק שמפרץ את המשימה בצעדים קטנים ומניהולים. Analysis of the resulting corpus revealed strong effects of genre on idiom distribution, providing new evidence for existing theories on what influences idiom use. The corpus also contains rich metadata, and is made publicly available.Abstract
मौजूदा मुहावरे के निगम के सीमित आकार को देखते हुए, हम अंग्रेजी के लिए मुहावरों के सबसे बड़े-टू-डेट कॉर्पस बनाकर स्वचालित मुहावरे प्रसंस्करण और भाषाई विश्लेषण में प्रगति को सक्षम करने का लक्ष्य रखते हैं। एक निश्चित मुहावरे की सूची, स्वचालित पूर्व-निष्कर्षण, और एक सख्ती से नियंत्रित क्राउडसोर्स्ड एनोटेशन प्रक्रिया का उपयोग करते हुए, हम दिखाते हैं कि 50K से अधिक उदाहरणों वाले उच्च गुणवत्ता वाले कॉर्पस का निर्माण करना संभव है, जो पिछले संसाधनों की तुलना में बड़े परिमाण का एक आदेश है। Crowdsourcing की महत्वपूर्ण सामग्री crowdworkers का चयन, स्पष्ट और व्यापक निर्देश थे, और एक इंटरफ़ेस जो छोटे, प्रबंधनीय चरणों में कार्य को तोड़ता है। परिणामी कॉर्पस के विश्लेषण से मुहावरे के वितरण पर शैली के मजबूत प्रभावों का पता चला, जो मुहावरे के उपयोग को प्रभावित करने वाले मौजूदा सिद्धांतों के लिए नए सबूत प्रदान करता है। कॉर्पस में रिच मेटाडेटा भी होता है, और इसे सार्वजनिक रूप से उपलब्ध कराया जाता है।Abstract
S obzirom na ograničenu veličinu postojeće idiomske korpore, ciljevi smo omogućiti napredak u automatskoj obradi idioma i jezičkoj analizi stvaranjem najvećeg trenutnog korpusa idioma za engleski jezik. Koristeći fiksnu listu idiom a, automatsku predekstrakciju i teško kontroliranu proceduru publikacije, pokazujemo da je moguće izgraditi visokokvalitetni korpus koji sadrži više od 50K slučajeva, naredbu veličine veće od prethodnih resursa. Krucijalni sastojci crowdsourcing bili su izbor gužvenih radnika, jasni i sveobuhvatni uputstvi i interfejs koji razbije zadatak u malim, upravljivim koracima. Analiza rezultatnog korpusa otkrila je jake učinke genre na distribuciju idiota, pružajući nove dokaze za postojeće teorije o tome što utječe na uporabu idiota. Corpus također sadrži bogate metapodatke i javno je dostupan.Abstract
Tekintettel a meglévő idiom corpora korlátozott méretére, arra törekszünk, hogy előrelépést tegyünk az automatikus idiom feldolgozás és a nyelvi elemzés terén az angol nyelv legnagyobb korpuszának létrehozásával. Rögzített kifejezési lista, automatikus előkinyerés és egy szigorúan ellenőrzött közösségi forrásból származó jegyzetelési eljárás segítségével megmutatjuk, hogy kiváló minőségű korpusz építése megvalósítható több mint 50 000 példányból, ami a korábbi erőforrásoknál nagyobb nagyságrendű. A közösségi források kulcsfontosságú összetevői a közösségi munkások kiválasztása, az egyértelmű és átfogó utasítások, valamint egy olyan felület, amely kis, kezelhető lépésekben bontja le a feladatot. Az így kapott korpusz elemzése rámutatott, hogy a műfaj erős hatást gyakorol az idiom eloszlására, és új bizonyítékokat szolgáltatott arra vonatkozóan, hogy mi befolyásolja az idiom használatát. A korpusz gazdag metaadatokat is tartalmaz, és nyilvánosan hozzáférhetővé teszi.Abstract
Եթե հաշվի առնենք գոյություն ունեցող իդիոմների սահմանափակ չափսերը, մենք նպատակում ենք հնարավորություն տալ առաջընթաց իդիոմների ավտոմատիկ վերլուծության և լեզվաբանական վերլուծության մեջ' ստեղծելով անգլերենի համար իդիոմների ամենամե Օգտագործելով հաստատուն լեզվի ցանկ, ավտոմատիկ նախահանման գործընթաց և խիստ կառավարվող ժողովրդի ձայնագրման գործընթաց, մենք ցույց ենք տալիս, որ հնարավոր է կառուցել բարձր որակային մարմին, որը կազմում է ավելի քան 50 հազար օրինակներ, որն ավելի մեծ է քան նախորդ ռեսուր Crucial ingredients of crowdsourcing were the selection of crowdworkers, clear and comprehensive instructions, and an interface that breaks down the task in small, manageable steps. Արդյունքում ստացված մարմնի վերլուծությունը բացահայտեց գենդրի ուժեղ ազդեցությունը իբյոմների տարածման վրա, ապահովելով նոր ապացույցներ գոյություն ունեցող տեսությունների վրա, թե ինչպիսի ազդեցություն ունի իբյոմն Կորպուսը պարունակում է նաև հարուստ մետատվյալներ և հանրային հասանելիություն է դարձնում:Abstract
Mengingat ukuran terbatas dari corpora idiom yang ada, kami bertujuan untuk memungkinkan kemajuan dalam proses idiom otomatis dan analisis bahasa dengan menciptakan corpus idiom terbesar-sampai-tanggal untuk Inggris. Menggunakan daftar idiom tetap, pre-ekstraksi otomatis, dan prosedur anotasi crowdsourced yang ketat terkendali, kami menunjukkan bahwa mungkin untuk membangun corpus kualitas tinggi yang mengandung lebih dari 50K contoh, perintah sebesar sumber daya sebelumnya. Bahan-bahan penting dari crowdsourcing adalah pemilihan pekerja keramaian, instruksi yang jelas dan komprensif, dan antaramuka yang merusak tugas dalam langkah-langkah kecil yang dapat dikendalikan. Analisi dari tubuh hasilnya mengungkapkan efek kuat genre pada distribusi idiom, menyediakan bukti baru untuk teori yang ada tentang apa yang mempengaruhi penggunaan idiom. Korpus juga mengandung metadata yang kaya, dan dibuat publik tersedia.Abstract
Considerate le dimensioni limitate dei corpi idiomi esistenti, miriamo a consentire progressi nell'elaborazione automatica degli idiomi e nell'analisi linguistica creando il più ampio corpus di idiomi per l'inglese. Utilizzando una lista di idiomi fissa, una pre-estrazione automatica e una procedura di annotazione rigorosamente controllata, mostriamo che è possibile costruire un corpus di alta qualità comprendente più di 50K istanze, un ordine di grandezza superiore alle risorse precedenti. Gli ingredienti fondamentali del crowdsourcing sono stati la selezione di crowdworker, istruzioni chiare e complete e un'interfaccia che scompone il compito in piccoli passaggi gestibili. L'analisi del corpus risultante ha rivelato forti effetti del genere sulla distribuzione idioma, fornendo nuove prove per le teorie esistenti su ciò che influenza l'uso idioma. Il corpus contiene anche metadati ricchi ed è reso pubblico.Abstract
既存の造語コーパスの規模が限られていることを考慮して、英語のための最新の造語コーパスを作成することで、自動造語処理と言語分析の進歩を可能にすることを目指しています。固定された造語リスト、自動事前抽出、および厳密に制御されたクラウドソーシングされた注釈手順を使用して、以前のリソースよりも大きい5万を超えるインスタンスからなる高品質のコーパスを構築することが可能であることを示します。クラウドソーシングの重要な要素は、クラウドワーカーの選択、明確で包括的な指示、そしてタスクを小さく管理可能なステップで分解するインターフェースでした。結果として得られたコーパスの分析は、ジャンルがイディオムの分布に強い影響を与えることを明らかにし、イディオムの使用に影響を与えるものについての既存の理論の新しい証拠を提供した。コーパスには豊富なメタデータも含まれており、公開されています。Abstract
Nanging ketahan kanggo mbanjurakno dumadhi sing dumadhi, kita bukane nggawe ngubah perusahaan langkung wigatining ketahanan pangan ning acara wigatining idiomat lan kelangan langkung Ngawe ngubah ndelok idiomat sing wis an a, akeh bantuan kanet, lan akeh bantuan sing wis nguasai perusahaan, awak dhéwé iso nggawe ngubah dhéwé kuwi wis aswih perusahaan karo segala macem sing wis ana luwih dumadhi kanggo dianggap ulih cara dianggap liyané awak dhéwé, ning awak dhéwé sing nduwe akeh dumadhi Ingkang diangkat-ingkang diangkat sing pintuan kanggo kalaha-wong liyane ing nguasai perusahaan kanggo kalaha-perusahaan lan akeh dumateng, lan akeh dumateng sing nguasai nggawe nguasai operasi lan tambah-jenis. Ndeleng beraksi karo hal-bawih dumadhi iki bakal kelas barang nggawe luwih dumadhi winih, nik nggawe perintah sing gak dhéwé nggawe theori sing gak dhéwé, mengkar bakal terus apik sing paling apik dhéwé. Gosoko kamuh durung metadata berkas tambah, lan akeh iso nguasai mên.Abstract
მიმდინარე იდეომის კოპორაის ზომის შესახებ, ჩვენ მინდა ავტომატური იდეომის პროცესის და ლინგურისტიკური ანალიზაციის პროგრესის შესაძლებლობად ინგლისური იდეომის უფრო დიდი კო მარტივი იდიომების სია, ავტომატური პრეექქტრექცია, და ძალიან კონტროლურად კონტროლურად კონტროლურად კონტროლურად დავიყენებთ, რომ უფრო შესაძლებელია გავაკეთოთ მარტივი კონტუსი, რომელიც უფრო მუშაობის კომპლუციური ინგრედიენტები იყო მუშაობელი მუშაობელი, წარმოადგილი და ყველაფერი ინსტრუქციები, და ინტერფექტი, რომელიც პატარა, შესაძლებელი კომპლი შემდეგ კორპუსის ანალიზაცია აღმოჩნდა ძალიან გენერის ეფექტები იდეომის გაყოფილების შესახებ, რომელიც იდეომის გამოყენებაზე ახალი წარმოდგენება იდეომის თე კჲპოსჟ ჟყღჲ თმა ბჲდარა მვრაეატა, ა რჲგა ვ ჲბღჲ ოპთლჲზვნჲ.Abstract
Мынау идиом корпорасының шектелген өлшемі болса, біз ағылшын тілінде ең үлкен жаңа идиомдардың корпусусын автоматты түрде өзгерту және лингвистикалық анализациялауын рұқсат етеді. Идиомдар тізімі, автоматты түрде алдын- тарқату және қиын бақылау көпшілікті жазбалар процедурын қолдануға болады. Біз 50K- ден артық инстанцияларды, алдыңғы ресурстардан артық көпшілікті көпшілікті корпус құру мү Көпшілік көпшіліктерінің көпшіліктерін таңдау үшін көпшілік және толық мәліметтерді таңдау, және тапсырманы кішкентай, басқару мүмкін қадамдарында бұл интерфейс Сондағы корпус анализациясы идиом үлестіріміне жанрының күшті эффекттерін көрсетті. Идиомдың пайдалануының қандай нәрсені қалай теорияларына жаңа дәл береді. Корпус және баяны метадеректері бар, және көпшілікті қол жеткізетін.Abstract
기존의 습어 자료 라이브러리의 규모가 제한되어 있음을 감안하여 우리의 목표는 지금까지 가장 큰 영어 습어 자료 라이브러리를 창설하여 습어 자동 처리와 언어 분석에 진전을 거두는 것이다.고정된 습어 목록, 자동 추출, 엄격한 제어를 사용하는 패키지 주석 과정을 통해 우리는 50K개가 넘는 실례를 포함하는 고품질 어료 라이브러리를 구축하는 것이 가능하고 이전의 자원보다 수량급이 높다는 것을 증명했다.하청업체의 관건적인 요소는 하청업체를 선택하고 명확하고 전면적인 지도를 하며 임무를 관리할 수 있는 작은 단계로 분해하는 인터페이스이다.어료 라이브러리에 대한 분석은 장르가 습어 분포에 미친 강렬한 영향을 밝히고 기존의 습어 사용 영향 이론에 새로운 증거를 제공했다.이 자료 라이브러리에는 풍부한 메타데이터도 포함되어 있어 공개적으로 얻을 수 있다.Abstract
Atsižvelgdami į ribotą esamų idiom ų korporai dydį, siekiame užtikrinti pažangą automatinio idiomų apdorojimo ir kalbinės analizės srityje sukuriant didžiausią iki šiol anglų idiomų korpusą. Naudodami fiksuotą idiom ų sąrašą, automatinę išgavybą ir griežtai kontroliuojamą visuomeninę anotacijos procedūrą, parodome, kad įmanoma sukurti aukštos kokybės korpusą, sudarytą iš daugiau kaip 50 000 atvejų, kurio dydis didesnis už ankstesnius išteklius. Pagrindinės visuomenės išteklių naudojimo sudedamosios dalys buvo visuomenės darbuotojų atranka, aiškios ir išsamios instrukcijos ir sąsaja, kuri nedideliais, valdomais žingsniais išskaičiuoja užduotį. Analysis of the resulting corpus revealed strong effects of genre on idiom distribution, providing new evidence for existing theories on what influences idiom usage. Korpus taip pat turi daug metaduomenų ir yra viešai prieinamas.Abstract
Со оглед на ограничената големина на постоечките идиомски корпора, ние имаме за цел да овозможиме напредок во автоматското процесирање на идиомите и лингвистичката анализа со создавање на најголемиот до денес корпус на идиомите за англиски. Користејќи фиксна листа на идиоми, автоматска преекстракција и строго контролирана процедура на анотација од публика, покажуваме дека е можно да се изгради висококвалитетен корпус кој сочинува повеќе од 50.000 случаи, редослед со големина поголема од претходните ресурси. Клучните состојки на пулсурсирањето беа изборот на пулсурсираните работници, јасни и сеопфатни инструкции, и интерфејс кој ја расипува задачата во мали, управливи чекори. Анализата на резултатот на корпусот откри силни ефекти на генерот на дистрибуцијата на идиомите, обезбедувајќи нови докази за постоечките теории за тоа што влијае на употребата на идиомите. Корпусот, исто така, содржи богати метадатоци и е јавно достапен.Abstract
നിലവിലുള്ള വിഡ്ഢിയുടെ വലിപ്പം നിറഞ്ഞിരിക്കുന്നത് കൊണ്ട്, ഇംഗ്ലീഷിന് ഏറ്റവും വലിയ വിഡ്ഢികളുടെ കോര്പ്പുസ് ഉണ്ടാക്കുന്നതിനാല് നമ്മള് സ ഒരു നിര്ണ്ണയിക്കപ്പെട്ട വിഡ്ഢിത്ത പട്ടിക ഉപയോഗിച്ച്, സ്വയം പുറത്തെടുക്കുന്നതിനും ശക്തിയോടെ നിയന്ത്രിക്കപ്പെട്ട ഒരു പ്രക്രിയയും കാണിക്കുന്നു. മുമ്പുള്ള വി ക്രൂസ്സോര്സ്സിങ്ങിന്റെ ക്രൂസിലെ ഉള്പ്പാദ്യങ്ങള് പ്രധാനപ്പെടുത്തിയ ആള്ക്കാരെ തിരഞ്ഞെടുക്കുന്നതായിരുന്നു. വ്യക്തമ അതിന്റെ ഫലമായ കോര്പ്പുസിന്റെ അന്വേഷണം മണ്ടത്തരത്തിന്റെ ശക്തിയുള്ള പ്രഭാവങ്ങള് വെളിപ്പെടുത്തി, കോര്പ്പുസിന്റെ കൂടെ സമ്പന്നതയുള്ള മെറ്റാഡാറ്റ ഉണ്ട്, പ്രസിദ്ധമായി ലഭ്യമാക്കുന്നു.Abstract
Ийм idiom corpora-ын хязгаарлагдсан хэмжээнд бид англи хэл дээр хамгийн их шинэ шинжилгээний корпус боловсруулахын тулд автоматжуулалт идэвхтэй болон хэлний шинжилгээнд хөгжүүлэхийг зориулсан. Бүтэн санаануудын жагсаалт, автоматик түгээмэл гаргах, мөн хүмүүсийн хамгийн хяналттай сэтгэл хөдлөлийн процедурыг ашиглаж, бид 50K-аас илүү өндөр чанартай корпус бүтээх боломжтой болж, өмнөх нөөц бүтээгдэхүүнээс илүү том хэмжээний дараалл Олон төрөлхтний эх үүсвэрийн чухал хэмжээсүүд нь олон нийтийн ажилтнуудын сонголт, тодорхой, бүрэн заавал, ажлыг жижиг, удирдлагатай алхам дээр хуваалцах интерфейс байсан. Үүний үр дүнтэй корпус-ын шинжилгээ нь идэвхтэй хуваарилалтын хүчтэй нөлөөлөгч, идэвхтэй хэрэглээнд юу нөлөөлдөг талаар оршиж байгаа теорийг шинэ баталгаа өгдөг. Корпус мөн баян мета өгөгдлийг агуулдаг. Тэгээд олон нийтэд хэрэглэгддэг.Abstract
Mengingat saiz terbatas dari corpora idiom yang wujud, kami bertujuan untuk memungkinkan kemajuan dalam pemprosesan idiom automatik dan analisis bahasa dengan mencipta corpus idiom terbesar-sehari untuk bahasa Inggeris. Dengan senarai idiom tertentu, praekstraksi automatik, dan prosedur anotasi crowdsourced yang ketat, kami menunjukkan bahawa ia boleh membina korpus kualiti tinggi yang mengandungi lebih dari 50K kes, tertib sebesar sumber terdahulu. Crucial ingredients of crowdsourcing were the selection of crowdworkers, clear and comprehensive instructions, and an interface that breaks down the task in small, manageable steps. Analisi corpus yang menghasilkan mengungkapkan kesan kuat genre pada distribusi idiom, menyediakan bukti baru untuk teori yang ada mengenai apa yang mempengaruhi penggunaan idiom. Korpus juga mengandungi metadata yang kaya, dan dibuat tersedia secara umum.Abstract
Minħabba d-daqs limitat tal-idjom corpora eżistenti, għandna l-għan li nagħmlu possibbli progress fl-ipproċessar awtomatiku tal-idjom u l-analiżi lingwistika billi noħolqu l-akbar korpus ta' idjomi sal-lum għall-Ingliż. Bl-użu ta’ list a ta’ idjomi fissa, preestrazzjoni awtomatika, u proċedura ta’ annotazzjoni b’sorsi ta’ massa strettament ikkontrollata, nagħmlu li huwa fattibbli li jinbena korpus ta’ kwalità għolja li jinkludi aktar minn 50K każ, ordni ta’ daqs akbar mir-riżorsi pre ċedenti. L-ingredjenti kruċjali tal-crowdsourcing kienu l-għażla tal-ħaddiema tal-massa, struzzjonijiet ċari u komprensivi, u interfaċċja li tkisser il-kompitu f’passi żgħar u maniġġabbli. L-analiżi tal-korpus li rriżulta żvelat effetti qawwija tal-ġeneru fuq id-distribuzzjoni idjomika, li pprovdiet evidenza ġdida għal teoriji eżistenti dwar x’influwenza fuq l-użu idjomiku. Il-korpus fih ukoll metadejta rikka, u huwa disponibbli għall-pubbliku.Abstract
Gezien de beperkte omvang van bestaande idioom corpora, streven we ernaar vooruitgang te maken in automatische idioom verwerking en taalanalyse door het creëren van het grootste tot nu toe corpus van idiomen voor het Engels. Met behulp van een vaste idioom lijst, automatische pre-extractie en een strikt gecontroleerde crowdsourced annotatieprocedure laten we zien dat het haalbaar is om een hoogwaardig corpus te bouwen dat meer dan 50K instances bevat, een orde van een grootte groter dan eerdere resources. Cruciale ingrediënten van crowdsourcing waren de selectie van crowdworkers, duidelijke en uitgebreide instructies en een interface die de taak opsplitst in kleine, beheersbare stappen. Analyse van het resulterende corpus toonde sterke effecten van genre op idioomdistributie aan, wat nieuw bewijs opleverde voor bestaande theorieën over wat invloed heeft op idioomgebruik. Het corpus bevat ook rijke metadata en wordt openbaar gemaakt.Abstract
Gjennomsiktig storleiken på eksisterande idiomkorpora, må vi slå på framgang i automatisk idiomhandsaming og språk-analyse ved å laga den største oppdaterte korpusen av idiomr for engelsk. Bruk ein fast idiomliste, automatisk forekstrahering, og ein strengt kontrollert oppmerkingsprosedyr for crowdsourced annotations, viser vi at det er feilig å bygge ein høg kvalitet korpus som inneheld fleire enn 50K instansar, ein rekkjefølgje med storleik enn tidlegare ressursar. Dette var utvalet av mengdarbeidarar, klare og komplette instruksjonar og eit grensesnitt som deler oppgåva i små, handsamarbare trekk. Analyseren av den resultanta korpusen viste sterke effektar av genre på idiomdistribusjon, og tilbyr nye beviser for eksisterande teorier om kva påvirkar idiombruk. corpus inneheld også rike metadata, og blir tilgjengeleg offentlig.Abstract
Biorąc pod uwagę ograniczoną wielkość istniejących korpusów idiomów, staramy się umożliwić postęp w automatycznym przetwarzaniu idiomów i analizie językowej poprzez stworzenie największego do tej pory korpusu idiomów dla języka angielskiego. Wykorzystując stałą listę idiomów, automatyczną wstępną ekstrakcję oraz ściśle kontrolowaną procedurę adnotacji crowdsourcingowej, pokazujemy, że możliwe jest zbudowanie wysokiej jakości korpusu składającego się z ponad 50K instancji, rządu wielkości większego niż poprzednie zasoby. Kluczowymi składnikami crowdsourcingu był dobór crowdworkerów, jasne i kompleksowe instrukcje oraz interfejs, który podziela zadanie w małe, możliwe do zarządzania kroki. Analiza powstałego korpusu ujawniła silny wpływ gatunku na dystrybucję idiomów, dostarczając nowych dowodów na istniejące teorie na to, co wpływa na użycie idiomów. Korpus zawiera również bogate metadane i jest udostępniany publicznie.Abstract
Dado o tamanho limitado dos corpora de idiomas existentes, nosso objetivo é permitir o progresso no processamento automático de idiomas e na análise linguística, criando o maior corpus de idiomas para inglês até hoje. Usando uma lista de idiomas fixa, pré-extração automática e um procedimento de anotação de crowdsourcing estritamente controlado, mostramos que é viável construir um corpus de alta qualidade com mais de 50 mil instâncias, uma ordem de magnitude maior que os recursos anteriores. Ingredientes cruciais do crowdsourcing foram a seleção de crowdworkers, instruções claras e abrangentes e uma interface que divide a tarefa em etapas pequenas e gerenciáveis. A análise do corpus resultante revelou fortes efeitos do gênero na distribuição do idioma, fornecendo novas evidências para as teorias existentes sobre o que influencia o uso do idioma. O corpus também contém metadados ricos e é disponibilizado publicamente.Abstract
Având în vedere dimensiunea limitată a corpurilor de idiom existente, ne propunem să permitem progresul în procesarea automată a idiomului și analiza lingvistică prin crearea celui mai mare corp de idiome pentru limba engleză. Folosind o listă fixă de expresii, pre-extracție automată și o procedură de adnotare strict controlată crowdsourced, arătăm că este fezabil să construim un corpus de înaltă calitate care cuprinde mai mult de 50K instanțe, o ordine de magnitudine mai mare decât resursele anterioare. Ingredientele esențiale ale crowdsourcing-ului au fost selectarea crowdsourcing-ului, instrucțiunile clare și cuprinzătoare și o interfață care descompune sarcina în pași mici și ușor de gestionat. Analiza corpului rezultat a relevat efecte puternice ale genului asupra distribuției idiomului, oferind noi dovezi pentru teoriile existente cu privire la ceea ce influențează utilizarea idiomului. Corpusul conține, de asemenea, metadate bogate și este pus la dispoziția publicului.Abstract
Учитывая ограниченный размер существующих корпусов идиомы, мы стремимся обеспечить прогресс в автоматической обработке идиомы и лингвистический анализ путем создания крупнейшего на сегодняшний день корпуса идиомы для английского языка. Используя фиксированный список идиомы, автоматическое предварительное извлечение и строго контролируемую процедуру аннотации, краудсорсинга, мы показываем, что возможно построить высококачественный корпус, содержащий более 50 000 экземпляров, на порядок больше, чем предыдущие ресурсы. Важнейшими компонентами краудсорсинга были отбор краудфандеров, четкие и исчерпывающие инструкции и интерфейс, который разбивает задачу небольшими, управляемыми шагами. Анализ полученного корпуса выявил сильное влияние жанра на распределение идиомы, предоставив новые доказательства для существующих теорий о том, что влияет на использование идиомы. Корпус также содержит богатые метаданные и является общедоступным.Abstract
ඉතින් ඉතින් මෝඩයෝ කොර්පෝරාගේ සීමාවිත ප්රමාණය, අපි ඉලක්කම් කරනවා ස්වයංක්රියාවිත මෝඩයෝ පරීක්ෂණය සහ භාෂාවික විශ ස්ථිර මෝඩයෝ ලැයිස්තුවක්, ස්වයංක්රීය ප්රිස්තූතියක්, සහ ස්වයංක්රීය පාලනය කරපු මිනිස්සුන්ට ප්රකාරයක්, අපි පෙන්වන්නේ ඒක ප්රශ්නයක් ව සම්පූර්ණ සම්පූර්ණ සම්පූර්ණ සහ සම්පූර්ණ සම්පූර්ණ සම්පූර්ණ සම්පූර්ණ සම්පූර්ණ සම්පූර්ණ සම විශ්ලේෂණය ගැන ප්රතිචාරයක් විශ්ලේෂණය විස්තර කරලා මෝඩය විතරයේ ශක්තිමත් ප්රතිචාරයක් ප්රතිචාරය ක කෝර්පුස් වලින් ප්රශ්ණ මත්ත්රපත්තිය තියෙනවා, ඒවගේම සාමාජිකයෙන් ප්රවේශ වෙන්Abstract
Glede na omejeno velikost obstoječih jezikovnih korpusov želimo omogočiti napredek pri avtomatični obdelavi jezikov in jezikovni analizi z ustvarjanjem največjega do danes korpusa jezikov za angleščino. Z uporabo fiksnega seznama jezikov, avtomatskega predekstrakcije in strogo nadzorovanega množičnega postopka označevanja dokazujemo, da je izvedljivo graditi visokokakovosten korpus, ki obsega več kot 50.000 primerkov, velikosti večjega od prejšnjih virov. Ključne sestavine množičnega nabora so bile izbira množičnih delavcev, jasna in celovita navodila ter vmesnik, ki razdeli nalogo v majhnih in upravljivih korakih. Analiza izhajajočega korpusa je pokazala močne učinke žanra na distribucijo jezikov, kar je prineslo nove dokaze za obstoječe teorije o tem, kaj vpliva na uporabo jezikov. Korpus vsebuje tudi bogate metapodatke in je javno dostopen.Abstract
Given the limited size of existing idiom corpora, we aim to enable progress in automatic idiom processing and linguistic analysis by creating the largest-to-date corpus of idioms for English. Isku isticmaalaya liiska idimadda ee saxda ah, horumar u soo saarista, iyo kooras aad u adag oo aad u isticmaalaya, waxaynu muujinnaa in la dhisi karo qodob dhaqaale ah oo ka badan 50K tusaalooyin, waa nidaam aad u weyn in ka horeeyay hantidii hore. Waxyaabaha ay ku jiraan kooxaha dadku waxay ahaayeen kuwo la doortay shaqaalaha badbaadada, hagitaanka saxda ah oo hoos u dhiga iyo weji ka burburinaya shaqaalaha oo yaryar oo maamuli karo. Analyska koopuska resultinta ayaa muujiyey saameyn xoog leh oo jinsiga ku saabsan qaybinta idimada, wuxuuna siinay caddeyn cusub oo ku saabsan tiyaariyada jirada ee saameyn ku yeelashada isticmaalka dumarka. Korpus waxaa sidoo kale ku jira macluumaad taajir ah, waxaana lagu bixiyaa bayaan.Abstract
Duke pasur parasysh madhësinë e kufizuar të korprës ekzistuese të idiomave, ne synojmë të mundësojmë përparimin në procesimin automatik të idiomave dhe analizën gjuhësore duke krijuar korpusin më të madh deri në datë të idiomave për anglishtin. Duke përdorur një list ë të fiksuar idiomesh, paranxjerrje automatike dhe një procedurë të kontrolluar ashpër të anotacionit, ne tregojmë se është e mundur të ndërtohet një korpus me cilësi të lartë që përfshin më shumë se 50K raste, një rend me një madhësi më të madhe se burimet e mëparshme. Përbërësit kryesorë të crowdsourcing ishin zgjedhja e punonjësve të turmës, udhëzimet e qarta dhe të përgjithshme dhe një ndërfaqe që prish detyrën në hapa të vogla dhe të menaxhueshme. Analiza e trupit rezultues zbuloi efekte të forta të xhenerit në shpërndarjen e idiomave, duke dhënë prova të reja për teoritë ekzistuese mbi atë që ndikon në përdorimin e idiomave. Korpus përmban gjithashtu metatë e pasura dhe është bërë publikisht në dispozicion.Abstract
S obzirom na ograničenu veličinu postojeće idiotske korpore, ciljevi smo omogućiti napredak u automatskoj obradi idioma i lingvističkoj analizi stvaranjem najvećeg trenutnog korpusa idioma za engleski jezik. Koristeći fiksnu listu idiota, automatsku pre-ekstrakciju, i strogo kontroliranu proceduru publikovanih annotacija, pokazujemo da je moguće izgraditi visoki kvalitetni korpus koji sastoji više od 50K slučajeva, naređenje veličine veće od prethodnih resursa. Krucijalni sastojci crowdsourcing bili su izbor gužva radnika, jasnih i sveobuhvatnih instrukcija i interfejsa koji razbije zadatak u malim, upravljivim koracima. Analiza rezultatnog korpusa otkrila je jake učinke genre na distribuciju idiota, pružajući nove dokaze za postojeće teorije o tome šta utiče na upotrebu idiota. Korpus takođe sadrži bogate metapodatke i javno je dostupan.Abstract
Med tanke på den begränsade storleken på befintliga idiom corpora strävar vi efter att möjliggöra framsteg inom automatisk idiom bearbetning och språklig analys genom att skapa den största till dags korpus av idiom för engelska. Med hjälp av en fast idiomlista, automatisk förhandsextraktion och en strikt kontrollerad crowdsourced annotation procedur visar vi att det är möjligt att bygga en högkvalitativ korpus bestående av mer än 50 000 instanser, en storleksordning större än tidigare resurser. Viktiga ingredienser i crowdsourcing var valet av crowdworkers, tydliga och omfattande instruktioner och ett gränssnitt som bryter ner uppgiften i små, hanterbara steg. Analys av den resulterande korpusen avslöjade starka effekter av genre på idiomfördelningen, vilket gav nya bevis för befintliga teorier om vad som påverkar idiomfördelningen. Korpusen innehåller också rika metadata och görs offentligt tillgänglig.Abstract
Kutokana na ukubwa mdogo wa makampuni ya kijinga yanayopo, tunalenga kuwezesha maendeleo katika upasuaji wa kijinga na uchambuzi wa lugha kwa kutengeneza makampuni makubwa zaidi mpaka sasa kwa Kiingereza. Using a fixed idiom list, automatic pre-extraction, and a strictly controlled crowdsourced annotation procedure, we show that it is feasible to build a high-quality corpus comprising more than 50K instances, an order of a magnitude larger than previous resources. Viungo vya vyanzo vya habari vya watu vilikuwa ni kuchaguliwa kwa wafanyakazi wa umma, maelekezo ya wazi na yenye msingi, na sura inayovunja juhudi hilo kwa hatua ndogo za kudhibiti. Uchambuzi wa makampuni yanayotokana na matokeo yalionyesha madhara makubwa ya kijinsia juu ya usambazaji wa kijinsia, na kutoa ushahidi mpya kwa nadharia zilizopo juu ya nini kinaathiri matumizi ya upumbavu. Kikosi hicho pia kina taarifa za meta tajiri, na kinapatikana hadharani.Abstract
இருக்கும் முட்டாள் நிறுவனத்தின் வரம்பு அளவை கொடுத்தால், ஆங்கிலத்திற்கு மிகப்பெரிய முட்டாள் செயல்படுத்தல் மற்றும் மொழிய ஆய்வு முன்னேற்றம் ச Using a fixed idiom list, automatic pre-extraction, and a strictly controlled crowdsourced annotation procedure, we show that it is feasible to build a high-quality corpus comprising more than 50K instances, an order of a magnitude larger than previous resources. மக்கள் மூலங்களின் சிறிய, நிர்வகிக்கக்கூடிய பட்டியல்கள், தெளிவான மற்றும் சூழ்நிலையான கட்டளைகள் தேர்ந்தெடுக்கப்பட்டது, சிறிய, நிர முடிவு கார்ப்ஸின் ஆராய்ச்சி முட்டாள் பங்கீட்டின் வலிமையான பாக்கியங்களை வெளிப்படுத்தினார், இருக்கும் திட்டங்களின் கார்பாஸ் அதில் பணக்க மெட்டேடாட்டை உள்ளது, மற்றும் பொதுவாக கிடைக்கும்.Abstract
Öň bar idi korpoýanyň esasy ýakyn ululykyna görä, iňlis dilinde iňlis dilleriniň iň uly täze köpüsini bejermek üçin awtomatik idi işlemegini we dil analýusiny etmäge maksat edýäris. Sabyt bir salak listi ullanýarys, awtomatik öň-a çylygy we düýbünden kontrol edilen kalamlar tarapyndan açylýan ýazgytlaryň prosedüsini, 50K-den ýokary ýagdaýda ýokary bir korpus inşa etmek mümkin däldir we öňki çeşmelerden uly bir görnüşdür. Köp jemgyýetişiniň esasy taýýarlary köp işgärleriniň saýlamagy, düzgün we daňlap mugallymlaryny we işi kiçi we yönetici adımlardan boşaýan bir interfejs. netijäki korpusyň çözümlenmesiniň samsyk daýlamagyna görkezilýän jeneralyň güýçli täsirlerini görkezilýär, samsyk ulanmaklarynyň näme täsirine täsirleýän teoriýalary üçin täze kanıtlary bereýär Korpusyň baý metadata hem bardyr we halkara hem meňzeşlik bar.Abstract
موجود احمق کورپورا کی محدود اندازہ کے باعث، ہم نے اپنا ارادہ یہ ہے کہ انگلیسی کے لئے بڑا اغلب کی کورپوس بنانے کے ذریعہ اپنی حرکت کی پردازش اور زبان شناسی کا تحقیق کریں۔ ایک مضبوط احمق لکھ کے مطابق، آٹوٹی پیش اخراج کے مطابق، اور ایک مضبوط کنٹرول کی جماعت کی اظہار کے مطابق، ہم نشان دیتے ہیں کہ یہ ایک بلند کیفیت کورپوس بنانے کے قابل ہے جو 50K سے زیادہ اضافہ ہوتی ہے، ایک بڑائی کا دستور پہلے سے بڑا ہے. گروہوں کے سرمایہ کے بڑے موجود ingredients تھے گروہوں کے کارکنوں کا انتخاب کیا گیا تھا، صریح اور گھیری نصیحت، اور ایک انٹرنیف جو کام کو چھوٹے اور مدیر قدم میں ٹوٹ ڈالتا ہے. نتیجۂ کورپوس کی تحلیل نے احمقانہ تقسیم پر جنس کی سخت اثرات ظاہر کی، اور موجود نظریوں کے لئے نئی نشانیاں دیتی ہیں جو احمقانہ استعمال پر کیا اثر دیتی ہیں۔ کورپوس بھی پوری میٹا ڈاٹا ہے اور ظاہر طور پر موجود ہے۔Abstract
Mavjud yomon korporiyaning hajmi chegarasi bilan, biz ingliz uchun eng katta ishlab chiqarishni avtomatik o'zgartirish va lingvistik analytikini bajarishimiz mumkin. Oʻzgaruvchi tugmalar roʻyxatdan foydalanish, avtomatik boshqarish va katta boshqarilgan maqsadlar taʼminlov jarayonini ko'rsatishimiz mumkin, bu 50K dan ortiq narsalarni yaratish mumkin, oldingi rasmlardan katta katta darajada katta. Ushbu narsalarni kichkina boshqarish orqali o'zgartirib chiqaradi. Name Korpus'da taxminan metadata mavjud, va barcha mavjud.Abstract
Dựa vào kích thước giới hạn của tư lệnh hiện tại, chúng tôi muốn tiến hành xử lý âm thanh và phân tích ngôn ngữ bằng cách tạo ra tập thể chữ "lớn nhất" cho người Anh. Sử dụng một danh sách biểu tượng cố định, tự động trước khi trích xuất, và một thủ tục ghi chú được kiểm soát chặt chẽ, chúng tôi cho thấy khả năng xây dựng một tập thể chất cao bao gồm nhiều trường hợp hơn 50K, một thứ tự lớn hơn các nguồn tài nguyên trước. Các thành phần quan trọng của crodsouring là sự lựa chọn của nhân viên cua, hướng dẫn rõ ràng và toàn diện, và một giao diện giúp phân giải nhiệm vụ trong những bước nhỏ, dễ quản lý. Phân tích của tập đoàn kết quả cho thấy những tác động mạnh mẽ của thể loại lên phân phối đa dạng âm, cung cấp bằng chứng mới cho các giả đã có về tác động tác động của sử dụng. Tập đoàn cũng chứa nhiều siêu dữ liệu, và được công khai công bố.Abstract
鉴成语语料库规模有限,所以创迄今为止至英语习语语料库,自习语处言而取进也。 用定成语列表、自预提取、严格控制众包注,明构包 50K 以上例高质量语料库可行,大于前资数量级。 众包之要,素择众包工作者,清而周者,及以小者,可治步骤分职之界面。 于是语料库析见流成语,为成语用之新证也。 语料库多元数,明可用也。- Anthology ID:
- 2020.lrec-1.35
- Volume:
- Proceedings of the 12th Language Resources and Evaluation Conference
- Month:
- May
- Year:
- 2020
- Address:
- Marseille, France
- Venue:
- LREC
- SIG:
- Publisher:
- European Language Resources Association
- Note:
- Pages:
- 279–287
- Language:
- English
- URL:
- https://aclanthology.org/2020.lrec-1.35
- DOI:
- Bibkey:
- Cite (ACL):
- Hessel Haagsma, Johan Bos, and Malvina Nissim. 2020. MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 279–287, Marseille, France. European Language Resources Association.
- Cite (Informal):
- MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions (Haagsma et al., LREC 2020)
- Copy Citation:
- PDF:
- https://aclanthology.org/2020.lrec-1.35.pdf
- Terminologies:
Export citation
@inproceedings{haagsma-etal-2020-magpie, title = "MAGPIE : A Large Corpus of Potentially Idiomatic Expressions{MAGPIE}: A Large Corpus of Potentially Idiomatic Expressions", author = "Haagsma, Hessel and Bos, Johan and Nissim, Malvina", booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference", month = may, year = "2020", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2020.lrec-1.35", pages = "279--287", language = "English", ISBN = "979-10-95546-34-4", }
<?xml version="1.0" encoding="UTF-8"?> <modsCollection xmlns="http://www.loc.gov/mods/v3"> <mods ID="haagsma-etal-2020-magpie"> <titleInfo> <title>MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions</title> </titleInfo> <name type="personal"> <namePart type="given">Hessel</namePart> <namePart type="family">Haagsma</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Johan</namePart> <namePart type="family">Bos</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <name type="personal"> <namePart type="given">Malvina</namePart> <namePart type="family">Nissim</namePart> <role> <roleTerm authority="marcrelator" type="text">author</roleTerm> </role> </name> <originInfo> <dateIssued>2020-05</dateIssued> </originInfo> <typeOfResource>text</typeOfResource> <language> <languageTerm type="text">English</languageTerm> <languageTerm type="code" authority="iso639-2b">eng</languageTerm> </language> <relatedItem type="host"> <titleInfo> <title>Proceedings of the 12th Language Resources and Evaluation Conference</title> </titleInfo> <originInfo> <publisher>European Language Resources Association</publisher> <place> <placeTerm type="text">Marseille, France</placeTerm> </place> </originInfo> <genre authority="marcgt">conference publication</genre> <identifier type="isbn">979-10-95546-34-4</identifier> </relatedItem> <identifier type="citekey">haagsma-etal-2020-magpie</identifier> <location> <url>https://aclanthology.org/2020.lrec-1.35</url> </location> <part> <date>2020-05</date> <extent unit="page"> <start>279</start> <end>287</end> </extent> </part> </mods> </modsCollection>
%0 Conference Proceedings %T MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions %A Haagsma, Hessel %A Bos, Johan %A Nissim, Malvina %S Proceedings of the 12th Language Resources and Evaluation Conference %D 2020 %8 May %I European Language Resources Association %C Marseille, France %@ 979-10-95546-34-4 %G English %F haagsma-etal-2020-magpie %U https://aclanthology.org/2020.lrec-1.35 %P 279-287
Markdown (Informal)
[MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions](https://aclanthology.org/2020.lrec-1.35) (Haagsma et al., LREC 2020)
- MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions (Haagsma et al., LREC 2020)
ACL
- Hessel Haagsma, Johan Bos, and Malvina Nissim. 2020. MAGPIE : A Large Corpus of Potentially Idiomatic ExpressionsMAGPIE: A Large Corpus of Potentially Idiomatic Expressions. In Proceedings of the 12th Language Resources and Evaluation Conference, pages 279–287, Marseille, France. European Language Resources Association.