ФормацијаФакултети и универзитети

Шта је Корпус лингвистику?

Само пре неколико деценија за аутоматизацију језички истраживања, научници могли само сањати. Посао је урађен ручно, привлачи велики број ученика, постоји велика вероватноћа "Царелесс" грешке, и што је најважније - све то је дуго, дуго времена.

Са развојем компјутерске технологије постало је могуће да се спроведе истраживање о ред величине брже, а данас је једна од најперспективнијих праваца у истраживању језика корпус лингвистике. Његова главна карактеристика је употреба великих количина информација текста, информације у јединствену базу података, на посебан начин и под називом значајан тело.

До данас, постоје многе зграде направљене са различите намене, на основу разних језичког материјала која је трајала од милиона на десетине милијарди лексичких јединица. Овај правац је препознат као обећавајући и показује значајан напредак према циљу примене и истраживања. Стручњаци, један или други начин суочавања са природном језику, препоручује се да се упознају са телом текстова барем на основном нивоу.

Историја цорпус лингвистике

Формирање овог тренда је због стварања Сједињених Америчких Држава у Бровн тела у раним 60-тих година прошлог века. Колекција садржи текстове свих 1 милион облика речи, а данас тело ове величине би била потпуно неконкурентна. То је углавном због темпа развоја компјутерске технологије, као и све већим захтевима за новим истраживачким ресурсима.

У 90. Цорпус Лингуистицс се појавили у пуном и независна дисциплине, збирка текстова су припремљени и означени за десетине језика. У том периоду је настао, на пример, британски национални корпус 100 милиона токена.

Са развојем ове области лингвистике, текст количине су све више и више (и до милијарде Речнички), а распоред постаје разноврснија. До данас, Интернет простор може се наћи лешева писаног и говорног језика, језика, и учење оријентисана умјетничку или академску литературу, као и многе друге врсте.

Шта су кућиште

Врсте тела у организму лингвистике може бити обезбеђена из неколико разлога. Интуитивно, основа за класификацију може бити језик текста (руски, немачки), приступ моде (опен соурце, затворен, комерцијални), жанр изворног материјала (фикција, документарни, академик, новинарство).

Занимљив начин ствара материјале говорног језика. Пошто је намерно снимање таквог говора да створе вештачку окружење за испитаника, а добијени материјал не би се могло назвати "спонтано", савремени Цорпус Лингуистицс је отишао на другу страну. Волонтер је опремљен са микрофоном, а током дана произвела евиденцију свих разговора, у којима учествује. Људи око, наравно, можда не знају да је у току свакодневног разговора доприноси развоју науке.

Касније добили записник који се налазе у бази података и праћени су штампане типа транскрипта текста. Тако, постаје могуће означавање потребно да се створи орални дневни говор становање.

апликација

Где год је могуће, употреба језика, а можда и коришћење објеката текстова. Методе за примену корита у лингвистици могу бити:

  • Израда програма којим се утврђује кључ, је у широкој употреби у политици и бизнису за праћење позитивних и негативних одговора бирача и потрошача, респективно.
  • Прикључак информациони систем у речницима и преводилаца да побољшају свој учинак.
  • Мноштво истраживачких задатака који доприносе разумевању језика јединице, историју њеног развоја и предвиђање промена у блиској будућности.
  • Развој информационих система за претраживање на основу морфолошких, синтаксних, семантичким и друге функције.
  • Оптимизација различитих језичких система и других.

Коришћење објеката

сличан интерфејс ресурс са типичним претраживача, и тражи од корисника да унесе реч или комбинацију речи у потрагу за информационе основе. Поред формира тачан упит може користити побољшану верзију, која омогућава да пронађете текстуалне информације о готово свим лингвистичким критеријумима.

претраживање база може бити:

  • припадности одређеној групи делова говора;
  • граматичке особине;
  • семантика;
  • стилска и емоционално бојење.

Можете комбиновати критеријум за претраживање низ речи, на пример, да пронађе све појаве глагола у овом напетом, првог лица једнине, који долази после предлога "у" и именице у акузатив. Решење за тако једноставан задатак води корисника неколико секунди и захтева само неколико кликова мишем у наведеним областима.

Процес стварања

Сама претрага може извршити на свим субцорпус и један који је посебно изабран, у зависности од потреба у постизању одређеног циља:

  1. Први корак је да се дефинишу која текстови представљају основу за случај. Из практичних разлога, то се често користи новинарске, вијести, онлајн коментаре. Пројекат истраживања је употреба разних типова пакета, али текст треба да буде изабрана у складу са неког заједничког земљу.
  2. Добијени збирка текстова изложене претретману, ту је корекција грешака, ако их има, припремила библиографске и екстра-језичком описа текста.
  3. Се елиминише све не-текстуалне информације: Брише се графике, слике, табеле.
  4. Је додела токена, који су обично говор, за даљу прераду.
  5. Коначно, носио морфолошки, Синтактичка и друге ознаке добијена плуралитет елемената.

Резултат свих трансакција које је синтактичким структуром дистрибуираних њој мноштво елемената, од којих је свака идентификована део говора, граматичке и, у неким случајевима, семантичких атрибута.

Тешкоће у стварању објеката

Важно је да се схвати да није довољно да састави скуп речи или реченице за тело. С једне стране, збирка текстова треба да буде уравнотежен, односно, представљају различите врсте текстова у одређеним размерама. С друге стране - садржај кућишта треба да буду распоређене на посебан начин.

Први проблем је решен споразумом: на пример, у колекцији обухвата 60% књижевних текстова, 20% документараца, одређени проценат је дат писмени репрезентацију говорног језика, закона, научних радова, итд савршен рецепт уравнотежена тело данас не постоји ...

Друго питање, у вези распоред садржаја, реши изазов. Постоје посебни програми и алгоритми који се користе за аутоматско означавање текстова, али они не дају савршен резултат, може да изазове поремећаје и захтевају употребу поновни. Могућности и изазови у раду са овим проблемом су детаљно описане у чланку В С. Захарова Цорпус лингвистике.

Текст означавање се спроводи на више нивоа, које смо листу испод.

морфолошке означавање

Из школе, памтимо да је на руском језику, постоје различити делови говора, а сваки од њих има своје карактеристике. На пример, глагол има категорије склоности и време у коме нема именица. матерњи без оклевања опада именице и глаголе коњугат, али да обележи тело од 100 милиона. бонове ручни рад неће радити. Све потребне операције могу, међутим, изврши компјутер, за то је потребно да се учи.

Морфолошки означавање, рачунар мора "разумјети" сваку реч као одређени део говора који имају одређене граматичке функције. Будући да је руски (и било који други језик) ради велики број редовних правила, могуће је изградити аутоматску процедуру за морфолошке анализе, улагање у колима за неколико алгоритама. Међутим, постоје изузеци од правила, као и разних компликује фактора. Као резултат тога, нето компјутерску анализу данас је далеко од идеалног, и чак 4% грешка даје вредност од 4 милиона. Речи на телу од 100 милиона. Јединица, који захтевају употребу поновни.

Детаљан књига описује проблем Захарова В. П. "Цорпус Лингуистицс".

синтактичка напомена

Разбора или разбора - поступак који одређује однос речи у реченици. Користећи низ алгоритама могуће одредити текст субјекта, предикат, додацима, вишеструке окрета говора. Сазнајте које речи су главни низ, и који - зависи, можемо ефикасно да извуку информације из текста и научити машину да изда као одговор на захтев за претраживање само информације нас интересантно.

Узгред, модерни претраживачи користе ово да дају конкретне бројеве уместо дуге текстове у одговору на релевантне упите као што су "колико калорија у јабуци" или "удаљености од Москве до Санкт Петербурга." Међутим, да разуме чак и основе поступку описаном потребом да се консултује са "Увод у Цорпус лингвистику" или други основни уџбеник.

семантички означавање

Семантика речи - је, једноставно речено, значење. Широко примењује приступ семантичког анализи реч атрибуционих ознака, који одражава његов припада скупу семантичких категорија и поткатегорија. Таква информација је корисна за оптимизацију алгоритми анализу текста тон, аутоматски сумаризацију и друге послове методе цорпус лингвистике.

Постоји велики број "роот" стабла, што представља апстрактни реч са веома широким семантике. Како се формира огранак стабла чворова, садрже све више специфичних лексичких елемената. На пример, реч "створење" може бити повезана са таквим концептима као што су "људске" и "животиња". Прва реч ће наставити да се грана у различитих професија, смислу сродства, националности, а други - на класе и врсте животиња.

Употреба информационих система за претраживање

Области употребе Цорпус Лингуистицс покривају различите области деловања. Кућишта се користе за припрему и корекцију речника, стварају аутоматске превођења система, обележавање, проналажење чињеница, одређују тон и другим процесима текста.

Поред тога, такви ресурси се активно користе у истраживању светских језика и механизмима функционисања језика уопште. Приступ велике количине претходно прикупљене информације омогућава брзу и свеобухватну студију о трендовима развоја језика, и стабилни формирање неологизми брзина говора промена вредности лексичке јединице и друге.

Пошто је рад са таквим великим количинама података захтева аутоматизацију, данас постоји блиска интеракција између рачунара и цорпус лингвистике.

Руски национални корпус

Овај случај (скраћено НКРИА) садржи низ субцорпус, омогућавајући коришћење ресурса за широк спектар задатака.

Материјали у бази су подељени НКРИА:

  • на публикација у 90. и 2000-их медија ", како домаћим тако и страним;
  • снимање говора;
  • актсентологицхески маркед текстове (т.ј., трагови стреса);
  • дијалект говор;
  • поезија;
  • Материјали са синтаксичког и других ознака.

Информациони систем такође укључује Субцорпус са паралелним преводе дела са руског на енглески, немачки, француски и многи други језици (и обрнуто).

Такође, у бази података постоји део историјских текстова, представља писмену говор на руском у различитим периодима свог развоја. Ту је и тело обуку, што може бити корисно за стране држављане у савладавању руски језик.

Руски национални корпус обухвата 400 милиона лексичких јединица, и на много начина уочи значајног дела језика тела Европе.

изгледи

Чињеница у корист признавања овог тренда је доступност обећава лабораторијске Цорпус Лингуистицс у руским универзитетима, као и страних. Са употребом и истраживања у оквиру ове информације и претрагу ресурса подразумева развој одређених подручја у области високих технологија, система питање-одговор, али је горе наведено.

Даљи развој цорпус лингвистике је предвидео на свим нивоима, почев од техничке и у погледу примјене нових алгоритама који оптимизују процесе тражења и обраду информација, оснаживање компјутера, више меморије, и до потрошача, јер корисници све више и више начина да користе ову врсту извора у свакодневном живот и рад.

u закључку

У средини прошлог века у 2017. чинило далекој будућности, у којој свемирских бродова путује кроз свемир и роботи све радим за људе. У ствари, наука је препуна "белих мрља" и што очајничке покушаје да се одговори на питања човечанства вековима ремете. Питања функционисање језика овде заузимају почасно место, и кабинета и рачунарска лингвистика може да нам помогне да одговорим.

Обрада великих скупова података може открити обрасце, претходно недоступан, предвидети развој специфичности језика за праћење формирања речи у скоро реалном времену.

На практичном нивоу, глобални прилози могу се видети, на пример, као потенцијални алат за процену расположење јавности - Интернет је стално ажурирају свакодневно разне текстове настале стварних корисника: ово коментари и мишљења, и чланака, и многи други облици говора.

Поред тога, рад са органима доприноси развоју истог хардвера, који су укључени у проналажењу информација, ми смо упознати са услугом "Гоогле" или "Андекс", машинско превођење, електронских речника.

Ми са сигурношћу могу да тврдим да је корпус лингвистика чини тек прве кораке, а у блиској будућности ће процветати.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sr.birmiss.com. Theme powered by WordPress.