Прейдз на змист

Текстуални корпус

Материял зоз Википедиї

Текстуални корпуси (односно у линґвистичним жарґону лєм корпуси) обсяжни збирки текстох на природним язику. Тексти котри творя корпус достати у одредзеним периоду зоз медийох (напр. преси або сайтох аґенцийох), литературней творчосци, стрипох, рекламох, упутствох за хаснованє, транскриптох парламентарних дебатох итд., зачувани у структурованей форми и звичайно опремени зоз ознаками (таґовани). За сучасни линґвистични виглєдованя корпуси барз важни инфраструктури, зоз котрих мож реконструовац велї аспекти язика.

Медзи ознаками котри маю корпуси найважнєйши леми, т.є. основни форми словох, ознаки морфолоґийних формох (напр. припадкох, числа, часу) и ознаки синтаксичних функцийох. Тоти ознаки ше нє хасную лєм за потреби корпусней линґвистики, алє и за препознаванє и ґенерованє бешеди, машинске прекладанє и други функциї.

Файти корпусох

[ушориц | ушор жридло]

З оглядом на язик, корпуси можу буц єдноязични або вецейязични. Медзи єдноязичнима корпусами найважнєйши тип референтни корпуси. Таки корпуси найобсяжнєйши и маю репрезентативни прикладнїк текстох на одредзеним язику, так же их мож хасновац за фундаментални виглєдованя ґраматики и вокабулара того язика. Медзи вецейязичнима корпусами найважнєйши тип паралелни корпуси, у котрих мож опатрац ориґинали и преклади истих текстох и котри, як таки, оможлївюю поровнованє язикох.