Classificational Paradigm of a Text Corpus by Its Design, Structure and Use, as Well as by the Fixation and Indexation Methods of Its Text Data (original) (raw)
2020, Naukovì zapiski Nacìonalʹnogo unìversitetu «Ostrozʹka akademìâ»
У статті робиться спроба доповнити класифікацію корпусів текстів. Представлено класифікаційну парадигму текстових корпусів з огляду на те, яка його структура та дизайн, зокрема за цим параметром виділено збалансований / репрезентативний корпус, корпус з гнучкою структурою, завершений, повнотекстовий корпус, фрагментарний, паралельний та порівнянний корпуси, а також cтатичний та динамічний / моніторинговий корпуси. Виявлено, що парадигму за параметром «спосіб фіксації та індексації текстових даних у корпусі» складають друкований корпус, корпус електронних текстів, корпус транскрибованого мовлення, аудіо/відео корпус, мультимедійний корпус, а також простий / нерозмічений / неіндексований / нетегований корпуси та анотований / розмічений / індексований / тегований корпус. Корпуси, в залежності від того, як ними користуються, поділено на категорії "за метою" (як, наприклад, дослідницький та ілюстративний корпуси) та "за доступністю" (корпуси у вільному доступі, закриті корпуси, а також, комерційні корпуси). Також представлено приклади згаданих типів корпусів текстів. У статті представлено термінологічні еквіваленти назв корпусів за типом мовних даних в українській та англійській мовах.