Автоматизація реферування

3.7 Експерименти

На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: - металознавство - чотири тексти; - обчислювальна технiка - чотири тексти; - порошкова металургiя - два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У зв'язку з тим, що при реферуваннi аналiзуються тiльки формально вираженi зв'язки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, - 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї - 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були пред'явленi фахiвцю-металлургу; квазiреферати з обчислювальної технiки аналiзував автор. Всi квазiреферати одержали оцiнку “4” за 7-бальною шкалою: “Реферат у цiлому задовiльний, шуму мало, але втрати найбiльш важливої iнформацiї дещо бiльше припустимого рiвня”. Отже, квазiреферат, обсяг якого в чотири рази менший за обсяг вхiдного тексту, дає досить повне уявлення про тематику документу, мiстить мало другорядних вiдомостей (отже, може бути використаний також в АСНТI для автоматичного iндексування документу), проте в ньому вiдсутня частина iстотної iнформацiї. Можна припустити, що останнє частково викликане самим принципом квазiреферування, яке не враховує, зрозумiло, того факту, що важлива, з точки зору користувача, думка може бути висловлена в деяких реченнях, серед яких можуть опинитися синсемантичнi, якi вилучаються при квазiреферуваннi. Наведемо приклад квазiреферування роздiлу статтi N.Berhood, et al. The Yield and Flow Stress of Cu-1% Cd Alloy. - Acta Metallurgica, 1980, 28, p. 1141. Цифрами позначенi порядковi номери речень у вхiдних текстах.

On the Lower Bainite Transformation

00. Pickering [1] systematically studied the variation of the transition temperature between upper and lower bainite as function of carbon contenent in steels containing 0 plus boron, or 1,5 mc. 01. (L; развитие мысли) 02. (L; развитие мысли) 03. In order to explain the apparent initial rise in transition temperature with an ancrease in carbon content he proposed that it gets progressively difficult to remove carbon from supersaturated bainite ferrite as the alloy carbon content increases since the conceтеration gradients in austenite will become shallower. 04. (C; следствие) 05 (B; противопоставление) 06 (E; дополнение) 07. (E; дополнение) 08. (C; следствие) 09. (L; развитие мысли) 10. (E; дополнение) 11. (L; развитие мысли) 12. In fig 2, comparison of Pickering's data with the bainite start (bs) and marteniste start (ms) lines given by Steven and Haynes suggests that the transition temperature between upper and lower bainite or the lower bainite start temperature should also vary in a similar manner. 13. (J; подтверждение) 14. (J; подтверждение) 15. It is assumed that the lower bainite start temperature should also vary in a similar manner. 17. (J; подтверждение) 18. The following table list shows that the steels in which lower bainitic epsilon carbide has been positively identified invariably have a high carbon content. 19. (B; противопоставление) 20. (L; развитие мысли) 21. Bhadeshia [3] originally suggested that the lack of epsilon carbide in the 0,43 C alloy steel may be due to the presence of the substantial amount of manganese. 22. (B; противопоставление) 23. Kalish and Kohen [4] have shown that it is energetically favourable for carbon atoms to remain segregated at dislocation compared with their presence in the epsilon carbide lattice. 24. (C; следствие) 25. (L; развитие мысли) 26. Kalish and Kohen estimate that a dislocation density of 2110 CN will prevent epsilon carbide precipitation in steels of up to 5,28 wt% carbon.

На наступному етапi були проведенi пряма nf непряма перевiрки лiнгвiстичних гiпотез вiдповiдно до iдей, висловлених у Главi 1.

3.8 Пряма перевiрка гiпотез

Мною була сформулювана та пiддана прямiй перевiрцi гiпотеза про текстоутворюючий механiзм категорiї визначеностi в англiйському науковому текстi. Гiпотеза була сформулювана так: 1) Механiзм спiввiдношення граматично визначеного об'єкту з антецедентом, що виступає у виглядi “адреси” цього об'єкту в класi подiбних, лежить в основi маркованого денотативного зв'язку речень англiйського наукового тексту -А-зв'язку речень. 2) Залежно вiд характеру спiввiдношення об'єкту з його “адресою” в класi подiбних, розрiзняються такi рiзновиди А-зв'язку: - експлiцитний прямий повний; - експлiцитний прямий частковий; - експлiцитний непрямий повний; - експлiцитний непрямий частковий; - тезаурусний прямий повний; - тезаурусний прямий частковий; - тезаурусний непрямий повний; - тезаурусний непрямий частковий; - списковий прямий повний; - списковий непрямий повний; - списковий непрямий частковий; - iмплiцитний прямий; - iмплiцитний непрямий. 3) А-зв'язок речень бере участь у формуваннi синтаксичної мiжфразової структури наукового тексту. Докладний виклад даної гiпотези з прикладами А-зв'язку див. у [Блехман, 1985]. З точки зору комп'ютерної лiнгвiстики, ця гiпотеза може мати силу тiльки за умови експериментальної перевiрки її iстиностi. Для здiйснення такої перевiрки був розроблений аналог дослiджуваного об'єкту - гiпотетична модель А-зв'язку [Блехман, 1985], пiсля чого ця модель була представлена у виглядi алгоритму вияву А-зв'язкiв у англiйських наукових текстах. Алгоритм був орiєнтований на функцiювання в реальнiй iнформацiйнiй системi, яка здiйснює автоматичне квазiреферування англiйських текстiв. Як ми бачили вище, ця система володiє нульовим рiвнем “розумiння” тексту й використовує морфологiчний i гiперсинтаксичний засiб “розумiння”. Алгоритм базується на формальному апаратi опису експлiцитного та спискового А-зв'язкiв i не дозволяє виявляти в текстах тезаурусний та iмплiцитний А-зв'язок. Експеримент полягав у безпосередньому аналiзi правильних i помилкових рiшень алгоритму при реалiзацiї в системi квазiреферування та у виявi причин помилок. Iнженерна реалiзацiя моделi пiдтвердила такi положення сформульованої гiпотези: 1) Механiзм спiввiдношення граматично визначеного об'єкту з антецедентом, що виступає у виглядi “адреси” цього об'єкту в класi подiбних, лежить в основi маркованого денотативного зв'язку речень англiйського наукового тексту. Дане припущення пiдтверджується тим, що реальна iнформацiйна система, котра використовує аналог лiнгвiстичного об'єкту, що моделюється, з досить високою надiйнiстю виявляє в до-вiльно взятих наукових текстах об'єктивно iснуючi в них А-зв'язки речень, причому мiра надiйностi, очевидно, може бути пiдвищена при використаннi синтаксичного та семантич-ного засобiв “розумiння” тексту, що,однак, потребує окремої експериментальної перевiрки. 2) Залежно вiд характеру спiввiдношення об'єкту з його антецедентом - “адресою” в класi подiбних об'єктiв -розрiзняються зазначенi вище рiзновиди експлiцитного, тезаурусного та спискового А-зв'язку речень. Дане припущення частково пiдтверджується тим, що використаний формальний апарат, який задає умови iснування в текстi кожного з рiзно-видiв А-зв'язку, крiм iмплiцитного та тезаурусного, дозволяє комп'ютеру розпiзнавати цi рiзновиди в реальних текстах при їх квазiреферуваннi. При цьому iнженерному моделюванню тезаурусного та iмплiцитного А-зв'язкiв має передувати поглиблене теоретичне дослiдження їх механiзмiв. 3) А-зв'язок двох речень бере участь у формуваннi синтаксичної мiжфразової структури англiйського наукового тексту. Дане припущення пiдтверджується тим, що IС, котра здiйснює квазiреферування англiйських текстiв, виявляє в процесi розпiзнавання мiжфразової синтаксичної структури текстiв, що опрацьовуються, А-зв'язки, якi задовольняють визначенню синтаксичного мiжфразового (гiперсинтаксичного) зв'язку, а саме: - А-зв'язок базується на насиченнi синсемантичного речення, що мiстить граматично визначений об'єкт, реченням, що мiстить “адресу” цього об'єкту в класi подiбних; - А-зв'язком, що виявляється iнформацiйною системою, зв'язуються речення, котрi знаходяться в логiчно-смисловому мiжфразовому зв'язку того чи iншого типу.

3.9 Непряма перевiрка гiпотез

У попередньому роздiлi ми проiлюстрували принцип прямої перевiрки лiнгвiстичної гiпотези. Проте виявляється, що застосування цього засобу до деяких лiнгвiстичних об'єктiв є неефективним, не дозволяючи одержати надiйну оцiнку сформульованої гiпотези. Це має мiсце у тих випадках, коли моделюємий лiнгвiстичний об'єкт погано пiддається безпосередньому спостереженню. Важливо пiдкреслити, що неможливiсть прямого спостереження об'єкту, що моделюється, неминучо призводить до суб'єктивностi в описi цього об'єкту. Так, наприклад, вiдома гiпотеза про можливiсть подання значення слова у виглядi сукупностi “елементарних смислiв” потребує саме непрямої перевiрки, яка дозволила б об'єктивно оцiнити правильнiсть такого подання. Проiлюструємо тепер метод непрямої перевiрки на прикладi гiпотези про мiжфразову синтаксичну структуру англiйських текстiв iнформацiйних повiдомлень. Газетне iнформацiйне повiдомлення - це, як правило, текст довжиною вiд 3 до 20 речень, типовий для сучасної англiйської газети (пор. тексти повiдомлень VWD, гл.2). Гiпотеза про його гiперсинтаксичну структуру була сформулювана нами в такому виглядi: 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. 2) Елементами цiєї структури є: а) речення (нижчий рiвень); б) маркованi, тобто такi, що мають спецiальний вислiв у виглядi конекторiв, мiжфразовi одиницi, якi ми назвали поверхньо-синтаксичними мiжфразовими одиницями - ПМО. 3) До складу ПМО входять: одне автосемантичне, а також, можливо, декiлька синсемантичних речень. 4) Перше, автосемантичне, речення ПМО є “головним” для всiєї одиницi, тобто мiстить головну iнформацiю даної ПМО, являючись свого роду “анотацiєю” ПМО. 5) Перше речення в ланцюжку автосемантичних речень є головним, тобто несе те ж навантаження, що й перше речення ПМО. 6) Кiлькiсть головних речень тексту складає не бiльше 25% всiх речень цього тексту. 7) З головних речень може бути складений такий новий текст, що утворить гiперсинтаксичну структуру. Цю гiпотезу покладено в основу системи автоматичного квазiреферування текстiв англiйських iнформацiйних повiдомлень, побудовану на тих же принципах, що й описана вище система квазiреферування наукових статей. Систему було реалiзовано у виглядi пiдсистеми багатофункцiональної IС, розробленої в ЛГПI iм. А.I.Герцена пiд керiвництвом Л.Н.Беляєвої [Чижаковський, Беляєва, 1983]. Для перевiрки зазначеної гiпотези була побудована формальна модель мiжфразової структури тексту, що використовує апарат конекторiв i квазiконекторiв. На пiдставi даного апарату було розроблено подiбну описанiй вище систему квазiреферування, що витягає зi вхiдного тексту головне речення i формує квазiреферати двох типiв: зi вказiвкою смислових класiв вилучених речень - РР1; без вказiвки цих класiв - РР0. Речення вважається головним, якщо не мiстить конекторiв i квазiконекторiв i є першим у ПМО або в ланцюжку автосемантичних речень. Система використовує морфологiчний i гiперсинтаксичний засоби “розумiння” тексту. Перевiрка гiпотези здiйснювалася на масивi 17 довiльно вiдiбраних газетних повiдомлень. Були введенi такi якiснi характеристики квазiрефератiв: а) повнота передачi основного змiсту документу; б) точнiсть - вiдсутнiсть у квазiрефератi речень, надлишкових для передачi основного змiсту документу; в) зв'язнiсть (у звичайному розумiннi цього слова). Були також введенi такi кiлькiснi оцiнки кожної з перелiчених характеристик квазiрефератiв: 1 - дуже погано 2 - погано 3 - задовiльно 4 - добре 5 - вiдмiнно. Квазiреферати оцiнювалися автором цiєї книги, тобто людиною, яка знає англiйську мову, але не обiзнана зi змiстом тексту, що реферується. Оцiнки виставлялися виключно з точки зору майбутнього користувача системи, в припущеннi, що квазiреферат в iдеалi повинен мати статут самостiйного документу, тобто давати користувачевi чiтке уявлення про тему вхiдного документу, iнформувати про його основний змiст, але не мiстити при цьому надлишкової iнформацiї, вiдрiзняючись тим самим вiд повного документу. Документи, що опрацьовувалися, були подiленi нами на два класи: (а) якi пiддаються iнтелектуальному реферуванню i (б) якi не пiддаються iнтелектуальному реферуванню (наприклад, перелiки спортивних результатiв).

Обсяг одержаних квазiрефератiв - вiд 1 до 3 речень; у двох випадках обсяг склав 4 речення: це були документи, котрi не пiдлягають iнтелектуальному реферуванню. Отже, експеримент дозволив зробити такi висновки. По-перше, було встановлено, що сфоромульована гiпотеза не вiдноситься до невеликої частини текстiв iнформацiйних повiдомлень, якi не пiддаються iнтелектуальному реферуванню. По-друге, на матерiалi бiльшої частини текстiв були перевiренi всi 7 пунктiв гiпотези про гiперсинтаксичну структуру текстiв iнформацiйних повiдомлень. 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. Це припущення пiдтверджується тим, що система видiлила в текстах реально iснуючi в них мiжфразовi зв'язки, що задовольняють усiм умовам синтаксичного мiжфразового зв'язку; саме цi вiдносини об'єднують текст повiдомлення в єдине цiле. 2,3) Речення цiєї гiперсинтаксичної структури об'єднуються в ПМО. Це припущення пiдтверджується чергуванням у текстi повiдомлення автосемантичних i синсемантичних речень. 4,5) Припущення про те, що автосемантичнi речення є справдi головними, оцiнюється так. Той факт, що 12 з 14 квазiрефератiв (Табл. 4.1) мають вiдмiнну чи хорошу повноту, свiдчить про те, що в 85% текстiв речення, котрi ми назвали головними, справдi мiстять основну iнформацiю, закладену у вхiдних текстах. Крiм того, одержанi квазiреферати мiстять мало надлишкової iнформацiї, а її наявнiсть викликана в основному помилками, не пов'язаними з якiстю нашої моделi. Таким чином, включенi в квазiреферат речення мiстять, як правило, основну iнформацiю вхiдного тексту, тобто вiдповiдають визначенню головного речення. 6) Кiлькiсть головних речень, як правило, складає не бiльше 25% всiх речень цього тексту (див. Табл. 4.1): коефiцiент стиску менше 4 одержаний тiльки для дуже коротких текстiв. 7) Припущення про те, що з головних речень може бути складений новий текст, що має власну гiперсинтаксичну структуру, частково спростовується результатами експерименту: 5 квазiрефератiв з 14 (кожний третiй) одержали низьку оцiнку по параметру “зв'язнiсть”, тобто цi квазiреферати мають вигляд скорiше штучних об'єднань речень, якi вiдносяться до однiєї теми, нiж тексту. З iншого боку, основною причиною цього були зовнiшнi для нашої моделi чинники, тому треба вважати одержаний результат попереднiм i таким, що потребує додаткової перевiрки. На закiнчення визначимо, що реферування росiйських та українських текстiв є дещо складнiшим, головним чином, iз-за вiдсутностi в цих мовах такого важливого показника мiжфразового зв'язку, як визначений артикль, наприклад:

Si-1: В статье анализируются порошки на основе алюминия. Si: Порошки отличаются тем, что...

Для вияву мiжфразового зв'язку в подiбних випадках необхiдно розробити спецiальну процедуру пошуку антецедентiв слiв, не оформлених маркером визначеностi.

3.10 Перспективи

Як уже вiдзначалося, розробка систем зазначеного типу переслiдувала теоретичнi та практичнi цiлi. Досягненню перших будуть сприяти введення в систему великої кiлькостi текстiв i перевiрка гiпотез про розподiл по тексту iстотної iнформацiї та засобах вияву синтаксичних мiжфразових зв'язкiв. Крiм того, великий iнтерес представляє опрацювання типологiї науково-технiчних текстiв на основi аналiзу типiв формально вiдбитих синтаксичних мiжфразових зв'язкiв i їх насиченостi цими зв'язками. Дуже перспективною здається також побудова класифiкацiї поверхньо-синтаксичних мiжфразових одиниць у залежностi вiд їхньої структури. Щодо практичного напрямку, то другим етапом розвитку системи квазiреферування має бути алгоритмiзация встановлення дистантних мiжфразових зв'язкiв для конекторiв усiх класiв, що дозволить реалiзувати систему ешелонованого реферування, iдея якої була запропонована В.Ю. Берзоном [Берзон, Брайловский, 1979]. Наступним етапом пiдвищення розпiзнавальної спроможностi системи є формалiзацiя деяких iмплiцитних зв'язкiв шляхом вияву конекторiв, якi зазнали елипсису. У виглядi ще одного важливого завдання треба розглядати опрацювання програми-диспетчера, що буде визначати тип тексту, що реферується, i вибирати засiб реферування. Актуальнiсть даного завдання визначається тим, що iснують тексти з переважною бiльшiстю iмплiцитних мiжфразових зв'язкiв, якi не пiддаються реферуванню описаним методом. Такими, наприклад, є описи технологiчних процесiв i устаткування. Практичну цiннiсть для абонента системи представляє автоматичне аспектне реферування [Блюменау та iн., 1981; Полонская, 1989] таких текстiв. Не менш важливим завданням треба вважати використання даної системи в єдиному комплексi засобiв автоматичної обробки наукових текстiв: такий шлях представляється єдиним засобом здобутку високої економiчної ефективностi систем реферування будь-якого типу. Нарештi, пiдкреслимо актуальнiсть реалiзацiї методiв автоматичного реферування на персональних комп'ютерах.

Висновки

Отже, ми розглянули деякі теоретичні та прикладні аспекти комп'ютерної лінгвістики. Можливо, наш підхід дещо відрізняється від прийнятого, особливо, в американській практиці, коли комп'ютерна лінгвістика розглядається в основному як частина математичної лінгвістики в розумінні Н. Хомського, а монографiї, присвячені цій проблематиці, насичені структурними схемами речень і умовними символами.

Філософія, запропонована увазі читача даної книги, заснована на прагматичному, якщо завгодно - технологічному погляді на комп'ютерну лінгвістику. Будучи практиком, я намагаюсь будувати таку теорію, яка допомагала б мені та моїм колегам вирішувати конкретні завдання, що виникають при розробці інформаційних систем. Можливо, недоліком такого погляду на проблематику обробки текстів є деяке ігнорування математичного апарату та ідей формальних граматик. У той же час, одержані нами результати у вигляді функціонуючих інформаційних систем свідчать, очевидно, про те, що даний суто гуманітарний підхід має право на життя. Ще раз підкреслюю, що критерієм якості розроблених систем і систем, що створюються, для мене служить виключно погляд кінцевих користувачів, і саме він є стимулом до удосконалення наших продуктів.

Можливо, мої потенційні опоненти можуть закинути мені те, що я віддаю перевагу тривалому, емпiричному "вирощуванню" систем перед апріорною побудовою всеосяжної моделі лінгвістичного об'єкту. На це можна заперечити тільки одне: нам поки що невідомі комерційні, тобто такі, які мають реальну користь для людей, системи, побудовані інакше, ніж за принципом "вирощування".

Тут, мабуть, закономірним є питання: а чи є межа у того процесу, що називається "вирощуванням"? Чи не опиниться він нескінченним?

Гадаємо, самий дух щойно прочитаної вами книги свідчить про те, що цей процес, на щастя і на нещастя, нескінченний. На щастя - тому, що "вирощувати" інформаційну систему майже так же цікаво, як вирощувати дитину. На нещастя - тому, що дитину кінець кінцем можна виростити, і вона стає дорослою, тоді як комп'ютер завжди залишиться дитиною - якою б гарною чи поганою не була теорія "вирощування".Проте дитинство - це чудово!

Список використаної літератури

1. Библиография №2. Книжная палата: 2000 год. с.12-15.

2. Вісник книжкової палати №3 .-К.:1998 рік. с.25.

3. Вісник книжкової палати №10 .-К.:1998 рік. с.6.

4. Вісник книжкової палати №3 .-К.:1999 рік. с.15.

5. Сіркова Г.В. Основи інформаційно-аналітичних досліджень. Рівненський інститут слав'янознавства Київського слов'янського університету.-К.:1998 рік. с.24-28.

6. Жанры информационной литератури: Обзор. реферат.-Москва “Книга”.1983 год. с.203-210.

Страницы: 1, 2, 3, 4

МЕНЮ

Автоматизація реферування

ИНТЕРЕСНОЕ