Лід (lede): заходи проти перевантаження інформацією.

Виділення найбільш релевантної та інформативної частини тексту новин

Андрій Елиїв, Нікхіл Аґґарваль, Альдо Візібеллі

Життя в суспільстві, що швидко розвивається, характеризується перевантаженням інформації, відомим як інфоксикація, що сильно гальмує здатність обробляти інформацію для прийняття рішень. Перевантаження інформацією також може серйозно погіршити якість прийняття рішень. Таким чином, здатність людей та організацій оперативно розуміти ключові повідомлення, що стоять за великим обсягом інформації, стає все більш необхідною.

Наявність в Інтернеті великої кількості суперечливих, а в деяких випадках і неперевірених матеріалів щодо кризи Covid-19 є прикладом виклику, з яким ми повинні мати справу для прийняття зважених рішень. З цієї причини існує попит на ефективну обробку текстів для кращого розуміння та інтерпретації новин. Першим кроком може бути виділення важливих фрагментів новини та резюмування її основного змісту.

Перевантаження інформацією спонукає розвиток методів аналізу тексту для розробки автоматизованих рішень, що здатні ідентифікувати найважливішу інформацію у величезній вибірці новин на різних мовах та з різною структурою. Ідентифікація лід (lead) — це важливий перший крок для розуміння новинних публікацій та осмислення великих обсягів неструктурованих даних та суттєвий прорив до розробки відповідних резюме (summary) новин.

Лід — це жаргонна назва вступної частини новинної публікації. Простіше кажучи, лід — це коротка частина статті, яка надає суть історії і містить найважливіші моменти, які читачі повинні знати. Використовуючи цей засіб журналісти мають на меті привернути увагу читачів. В журналістиці перший абзац, який узагальнює або вводить в суть історії, також називають “абзацом розмиття” (blurb paragraph), “тизерним текстом” (teaser text) або у Великобританії “standfirst”.

Як правило лід не перевищує 40 слів і його можна знайти в першій половині статті. Наш аналіз показує спробу виявити найбільш релевантну та інформативну частину новин. Ми оцінили важливість речень у новинних статтях, використовуючи майже 13000 новин і коротких резюме до них написаних людьми. Рівень важливості речення в залежності від позиції в статті та відносного розміру показаний у 2D-графіку нижче. Колір залежить від середньої частотності слів із резюме, написаних людьми, в реченнях зі статей з відповідними властивостями.

Для аналізу ми використали два атрибути: відносна довжина речення щодо середньої довжини речення в тексті (вісь Y) та порядковий номер речення в статті (вісь X). Як показано, чим довше речення і ближче до кінця, тим менш інформативним воно є. Жовта область визначає найінформативнішу частину новини, яка зазвичай знаходиться між 4-им та 9-им реченням, і є лідом. Тому не витрачайте час на читання всієї новини, достатньо звернути увагу на короткі речення в першій десятці.

Для отримання додаткової інформації про Connexun слідкуйте за нами на Linkedin.

Connexun is the ultimate AI news engine — turning unstructured news content into multi-purpose actionable data.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store