Не всі новинні API одинакові, які ключові відмінності між ними?

Андрій Елиїв, Нікхіл Аґґарваль

Світові ЗМІ щогодини видають тисячі новин різними мовами. Багато з них є оригінальними, деякі з них зібрані з соціальних мереж, але більшість просто передруковані з інших джерел із незначними змінами. Новини містять різні атрибути, метадані, сутності, ключові слова, вони можуть бути вжитті в контексті з різними сентиментами. Для управління такою кількістю неструктурованих даних були розроблені Прикладні Програмні Інтерфейси (API), що дозволяють кінцевим користувачам послідовно отримувати події, теми та іншу корисну інформацію з новин у добре організованій та зрозумілій формі.

Пряме застосування веб-скреперів до сайтів новин стикається з великою кількістю викликів та обмежень. RSS-канали новин стали менш популярними зараз, і багато джерел обмежили їх підтримку. Новинні API широко використовуються розробниками, спеціалістами з аналізу даних, вченими з даних та інженерами з обробки природних мов. Зазвичай API новин доповнюється інструментами аналізу тексту, які надають можливість отримувати з новин цінну інформацію, таку як мова, ключові слова та фрази, сентименти, категорії, резюме та ін.

Ми розглянули список 5 найпопулярніших новинних API станом на 2020 рік за їхніми основними технічними особливостями. В статті не обговорюються ціни та формати результатів.

Event Registry

Source:

Event Registry — це інтелектуальна платформа ЗМІ, яка аналізує вміст поточних та архівних новин. Для збирання статей новин Event Registry використовує RSS-канали з близько 30 000 джерел на 39 мовах. Окрім головних національних ЗМІ вони звертають увагу на регіональні та незначні джерела новин. Їхній підхід базований на Conception (Концепція): термін, який представляє різні типи сутностей (особи, місцезнаходження, організації) тощо., який асоціюється зі сторінкою Вікіпедії. Кожне поняття може мати назви різними мовами, синоніми, зображення та описи. Оскільки вікі-сторінки одної і тієї ж сутності на різних мовах пов’язані, концепція є містком між різними мовами. Event Registry вводять оцінку того, наскільки дана новина притаманна згаданій концепції. Це свого роду рівень подібності між новинами та вікі-сторінками.

Event Registry категоризують новини на основі ієрархічної схеми онтології DMOZ, використовуючи три рівні по 50 000 категорій лише для англійської мови. Також вони кластеризують новини, збираючи новини про одну і ту ж саму подію для виокремлення історій. Кожна історія містить статті однією мовою і має такі атрибути: мова, заголовок, резюме, дата, концепції, категорії та інші.

Основою їхньої системи є Event (Подія), що являє собою збірку однієї чи декількох історій, які розповідають про одну і ту ж саму світову подію. Це свого роду “агломерати кластерів” — вони можуть бути різними мовами, пов’язаними поняттям через вікі-сторінки. Кожна подія може містити назву та резюме (усіма доступними мовами), дату, географічне положення, список історій, кількість статей, список понять, категорії та часто згадуванні дати. Також API постачає щоденні тенденції для понять та категорій.

Реєстр подій надає соціальний вплив на новини, тобто, скільки разів ділилася стаття в соціальних веб-сайтах. Крім того, вони надають інструмент пошуку за новинами, історіями та подіями за ключовими словами, використовуючи складну логіку. Новини в реєстрі подій мають такі атрибути: назва, текст, дата, час, джерело, зображення, список понять, категорій, вилучені дати. Джерело має назву, опис, геолокацію та його значення. Інструменти аналізу тексту реєстру подій здійснюють виявлення настроїв, виявлення мови новин та подій.

Event Registry API надає інформацію про соціальний вплив новин, тобто, скільки разів дану статтю було поширено в соціальних мережах. Крім того, вони містять інструмент пошуку новин, історій та подій за ключовими словами, використовуючи складну логіку. Новини в Event Registry API мають наступні атрибути: назва, текст, дата публікації, час, джерело, зображення, список понять, категорій, вилучені дати. Джерело має назву, опис, геолокацію та його значення. Їхні інструменти аналізу тексту здійснюють виявлення настроїв, виявлення мови новин та подій.

Aylien

Source:

Aylien представляє дані про новини як послугу. Вони збирають, аналізують, узагальнюють та шукають вміст новин з усього світу в режимі реального часу з тисяч джерел.

Основними кінцевими даними Aylien є:

Історії (Stories) — статті новин, збагачені метаданими,

Кластери (Clusters) — набір новин із спільними подіями,

Часові ряди (Time Series) — візуалізація та виявлення змін з часом,

Тенденції (Trends) — кількісний аналіз змісту новин,

Автозаповнення (Autocompletes) — функція пошуку,

Споріднені історії (Related Stories) — семантично подібні чи релевантні історії,

Відстеження новин (Related Stories) — як часто історія висвітлюється в ЗМІ.

Один кластер в Aylien відповідає одній події або темі.

Одна історія завжди належить лише одному кластеру. Зв’язок між історією та кластером не змінюється з часом. Це надає можливість відстежувати актуальність новин та стежити за “надзвичайними” подіями. Крім того, Aylien API забезпечує моніторинг в режимі реального часу історій популярних в Інтернеті.

Інструменти Aylien визначають сентименти з фрагментів тексту, таких як твіт, рецензія чи стаття: позитивний, нейтральний чи негативний тон. Розподіл між суб’єктивним та об’єктивним текстом працює для твітів на рівні речення. Тут суб’єктивне означає, що воно показує думку автора, а об’єктивне означає, що воно виражає факт.

Для роботи з сутностями (люди, дати, організації, місця чи продукти, посилання, номери телефонів, адреси електронної пошти, валюта, відсотки) Aylien використовує dbpedia як ресурс. Вони застосовують категоризацію за таксономій ієрархією використовуючи Вікіпедію як контекст.

Aylien генерує хештеги для новин, щоб отримати більше видимості в соціальних мережах. Також Aylien робить класифікацію новин та їхнє автоматичне резюмування. Для сортування результатів запитів вони пропонують використовувати різні рейтинги за релевантністю, популярністю, терміновістю, соціальним впливом, кількістю фотографій чи відео в новинах та рейтингу Alexa.

Для новин вони показують заголовок, текст, автора, зображення, відео, RSS-канал, дату публікації та ключові слова. Aylien також пропонує теги зображенням, щоб асоціювати зображення з текстом. Aylien API працює з 16-ма провідними мовами світу. Класифікація та вилучення концепції безпосередньо застосовуються лише для 5 з них (en, de, fr, it, es, pt). Для інших (ar, da, fi, nl, no, ru, sv, tr, zh-cn, zh-tw) вони використовують переклад на англійську мову.

Connexun

Source:

Connexun визначає себе як інтелектуальний інструмент роботи з новинами з акцентом на міжнародних новинах. Він агрегує новини на різних мовах, використовуючи веб-скрапінг в режимі реального часу з більш ніж 20 000 надійних джерел. Середня швидкість обробки новин — 100 000 на день.

Connexun приділяє велику увагу якості та походженню джерел новин та класифікації новин за країнами. Також велика увага приділяється місцевим новинам про міста чи регіони. Connexun використовує багатомовні онлайн-кластеризації для 8 мов (en, uk, it, hi, pa, pl, ru, es). Це означає, що окремі теми можуть складатися з новин на різних мовах.

Новин зберігаються тривалий час, щоб мати можливість стежити за розвитком топіків з часом. Кластеризація Connexun включає не тільки текст, але й зображення новин, тобто мультимодальну кластеризацію. Система ранжування тем залежить від того, скільки унікальних джерел опублікувало новини по даній темі, від того, скільки унікальних країн, скільки унікальних мов було вжито. Це дозволяє уникнути упередженості окремих джерел та країн серед міжнародних тенденцій.

Цікавою особливістю Connexun є автоматичні резюме з використанням алгоритмів, розроблених спеціально для новинних статей. Connexun APIможе створювати так звані динамічні резюме, які містять запити, пов’язані з конкретною сутністю згаданою в тексті.

Connexun періодично оновлює міждержавний індекс, який є рівнем взаємних згадувань між країнами, індексом для моніторингу взаємних відносин між країнами. Connexun пропонує тренди світових новин, а також новини про дану країну або джерела, опубліковані в певній країні. API новин Connexun надає можливість виділення сутностей: міст, аеропортів, посольства, тощо.

Важливою частиною аналізу тексту Connexun є геопарсинг коротких текстів, який пов’язує будь-яке слово / фразу / короткий текст зі списком країн.

Connexun забезпечує тематичний пошук тем та новин на основі тексту, проводить аналіз настроїв для новин, а саме позитивна, нейтральна чи негативна.

NewsAPI

Source:

NewsAPI була однією з перших компаній в галузі API, яка займалася новинами. Вони забезпечують доступ до загальносвітових новин, пошук статей із понад 50 000 джерел новин, із понад 50 країн, що належать до 7 різних категорій (бізнес, розваги, загальне, охорона здоров’я, наука, спорт, технології).

NewsAPI дозволяє шукати новини, що згадують певну тему або ключові слова протягом останніх 24 місяців. Вони дозволяють робити складні запити, отримуючи дані з кількох джерел та інформаційних сайтів за допомогою одного запиту. Основі результати NewsAPI надають прямі та актуальні заголовки для конкретної країни або конкретної категорії в країні із заданих джерел.

Статті сортуються за датою або за релевантністю джерела. Для основних джерел вони індексують назву, опис та категорію. Вони працюють із наступними 14 мовами: ar, de, en, es, fr, he, it, nl, no, pt, ru, se, ud, zh. Кожна стаття новини має такі атрибути: джерело, автор, заголовок, опис або фрагмент статті, URL-адреса новини, URL-адреса зображення, дата публікації, до 200 символів неформатованого вмісту статті.

ContextualWeb

Source:

ContextualWeb використовує найсучаснішу технологію пошуку, на основі нейронауки. Це третя за величиною пошукова система у світі за кількістю проіндексованих веб-сторінок. Він здійснює пошук у понад 100 000 різних джерел новин та блогів зі всього світу.

Їхня пошукова система базується на схемі інверсованого індексування. ContextualWeb індексує та отримує веб-сторінки без списку перетинів за допомогою реалізації підходу індексації пам’яті Hippocampal. Крім того, вони виокремлюють сутності та основні ключові слова з новин з урахуванням контексту новини як цілої.

Висновки

Згадані вище API новин пропонують різні види кінцевих продуктів. Перевага Event Registry, NewsAPI, ContextualWeb — величезна кількість опрацьованих джерел новин та ефективні засоби пошуку. Event Registry, Connexun, NewsAPI та Aylien дають можливість користувачам працювати з різними мовами.

Широка палітра інструментів аналізу тексту представлена в Registry Event, Connexun та Aylien. Ексклюзивність Connexun полягає в класифікації тем новин за країнами, багатомовна швидка кластеризація з використанням одночасно тексту та зображення, система ранжування тем новин про кожну із країн світу, резюме що розроблений спеціально для новин, різноманітні види видобутку сутностей, геопарсинг який пов’язує будь-яке слово / фразу / короткий текст зі списком країн.

Connexun is the ultimate AI news engine — turning unstructured news content into multi-purpose actionable data.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store