Робота з цифрами може здаватися непростою, а сухі таблиці незрозумілими й нікому не цікавими, однак аналіз даних відкриває величезне поле можливостей донести до читача нову і справді цінну інформацію. До того ж її можна подавати різними способами, зокрема, за допомогою інтерактивних проєктів.
Основою для матеріалів можуть стати відкриті дані. Це інформація, яку держава має публікувати у вільному доступі: наприклад, бюджети громад та державних установ, судові рішення, рівень забруднення навколишнього середовища і навіть розклад руху громадського транспорту. За допомогою аналізу відкритих даних можна контролювати ремонт доріг, дізнатися, як уберегти бізнес від рейдерських атак, обрати сімейного лікаря тощо.
Відкритими даними зазвичай користуються в своїй роботі розробники програмного забезпечення, аналітики, дослідники, журналісти й активісти, вони створюють на основі цих даних корисні вебсервіси, застосунки для смартфонів, чат-боти, інтерактивні карти та різноманітні візуалізації. Правильне використання відкритих даних відкриває нові можливості для ЗМІ, а дата-журналістика наразі стала окремим напрямом доказової журналістики.
«Детектор медіа» поговорив із журналісткою та дата-аналітикинею Оксаною Ставнійчук, яка почала займатися журналістикою даних у 2018 році, працюючи в громадському русі «Чесно». Зокрема досліджувала відкриті дані щодо діяльності народних депутатів.
Двічі перемагала в конкурсі журналістських історій на основі відкритих даних Data Up, організованому Міністерством цифрової трансформації України в партнерстві з проєктом USAID/UK aid «Прозорість та підзвітність у державному управлінні та послугах/TAPAS».
Ще один матеріал журналістки на основі аналізу даних потрапив у шортлист конкурсу «Честь професії».Аналіз відкритих даних не лише дозволяє отримати нову інформацію, а й часто виконує важливу соціальну роль, зокрема в боротьбі з корупцією.
Ми розпитали Оксану Ставнійчук про те, чим цікава робота з відкритими даними, а також як і де навчитися аналізу даних в Україні.
– Оксано, як ви почали працювати з відкритими даними? Чому?
– Я довгий час працювала в русі «Чесно», де ми займалися моніторингом діяльності політиків, народних депутатів, місцевих депутатів, виборів тощо. Один зі способів аналізу цієї діяльності – дослідження голосування, поведінки в парламенті. Також цікаво було аналізувати вибори – хто найбільше голосів набирає, де найпотужніші кандидати. Якраз на час моєї роботи в «Чесно» припало багато виборів – президентські та парламентські у 2019-му, а також місцеві у 2020-му роках. Також я працювала з деклараціями державних службовців. Завдяки тому, що вони викладені тепер у форматі відкритих даних, я могла аналізувати їх сукупно. Це дає змогу дізнатися, хто задекларував найбільше підприємств, будинків тощо.
– Які вміння, знання та навички потрібні для вдалого використання відкритих даних у журналістиці?
– Я починала зі звичайного Excel. Його достатньо для того, щоб аналізувати інформацію з декларацій народних депутатів. На той час у нас були інші аналітики, які завантажували із сайта НАЗК дані. Існує також Єдиний державний вебпортал відкритих даних, де можна знайти дата-сети для початківців, для якихось мініпублікацій, власного розвитку, а можливо, і для професійних матеріалів. Оскільки я починала з Excel, то порадила би тим, хто хоче займатися аналізом відкритих даних, почати з нього, а також зрозуміти, що таке csv-формат, як його відкрити, як робити зведені таблиці тощо. Там доволі багатий інструментарій для початку.
Існує багато онлайн-інструментів, які дозволяють робити інфографіку або зануритися в парсинг даних. Я користуюся мовою програмування R, створеною для статистичного аналізу, там є багато можливостей для візуалізації даних (бібліотека ggplot). Також трохи використовую Python. Суто з мого суб’єктивного досвіду мені здається, що легше спочатку засвоїти мову R (упевнена, що багато хто зі мною не погодиться). Свого часу вона мені видалася простішою для входження у світ даних. Утім, з R я почала працювати після того, як засвоїла Excel і почала відчувати обмеження. Хотілося «просунутися» далі.
– Які джерела відкритих даних ви використовуєте у своїй роботі?
– Відкриті дані доступні для завантаження у зручному машиночитальному форматі. У кожному напрямку, який ми використовували в «Чесно», є власний портал. Наприклад, голосування у Верховній Раді України – це дуже багато рядків інформації, і їх просто так не викладеш в Excel, оскільки це надто масштабні дані. Тому дані щодо ВР лежать на Порталі відкритих даних Верховної Ради, там можна завантажити всю інформацію щодо роботи парламентарів, законодавчої активності, голосування, належності до фракцій, комітетів – все, що стосується парламенту.
Наприклад, вибори – це сайт Центральної виборчої комісії. Раніше інформації про вибори не було у форматі відкритих даних, доводилося завантажували її «вручну», але на виборах 2019-2020 років почали публікувати інформацію про кандидатів, про результати у форматі xml. Це інформація, яку можна дістати швидко завдяки додатковим інструментам аналізу даних.
– Якщо потрібної інформації немає у формі відкритих даних?
– Коли інформації немає у форматі відкритих даних, то доводиться вдаватися до витягування даних через скрепинг. Умовно кажучи, ми не можемо копіювати 400 таблиць на 400 окремих сторінках. Це зайняло би надто багато часу і ресурсів. Є можливість пришвидшити процес – програма сама забирає дані з різних сторінок і складає їх у таблицю.
– Де можна навчитися роботі з відкритими даними?
– Щодо мене, то я навчалася всьому переважно сама. Зануритися в світ даних мені дуже допомогли мої ексколеги, з якими я працювала в «Чесно».
До епідемії коронавірусу я була викладачкою в школі Interlink Academy, яка організовувала 10-денні кемпи з навчання журналістів-початківців, і в нас була секція з журналістики даних. Є Київська школа економіки, де є курс із аналізу даних для журналістів, але він проходить лише раз на рік. «Тексти» часто проводять івенти щодо навчання журналістики даних. Я ходила до них на воркшоп ще в 2014 році. Зараз у них є події з просунутими лекціями по Python чи R. Ще одним джерелом знань є запущений нещодавно Центр компетенцій у сфері відкритих даних «Дія. Відкриті дані».
– Оксано, розкажіть про власні проєкти, які ви вважаєте найбільш вагомими.
– Проєкт, яким я пишаюся, пов’язаний із деклараціями народних депутатів. Ми взяли дані про те, де розташовані помешкання народних депутатів – будинок, квартира, дача. Є така законодавча норма – якщо народний депутат має житло в Києві або в радіусі 30 км, він не має права претендувати на компенсацію на житло від держави.
Мій колега завантажив електронні декларації, а я вже в Excel за допомогою зведених таблиць порівняла два списки депутатів – відфільтрувала тих, у кого є житло в Києві або Київській області, і порівняла зі списком депутатів, які отримують компенсації на житло. Там виявила до двох десятків людей, які отримували компенсацію, маючи власне житло. На той момент мені здавалося це не таким уже й глобальним розслідуванням, ми його опублікували як новину на сайті «Чесно» навіть без підпису. Але цю новину передрукувала «Українська правда» і згодом виявилося, що Національне антикорупційне бюро України (НАБУ) розпочало власне розслідування щодо цієї ситуації. На цей момент багато колишніх народних депутатів повернули кошти або отримали вироки, там є різні історії.
Також за минулий рік зробили два цікавих дослідження. Перше – про поправки народних депутатів. Поправки – це один із елементів роботи депутатів, який ще не оприлюднюється у відкритих даних, тобто ми використовували скрепери й отримали багато цікавої інформації про те, хто найбільше подає поправок до законопроєктів або хто зазвичай подає їх разом. Наприклад, багато поправок до Земельного кодексу подавали представники однієї з політичних партій, але вони не приймалися – це був такий поправковий спам. Ми також досліджували зв’язки щодо тих поправок – чи вони самостійно подані якоюсь людиною чи парами, і якщо таких пар було багато, це вже говорило про певну тенденцію. Можна було побачити, що є співпраця на рівні комітетів, навіть якщо це протилежні фракції чи групи. Нас це змушує задуматися, чому ці люди співпрацюють, що їх поєднує.
Друге дослідження, яке ми зробили кілька місяців тому, стосується зв’язків народних депутатів щодо законодавчої діяльності й найбільш впливових депутатів у Раді. Ми аналізували, які законопроєкти вони подають окремо та разом. Було цікаво подивитися, хто найчастіше подає одне з одним. По-друге, завдяки мережевому аналізу дослідили, які депутати є найвпливовішими у подачі законопроєктів – тобто з ким треба співпрацювати, щоб у твого законопроєкту було більше шансів стати законом.
Ці дві статті перемогли в конкурсі журналістських історій на основі відкритих даних Data Up, що мене дуже потішило.
– Окрім створення журналістських історії, чим ще можуть бути корисні відкриті дані?
– Наприклад, ми в «Чесно» створили чат-бот «Чесно про закони» для інформування про законопроєкти у Верховній Раді. Так ми спростили доступ до інформації про те, хто реєструє законопроєкти, які законопроєкти реєструються (можна відстежувати ключові слова). Наразі цей чат-бот удосконалюється, тож, на жаль, не всі опції працюють. Це пов’язано із зовнішніми причинами (порталом ВР), але сподіваюся, що невдовзі все запрацює. Для створення цього чат-бота, відповідно, ми використовували дані Порталу відкритих даних ВРУ.
– Чи можна сказати, що всі ці проєкти пов’язані з дослідженням корупції й аналіз відкритих даних допомагає її виявляти?
– Залежить від того, під яким кутом дивитися. Перша історія – уособлення корупції, там навіть НАБУ відкрило реальне кримінальне провадження. Щодо мережевих зв’язків, це більше користі для аналітиків, стейкхолдерів і всіх людей, які залучені в будь-яку комунікацію з політиками, адже мережевий аналіз дає зрозуміти, хто грає головну роль у парламенті та з ким варто підтримувати стосунки, говорити про законопроєкти. Розумієш вплив і вагу кожної людини в такому випадку.
– Оксано, як, на вашу думку, журналістика даних розвиватиметься у світі і, зокрема, в Україні?
– Можу лише сказати, що журналістика даних у світі значно більш поширена. Усі великі американські медіа, які зараз спадають мені на думку, мають окремі департаменти з дата-журналістики. В Україні це хіба що «Тексти».
– Дайте три поради журналістам-початківцям, які хочуть займатися журналістикою даних.
– Перше – познайомитися з Excel, не боятися його. Якщо щось не виходить, то шукати відповіді на питання в мережі інтернет. Друге – моніторити навчальні програми, бо краще сходити на тригодинний семінар, ніж самому тиждень розбиратися в якихось елементарних речах. Третє – пропонувати свої маленькі дослідження ЗМІ, якщо це хороша тема, ЗМІ будуть завжди зацікавлені їх публікувати.
Для таких матеріалів відкриті дані – безцінне джерело інформації, яку треба вміти використовувати, щоби створювати ще якісніші журналістські матеріали, і цьому може навчитися кожен охочий
Схожі публікації:
- Літературний музей ім. Б. Лавреньова після реконструкції відновлює свою роботу (відео)
- Унікальне видання «Фронтовий Кобзар» презентували у Херсоні (відео)
- На Херсонщині завершився третій сезон інклюзивного театру (відео)
- Тренерів у Херсоні вітають з професійним святом (відео)
- Вступна кампанія проходить у Херсонському фаховому спортивному коледжі (відео)