Как да преценим надеждността на информацията в даден сайт?

Информацията вече не се излъчва само от медиите и журналистите. Днес много статии, публикувани в интернет, са от блогове или сайтове за „алтернативни“ новини.  Някои се оказват много точни в своята област, но други проявяват ниска сериозност или дори напълно манипулират своите читатели.

Такива сатирични сайтове са американският The Onion, българските „Не! Новините” и „Бъзикилийкс”, които представят новините по един пародиен начин. В крайна сметка, независимо от пародийността и сатиричния заряд често материали оттам се разпространяват като истински новини, предизвиквайки буря от реакции сред по-лековерните читатели.

Освен това Българското интернет пространство се наводни с всевъзможни „новинарски агенции”, изкарващи бомбастични новини, които се разпространяват лавинообразно в социалните мрежи. За жалост тези т.нар. „агенции” в повечето случаи са анонимни. Или нямат секции „За нас” и „Контакти”, или, ако имат, то там се мъдри най-често някакъв общ електронен адрес. Това трябва да е първият сигнал, че нещо не е наред с тази медия.

В интернет пространството са достъпни различни инструменти за оценка на надеждността на даден сайт. Например, има редица разширения за браузърите Chrome, Microsoft Edge и Firefox, като приложението NewsGuard, което предоставя възможност, чрез показване в реално време или по време на навигацията ви, да видите дали сайтът е надежден или разпространява доказано невярна информация, като го обозначават с червен, жълт и зелен етикет за рейтинг на публикацията. Ако задръжте курсора на мишката над иконата на етикета ще получите допълнителна информация с повече подробности, като например кратко описание на сайта и в коя от деветте критерии на употреба попада.

Ако следвайки някаква новина, попаднете на непознат сайт, ето няколко съвета, с които да го прецените и видите по-ясно.

  1. Разгледайте домейна на сайта. Ако той е с непознато чуждестранно разширение от типа .ml, .ga или странен поддомейн, както и ако е лека вариация на добре познати уебсайтове, това е знак, че е фалшив източник.  До скоро детайлна информацията за собственика на домейна на уебсайта можеше да се проверява с инструменти от типа who.is, но след влизане в сила на Европейския регламент за GDPR тази информация е скрита и не е достъпна свободно.  Затова се налага да се използват други индиректни методи на търсене.
  2. Посетете страницата “За нас“, „Контакти“ и т.н. В повечето сайтове има такива страници, в които може да намерим име, имейл, телефон или друга следа.  Ако липсват данни за контакт, като име (на юридическо или физическо лице), телефон, адрес и имейл е много вероятно този сайт да разспространява фалшиви новини.  Освен това есто има фалшиви имена за които са посочени имейли от безплатни пощи като abv.bg, gmail.com, yahoo.com или mail.bg. Сериозните издания имат имейл под същия домейн: office@bta.bg  editor@bnr.bg.  Можем да проверим имената и имейлите за достоверност, като направим бързо търсене в Google за тях. То може да ни покаже свързаност с други „жълти” медии или политически сили.  Също така е полезно да видим дали уебсайтът има раздел „политика за поверителност“ или подобни страници. Много сатирични уебсайтове разкриват повече за тях именно в тези страници. Пълната липса на информация за издателя може да означава, че уебсайтът не е легитимен източник на информация. Правете разлика между хумористични и сериозни новинарски сайтове. Запитайте се – познавате ли медията и имате ли ѝ доверие?
  3. Прегледайте заглавията и съдържанието в сайта. Заглавия от типа „В България ще се появи месия, който ще ни оправи за 800 дни”, „Секретно …“,  „Чудодейно лекарство премахва рака след две натривания”, „Топ 3 на гадателките наследнички на Ванга” очевидно говорят за сайт с нискокачествени сензационни измислици. Можете да го затворите без угризения на съвестта – реална информация тук няма.
  4. Опитайте се да разберете кой е авторът на текстовете? Вижте дали статиите в сайта са подписани с истинските имена на авторите, дали са с псевдоним или още по-лошо анонимни. Фактът, че не можем ясно да разберем кой стои зад даден текст, сам по себе си е индикатор за фалшиви новини. Това не значи, че информацията е невярна, а по-скоро ни предупреждават да бъдем предпазливи. Кой е източникът на информация? Проверете дали журналистът е посочил конкретно източника на информация или информацията се базира на друга статия. Проверете дали основният източник на информация е достоверен. Винаги поглеждайте началото или края на статията, където обикновено е посочен източникът на информация. Ако не е посочен източник, е редно да се съмнявате в достоверността на новината. В повечето достоверни материали се посочва начина на събиране на информацията.
  5. На какви източници разчита този сайт? Погледнете в текстовете цитират ли се някакви източници? Ако има такива, възможно ли е да проследим произхода на информацията, която е публикува? Преценете дали проучваният сайт не използва автоматичен агрегатор на съдържание от външни новинарски източници. В такъв случай е по-добре да прочетем първоизточника.
  6. Балансирана ли е информацията? Заглавието отразява ли съдържанието на статията? Представя ли сайтът фактическа информация или мнения и ясно ли се различават те? Тонът на статията премерен ли е или пристрастен без да отчита всички факти?
  7.  Известен ли е този сайт, като такъв публикуващ невярна информация в миналото? В Европейските страни има редица онлайн услуги за проверка на информация, като snopes, factcheck.org или  инструмента на френският вестник Le Monde наречен Decodex, който дава достъп до база данни с фалшиви статии, чрез които оценява може ли да се има доверие на съответния сайт[1]. В случай на съмнение можете да се консултирате с някои от сайтовете за проверка на информация, като инструмента на Decodex https://www.lemonde.fr/verification/. Те предоставят достъп до бази данни, в които може да се види дали проверявания сайт е публикувал фалшиви новини в миналото. Какво казват другите медии по темата? Ако попаднете на статия, публикувана в непознат за вас блог, а информацията не е тиражирана никъде другаде, това е знак, че новината може би е фалшива. Винаги търсете и други резултати по темата, а ако те са малко или никакви, по-добре не разпространявайте новината
  8.  Потърсете уебсайта в социалните мрежи, като Facebook. Вижте съответстват ли заглавията и описанията на страниците на социалните мрежи със съдържанието на свързаната медия? Използвайте съществуващи бази данни (библиотеки) – като OpenSources.со, които поставят етикети на сайтове, които доказано са публикували фалшиви новини в миналото. Това е много полезен инструмент, който поставя следните видове етикети: фалшиви новини, сатира, пристрастия, конспирация, слухова мелница, държавна репресия, псевдо наука, омраза, clickbait, продължете с повишено внимание, изискващи допълнителна проверка, достоверни източници и неизвестни.
  9. Какво казват експертите? Много експерти изразяват мнението си по дадени въпроси, за да отрекат слухове в интернет. Когато се съмнявате в истинността на дадена информация, проверете какво мислят по темата два независими един от друг източника (експерти). 
  10. Проверете сайта за плагиатство. В Интернет пространството са известни редица онлайн инструменти преглед на уникалността на съдържанието в даден сайт, такива са програмата Advego Plagiatus и българският инструмент  https://webavtor.com/unique. Ако един сайт публикува крадено съдържание не би трябвало да му се доверяваме, а от друга страна с тяхна помощ можем да определим от къде идва първоизточника на съдържанието и до колко то е модифицирано.

В изследване на Турнитин на малко повече от 2 милиона студентски документи и работата на 900 преподаватели от средните и висшите училища са констатирани 10 типа плагиатство[2]. Като резултат от изследването е направен спектър на плагиатството, в който плагиатство е  подредено по общия сбор на оценката за проблематичност на откриване поставена от преподавателите и честота на употреба, както следва:

  • Клониране – 95 % от случаите. Подаване на друга работа, дума по дума, като собствена.
  • Копиране (CTRL + C) – 89 % от случаите.  Съдържа значителни части от текста от един източник без промени.
  • Заместване (CTRL-F) – 39 %.  Промяна на ключови думи и фрази, но запазване на същественото съдържание на източника
  • Ремикс – 56 %.  Перифразиране на множество източници, направени да се поберат заедно.
  • Рециклиране – 55 %. Поправяне на работата на оригиналния автор, без да го цитираме.
  • Хибридно комбиниране – 5 %.  Комбинира перфектно цитирани източници с копирани пасажи без цитиране
  • Мозайка  – 91 %.  Смесване на копирани материали от няколко източника.
  • Грешно цитиране – 6 %. Включва цитати за несъществуващи или неточни данни за източниците.
  • Агрегиране – 28 %. Включва правилното цитиране на източниците, но хартията не съдържа почти никаква оригинална работа.
  • Повтаряне – 44 %.  Включва правилно цитиране, но разчита твърде много на оригиналната формулировка и/или структура на текста.

11. Откриване на скрити връзки и белези в кода на сайта.

Представете си, че проучвате анонимен сайт без никакви улики за неговото авторство и нищо от горе написаното не ви дава полезна информация. Тогава проверете HTML кодът с който са изградени страниците. Един малък низ от код може да свърже този сайт с друг, което може да разкрие самоличността на собственика. Освен това ще разберете на каква система е направен или на кой програмен език, което ви носи допълнителна информация.

Най-лесният начин е да натиснете CTR +U или да щракнете някъде в страни на уебстраницата с дясно копче на мишката и след това „Преглед на източника“ или “view source”.

Там потърсете кода, който показва идентификатор на Google Analytics. Когато сте отворили кода на страницата може да натиснете CTRL + F и да ви се покаже форма за търсене в страницата в която трябва да търсим следното:

  • За Google AdSense търсим: Pub-  или  ca-pub
  • За Google Analytics търсим: UA-
  • За Amazon търсим: &tag=
  • За AddThis търсим: #pubid / pubid

Google Analytics е най-популярна услуга, която се използва от всички уебмастъри и позволява да събират потребителска статистика – като посетители на страницата, страната от която идват, браузър и операционна система и още множество данни. За да се постави тя, в сайта трябва да се постави един низ от код, който съдържа уникален номер на потребителски акаунт. По-важното е, че чрез него могат да бъдат свързани няколко сайтове на един и същи уебмастер или собственик.  Google AdSense, Amazon и AddThis работят на същия принцип и може също да имат поставени идентификатори, които да разкрият собственика.

Ако ви затруднява работа с код има няколко готови инструмента, които са на разположение за търсене на тези идентификатори без умения за програмиране, такива са:

 – http://www.spyonweb.com е напълно безплатна подобна услуга;

https://nerdydata.com/ е услуга за по-напреднали, която търси повтарящи се съвпадения на произволен фрагмент от код.

Добра идея е да проверявате констатациите си с повече от една услуга, тъй като броят на съвпаденията, които те извличат, може да варира.

Струва си да потърсите идентификационния номер на Google Analytics или  AdSense в самата търсачка на Google, като поставите двойни кавички за точно търсене (например, „UA-12345678”). С това може да намерите и други резултати, които сте изпуснали преди. Освен това, ако един уеб сайт наскоро е премахнал или променил кода си в Google анализ, кешираният резултат от Google за услуги ще го покаже.

Регистрационните записи на домейни могат да притежават ценна информация за обекти, свързани с уеб сайт. Те могат да включват имена, имейли, пощенски адреси или телефонни номера. Въпреки че след влизане на Европейският регламент за защита на личните данни GDPR вече тези данни са маскирани все пак може да проверите инструментите като https://Who.is/ и http://whois.DomainTools.com.

Много документи и изображения, които намирате онлайн, съдържат метаданни – информацията, която е добавена при създаването или  редактирането му. Такива инструменти показващи мета данните са http://fotoforensics.com/ (които обработват само снимки) и EXIF Viewer на Джефри (който също анализира документи, включително PDF, Word и OpenOffice).

Има много видове метаданни, но някои от най-интересните за нашите цели са EXIF, Maker Notes, ICC профил, Photoshop и XMP. Те могат да съдържат информация, като точната версия на използвания пакет за редактиране на изображения. Например, XMP полето за инструмента, с който е създаден и времето на създаване или редактиране, „Microsoft Windows Live фото галерията 15.4.3555.308“. „XMP инструментариум“ често дава подобни данни, например „Adobe XMP Core 5,3-c011 66,145661, 2012/02/06-14:56:27“. Ключът е да се съсредоточите върху полета, съдържащи конкретна, подробна информация. Ако анализирате снимка, номерът на модела на камерата може да присъства (например „цифрова камера на Кодак DX4330“). Дори може да присъства името на създателя на документа.

Все пак трябва да имате в предвид, че социалните медийни услуги, като Facebook и Twitter са склонни да изтриват метаданните автоматично при качването на файла, но това не винаги е така за останалата част от мрежата.

С правилните инструменти, тази информация може да бъде разкрита изненадващо лесно. След като намерите някакви данни може да направите обратно търсене с инструменти като http://www.stolencamerafinder.com/ и http://www.cameratrace.com/, за да се намерят други снимки, заснети със същото устройство.

Друга възможност, която трябва да имате в предвид, е, че публикуваното уеб съдържанието може бързо да изчезне или да се промени във времето. За щастие има няколко начина да се запазят страниците за идните поколения.

Съществува машина на времето https://archive.org/  или Archive.is които запазват копие на уеб страниците и може да видите как е изглеждала дадена страница преди година или две. Дори ако я изтрият, да възстановите информацията от нея  бързо и лесно. След като бъде архивирано, съдържанието на страницата не може да бъде променено, така че получената „моментна снимка“ е трудна за оспорване.

При разследването на големи групи от уебсайтове може да направите сложна плетеница от връзки, която да ви затрудни в разбирането на истината. За целта е необходимо да направите визуализиране с графичен обект-релация. Една подходяща за целта безплатна програма е  yEd Graph Editor  ((за Windows, OS X и Linux) или онлайн инструмента за графично визуализиране на акаунти и ключови думи в Twitter – https://hoaxy.iuni.iu.edu/. Програмата е удобен инструмент за изграждане и подреждане на диаграми, както прости, така и сложни. Можете да създавате графики просто като кликнете и плъзгате икони и рисувате връзки между тях.

Започнете с определянето на всичко, което знаете: уеб сайтовете, обектите и идентификаторите на акаунти, които ги свързват заедно. Актуализирайте графиката си с всяка нова информация, която намерите. yЕd има икони за компютри, файлове, хора и много други, така че има много място за експеримент.

Незаменим помощник в разузнаването на уебсайтове е хакерският софтуер Maltego за Kali Linux.


fakenews; името на файла е fake-instrument.png

  • [1] Decodex https://www.lemonde.fr/verification/
  • [2] Turnitin White Paper The Plagiarism Spectrum: Instructor Insights into the 10 Types of Plagiarism. 2016