ЛюбопитноГеорги Караманев / 08 декември 2018

Е-битка за истината

Д-р Преслав Наков от Катар показа как компютрите научават естествения език и ни помагат да се ориентираме в морето от новини

 

Дължим много на компютрите, модерните информационни технологии ни позволяват да се къпем в информация. Но също така на тях дължим и неподозирани преди проблеми като например бума на фалшивите новини. И тогава... дали не е редно и решението да потърсим именно с помощта на компютрите? Изкуственият интелект не само е способен да улавя с много голям успех фалшивите новини, но и да създава сам журналистически материали. И това вече се случва в ежедневието! По пътя на едно изобретение с български корени – умел ловец на фалшивите новини и на най-модерното в тази област на науката ни води един забележителен учен – д-р Преслав Наков.

Компютрите стават все по-умни във всеки един от смислите на тази дума. Изкуственият интелект отправя все по-сериозни предизвикателства към човешкия, а едно от най-нашумелите направления през последните години са невронните мрежи – софтуер, обучен да обработва информацията по подобие на методите, с които това прави собственият ни мозък. Казано опростено, както невроните и синапсите им получават и обработват информацията, така и невронните мрежи трупат своя изкуствен интелект, след като могат да се самообучават, да анализират данните с впечатляваща точност и многопластовост.

Особено перспективна област през последните години са дълбоките невронни мрежи, при които обработката на информацията се извършва на няколко нива – задавайки си различни въпроси, частите на изкуствения мозък допълват общата картина на това, което търсим. 

E, ето защо именно дълбоките невронни мрежи могат да се окажат пръв наш помощник в тази толкова щекотлива и многопластова битка в търсене на истината. Те са свободни от емоции и ако им задаваме правилните въпроси, ще разчитаме на достатъчно мотивирани отговори.

На върха на езика

„Важно е да правим разлика между шеговитите новини и истинските лъжливи новини. Когато става дума за такива, които не отговарят на истината и са създавани с цел да се печелят пари или политическа дезинформация, тогава имаме сериозен проблем.“ Тази граница води в работата му д-р Преслав Наков, специалист по информационните технологии с докторат от „Бъркли“, който през последните години работи в Катарския институт по компютърни изследвания.

Именно това е целта, на която посвещават сериозни изследвания напоследък той и колегите му. Те създават софтуер, който може успешно да изпълнява тази отколешна човешка мечта: да търси истината. 

Областта на науката, с която Преслав се занимава, е компютърната лингвистика. „Нейната задача е да научим компютрите да разбират човешки език“, обяснява той. С колегите му се опитват да създадат дълбока невронна мрежа, която да улавя истинските новини независимо от езика, на който са публикувани, и от всякакви субективни обстоятелства. А пътят към създаването й минава през много въпроси.



Едно от фундаменталните правила на журналистиката - това да се представят различни гледни точки към дадена тема, лесно минава на заден план в електронните медии.


Език мой, враг мой

„Истинският проблем идва, когато започнат да се манипулират хората. Забележете, това не са false, а fake news. Не е проблемът, че не са истински, а че са се превърнали в политическо оръжие“, казва той. „Техният механизъм са социалните медии, защото там потребителят може да бъде много лесно профилиран. На базата на данните от тях се решава как да се подходи и се прави стратегия. Социалните мрежи позволяват микротаргетиране, например ако е жител на малък американски град в определен щат, в определена възрастова група, непрекъснато ще му се появяват новини, свързани с ограничаването на достъпа до оръжие, защото към това е чувствителен, а той и не подозира. Така или иначе, фалшивите новини вече дават сериозни отражения в реалния свят. Всички сме чували за съмненията, свързани с тях и резултатите от американските избори и гласуването за Брекзит, но случаите са много повече. Голямата криза с преследването на мюсюлманското малцинство рохинга в Мианмар започна именно с фалшиви новини в социалните мрежи. Вече година страната, в която живея – Катар, е подложена на икономическа блокада и всичко започна отново по същия начин. Хакери атакуваха националната информационна агенция, сложиха фалшива новина, от която започна огромен дипломатически конфликт. Тези неща са сериозни и могат да имат огромно значение в реалния живот – в политиката и икономиката“, казва изследователят.

„Според науката техниките на пропаганда са повече от 60. Когато се стигне до неудобен въпрос, се бяга в далечна тема или пък се повтарят цитати от миналото... Те са познати много отдавна и въпреки това не спират да работят. Гьобелс казва: „Пропагандата става неефективна тогава, когато хората знаят за нея“. Именно това е целта и сърцето на нашия проект“, разказва изследователят.

Дума по дума

В момента онлайн има около 200 мащабни организации, които се борят с фалшивите новини, проверявайки информацията. най-популярният сайт е factcheck.org, там са проверени около 10 000 твърдения. И все пак: от една страна, броят е нищожен на фона на ежедневния новинарски поток, от друга: понякога проверката на даден факт може да отнеме много, много време, което ще му е достатъчно да обиколи планетата. Ако човек се довери напълно на дадена организация, която да проверява фактите, това пък крие рисковете от нови манипулации.

Ето тук на помощ идва това, от което очакваме най-силно да промени живота ни в следващите години: изкуственият интелект и дълбоките невронни мрежи.
Проектът, начело на който е Преслав Наков, включва водещи учени от Катар, България, в него участва и Масачузетският технологичен институт. Резултатът е софтуер, който с голяма точност ни казва дали една новина е истинска, и ни дава огромно количество допълнителна информация за нея.


Без нерви

Първата задача на невронната мрежа: да отсее какво точно трябва да бъде проверено. Задачата съвсем не е рутинна. Изследователите вземат като изходна точка последния дебат между Тръмп и Клинтън дни преди изборите. Спорът е анализиран много подробно от 9-те най-популярни сайта за проверяване на достоверността на фактите, където професионални журналисти са били изправени пред същото предизвикателство – да отделят ключовите твърдения, които да бъдат проверени. Показателно е, че измежду около 4000 изречения в спора няма нито едно, което да е отличено като ключово и в деветте сайта, само 6 са отбелязани на поне 8 от местата. Решенията на деветте екипа са вкарани в невронната мрежа след подробен анализ. Тя е научена да забелязва не само съдържанието на изречението, но и дължината му, емоцията, която съдържат думите му. Отчита се какво е глаголното време, дали става дума за реакция на твърдение на опонента, съдържа ли собствено име, носи ли позиция. Извън структурата на диалога невронната мрежа е обучена и да търси вътрешни противоречия в думите на единия участник в разговора, има ли прилика с вече проверени твърдения, каква е реакцията на публиката в залата. Всичко това са фактори, които подсъзнателно анализираме и ние, слушайки който и да било събеседник, макар и да не е възможно да ги анализираме в такава пълнота.

ГЬОБЕЛС КАЗВА: „ПРОПАГАНДАТА СТАВА НЕЕФЕКТИВНА, КОГАТО ХОРАТА ЗНАЯТ ЗА НЕЯ“.

След като целият този пъстър спектър от информация е вече в невронната мрежа, изследователите проверяват как се справя тя със следващите текстове. И се оказва, че успехът е налице – в огромна част от случаите софтуерът избира като ключови едни и същи твърдения с много от водещите сайтове, където същата работа е свършена от хора. Основното предимство на невронната мрежа е, че тя се самообучава – на базата на успехите си в обработката на даден текст и допуснатите грешки тя бива подобрявана така, че да не ги повтаря при следващия текст. Същевременно тя анализира и работата на 9-те сайта за проверка на факти – какво отличава всеки от тях в подхода му към избора на изречения, което пък дава допълнителна информация – например за пристрастията на журналистите, правили анализа.

„Внимание! Пропастта на фалшивите новини“ © Карикатура: Роб Роджър„Внимание! Пропастта на фалшивите новини“ © Карикатура: Роб Роджър


Дълбоки води

По този начин дълбоката невронна мрежа решава едновременно няколко задачи, които са свързани помежду си и по този начин си влияят, допълват се и си помагат една на друга. Нещо повече, системата е разработвана едновременно да работи на английски и арабски, така че успехът й да не зависи от езика, на който е текстът за проверка“, разказва Преслав Наков. 

„Невронната мрежа не можеше да разпознае езика, това е възможно съвсем отскоро. Става дума за сериозен пробив в областта на компютърната лингвистика по отношение на обработката на естествения човешки език и системите наистина могат да се самообучават успешно. Това отдавна е възможно при обработката на изображения, но бяха нужни доста години, преди да се стигне до езика.“

След като са избрани ключовите изречения от определен текст, идва време за може би най-важното: проверката на фактите. Но как компютърът може да разбере дали едно твърдение е вярно? Отговорът е учудващо прост: също както и ние. В технологичната епоха как постъпвате, ако искате да проверите нещо? Търсите в гугъл. Е, същото прави и невронната мрежа на екипа начело с д-р Наков. „Голяма част от твърденията могат да бъдат проверени в интернет. Например някъде пише: „Обама спечели втора нобелова награда за мир“. Също както за вас би било лесно за секунди да проверите твърдението, така и невронната мрежа е научена да извлече най-подходящите ключови думи и на базата на определен брой резултати от гугъл да прецени, че те противоречат на твърдението. Тоест: става дума за фалшива новина“, обяснява компютърният лингвист.

Езикът обаче крие още много тайни. Например едно от големите предизвикателства е да се отличат мненията от твърденията. Защото да кажеш „според мен Списание 8 е най-хубавото издание“, е все пак въпрос на мнение и изразяване на гледна точка, а не проверим факт. И в тази посока обаче според Преслав невронната мрежа може да бъде научена да прави разликите. Тя обръща внимание на това дали се използват въпросителни в края на изречението, дали в него участват лични местоимения, което определено дава насока. Следващата стъпка е всъщност първата, с която са свикнали да се сблъскват журналистите: източникът на информация. Една новина без цитиран източник има много по-голям шанс да е невярна, същото важи за случаите, когато между цитатите не бъде намерена връзка. На обратния полюс: ако бъде цитиран авторитетен източник и думите му могат да бъдат проверени, това носи значително количество позитивни точки.

Още един знак: сайтовете, които силно разчитат на фейк нюз, много често ги изтриват, след като са отминали пика си. Проследяването на един източник на информация може да е много ценно в търсенето на истината. На все повече места се появяват списъци с медиите, публикуващи фалшиви новини, включително в „Уикипедия“, във фейсбук групи. (Един такъв за българското медийно пространство можете да намерите на mediascan.gadjokov.com.)

ЕДНО ОТ ГОЛЕМИТЕ ПРЕДИЗВИКАТЕЛСТВА Е ДА СЕ ОТЛИЧАТ МНЕНИЯТА ОТ ТВЪРДЕНИЯТА.

„Постепенно и аз стигнах до извода, че най-важно е да се концентрираме върху източника. Ако искам да видя дали едно твърдение е вярно, първата стъпка е да проверя кои медии имат връзка с него – ако го подкрепя надеждна медия, голям е шансът дори да е провокативно, то да е вярно. Ако зад него стои медия, която вече е натрупала много грешки, това е сигнал в обратната посока. Но това е само едната страна на нещата, не е достатъчно да разделим медиите на „добри“ и „лоши“ и с това всичко да приключи. Например важно е да знаем дали медията е лява, или дясна, дали има някаква връзка – позитивна или негативна, с източниците или с обектите на информацията. Медиите могат да бъдат анализирани от гледна точка на пристрастие – ако например няколко месеца пишат в определена посока, или пропаганда – пристрастие с цел. Например ако пише изцяло отрицателно за световното по футбол в Катар, добре е потребителят да познава контекста, четейки дадена новина. Понякога дори не е толкова важно дали медията е фалшива, а каква е пристрастността, защото всички ние си създаваме отношения към теми, личности, въпроси“, допълва Преслав.

Тук отново изниква въпросът как да бъде научена нашата невронна мрежа да си свърши работата. „Някои неща са съвсем прости, но особено ефективни. Например оказа се, че в над 80% от случаите показателен знак за достоверността на медията е дали тя изобщо има страница в „Уикипедия“. Направихме модел на три нива – който разделя медиите по силна, ниска и средна достоверност. Анализира се уеб сайтът, публикациите и профилите им в социалните мрежи, информацията за тях в „Уикипедия“, имат ли изобщо профили в социалните мрежи, колко стари са те, колко потребители ги следват, какъв е трафикът към тези сайтове според онлайн класацията Alexa и още, и още. Невронната мрежа „прочита“ съдържанието и го „осмисля“, търси връзка между заглавието и текста. Проверява дали съвпадат уеб адресът и името на медията, защото някои се маскират с малки буквени разлики. Знак е дали името на сайта е дълга последователност от думи, повечето медии нямат такива страници. На последно място се следи и трафикът“, разказва Преслав. Още една проверка, която занапред ще се доразработва, е мрежата да следи дали сайтът има обявен собственик и координати за връзка.

„Марк Зукърбърг: Боря се с фалшивите новини!“ © Карикатура: Пареш Нат
„Марк Зукърбърг: Боря се с фалшивите новини!“ © Карикатура: Пареш Нат



ГОЛЯМА ЧАСТ ОТ СТАТИИТЕ, КОИТО ЧЕТЕМ ДНЕС, СА АВТОМАТИЧНО ГЕНЕРИРАНИ ОТ КОМПЮТЪР.


Противно на очакванията, става ясно, че анализирането на коментарите към една новина не помага особено за това да се провери нейната достоверност. мащабно изследване е показало, че ако се анализира обсъждането на една фалшива новина, 3/4 от коментарите са неутрални, някои потвърждават твърдението в нея, други влизат в дискусия, но само 2% казват, че то е фалшиво.

И в тази посока обаче невронната мрежа може да се окаже полезна, само че от друга страна: в един от предишните си проекти д-р Наков съвместно с негов български студент опитва да отсее троловете – платените потребители, които провеждат внушения във форумите. Оказва се, че е напълно възможно те да бъдат отличени от набедените за такива на базата на комбинация от фактори. Отличават се успешно и „куклите на конци“ – езикът издава хората, криещи се едновременно зад много профили. И тук системата работи независимо от езика – анализирани са както арабски медии във връзка с конфликта в Сирия, така и български сайтове.

Още един любопитен щрих: вече е разработена и невронна мрежа (botometer.iuni.iu.edu), която успява да отличи безгрешно „социалните ботове“ – профили в социалната мрежа туитър, зад които се крие не човек, а софтуер. Забавно е, както отбелязва Преслав, че много често тя приема за такива и профилите на политиците. Тълкуванието оставяме на вас.

Журналист с процесор

И все пак: защо трябва да даваме още една ключова отговорност – търсенето на истината, в ръцете на компютрите?
Някои от причините вече със сигурност са ви ясни, но може би най-важната оставихме за накрая. Защото може да не подозираме, но вече сме дали на машините другата, много по-голяма половина от работата: създаването на новини.
„Генерирането на изображения, видео и звук, при които действителността не може да бъде различена от манипулацията, отдавна не е проблем за съвременните компютърни системи, там каузата скоро ще бъде безвъзвратно изгубена – единствено остава битката за текста“, казва Преслав. Можете да видите онлайн клипове, в които по съвършен начин е симулирано, че даден политик казва неща, за които не би си и помислил. За манипулирането на снимки дори няма нужда да споменаваме.

„Оказва се обаче, че това вече се случва и с думите“, допълва ученият. „Голяма част от статиите, които четем днес, са автоматично генерирани от компютър, без човешка намеса! Това важи за някои от най-големите медии, особено в три категории – прогнозата на времето, спортните събития и новините от борсата. Всяка новина може да бъде разказана и от различни гледни точки. С едно кликване спортната информация се променя от гледна точка на победилия, изгубилия, всяка новина може да се обърне. И това не е научна фантастика, а реална практика, за която обаче много малко се говори. Голяма част и от специализираните статии се пишат изцяло от компютри, смята се, че до 2025 г. покритието може да достигне 90%“, разказва Преслав Наков.

И все пак: дори да замени журналиста в новинарската страна на нещата, надали компютърът ще се научи да разказва емоционални истории. А ние сме там, откъдето започнахме. В света на битовете думите остават безценни. Информацията винаги има много страни и колкото по-ценна е тя, толкова по-голям обект е на манипулации. Щом компютрите могат да ни помогнат, нека бъдат добре дошли, поне докато все още са не участник, а средство: щит и меч. Защото остава само вечната кръстоносна битка в търсене на най-важното. Истината.


© Карикатура: Дейв Гренлун

Холандия прави за пчелите поляни върху спирките Любопитно

Холандия прави за пчелите поляни върху спирките

Може да разчитате на финансова помощ от общината, ако си посадите поляна на покрива

Защо е добре да знаете заплатата на колегата Любопитно

Защо е добре да знаете заплатата на колегата

Дейвид Бъркъс: ще се чувствате по-спокойни и ще работите по-ефективно

Опасни ли са куршумите, изстреляни в небето? Любопитно

Опасни ли са куршумите, изстреляни в небето?

Известни са най-малко 20 случая на загинали хора след празнична стрелба

Прави или сгънати в лактите ръце при бягане? Любопитно

Прави или сгънати в лактите ръце при бягане?

Учени твърдят, че не могат да обяснят ръкомахането при тичане

Внимание: Криптоспоридиум дебне в басейните Любопитно

Внимание: Криптоспоридиум дебне в басейните

Ако сте с отслабена имунна система плувайте в големи водоеми

Бил Гейтс разказва за „заклинанията” на Стив Джобс Любопитно

Бил Гейтс разказва за „заклинанията” на Стив Джобс

Никога в живота си не съм срещал толкова мотивиран човек, казва основателят на Microsoft

Епичното пътуване на една лисица върху ледени блокове Любопитно

Епичното пътуване на една лисица върху ледени блокове

Над 3500 км от Норвегия до Канада само за 76 дни изминало животното

Хигиенисти в Анкара направиха библиотека Любопитно

Хигиенисти в Анкара направиха библиотека

В продължение на месеци чистачите събирали изхвърлени книги

Европейските градове силно ограничават достъпа до автомобили до центъра Любопитно

Европейските градове силно ограничават достъпа до автомобили до центъра

Рестрикциите в Рим, Мадрид, Копенхаген, Париж, Хамбург и др. вече дават резултати

Защо моливът е идеален Любопитно

Защо моливът е идеален

Каролайн Уивър смята, че този предмет е достигнал съвършенството си

В планината с верен съюзник Любопитно

В планината с верен съюзник

Целта на шведската „арктическа лисица“ винаги е била да се движи заедно с природата

Да нарисуваш Наполеон с цъфнал ориз Любопитно

Да нарисуваш Наполеон с цъфнал ориз

Изкуството Танбо може да се види само в село Инакадате в Япония

Как в Индия забраниха делфинариумите Любопитно

Как в Индия забраниха делфинариумите

В началото на 90-те са починали 4 делфина, внесени от България за представления

Не се гневете на горещото време, можете да си докарате метеоневроза Любопитно

Не се гневете на горещото време, можете да си докарате метеоневроза

Ако все пак започнете да нервничите - използвайте билкови тинктури

Ехото на войната, която свърши преди 74 г. Любопитно

Ехото на войната, която свърши преди 74 г.

10 процента от хвърлените над Германия бомби още не са се взривили