Inteligența artificială și analiza de sentiment ca instrumente de predicție a intenției de vot

Anul 2024 reprezintă un record pentru sistemul electoral din România: 4 cicluri electorale, 3 runde de alegeri, toate organizate „în cascadă” pe parcursul a 6 luni, cu primele alegeri programate în iunie și ultimele în decembrie.

În mod tradițional sondarea opiniilor a fost posibilă preponderent prin interviuri față în față sau telefonic, ambele variante necesitând resurse financiare consistente pentru studii sau cercetări la nivel național. Însă creșterea în ultimii ani a ratei de utilizare a rețelelor de socializare în România, în special în rândul publicului în vârstă, coroborată cu adoptarea algoritmilor de socializare concentrați în jurul interacțiunilor și nu a calității interacțiunilor, pot reprezenta o cale de acces la un set de date de analize mult mai mare decât ce este fezabil din punct de vedere financiar pentru o companie de cercetare de piață. De asemenea, dezvoltarea capacității de analiză și interpretare de date în rândul aplicațiilor de inteligență artificială de tip LLM (Large Language Model) poate oferi o alternativă reală la metodele tradiționale de sondare a opiniei. Aceste aplicații pot procesa și interpreta cantități imense de date provenite de pe rețelele de socializare, identificând astfel o serie de tendințe, opinii și atitudini într-un mod mult mai rapid și cu un raport beneficiu/cost mult mai bun. Un tool bine calibrat poate oferi insight-uri extrem de valoroase unor entități interesate, deseori în timp real, cu costuri mult reduse și o reprezentativitate similară variantelor tradiționale.

Proiectul pulsul-politic.ro a luat naștere tocmai din dorința de a testa viabilitatea unui astfel de instrument, în contextul alegerilor din România și cu accent pus pe organizarea „în cascadă” a acestora. Cele 3 runde de alegeri permit o calibrare ante-factum și post-factum a instrumentului de analiză, cu scopul de a îmbunătăți algoritmii pe măsură ce înaintăm în ciclul de alegeri și cu scopul final de a duce la maturitate un instrument de predicție a intenției de vot.

Pentru testarea inițială a intrumentului s-a ales platforma Facebook. Este principala platformă de socializare din România raportată la diversitatea publicului țintă. Este, de altfel, singura platformă de socializare din România unde publicul de vârsta a 3-a este prezent și foarte activ. Această diversitate în publicul țintă acoperă nevoia de reprezentativitate a predicției de vot. La data lansării proiectului (16 martie 2024) Facebook este platforma cu cel mai mare scor de activitate, “Active User Score = 54.7”, pe toate segmentele de public și dintre toate rețelele sociale. Instagram AUS = 22.9, Youtube AUS = 21.1, TikTok AUS = 29.0. Diferența foarte mare în AUS este dată de prezența – pe Facebook și doar pe Facebook – în număr mare a publicului trecut de vârsta a 2-a. Un alt criteriu în alegerea acestei platforme este diversitatea reacțiilor disponibile, ceea ce permite publicului o exprimare mai variată prin reacțiile lăsate la conținutul publicat.

Analiza de sentiment este făcută pe reacțiile publice ale persoanelor care consumă, comentează și distribuie conținut pe 3 categorii diferite de conturi:

  • 1. Conturile partidelor politice, cu o pondere de 25% în algoritmul final;

    Ponderea este relativ scăzută din cauza specificului publicului care urmărește aceste conturi, unul preponderent partizan, dar și pentru a minimaliza posibilitatea de a include în analiza finală reacții cumpărate și provenite de la ferme de click-uri sau conturi automatizate;

  • 2. Conturile ministerelor Guvernului român, cu o pondere de 30% în algoritmul final;

    Conținutul publicat pe acestea este posibil să fie perceput și interpretat ca fiind unul politic, chiar și atunci când nu este, însă publicul care le urmărește nu mai este exclusiv unul interesat de partidul/partidele de guvernământ;

  • 3. Conturile principalelor agenții și trusturi de știri, cu o pondere de 45% în algoritmul final;

    Cea mai mare pondere în algoritmul final este alocată unui conținut care generează reacții de la o plajă mult mai diversificată de public, cu site-uri care acoperă atât nevoile electoratului de stânga, cât și cel de centru și de dreapta.

Algoritmul analizei de sentiment este o variantă modificată a unui algoritm deja existent, utilizat și publicat științific într-un jurnal internațional împreună cu conf. univ. dr. Nicolae Urs (Universitatea Babeș Bolyai) și, implicit, trecut printr-un proces amplu de peer-review.

Pentru a determina intenția de vot sub forma unui procent, instrumentul urmează 3 pași:

  • 1. Inventarul:

    Se strâng toate reacțiile existente în categoriile de conturi menționate anterior; pentru a determina un punct de plecare, datele analizate inițial acoperă ultimele 3 luni, un total de 289 de mii de puncte de analiză; după acest moment inițial baza de date se va actualiza săptămânal, WOW (week over week), strict cu datele acumulate în ultimele 7 zile;

  • 2. Aplicarea algoritmului:

    Pe datele strânse se aplică algorimul și se stabilesc trendurile, opiniile și percepțiile generale ale publicului analizat, cu alocarea unui RS (reaction score) aferent fiecărui partid; în această etapă se aplică ponderarea algoritmului;

  • 3. Inteligența artificială:

    Ultimul pas este cel al „hrănirii” inteligenței artificiale cu întreaga bază de date pentru a elimina datele invalide, perimate sau cu un grad ridicat de vulnerabilitate, respectiv pentru a aloca, în baza unor procese de „prompt engineering”, un scor care să reflecte o intenție de vot a publicului la următoarele alegeri.

Fiecare etapă are vulnerabilitățile ei, însă instrumentul este gândit pentru a fi îmbunătăți treptat, cu fiecare nouă iterație având un algoritm mai bun și o integrare mai eficientă a inteligenței artificiale. Pe măsură ce aceasta din urmă devine mai performantă, atât la nivel conceptual, cât și practic, aplicat în cadrul acestui proiect, cu atât predicțiile vor fi mai apropiate de scorul real al alegerilor. De asemenea, cu cât datele analizate provin dintr-o bază de date mai vastă, cu atât tendințele vor deveni mai evidente. Pentru ambele situații enunțate mai sus timpul este principalul aliat. O marjă de eroare până în +/-7% pentru primul rezultat ar fi o posibilă validare a instrumentului de predicție, urmând să se aducă acest procent cât se poate de aproape de cel acceptat în metodele tradiționale de sondare a opiniei.

Chiar dacă viețile noastre sunt analizate și interpretate în funcție de statistici și date, nu trebuie ignorat faptul că tool-ul poate să abereze, să halucineze similar LLM-urilor de acum 1 an și să fie nevoie de multe iterații până se ajunge la maturitatea credibilă. Sau poate nu se ajunge niciodată.

Dar implicațiile lui „dar dacă totuși” ar marca un punct de cotitură în modul în care societatea poate aborda cercetarea și sondarea opiniilor unei comunități.