11 Minute
Cercetătorii au dezvoltat un nou sistem de inteligență artificială care duce vehiculele autonome dincolo de simpla detectare a pietonilor, permițând anticiparea următoarelor lor acțiuni. Acest progres adresează una dintre cele mai critice provocări din domeniul siguranței rutiere: cum poate o mașină să nu doar să observe un om, ci și să estimeze ce intenționează să facă în următoarele fracțiuni de secundă.
O echipă de la Texas A&M University și Korea Advanced Institute of Science and Technology a prezentat OmniPredict, un model de inteligență artificială care depășește detectarea obiectelor pentru a prezice comportamentul uman în timp real. Prin combinarea datelor vizuale cu indicii contextuale — cum ar fi poziția corpului, privirea, elementele din mediu și telemetria vehiculului — OmniPredict nu se limitează la a reacționa la mișcare, ci raționează despre pașii probabili următori. Testele inițiale au arătat o precizie promițătoare, sugerând o cale nouă pentru sisteme de conducere autonomă mai sigure și mai intuitive în medii urbane complexe.
De ce contează anticiparea pentru siguranța conducerii autonome
Sistemele tradiționale de conducere autonomă se bazează în mare măsură pe viziune computerizată: camerele detectează un pieton, LiDAR estimează distanța, iar vehiculul reacționează. Însă străzile orașelor sunt aglomerate, dinamice și pline de situații imprevizibile. Pietonii pot hesita, își pot schimba privirea sau pot apărea brusc din spatele unui obstacol. Când un sistem automatizat poate doar să înregistreze mișcarea, adesea este prea târziu pentru a preveni o interacțiune periculoasă.
OmniPredict introduce un strat de raționament comportamental. Folosind o arhitectură de tip Multimodal Large Language Model (MLLM), sistemul fuzionează imagini la rezoluții diferite, cadre decupate cu pietoni, boxe delimitatoare care urmăresc persoane între cadre și telemetria vehiculului pentru a deduce intenția — de exemplu, dacă cineva aflat la bordură are probabilitatea să traverseze, să rămână pe trotuar sau este parțial occlus de un obiect. În loc de o întrebare binară „există un pieton?”, OmniPredict evaluează rezultate probabile și un orizont temporal, permițând unei mașini să ajusteze viteza sau traiectoria mai devreme și mai fin.
„Orașele sunt imprevizibile. Pietonii pot fi imprevizibili,” a spus Dr. Srinkanth Saripalli, cercetătorul principal al proiectului și director al Center for Autonomous Vehicles and Sensor Systems. „Noul nostru model oferă o privire către un viitor în care mașinile nu doar văd ce se întâmplă, ci anticipează și ce este probabil să facă oamenii.”

Dr. Srinkanth Saripalli and the Texas A&M University research team’s new breakthrough AI pedestrian system.
Cum funcționează OmniPredict: raționament multimodal la bordură
În esență, OmniPredict valorifică aceleași tehnici de raționament multimodal care alimentează chatbot-urile moderne și analiza imaginilor, dar le redirecționează spre prognoza comportamentului. Modelul prelucrează un set bogat de intrări: imagini de scenă la rezoluții joase și înalte, vizualizări decupate ale pietonilor, boxe delimitatoare care urmăresc persoanele între cadre și viteza vehiculului. Din aceste date clasifică comportamentul în patru categorii principale — traversare (crossing), occludare (occlusion), acțiuni (actions) și privire (gaze) — și atribuie probabilități pentru rezultate pe termen scurt.
Arhitectura multimodală permite două capabilități cheie. În primul rând, modelul generalizează peste contexte: poate folosi cunoștințele obținute într‑o scenă de stradă pentru alte scene fără a necesita retraining exhaustiv. În al doilea rând, încorporează indicii pe care oamenii le folosesc intuitiv — orientarea corpului, înclinarea capului, ezitarea sau condițiile de mediu — și le transformă în predicții acționabile pentru sistemele de control ale vehiculului. Această integrare de viziune computerizată, procesare temporală și telemetrie contribuie la o predicție mai robustă a intenției umane, element esențial pentru siguranța pietonilor și optimizarea fluxului de trafic.

An overview of OmniPredict: GPT-4o-powered system that blends scene images, close-up views, bounding boxes, and vehicle speed to understand what pedestrians might do next. By analyzing this rich mix of inputs, the model sorts behavior into four key categories—crossing, occlusion, actions, and gaze—to make smarter, safer predictions. Credit: Dr. Srinkanth Saripalli Texas A&M University College of Engineering. https://doi.org/10.1016/j.compeleceng.2025.110741
Testarea modelului: seturi de date, benchmark-uri și performanță
Echipa de cercetare a evaluat OmniPredict pe seturi riguroase de date despre comportamentul pietonilor, precum JAAD și WiDEVIEW, care reproduc variații din lumea reală: trotuare aglomerate, occludări parțiale în spatele mașinilor parcate și pietoni care privesc spre vehicule înainte de a se mișca. Remarcabil, OmniPredict a atins aproximativ 67% acuratețe predictivă pe aceste benchmark-uri — cu circa 10% mai mult decât modelele care operează doar cu viziune — și toate acestea fără o pregătire specifică pe sarcină (task-specific pretraining).
Dincolo de acuratețea brută, modelul a demonstrat latență de răspuns redusă și o generalizare mai bună între contexte rutiere diferite. Când cercetătorii au introdus complicații contextuale — o persoană parțial ascunsă, o întoarcere bruscă a capului sau o schimbare neașteptată a vremii — OmniPredict și-a menținut performanța robustă. Aceste caracteristici sunt cruciale pentru implementarea în lumea reală, unde evenimentele rare și cazurile limită (edge cases) sunt de cele mai multe ori cele mai dificile.
Metodologia de evaluare a inclus compararea timpilor de inferență pe hardware tipic pentru mașinile autonome, analiza erorilor prin matrici de confuzie pentru fiecare categorie de comportament și testarea resilienței la zgomot vizual, cum ar fi ploaia sau reflexiile. De asemenea, s‑a pus accent pe calibrarea probabilistică: un sistem care estimează probabilități trebuie să fie bine calibrat pentru ca operatorii umani și modulele de control să interpreteze corect nivelul de încredere al predicțiilor.
„Deschide uși pentru o desfășurare mai sigură a vehiculelor autonome, pentru mai puține incidente cu pietoni și pentru o tranziție de la reacție la prevenire proactivă a pericolului,” a explicat Saripalli.
De la treceri de pietoni la operațiuni de urgență: implicații mai largi
Impactul potențial depășește vehiculele de pasageri. Capacitatea OmniPredict de a interpreta micro‑expresii ale mișcării — modificări de postură, ezitare, schimbări ale privirii și semne de stres — poate fi aplicată în intervenții de urgență, logistică militară sau monitorizarea siguranței mulțimilor. Pentru echipele de salvare care operează în scene haotice, un AI care semnalează acțiunile umane probabile ar putea îmbunătăți conștientizarea situației și accelera decizii salvatoare.
Mai mult, în scenarii de management al mulțimilor, predictia comportamentului pietonilor poate ajuta la prevenirea situațiilor de panică sau sufocare prin rerutare preventivă a fluxurilor de oameni. În logistică și operațiuni militare, un sistem care anticipează mișcările persoanelor dintr‑un perimetru poate optimiza rutele vehiculelor autonome în teren dificil.
„Deschidem ușa pentru aplicații interesante,” a adăugat Saripalli. „De exemplu, posibilitatea ca o mașină să detecteze, să recunoască și să prezică cu acuratețe rezultatele comportamentelor care pot părea amenințătoare ar putea avea implicații semnificative.”
Important de subliniat este faptul că echipa de cercetare prezintă OmniPredict ca un instrument de augmentare, nu ca un înlocuitor al factorului uman. Scopul este de a oferi șoferilor, operatorilor și sistemelor automate un strat suplimentar de prevedere, care să completeze judecata și controlul omului.
Provocări tehnice și considerații etice
În pofida rezultatelor promițătoare, OmniPredict rămâne un prototip de cercetare. Provocările cheie includ asigurarea fiabilității în populații și medii diverse, corectarea părtinirilor (bias) din datele de antrenament și integrarea în siguranță a predicțiilor în buclele de control ale vehiculelor. Supraîncrederea într‑o predicție poate fi periculoasă; un sistem trebuie să cuantifice incertitudinea și să recurgă la acțiuni conservative atunci când ambiguitatea este ridicată.
Din punct de vedere tehnic, integrarea de output‑uri probabilistice în modul de planificare și control al unui vehicul necesită mecanisme pentru fuzionarea deciziilor: când un model indicate o probabilitate de 60% că o persoană va traversa, sistemul trebuie să combine această informație cu regulile de siguranță, cu starea vehiculului și cu politicile de risc înainte de a executa o manevră. De asemenea, latența de end‑to‑end (captură → inferență → decizie → actuație) trebuie menținută sub praguri stricte pentru a fi eficient în scenarii reale.
Întrebări etice și de confidențialitate apar ori de câte ori sistemele inferă intenția. Cum sunt stocate datele? Cine poate accesa predicțiile și în ce condiții? Cum previn proiectanții profilarea sau clasificările eronate care afectează în mod disproporționat grupurile vulnerabile? Răspunsurile la aceste întrebări vor determina adoptarea în teren la fel de mult ca performanța tehnică.
Măsuri concrete pentru atenuarea riscurilor includ: anonimizarea și minimizarea datelor, utilizarea de protocoale de criptare la stocare și transfer, control strict al accesului, audit extern al dataset‑urilor pentru bias și mecanisme de contestare pentru deciziile automate. Adoptarea standardelor de siguranță funcțională precum ISO 26262 și a reglementărilor UNECE privind sistemele avansate de asistență poate facilita certificarea și încrederea publică.
Expert Insight
„Predicția este veriga lipsă dintre percepție și acțiune prudentă în sistemele autonome,” spune Elena Rivera, un inginer reprezentativ în sisteme autonome. „Raționamentul multimodal al OmniPredict este un pas semnificativ: imită modul în care oamenii combină privirea, postura și contextul pentru a lua decizii în fracțiuni de secundă. Provocarea de acum este să îmbinăm aceste predicții cu politici de control conservatoare astfel încât siguranța să rămână prioritatea zero.”
Comentariile experților subliniază și nevoia pentru transparență și explicabilitate: sistemele care pot justifica de ce au estimat o anumită intenție sunt mai ușor de verificat și reglementat. Explicabilitatea se poate atinge prin module care raportează trăsăturile cheie care au condus la o predicție (de ex. orientarea corpului, unghiul capului, viteza relativă), permițând echipelor de inginerie și factorilor de decizie să evalueze riscurile și să ajusteze politicile.
Ce urmează pentru autonomia predictivă?
Munca viitoare se va concentra probabil pe integrarea mai strânsă cu sistemele de planificare ale vehiculului, trialuri extinse pe teren în diferite medii urbane și testare interculturală pentru a asigura că modelul interpretează gesturile și privirea consecvent între populații. Combinarea OmniPredict cu alte modalități de senzori — cum ar fi imagistica termică, fuziunea radar îmbunătățită sau LiDAR de înaltă rezoluție — ar putea reduce și mai mult ambiguitatea în condiții de vizibilitate scăzută.
De asemenea, se vor explora tehnici de adaptare la domeniu (domain adaptation) și învățare continuă pentru a permite modelului să încorporeze date locale fără a deteriora protecțiile de confidențialitate. Strategii precum augmentarea datelor, reechilibrarea seturilor (reweighting) și generarea sintetică controlată pot atenua părtinirile din datele de antrenament și pot îmbunătăți robustetea la variații demografice și de mediu.
Dacă sistemele autonome vor învăța nu doar să vadă, ci și să anticipeze, logica transportului urban se schimbă: mai puține frânări bruște, mai puține blocaje tensionate la trecerile de pietoni și un flux al traficului mai fluid care reflectă intuiția umană fără fragilitatea umană. Drumul înainte ar putea fi mai inteligent nu doar pentru că mașinile văd mai bine, ci pentru că încep să înțeleagă de ce oamenii fac ceea ce fac — iar această înțelegere poate salva vieți.
În final, succesul OmniPredict sau al altor soluții similare va depinde de colaborarea strânsă între cercetători, producători auto, autorități de reglementare și comunități publice. Testarea pe teren, revizuirile etice și un cadru legal clar sunt esențiale pentru a transforma progresele din laborator în beneficii tangibile pentru siguranța rutieră și mobilitatea urbană durabilă.
Sursa: scitechdaily
Lasă un Comentariu