City FM Logo

Inteligența artificială schimbă regulile: documentele PDF ar putea fi înlocuite

de Bîrsan S. Robert

Formatul PDF, unul dintre cele mai utilizate tipuri de documente la nivel global, ridică tot mai multe probleme în contextul dezvoltării rapide a inteligenței artificiale. Specialiștii atrag atenția că limitările tehnice ale acestui format ar putea duce, în timp, la apariția unor alternative mai ușor de analizat de către sisteme automate.

Creat în 1993 de compania Adobe, formatul PDF (Portable Document Format) a fost gândit pentru a permite deschiderea documentelor pe orice dispozitiv, fără modificarea aspectului. De-a lungul anilor, acesta a devenit standard pentru documente oficiale, lucrări academice, formulare administrative și documente de lucru.

Problemele apar însă atunci când documentele PDF trebuie interpretate de programe informatice sau de modele de inteligență artificială. Deși aceste sisteme pot analiza texte complexe, ele întâmpină dificultăți în înțelegerea structurii unui PDF, mai ales atunci când informațiile sunt organizate în coloane, grafice sau tabele. În astfel de situații, ordinea textului poate fi interpretată greșit, ceea ce duce la rezultate eronate sau confuze.

Din punct de vedere tehnic, un fișier PDF funcționează ca o „fotografie” a paginii, conținând instrucțiuni care reproduc exact aspectul documentului. Pentru extragerea textului, programele folosesc tehnologii de recunoaștere optică a caracterelor (OCR), eficiente în cazul documentelor simple, dar mai puțin precise în situația scanărilor, a scrisului de mână sau a structurilor grafice complexe.

În comparație, formate precum HTML sunt considerate mult mai ușor de analizat de către inteligența artificială, deoarece includ etichete care indică clar structura conținutului, precum titluri, subtitluri sau paragrafe.

Limitările PDF-urilor reprezintă o provocare majoră pentru companiile din domeniul tehnologiei. Pe de o parte, utilizatorii întâmpină dificultăți atunci când încearcă să ofere astfel de documente pentru analiză sau rezumare. Pe de altă parte, accesul la volume uriașe de informații rămâne limitat, în condițiile în care estimările arată că între 80% și 90% dintre datele din companii sunt stocate în formate nestructurate, precum PDF-uri, înregistrări audio sau video.

În acest context, mai multe firme încearcă să dezvolte soluții alternative. Startup-ul israelian Factify a atras recent finanțări de peste 70 de milioane de dolari pentru crearea unui nou tip de format de document, care să păstreze avantajele PDF-ului, dar să fie mai ușor de analizat de sistemele AI. În paralel, compania europeană Mistral a lansat un sistem OCR bazat pe inteligență artificială pentru a îmbunătăți citirea documentelor PDF, însă rezultatele nu depășesc încă semnificativ performanțele tehnologiilor existente.

Deși PDF-ul rămâne, pentru moment, formatul dominant în mediul digital, specialiștii consideră că evoluția rapidă a inteligenței artificiale va crește presiunea pentru dezvoltarea unor standarde noi, mai prietenoase cu analiza automată a datelor.


Ascultă RADIO CITY FM
  • Sibiu: 98.3 MHz
  • Mediaș: 88.1 MHz
  • Alba Iulia: 107.2 MHz
LIVEUrmărește-ne: