Support & Downloads

Quisque actraqum nunc no dolor sit ametaugue dolor. Lorem ipsum dolor sit amet, consyect etur adipiscing elit.

s f

Contact Info
198 West 21th Street, Suite 721
New York, NY 10010
foton@qodeinteractive.com
+88 (0) 101 0000 000
Follow Us

Modelli personalizzati

I modelli personalizzati rappresentano l’apice della personalizzazione e dell’adattabilità nell’ambito dell’intelligenza artificiale. Questi modelli consentono di addestrare l’IA a comprendere la struttura specifica dei tuoi documenti con soli cinque esempi, e permettono l’integrazione di input umani per creare soluzioni altamente personalizzate ed estrarre solo le informazioni desiderate. Ideali per documenti con strutture meno comuni, i modelli personalizzati ti consentono di ottenere risultati ottimali in situazioni uniche. Sono la scelta perfetta per chi cerca la massima personalizzazione e precisione nell’elaborazione dei documenti.

Quando devo usare i modelli personalizzati?

I modelli personalizzati dovrebbero essere utilizzati quando i modelli standard non riescono a produrre risultati soddisfacenti.

I modelli standard utilizzano etichette predefinite per estrarre il testo dai documenti, ma talvolta non riescono a fare una corretta associazione tra il testo e le etichette, soprattutto quando si tratta di documenti con strutture complesse o poco chiare.

In situazioni simili, è possibile creare un modello personalizzato per istruire l’intelligenza artificiale (IA) a leggere correttamente questi documenti. Potete immaginare il modello personalizzato come un contenitore in cui inserire diversi esempi di un documento con la stessa struttura ma dati differenti. Per questo documento, potete specificare dove trovare le informazioni desiderate e quale nome assegnare a ciascuna etichetta. Questo passo è fondamentale per assicurare una lettura corretta da parte del vostro sistema di gestione aziendale (ERP) o del vostro sistema di customer relationship management (CRM).

Una volta che l’IA è stata addestrata per la lettura di documenti simili a quelli caricati nel “contenitore” del modello personalizzato, è necessario selezionare la voce di menu “Avvia Scansione” e successivamente scegliere “modelli personalizzati”. In questo modo, Retica sarà in grado di identificare e associare correttamente il testo dei documenti alle etichette definite durante l’addestramento del modello personalizzato.

Grazie a questo processo, Retica sarà in grado di riconoscere correttamente i testi nei documenti che si desidera elaborare, poiché identificherà documenti simili e già etichettati nel contenitore del modello personalizzato selezionato.

Requisiti di input del modello personalizzato

Prima di tutto, verificate che il set di dati di training rispetti i requisiti di input:

  • Per ottenere risultati ottimali, vi consigliamo di fornire immagini nitide o analisi di alta qualità per ciascun documento.
  • È possibile elaborare i seguenti formati di file: PDF, JPEG/JPG, PNG, BMP, TIFF, HEIF.
  • Per i file PDF e TIFF, la capacità di elaborazione massima è di 2000 pagine. Inoltre, assicuratevi che le dimensioni del file per l’analisi dei documenti non superino i 500 MB.
  • Le dimensioni dell’immagine devono rientrare nell’intervallo tra 50 x 50 pixel e 10.000 px x 10.000 pixel.
  • Qualora i file PDF fossero protetti da password, è fondamentale rimuovere il blocco prima di inviarli.
  • Per l’estrazione del testo, considerate che l’altezza minima deve essere di 12 pixel in un’immagine da 1024 x 768 pixel, equivalente a circa 8 punti a 150 punti per pollice (DPI).
  • Per quanto riguarda il training dei modelli personalizzati, il limite massimo di pagine per i dati di training è di 500.

Dati di Training Ottimali

I dati di input di training sono la base di qualsiasi modello di Machine Learning. Determina la qualità, l’accuratezza e le prestazioni del modello. Di conseguenza, è fondamentale creare i dati di input di training migliori possibili. Ecco alcuni suggerimenti per eseguire in modo efficace il training dei modelli:

  • Usare file PDF basati su testo anziché basati su immagini, quando possibile. Un modo per identificare un PDF basato su immagini consiste nel provare a selezionare testo specifico nel documento. Se è possibile selezionare solo l’intera immagine del testo, il documento è basato su immagini, non basato su testo.
  • Usare moduli con tutti i campi disponibili completati.
  • Usare moduli con valori diversi in ogni campo.
  • Se le immagini sono di bassa qualità, usare un set di dati più grande, ovvero più di cinque documenti di training.
  • Determinare se è necessario usare un singolo modello o più modelli composti in un singolo modello.
  • Se il modulo presenta variazioni con formati e interruzioni di pagina, valutare la possibilità di segmentare il set di dati per eseguire il training di più modelli. I moduli personalizzati si basano su un modello di oggetto visivo coerente.
  • Assicurarsi di avere un set di dati bilanciato tenendo conto di formati, tipi di documento e struttura.

Creazione di un modello personalizzato

Per creare un nuovo modello personalizzato è necessario selezionare dal menu di sinistra la sezione “Modelli personalizzati”, e all’apertura dell’interfaccia premere il pulsante “Crea modello”.

Una volta premuto il pulsante “Crea modello”, apparirà una finestra pop-up nel quale bisognerà inserire il nome del modello personalizzato. Questo sarà utilizzato come identificativo del modello.

Una volta creato il nuovo modello personalizzato, è necessario procedere al caricamento di almeno cinque documenti con layout differenti al fine di avviare il processo di addestramento. È importante sottolineare che maggiore sarà la quantità di documenti importati e mappati, maggiore sarà il livello di precisione ottenuto dal tuo modello personalizzato.

Per procedere, è necessario scegliere se si desidera effettuare l’importazione manuale dei documenti o sfruttare il protocollo FTP, previa verifica dell’integrazione di quest’ultimo. Una volta scelto basterà caricare i modelli che si intende utilizzare come esempi per l’addestramento dell’intelligenza artificiale e premere il pulsante “Crea modello”.

Addestramento di un modello personalizzato

Il modello creato verrà mostrato nella tabella principale con stato DA ADDESTRARE.

Per ogni modello sarà presente un pulsante “Opzioni” che consente di modificare il nome del modello o di eliminarlo, e un pulsante a forma di freccia che se premuto mostra i documenti utilizzati per l’addestramento del modello scelto.

Come mostrato nell’immagine, tutti i modelli caricati in precedenza saranno elencati in una tabella, ognuno con informazioni specifiche per aiutare l’utente a comprendere il loro stato.

Per ciascun documento, troverai due pulsanti: il primo serve a eliminare il documento, mentre il secondo consente di accedere al documento per creare, modificare o eliminare etichette o tabelle al suo interno.

Quando si effettua la prima etichettatura, il modello sarà privo di tabelle o etichette pre-impostate.

Il lavoro da svolgere consiste nel selezionare i testi da identificare nei documenti.

Per aggiungere una nuova etichetta, seleziona una porzione di testo con il mouse e premi su di essa. Si aprirà una finestra in cui dovrai inserire il nome dell’etichetta (ad esempio: “Ragione sociale”). Assicurati che il nome dell’etichetta sia univoco.

Le etichette inserite saranno visibili sulla destra, nel blocco “etichette”.

Una volta terminato l’inserimento delle etichette, è possibile scegliere se si vuole rilevare anche il contenuto di una o più tabelle. Per farlo è necessario prima di tutto premere sul pulsante “+” presente di fianco al testo “aggiungi nuova tabella”, questo farà comparire una finestra che richiederà il nome della tabella.

Una volta inserito e confermato, Retica mostrerà una nuova tabella vuota che dovrà essere strutturata:

Per strutturare la tabella è necessario selezionare il numero di colonne che si vogliono utilizzare, per farlo bisogna prima di tutto premere sul pulsante “+” presente nell’intestazione della colonna, cosi facendo si andrà a creare una nuova colonna.

Questa azione va ripetuta fin quando non si raggiunge il numero di colonne necessarie ad una corretta (e personalizzata) estrazione dei dati.

Il passo successivo è quello di rinominare le colonne utilizzando dei testi utili a capirne il contenuto (Codice articolo, descrizione, …), per farlo basta premere sul nome della colonna e tramite un comodo pop-up sarà possibile assegnargli un nuovo nome.

Per compilare la tabella è necessario selezionare il testo che si vuole estrarre dal documento (ad esempio il testo contenuto nella prima riga e nella prima colonna della tabella), e successivamente alla creazione del riquadro blu sul testo premere sulla cella della tabella creata in precedenza per allocare il testo in quella posizione.

Ripetere questa operazione per tutti i testi che si vuole estrarre dalla prima riga della tabella del documento.

Successivamente è necessario aggiungere altre righe alla tabella che abbiamo costruito, per farlo basta premere il tasto “+” presente sotto al numero dell’ultima riga della tabella. Ripetere lo stesso procedimento di inserimento testi nella tabella per tutte le righe necessarie.

Al termine dell’etichettatura premere il pulsante “Salva”.

Dovrai seguire lo stesso processo per tutti gli altri documenti che intendi importare. Per semplificare questa operazione, Retica mostrerà le stesse etichette e tabelle con la stessa struttura presenti nel primo documento mappato. Queste non saranno inizialmente associate a nessun testo, ma sarà sufficiente selezionare il testo nel documento e richiamare il nome dell’etichetta tramite il popup dedicato.

Una volta etichettati tutti i documenti con le informazioni che desideri estrarre, Retica attiverà il pulsante “Inizia la formazione” situato sotto l’elenco dei documenti.

Il processo di addestramento durerà solo pochi minuti, e potrai notare che è completo quando lo stato del modello, visualizzato nella tabella dei modelli personalizzati creati, cambierà da “IN ADDESTRAMENTO” ad “ADDESTRATO”.

Utilizzo dei modelli personalizzati creati

Per estrarre le informazioni da un documento sfruttando un modello personalizzato in precedenza, è necessario selezionare nel menu di sinistra la voce “Avvia scansione” e selezionare tra le scelte disponibili la voce “Modello personalizzato”.

Un pop-up comparirà mostrando la lista dei modelli personalizzati addestrati, e sarà necessario selezionare il modello che si vuole utilizzare premendo sul nome del modello.

Dopo aver scelto il modello, è necessario importare i documenti desiderati. Per istruzioni dettagliate su come importare i documenti correttamente, visita la pagina: https://retica.ai/importazione-documenti/

Una volta completato l’importazione dei documenti e il loro processo di elaborazione, sarà possibile esportare le informazioni estratte nei formati disponibili.

Da tenere presente che solo le informazioni associate alle etichette e alle tabelle create nei modelli personalizzati saranno estratte. Se l’estrazione dei testi non è precisa come desiderato, è consigliabile rivedere l’etichettatura dei documenti già presenti nel modello personalizzato, e aggiungere altri esempi con diverse strutture per migliorare l’identificazione corretta dei testi da estrarre.

Garantire un’elevata precisione dei modelli

La precisione dei modelli può essere influenzata dalle variazioni nella struttura visiva dei documenti. I punteggi di accuratezza riportati potrebbero non essere coerenti quando i documenti analizzati differiscono da quelli utilizzati nel training. È importante considerare che, sebbene un insieme di documenti possa sembrare simile agli occhi umani, potrebbe apparire diverso per un modello di intelligenza artificiale. Di seguito, sono elencate le procedure consigliate per garantire la massima accuratezza nei modelli di training. Seguendo queste linee guida, è possibile sviluppare un modello più preciso con punteggi di affidabilità superiori durante l’analisi, riducendo al contempo il numero di documenti richiesti per la revisione umana.

  1. Includere tutte le varianti di un documento nel set di dati di training, compresi formati diversi come PDF digitali e PDF digitalizzati.
  2. Se il modello deve analizzare entrambi i tipi di documenti PDF, aggiungere almeno cinque campioni di ciascun tipo al set di dati di training.
  3. Separare visivamente i tipi di documenti durante il training per sviluppare modelli distinti.
  4. Come regola generale, se si rimuovono tutti i valori immessi dall’utente e i documenti hanno un aspetto simile, è necessario aggiungere altri dati di training al modello esistente. Se i documenti sono diversi, dividere i dati di training in cartelle diverse ed eseguire il training di un modello per ogni variante. È quindi possibile comporre le diverse varianti in un unico modello. Assicurarsi che non vi siano etichette estranee.
  5. Per l’etichettatura della firma e dell’area, evitare di includere il testo circostante per garantire una classificazione accurata.