Ufficio

Via Cairoli 1/4
16124 Genova
t. +39 010 8078776
f. +39 010 8970344

Follow us

InTw

Cosa si intende per data collection?

 

Per data collection  si intende processo di raccolta, misurazione e analisi delle informazioni provenienti da innumerevoli fonti diverse. I dati raccolti sono utilizzati al fine di sviluppare soluzioni di intelligenza artificiale (AI) e apprendimento automatico. I dati devono essere raccolti e memorizzati in un modo che abbia senso per il problema aziendale a cui si vuole rispondere. Una raccolta dati efficace fornisce le informazioni necessarie per rispondere a domande, analizzare le prestazioni aziendali o altri risultati e prevedere tendenze, azioni e scenari futuri.

 

Quali sono i metodi di data collection?

I metodi utilizzati per raccogliere i dati variano in base al tipo di applicazione. Alcuni implicano l’uso della tecnologia, mentre altri sono procedure manuali. Di seguito vengono riportati alcuni metodi comuni di raccolta dati:

  • funzioni automatiche di raccolta dati integrate in applicazioni aziendali, siti web e applicazioni mobili;
  • sensori che raccolgono dati operativi da attrezzature industriali, veicoli e altri macchinari;
  • raccolta di dati da fornitori di servizi informativi e altre fonti di dati esterne;
  • monitoraggio di social media, forum di discussione, siti di recensioni, blog e altri canali online;
  • sondaggi, questionari e moduli, fatti online, di persona o per telefono, e-mail o posta ordinaria;
  • focus group e interviste one-to-one;
  • osservazione diretta dei partecipanti a uno studio di ricerca.

 

I dati sono la chiave

L’apprendimento automatico è basato sull’impiego di algoritmi. Questi algoritmi imitano il modo in cui gli esseri umani imparano, migliorando gradualmente la loro precisione.
Simile al cervello umano l’algoritmo ha bisogno pezzi di informazione per acquisire conoscenza e comprensione.

Questi pezzi d’informazione per l’algoritmo sono proprio i dati.  Infatti l’apprendimento automatico si basa su dati input per comprendere entità, domini e le connessioni tra loro al fine di fare previsioni o prendere decisioni senza essere esplicitamente programmati per farlo.

Risulta chiaro come il fattore più critico nel ML non è il processo di apprendimento della macchina ma preparare i dati necessari per addestrare la macchina. Il fattore che determina la buona riuscita di un progetto di machine learning è proprio la qualità di dati raccolti. La raccolta dati richiede molto tempo e risorse ma è fondamentale.

 

Perché la qualità dei dati è così importante?

Lo scopo principale della raccolta dei dati è quello di raccogliere informazioni in modo misurato e sistematico per assicurare la precisione e facilitare l’analisi dei dati. Poiché i dati raccolti sono destinati a fornire contenuti per l’analisi dei dati, le informazioni raccolte devono essere della massima qualità per avere valore.

Indipendentemente dai metodi di raccolta dati, è essenziale mantenere la neutralità, la credibilità, la qualità e l’autenticità dei dati.  Se questi requisiti non vengono garantiti si può incorrere in una serie di problematiche e risultati negativi, tra cui:

  • I dati non possono essere convalidati.
  • Le decisioni basate sui dati possono essere compromesse.
  • Ulteriori ricerche possono essere distorte.
  • Gli obiettivi non vengono raggiunti.
  • Le domande non trovano una risposta adeguata.
  • Si sprecano risorse preziose.

 

Collaborare con un data provider consente di raccogliere una grande quantità di training data di varia natura e di alta qualità. Il data provider assicura di raccogliere i dati giusti per soddisfare le esigenze aziendali o di ricerca in modo tale da ottenere i risultati sperati e risparmiare quindi tempo e risorse.