3 - Analisi Lessicale e Strutturale

Approfondimenti e spiegazioni delle metriche utilizzate

1. Numero di Tipi (Types)

Definizione: Il numero di parole distinte (tipi) presenti nel testo, indipendentemente dalla loro frequenza.

Utilità: Misura la varietà lessicale del testo. Un alto numero di tipi indica ricchezza del vocabolario utilizzato.

Valori medi: In testi italiani medi, rappresenta circa il 40-60% delle parole totali.

Esempio: Nel testo "Il gatto dorme. Il cane corre. Il gatto mangia." ci sono 6 tipi diversi: "il", "gatto", "dorme", "cane", "corre", "mangia".

2. Parole Uniche (Hapax Legomena)

Definizione: Parole che compaiono una sola volta nel testo analizzato.

Utilità: Indicatore di originalità lessicale e ricchezza del vocabolario. Alto numero di hapax = stile più vario e originale.

Valori medi: Rappresentano tipicamente il 20-40% delle parole totali in testi narrativi.

Esempio: In "La casa è grande. La porta è piccola", gli hapax sono: "casa", "grande", "porta", "piccola" (4 hapax su 8 parole totali).

3. Parole Contenuto vs Funzione

Definizione: Distinzione tra parole di contenuto (nomi, verbi, aggettivi, avverbi) e parole funzionali (articoli, preposizioni, congiunzioni).

Utilità: Le parole di contenuto veicolano il significato principale; quelle funzionali strutturano grammaticalmente il testo.

Valori medi: Equilibrio tipico: 50-60% contenuto, 40-50% funzione in testi italiani standard.

Esempio: "Il bel cane corre velocemente" → Contenuto: "bel", "cane", "corre", "velocemente" (4). Funzione: "il" (1).

4. Parole Ripetute a Inizio Frase

Definizione: Analisi delle parole più frequenti all'apertura delle frasi del testo.

Utilità: Rileva pattern stilistici, strutture retoriche ricorrenti e monotonia nell'apertura delle frasi.

Valori medi: Variabile secondo lo stile. Ripetizioni eccessive (>20%) possono indicare monotonia stilistica.

Esempio: Se molte frasi iniziano con "Il", "La", "Questo" → pattern rilevabile che può caratterizzare lo stile autoriale.

5. Parole Significative vs Stopwords

Definizione: Rapporto tra parole significative (che portano contenuto semantico) e stopwords (parole grammaticali comuni).

Utilità: Misura la densità informativa del testo. Alte percentuali di parole significative = contenuto più denso.

Valori medi: Tipicamente 50-70% stopwords, 30-50% parole significative in italiano.

Esempio: "La ricerca scientifica moderna" → Significative: "ricerca", "scientifica", "moderna". Stopwords: "la".

6. Verbi Essere e Avere

Definizione: Frequenza dei verbi ausiliari "essere" e "avere" in tutte le loro forme coniugate.

Utilità: Indicatori dello stile verbale. Uso eccessivo può segnalare costruzioni passive o poco dinamiche.

Valori medi: "Essere": 3-7% delle parole totali. "Avere": 2-5% delle parole totali.

Esempio: "Marco è studente e ha molti libri" → "è" (essere), "ha" (avere). Alte frequenze possono indicare stile statico.

Analizzare la presenza dei verbi essere e avere in un testo serve a comprendere aspetti sia grammaticali sia psicologici e stilistici del discorso poneno  il focus sull’io, sulle emozioni o sulle relazioni con il mondo esterno.

A cosa serve analizzarli

° Funzione grammaticale: Essere e avere sono verbi ausiliari fondamentali per la formazione dei tempi composti e della forma passiva, ma hanno anche un significato proprio.
° Il verbo essere esprime identità, stato, esistenza, posizione o caratteristiche personali. ° Il verbo avere indica possesso, esperienza o sensazioni (es. "ho fame"). Indicatore stilistico e psicologico:
° La frequenza e il rapporto tra questi due verbi possono riflettere il modo in cui l’autore si esprime riguardo a sé stesso e al mondo.
° Un uso prevalente del verbo essere può indicare un focus sull’identità, lo stato interiore, la percezione di sé o una descrizione statica e riflessiva.
° Un uso maggiore del verbo avere può sottolineare il senso di possesso, desiderio, bisogni o esperienze concrete.
° In analisi psicologiche del testo: questo rapporto può fornire indicazioni sul modo in cui il soggetto si percepisce o si relaziona con l’ambiente, evidenziando dinamiche interiori o atteggiamenti verso la realtà.
In sintesi
° Il verbo essere è associato a concetti di esistenza, identità e stato.
° Il verbo avere è legato a possesso, esperienza e bisogni.
Questa analisi è utile in ambiti come la stilometria, la psicologia del linguaggio e l’analisi del contenuto testuale per interpretare le sfumature comunicative e psicologiche di un autore o di un testo.

7. Presenza "ma" - "cioè"

Definizione: Frequenza di connettivi avversativi ("ma") e esplicativi ("cioè").

Utilità: "Ma" indica contrasti e argomentazioni; "cioè" segnala chiarificazioni. Rilevano lo stile argomentativo.

Valori medi: "Ma": 0,3-1% delle parole. "Cioè": 0,1-0,5% delle parole in testi argomentativi.

Esempio: Testo con molti "ma" → stile dialettico/contrastivo. Molti "cioè" → stile esplicativo/didattico.

8. Type/Token Ratio (TTR)

Definizione: Rapporto tra il numero di parole diverse (types) e il numero totale di parole (tokens).

Utilità: Misura classica della ricchezza lessicale. TTR alto = vocabolario vario; TTR basso = molte ripetizioni.

Valori medi: 0,4-0,6 per testi italiani medi. >0,7 = molto ricco; <0,3 = ripetitivo.

Esempio: 50 parole diverse su 100 totali = TTR 0,5 (ricchezza media).

9. Indice di Guiraud

Definizione: Formula: Types / √(Tokens). Normalizza la ricchezza lessicale rispetto alla lunghezza del testo.

Utilità: Più stabile del TTR per testi di diverse lunghezze. Permette confronti oggettivi tra testi diversi.

Valori medi: 10-15: ricchezza bassa-moderata. 15-20: buona. 20-25: alta. >25: molto alta.

Esempio: 400 tipi in 10.000 tokens → G = 400/√10.000 = 400/100 = 4,0 (molto basso).

10. Densità Narrativa

Definizione: Rapporto tra parole ripetute (frequenza >1) e parole significative totali.

Utilità: Misura quanto il testo si basa su ripetizioni lessicali per creare coesione vs varietà espressiva.

Valori medi: 0,6-0,8 in testi narrativi. >0,8 = alta coesione/ripetitività. <0,4 = alta varietà.

Esempio: Se molte parole chiave si ripetono → alta densità (coesione tematica forte).

11. Cliché Comunicativi

Definizione: Rilevamento di frasi stereotipate, espressioni fatte e linguaggio formulaico.

Utilità: Identifica automatismi linguistici che riducono l'originalità. Alto numero = linguaggio scontato.

Valori medi: <0,5% = linguaggio originale. 0,5-1,5% = uso moderato. >1,5% = linguaggio stereotipato.

Esempio: "A questo punto", "diciamo la verità", "in tutta onestà" sono cliché comunicativi tipici del parlato.

12. Nuvola di Parole (Word Cloud)

Definizione: Rappresentazione visuale delle parole più frequenti, con dimensioni proporzionali alla frequenza.

Utilità: Visualizzazione immediata dei temi centrali e del lessico caratterizzante del testo.

Valori medi: Vengono visualizzate tipicamente le 30-50 parole più frequenti, escludendo le stopwords.

Esempio: In un testo scientifico emergeranno termini tecnici; in uno narrativo i nomi dei personaggi principali.

Bibliografia Specializzata

  • Guiraud, P. (1960). "Problèmes et méthodes de la statistique linguistique". Dordrecht: Reidel.
  • Baayen, R. H. (2001). "Word Frequency Distributions". Dordrecht: Kluwer Academic Publishers.
  • Tuzzi, A. (2003). "L'analisi del contenuto. Introduzione ai metodi e alle tecniche di ricerca". Roma: Carocci.
  • McEnery, T., & Wilson, A. (2001). "Corpus Linguistics: An Introduction". Edinburgh University Press.
  • Moretti, G., Sprugnoli, R., & Tonelli, S. (2015). "DIECI10: Annotating Emotions in Italian Social Media Texts".
  • Malvern, D., & Richards, B. (2002). "Investigating accommodation in language proficiency interviews".