1. Numero di Tipi (Types)
Definizione: Il numero di parole distinte (tipi) presenti nel testo, indipendentemente dalla loro frequenza.
Utilità: Misura la varietà lessicale del testo. Un alto numero di tipi indica ricchezza del vocabolario utilizzato.
Valori medi: In testi italiani medi, rappresenta circa il 40-60% delle parole totali.
2. Parole Uniche (Hapax Legomena)
Definizione: Parole che compaiono una sola volta nel testo analizzato.
Utilità: Indicatore di originalità lessicale e ricchezza del vocabolario. Alto numero di hapax = stile più vario e originale.
Valori medi: Rappresentano tipicamente il 20-40% delle parole totali in testi narrativi.
3. Parole Contenuto vs Funzione
Definizione: Distinzione tra parole di contenuto (nomi, verbi, aggettivi, avverbi) e parole funzionali (articoli, preposizioni, congiunzioni).
Utilità: Le parole di contenuto veicolano il significato principale; quelle funzionali strutturano grammaticalmente il testo.
Valori medi: Equilibrio tipico: 50-60% contenuto, 40-50% funzione in testi italiani standard.
4. Parole Ripetute a Inizio Frase
Definizione: Analisi delle parole più frequenti all'apertura delle frasi del testo.
Utilità: Rileva pattern stilistici, strutture retoriche ricorrenti e monotonia nell'apertura delle frasi.
Valori medi: Variabile secondo lo stile. Ripetizioni eccessive (>20%) possono indicare monotonia stilistica.
5. Parole Significative vs Stopwords
Definizione: Rapporto tra parole significative (che portano contenuto semantico) e stopwords (parole grammaticali comuni).
Utilità: Misura la densità informativa del testo. Alte percentuali di parole significative = contenuto più denso.
Valori medi: Tipicamente 50-70% stopwords, 30-50% parole significative in italiano.
6. Verbi Essere e Avere
Definizione: Frequenza dei verbi ausiliari "essere" e "avere" in tutte le loro forme coniugate.
Utilità: Indicatori dello stile verbale. Uso eccessivo può segnalare costruzioni passive o poco dinamiche.
Valori medi: "Essere": 3-7% delle parole totali. "Avere": 2-5% delle parole totali.
Analizzare la presenza dei verbi essere e avere in un testo serve a comprendere aspetti sia grammaticali sia psicologici e stilistici del discorso poneno il focus sull’io, sulle emozioni o sulle relazioni con il mondo esterno.
° Funzione grammaticale: Essere e avere sono verbi ausiliari fondamentali per la formazione dei tempi composti e della forma passiva, ma hanno anche un significato proprio.
° Il verbo essere esprime identità, stato, esistenza, posizione o caratteristiche personali. ° Il verbo avere indica possesso, esperienza o sensazioni (es. "ho fame"). Indicatore stilistico e psicologico:
° La frequenza e il rapporto tra questi due verbi possono riflettere il modo in cui l’autore si esprime riguardo a sé stesso e al mondo.
° Un uso prevalente del verbo essere può indicare un focus sull’identità, lo stato interiore, la percezione di sé o una descrizione statica e riflessiva.
° Un uso maggiore del verbo avere può sottolineare il senso di possesso, desiderio, bisogni o esperienze concrete.
° In analisi psicologiche del testo: questo rapporto può fornire indicazioni sul modo in cui il soggetto si percepisce o si relaziona con l’ambiente, evidenziando dinamiche interiori o atteggiamenti verso la realtà.
In sintesi
° Il verbo essere è associato a concetti di esistenza, identità e stato.
° Il verbo avere è legato a possesso, esperienza e bisogni.
Questa analisi è utile in ambiti come la stilometria, la psicologia del linguaggio e l’analisi del contenuto testuale per interpretare le sfumature comunicative e psicologiche di un autore o di un testo.
7. Presenza "ma" - "cioè"
Definizione: Frequenza di connettivi avversativi ("ma") e esplicativi ("cioè").
Utilità: "Ma" indica contrasti e argomentazioni; "cioè" segnala chiarificazioni. Rilevano lo stile argomentativo.
Valori medi: "Ma": 0,3-1% delle parole. "Cioè": 0,1-0,5% delle parole in testi argomentativi.
8. Type/Token Ratio (TTR)
Definizione: Rapporto tra il numero di parole diverse (types) e il numero totale di parole (tokens).
Utilità: Misura classica della ricchezza lessicale. TTR alto = vocabolario vario; TTR basso = molte ripetizioni.
Valori medi: 0,4-0,6 per testi italiani medi. >0,7 = molto ricco; <0,3 = ripetitivo.
9. Indice di Guiraud
Definizione: Formula: Types / √(Tokens). Normalizza la ricchezza lessicale rispetto alla lunghezza del testo.
Utilità: Più stabile del TTR per testi di diverse lunghezze. Permette confronti oggettivi tra testi diversi.
Valori medi: 10-15: ricchezza bassa-moderata. 15-20: buona. 20-25: alta. >25: molto alta.
10. Densità Narrativa
Definizione: Rapporto tra parole ripetute (frequenza >1) e parole significative totali.
Utilità: Misura quanto il testo si basa su ripetizioni lessicali per creare coesione vs varietà espressiva.
Valori medi: 0,6-0,8 in testi narrativi. >0,8 = alta coesione/ripetitività. <0,4 = alta varietà.
11. Cliché Comunicativi
Definizione: Rilevamento di frasi stereotipate, espressioni fatte e linguaggio formulaico.
Utilità: Identifica automatismi linguistici che riducono l'originalità. Alto numero = linguaggio scontato.
Valori medi: <0,5% = linguaggio originale. 0,5-1,5% = uso moderato. >1,5% = linguaggio stereotipato.
12. Nuvola di Parole (Word Cloud)
Definizione: Rappresentazione visuale delle parole più frequenti, con dimensioni proporzionali alla frequenza.
Utilità: Visualizzazione immediata dei temi centrali e del lessico caratterizzante del testo.
Valori medi: Vengono visualizzate tipicamente le 30-50 parole più frequenti, escludendo le stopwords.
Bibliografia Specializzata
- Guiraud, P. (1960). "Problèmes et méthodes de la statistique linguistique". Dordrecht: Reidel.
- Baayen, R. H. (2001). "Word Frequency Distributions". Dordrecht: Kluwer Academic Publishers.
- Tuzzi, A. (2003). "L'analisi del contenuto. Introduzione ai metodi e alle tecniche di ricerca". Roma: Carocci.
- McEnery, T., & Wilson, A. (2001). "Corpus Linguistics: An Introduction". Edinburgh University Press.
- Moretti, G., Sprugnoli, R., & Tonelli, S. (2015). "DIECI10: Annotating Emotions in Italian Social Media Texts".
- Malvern, D., & Richards, B. (2002). "Investigating accommodation in language proficiency interviews".