TF-IDF (frecuencia del término - frecuencia inversa del documento) y Word2Vec son algoritmos populares utilizados en el procesamiento del lenguaje natural, pero tienen diferentes propósitos.

TF-IDF

TF-IDF asigna pesos a las palabras de un documento en función de su frecuencia en el documento y su frecuencia inversa en el corpus.

Word2Vec

Por otro lado, Word2Vec, es especialmente útil para descubrir cómo se relacionan semánticamente las palabras del documento entre sí. Es un algoritmo más complejo que requiere una gran cantidad de datos y recursos computacionales para entrenarse.

Un enfoque usando Word2Vec es entrenar el modelo Word2Vec en un gran corpus de texto y luego representar cada documento como un vector. Una vez que los documentos se han representado como vectores, se pueden utilizar algoritmos de agrupamiento como K-means, agrupamiento jerárquico o agrupamiento basado en densidad, o técnicas como la similitud de coseno o la distancia euclidiana.

Por lo tanto, cabe señalar que la calidad de los resultados de agrupamiento o similitud depende de la calidad de las incrustaciones de Word2Vec y del algoritmo de agrupamiento utilizado.


corpus
Conjunto de textos de un mismo tipo que pueden servir de base a una investigación lingüística, el corpus a menudo es sometido a un proceso conocido como anotación, para que sea más útil. Los corpus se han utilizado fundamentalmente para detectar y reconocer los usos y estructuras más frecuentes de una lengua específica.
palabras vacías
Las palabras vacías son palabras de uso común que tienen muy poco significado, como “a”, “an”, “the” o “in”. Las palabras vacías generalmente se excluyen del procesamiento del lenguaje natural (PLN) y de las aplicaciones de recuperación de información porque no contribuyen mucho al significado o contexto del texto.