Modelo de espacio vectorial

Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.

La teórica básica es que la relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos (basada en el coseno de esos ángulos) de cada uno de los documentos respecto del vector de busca, utilizando el producto escalar entre el vector de búsqueda . Así un valor de coseno de cero significa que la búsqueda y el documento son ortogonales el uno al otro, y eso significa que no hay coincidencia.

Para determinar el coseno del ángulo entre dos vectores se usa la siguiente ecuación:


\cos{\theta} = \frac{\mathbf{v_1} \cdot \mathbf{v_2}}{\left\| \mathbf{v_1} \right\| \left \| \mathbf{v_2} \right\|}


donde:

  • teta es el ángulo entre v1 y v2
  • v1 es el primer vector
  • v2 es el segundo vector
  • . representa el producto
  • ||x|| representa la magnitud del vector x

El modelo clásico propuesto por Salto, Wong y Yang tenía parámetros locales y globales incorporados en la ecuacuón del peso del término (w(n)) conocida como tf-idf):

w(n) = f(n) x Log (D / d(n))

donde:

  • w(n) es el peso del término para la búsqueda de la palabra clave n,
  • f(n) es la frecuencia en la que aparece el término n en el documento (representa el parámetro local),
  • d(n) es el número de documentos conteniendo al término n
  • D es la cantidad total de documentos


Apúntese que el cociente d(n)/D es esencialmente la probabilidad de encontrar el documento que contiene el término n en el conjunto que está siendo utilizado y representa el parámetro global.


Contenido

Limitaciones del modelo de espacio vectorial

El modelo de espacio vectorial tiene las siguientes limitaciones:

  1. Los documentos largos quedan poco representados ya que contienen pocos valores en común (un producto escalar menor y una gran dimensionalidad)
  2. Las palabras de búsqueda deben coincidir con las palabras del documento, partes de un palabra pueden dar en falsos positivos.
  3. Sensibilidad semántica, documentos con contextos similares pero con diferente vocabulario no serán asociados, resultando en falsos negativos


Bibliografía

Véase también

Enlaces externos


Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Dimensión de un espacio vectorial — Saltar a navegación, búsqueda La dimensión de un espacio vectorial es la respuesta a la pregunta: ¿Cuántos parámetros se necesitan para localizar con toda precisión un punto en este espacio? Bien es sabido que sobre una recta donde se ha escogido …   Wikipedia Español

  • Espacio — Saltar a navegación, búsqueda Espacio (del latín spatium) se refiere: Especialmente al espacio físico, en el que se ubican los objetos sensibles; y la extensión que contiene toda la materia existente; la distancia entre dos cuerpos; la distancia… …   Wikipedia Español

  • Espacio-tiempo — Saltar a navegación, búsqueda Analogía bidimensional de la distorsión del espacio tiempo debido a una gran masa. El espacio tiempo es la entidad geométrica en la cual se desarrollan todos los eventos físicos del Universo, de acuerdo con la teoría …   Wikipedia Español

  • Modelo de color CMYK — Cian, magenta, amarillo y key (negro). Modelo sustractivo cian, magenta y amaril …   Wikipedia Español

  • Filosofía del espacio y el tiempo — Saltar a navegación, búsqueda La filosofía del espacio y el tiempo es la rama de la filosofía que trata de los aspectos referidos a la ontología, la epistemología y la naturaleza del espacio y el tiempo, lo que se conoce también como cosmología.… …   Wikipedia Español

  • Curva integral de un campo vectorial — Saltar a navegación, búsqueda En matemáticas, una curva integral de un campo vectorial es el análogo abstracto de la línea de corriente en el flujo de un fluido. En física cuando el campo en cuestión representa un campo de fuerzas las curvas… …   Wikipedia Español

  • Gerard Salton — (Núremberg, 8 de marzo de 1927 Nueva York, 28 de agosto de 1995) fue un informático y documentalista científico estadounidense de origen alemán. Especialista en Recuperación de información y en procesamiento del lenguaje natural. Contenido 1… …   Wikipedia Español

  • Cyril Cleverdon — Saltar a navegación, búsqueda Cyril W. Cleverdon (Bristol, 1914 Cranfield, 1997), documentalista científico inglés, pionero de la disciplina Recuperación de información en sistemas documentales. Proporcionó un objeto de estudio, una metodología… …   Wikipedia Español

  • Okapi BM25 — es una función de ranking utilizada en Recuperación de información para la asignación de relevancia a los documentos en un buscador, dicho de otra forma, es una función que nos permite ordenar por relevancia los documentos que contienen las… …   Wikipedia Español

  • Spamdexing — es uno de los varios métodos de manipular la relevancia o prominencia de los recursos indexados por un motor de búsqueda, usualmente en una forma inconsistente con el propósito del sistema de indexado. Los motores de búsqueda usan una variedad de …   Wikipedia Español


Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.