Universidad de Costa Rica
|
|
Utilice el estractor de palabras de la tarea anterior para producir un
programa que reciba palabras clave y a partir de ellas produza una lista
de los párrafos que las contienen. Para lograrlo, utilice una
base de datos SQLite que contengan
tablas en las que están almacenadas las listas de palabras clave
que su programa html2par
genera.
La tabla de indexación de párrafos debe contener, por lo menos, el nombre del archivo del párrafo, la palabra clave de indexación y la cantidad de veces que aparece esa palabra clave en el párrafo. Además, en otra tabla debe guardar todos los párrafos.
Su solución debe incluir 2 programas. El primero es una
versión ampliada del programa html2par
de la tarea
anterior el que crea la base de datos MINI_GOOGLE.db
en
donde quedan todos los datos almacenados. El segundo es el programa
uGoogle.exe
que permite consultar la base de datos que
indexa los párrafos.
X:\DIR\SubDir> cd /d F:\ecci\curso F:\ecci\curso> html2par html2par.txt MINI_GOOGLE html2par: Lectura de configuracion html2par.txt - NO existe archivo de configuracion html2par.txt - NO existe archivo de configuracion MINI_GOOGLE html2par: Fin de ejecucion F:\ecci\curso> html2par html2par.cfg MINI_GOOGLE.db html2par: Lectura de configuracion html2par.cfg - Ya existe MINI_GOOGLE.db - Borrando MINI_GOOGLE.db - Generando MINI_GOOGLE.db - Creado F:/ecci/curso/MINI_GOOGLE.db html2par: Fin de ejecucion F:\ecci\curso> cd /d C:\DOCS\2012 C:\DOCS\2012> uGoogle -n=100 -db=F:/ecci/curso/MINI_GOOGLE.db linda casa vision uGoogle: carga de la base de datos - db==F:/ecci/curso/MINI_GOOGLE.db - n==100: Cantidad maxima de parrafos - r==72: Cantidad maxima de palabras por renglon 2012-2/p2-ta-1.htm: La linda casa vista en el plano alto. ... 2012-2/p2-ta-1.htm: cese el vaso de ... uGoogle: Fin de ejecucion (256 parrafos encontrados)
Su program debe aceptar 3 parámetros opcionales que modifican su
comportamiento. El parámetro "n
" sirve para limitar
la cantidad de párrafos que uGoogle.exe
produce. El
valor de "r
" sirve para que que los renglones que
uGoogle.exe
graba tengan siempre una longitud máxima
y el parámetro "db
" indica adónde está
la base de datos a utilizar. Los valores por defecto para estos
parámetros son n==10
, r==72
y
db==uGoogle.db
. Note que su programa pone las barritas
inclinadas siempre hacia adelante '/'
aún si al
ejecutar el programa se usan hacia atrás '\'
.
Entregue su tarea por correo electrónico, como lo hizo anteriormente.
Tiempo de entrega: | 7 días |
|
|
Segunda etapa: | 3 días | ||
Modalidad: | En parejas |
Adolfo Di Mare <adolfo@di-mare.com>.
|