PHPDig - Motor de búsqueda para implementar un buscador interno en tu web.

Más sobre el programa :: Requerimientos :: Videos :: Actualizaciones

PHPDig es un exelente buscador interno y motor de búsqueda para instalar en un sitio web. Es completamente gratis y Open source, muy completo y destinado tanto para pequeñas webs como también para grandes sitios (Puede indexar sitios de hasta 10 mil páginas ).

Como su nombre bien lo indica, se encuentra programado en lenguaje PHP, y para almacenar la información necesaria para el buscador, puede utilizar bases de datos MySQL como también archivos de texto plano ( para sitios pequeños y que no posean acceso a BD ).

A continuación puedes ver más información sobre el buscador, así como también una guía o manual de instalación para implementarlo en tu sitio web.

Mas información sobre el programa.

Indice del contenido:

  1. Descripción general del buscador.
  2. Otras características.
  3. Instalación.
    1. Comprobar requerimientos de PHP antes de instalar.
    2. Editar archivo de configuración para el usuario y contraseña.
    3. Cambiar permisos de archivos y carpetas.
    4. Iniciar la instalación del buscador mediante el archivo Install.php.
    5. Pantalla de instalación.
  4. Panel de administración para indexar las páginas y sitios.
    1. Incluir las direcciones URL y sitios a indexar.
    2. Opciones de indexación.
    3. Iniciar el proceso de indexación.
    4. Reindexar y actualizar páginas.
    5. Estadísticas del buscador.
    6. Otras configuraciones
  5. Buscador.
    1. Acceder al buscador.
    2. Página de resultados.
    3. Insertar el buscador en la página web.
    4. Plantillas y temas visuales para cambiar la apariencia.

 

1 - Descripción general del buscador.

PhpDig funciona como una araña o sphider, rastreando las páginas de tu sitio web y construye un glosario de palabras clave y frases. Luego, al ejecutar una consulta de búsqueda, se muestra una página de resultados por orden de aparición.

La página de resultados es similar a la que utiliza Yahoo, Google y muchos otros motores. Podrás configurar cuantas páginas mostrar, por defecto visualizará 10 páginas. Y el uso de operadores booleanos en el formulario de búsqueda está también implementado.

Puedes ver una demostración online del programa en la web oficial en este enlace ( Opción Demo ).

2 -Otras características.

  • EL programa en el momento de indexar la web, puede hacerlo tanto en páginas HTML simples, como en páginas dinámicas creadas mediante lenguajes de script, por ejemplo con PHP.
  • Al igual que las arañas y bots, respeta los archivos Robots y los metatags de las páginas.
  • Tiene soporte para templates, esto quiere decir que le podrás cambiar la apariencia y visualización. ( Contiene 16 plantillas )
  • Puedes indexar no solo un sitio web, si no también varios, incluidos subdominios.
  • Poder incluir la profundidad del indexado.
  • Actualizar y reindexar las páginas.
  • Es muy sencillo de instalar y utilizar.
  • Posibilidad de realizar la indexación de dos modos diferentes: desde una interfaz web o desde la línea de comandos ( shell).
  • Admás de páginas web (html, php etc .), podría indexar otros archivos, como documentos de office, word, excel, powerpoint, mediante programas externos ( ver la documentación para más información)
  • Muchas otras.

 

3 - Instalación.

Puedes acceder a un archivo HTML ( en inglés ) que explica paso a paso el proceso de instalación del buscador, así como también en caso que se desee actualizar la versión y otros datos de interés relacionados a la configuración. El archivo se encuentra en la carpeta documentation ( phpdig-doc-en.html )

De todos modos aquí se describe en forma breve el proceso de instalación.

3.1 - Comprobar requerimientos de PHP antes de instalar.

Para poder realizar el proceso de indexación, se requiere que la opción safe_mode de PHP se encuentre deshabilitada, y la opción allow_url_fopen habilitada.

¿ Como saber si estas opciones están o no habilitadas ? Puedes crear un archivo phpinfo con el siguiente código PHP : <?php phpinfo(); ?> . Al ejecutar la página phpinfo.php te mostrará la información.

3.2 - Editar archivo de configuración para el usuario y contraseña.

En el segundo paso será necesario descomprimir todos los archivos del fichero ZIP para poder editar el fichero de configuración.

Para ello, abrir el archivo config.php ( ubicado en la carpeta includes ) con cualquier editor de texto o un editor de páginas webs.

Buscar en las líneas 85 y 86, las variables Username y Password, y colocar allí el nombre de usuario y contraseña que se utilizará para acceder al panel de administración del programa. Por defecto es Admin para el usuario y Admin para la contraseña.

3.3 - Cambiar permisos de archivos y carpetas.

Luego de haber editado el fichero de configuración visto en el paso anterior, se deberán subir todos los archivos a un directorio del servidor, por ejemplo a la carpeta PHPDIG, y después cambiarle los permisos a los siguientes directorios en 777:

  • [DIRECTORIO DE PHPDIG]/text_content
  • [DIRECTORIO DE PHPDIG]/includes
  • [DIRECTORIO DE PHPDIG]/admin/temp

3.4 - Iniciar la instalación del buscador mediante el archivo Install.php

Para comenzar la instalación , abrir una ventana del navegador web y ejecutar el archivo install.php ubicado en la carpeta admin, por ejemplo:

http://sitioweb.com/directorio_phpdig/admin/install.php

Ejecutado el fichero de instalación se abrirá la siguiente ventana para ingresar los datos de acceso mencionados en el punto anterior.

3.5 - Pantalla de instalación

Luego de ingresar, se abrirá la siguiente interfaz que te permitirá instalar el buscador. Esta puede realizarce de dos maneras diferentes.

Opción 1 - Que el script genere y cree automáticamente la base de datos, es decir desde esta pantalla, el script creará la base de datos y todas las tablas necesarias en ella para poder utilizar el buscador.

Opción 2 - El script creará todas las tablas en una base de datos que ya hemos creado nosotros previamente mediante algún gestor de bases de datos MySQL, por ejemplo con el popular PHPMyAdmin.

Entonces aquí, deberemos dejar la opción seleccionada en la lista de botones de opción "Create database", y en los campos Username y password, colocar el nombre del usuario y contraseña de acceso.

Por defecto la base de datos se creará con el nombre phpdig ( opción PhpDig database ), pero si lo necesitas, la puedas cambiar por otro nombre.

En cambio, si seleccionas la opción de crear las tablas solamente ( Create tables only ), como ya se mencionó, la base de datos deberá estar ya creada, y en el campo phpdig database tendremos que colocar el nombre de la base de datos que hemos elegido previamente.

Nota: El campo localhost, lo puedes dejar sin modificaciones.

A continuación se muestra una captura de la pantalla de instalación, que permite definir información de la base de datos.

Una vez que hayas terminado de completar el formulario con los datos, presionando el botón Instalar base de datos ubicado en la parte inferior se comenzará con el proceso de instalación.

Si todo se realizado correctamente, el script te redireccionará de forma automática al panel de control, donde se podrá comenzar con el trabajo de indexado de las páginas, como también realizar otras configuraciones.

4 - Panel de administración para indexar las páginas y sitios.

Este panel de administración, es una interfaz sencilla. La opción principal aquí es incluir la dirección url del sitio para poder indexar las páginas entre otras opciones.

Nota: Luego podrás en cualquier momento acceder a esta pantalla, tipeando en el navegador la siguiente url.

http://dirección del sitio web/phpdig/admin/

4.1 - Incluir las direcciones URL y sitios a indexar.

Esto se realiza en el apartado Which URI would you index?.

Aquí, en el cuadro de texto, podremos indicar la dirección web principal de nuestro sitio, o también urls de las secciones que necesitamos indexar, insertando cada dirección una debajo de la otra.

4.2 - Opciones de indexación.

También hay dos opciones importantes en esta sección antes de comenzar con el indexado.

  • La opción Search depth determinará la profundidad de la búsqueda. El valor 0, que es el utilizado por defecto, intentará rastrear sólo esa página.
  • La opción Links determina el límite para la cantidad de enlaces por página, por ejemplo si una página x contiene 40 enlaces y hemos configurado la opción con el valor 5, sólo indexará las primeras 5 páginas encontradas.

Además, en la interfaz de administración, hay cuatro opciones relacionadas al mantenimiento general, estas son:

  • Clean index - borra el contenido que contiene valores no válidos o no vinculados a una página.
  • Clean dictionary: borrar frases que ya no se usan, por ejemplo cuando un sitio está eliminado.
  • Clean common words: ELiminar frases y palabras almacenadas en el archivo common_words.txt
  • Clean dashes: Borrar el contenido que se encuentra duplicado para evitar copias.

4.3 - Iniciar el proceso de indexación.

Luego de establecer la profundidad de la indexación y los enlaces, al presionar el botón Dig This, comenzará el trabajo de indexado, donde se redirigirá a otra página para ver el detalle del proceso como también los posibles errores y otra información.

Cuando finalice, mostrará un sumario con todas las páginas que se han incluido en el índice.

Nota: También desde aquí podremos detener el trabajo de indexación en cualquier momento presionando el enlace que dice Stop.

4.4 - Reindexar y actualizar páginas.

Una tarea que que muy probablemente necesitaremos realizar, es la de volver a actualizar un sitio para que reindexe las páginas con nuevo contenido o contenido modificado.

Para realizar esto, podemos seleccionar el sitio web de la lista ( Update a site or one of its branch ) y presionar el botón Update form. Hecho esto , se abrirá una nueva ventana, con detalles del sitio, y un botón ( el de color verde ) para volver a crear el índice.

Nota: Desde esta pantalla, también es posible eliminar páginas indexadas de forma individual presionando los íconos ubicados al costado de cada url en la lista de enlaces.

4.5 - Estadísticas del buscador.

Otra opción que se puede acceder desde el panel de Administración, es para ver un detalle con estadísticas varias.

Para acceder a este apartado, debemos presionar en Statistics. En ella hay varios enlaces con el que es posible:

  • Most Keywords: Ver el listado de todas las palabras clave de las páginas indexadas y almacenadas en la base de datos.
  • Richest page: Son las páginas con mas palabras claves.
  • Last search queries: Muestra las últimas búsquedas realizadas por los usuarios en el buscador.
  • most Search terms: Términos de búsqueda mas populares que se han realizado. En la tabla, podremos ver la lista de frases, como también la cantidad de veces que se han efectuado.
  • Otros.
  • Last search click: Muestra una tabla con toda las frase de búsqueda realizadas por los usuarios, pero en las que se han realizado clics en los resultados de búsqueda.

4.6 - Otras configuraciones.

Es posible realizar muchas otras configuraciones, editando el archivo de configuración config.php ubicado en la carpeta include.

Algunas de las configuraciones para modificar el comportamiento del motor o spider para el buscador son las siguientes:

  • define('SPIDER_MAX_LIMIT',20): define el límite máximo de profundidad de la araña.
  • define('RESPIDER_LIMIT',5); Igual que el anterior pero cuando se utiliza la opción de actualización de páginas.
  • define('LINKS_MAX_LIMIT',20): Límite máximo de direcciones url a indexar en cada página.
  • define('RELINKS_LIMIT',5): Igual que el anterior pero para la actualización.
  • define('LIMIT_DAYS',0): Límite para los días a tener en cuenta antes de reindexar una página.
  • define('MAX_WORDS_SIZE',30): Indica el tamaño máximo de carateres de una palabra que se tendrá en cuenta para ser indexada.
  • define('PHPDIG_DEFAULT_INDEX',false): Aquí se puede indicar las páginas de entrada ( Index o default) para las extensiones HTML, PHP, PHP5, ASP, etc ..
  • define('PHPDIG_SESSID_REMOVE',true): Por defecto esta opción está activada, y permite eliminar los ID de sesión y variables en las URLs.
  • define('APPEND_TITLE_META',false): Por defecto se encuentra desactivada, y permite añadir los títulos y metas en la indexación.
  • define('PHPDIG_LOGS',true): Si está activada esta opción, el script creará logs de la actividad del buscador.
  • define('FORBIDDEN_EXTENSIONS','\.(rm|ico|cab|swf|css|gz|z|tar|zip|tgz|msi|
    arj|zoo|rar|r[0-9]+|exe|bin|pkg|rpm|deb|bz2)$'):
    Opción para incluir una lista de extensiones prohibidas, es decir que no se tomarán en cuenta en el proceso de indexación.

5.1 - Acceder al buscador.

Para desplegar el buscador, lo podremos hacer mediante el archivo search.php, es decir tipeando la dirección url:

http://sitio web/phpdig/search.php

El formulario para buscar, contiene además del campo de texto para ingresar la cadena de búsqueda, tres botones de opción para utilizar operadores booleanos al momento de buscar ( Operador AND, OR) y también otro para realizar búsquedas con frases exactas.

Otras dos opciones que te permite es la posibilidad de establecer la cantidad de resultados por página a mostrar ( por defecto son 10 páginas, como la mayoría de los buscadores y motores de búsqueda actuales) y también , una lista desplegable para seleccionar donde buscar. (Pueden ser varias páginas, incluso de otros dominios.)

5.2 - Página de resultados.

La página de resultados, variará levemente dependiendo de la plantilla visual que estemos utilizando.

En esta captura de pantalla, que utiliza el estilo o skin bluegray.html, además de los enlaces y la descripción, se mostrará una barra de progreso para el porcentaje que indica la relevancia en la búsqueda.

5.3 - Insertar el buscador en la página web.

Para insertar el formulario con buscador dentro de la página web, simplemente coloca el siguiente código fuente HTML en el lugar donde quieras visualizarlo.

Nota: puedes ver más información sobre este punto, en la sección 9 del manual ( carpeta documents ) que explica dos formas de hacerlo, utilizando un formulario HTML o mediante un script PHP.

5.4 - Plantillas y temas visuales para cambiar la apariencia.

El buscador permite modificar el aspecto visual del formulario de búsqueda mediante el uso de plantillas.

Estas plantillas son simple archivos HTML. Por defecto, en la parte superior del buscador, se encuentran los enlaces para poder cambiar la plantilla en cualquier momento, llamando a cada uno de los archivos HTML de estilos ( Estos ficheros se encuentran en la carpeta templates y contiene 13 estilos ).

Si no te gusta el aspecto de las plantillas, es bastante fácil crear y hacer una propia plantilla personalizada. Para establecer la plantilla propia, deberás modificar la variable $template en el archivo de configuración del script. ( config.php )

También, si no queremos que la lista de plantillas se visualice en la página del buscador, es posible quitarla eliminando el tag <phpdig:templates_links/>.

Nota: Para ver mas información puedes ver el punto 8 en el archivo de ayuda ( carpeta de documentación.)


Requerimientos de instalación y uso.

Plataforma: Cualquier servidor web que soporte PHP, preferentemente Apache.

La lista de sistemas operativos es la siguiente:

  • Gentoo Linux, kernel/2.4.20, Apache/2.0.48, mod_php/4.3.3, MySQL/4.0.16
  • Linux, kernel/2.4.18, Apache/2.0.44, OpenSSL/0.9.6g, PHP/4.3.0
  • Linux, kernel/2.4.22, Apache/1.3.29, mod_ssl/2.8.16, OpenSSL/0.9.7b, PHP/4.3.4
  • Linux, kernel/2.4.3, Apache/1.3.23, mod_ssl/2.8.7, PHP/4.1.2
  • Linux Red Hat/9.0, Apache/2.0.48, PHP/4.3.4, MySQL/4.0.17
  • Mac OS X/10.3, Apache/1.3.28, PHP/4.3.2, MySQL/4.0.12
  • OpenBSD/3.4/Sparc64, Apache/1.3.29, mod_ssl/2.8.16-1.3.29, mod_perl/1.28,
  • OpenSSL/0.9.7c, PHP/4.3.4
  • Windows , Apache/1.3.20, PHP/4.1.1
  • Windows , Apache/2.0.44, PHP/4.3.1
  • Windows , IIS/6, PHP/4.3.2, MySQL/4.0.15

Base de datos: MySQL, y también es posible utilizarlo mediante archivos de texto.


Videos tutoriales.

Cambios, actualizaciones y mejoras del programa.

Buscar programas


Introduce los términos de búsqueda ...

Enlaces patrocinados.


Detalles y descargar

Web:
www.phpdig.net
Licencia:
Gratis - Open source
Versión:
1.8.8
Idioma:
Inglés
Programa actualizado:
16 NOV 2010


Si te ha gustado esta página, programa o artículo puedes votar haciendo clic en este botón: