Per dur a terme aquest projecte, he seleccionat un conjunt de llibreries que permeten des de l’extracció de dades fins a la implementació d’intel·ligència artificial:

Per a la fase de recopilació d’informació, he desenvolupat una funció anomenada crawl_website. Aquest algorisme actua com un explorador automatitzat que processa el lloc web de manera sistemàtica per alimentar la base de coneixement de la IA.
El procés s’inicia a la URL principal i navega de forma recursiva seguint els enllaços interns. Segons les proves realitzades, el crawler ha funcionat de manera òptima:
jcotumba.inscastellbisbal.net), garantint que tota la informació sigui rellevant per al projecte.Un dels reptes del web scraping és el «soroll» visual que no aporta valor. Per optimitzar la resposta de la IA, he aplicat un filtratge de dades:
Eficiència en el context: Gràcies a aquesta neteja, evitem que la IA hagi de llegir centenars de vegades la mateixa estructura de menú, aconseguint que es centri directament en el contingut real de cada secció de la web.
Eliminació d’elements redundants: He configurat el script per descartar seccions que es repeteixen a cada pàgina, com el menú de navegació (header) i el peu de pàgina (footer).



Com que estic treballant des de l’ordinador de clase i no tinc un servidor, faig servir ngrok. Això em dóna un enllaç que puc enganxar al WordPress perquè el xat de la web sàpiga on enviar les preguntes.
