Page 1 sur 1

Automatiser l'extraction de données PDF?

Posté : jeu. 8 oct. 2020 09:34
par giselegadot3
Une chose que je fais dans le cadre de mon travail est de prendre des informations sur les clients des formulaires PDF qu'ils ont remplis et de les saisir dans une base de données distincte. Malheureusement, je doute que je puisse utiliser une API ou une autre méthode pour interfacer directement avec les tables de la base de données car elle est hors de mon contrôle et une application relativement petite, mais j'ai remarqué que je peux naviguer dans les formulaires que je dois remplir assez facilement avec la touche "tab".

La nature de ces PDF est étrange en ce que la disponibilité de certaines informations et les mises en page ne sont pas constantes. Cependant, une constante commune est la possibilité de "contrôler + F" et de rechercher le nom des informations que vous souhaitez, ex. "Age" et indiquez la valeur de l'âge disponible juste à côté. Si la recherche de page ne renvoie aucun résultat, ces informations ne sont pas disponibles.
10.0.0.0.1 192.168.1.254
s nécessaires à partir du PDF. Ensuite, il doit compiler ces informations dans une macro qui parcourt toute la page et entre automatiquement toutes les valeurs extraites du PDF. D'après l'expérience, j'ai entendu dire que python pouvait être bon pour cela, mais je suis ouvert à tout. Où est-ce que je commence? De quelles API et bibliothèques ai-je besoin pour faire cela? Des tutoriels disponibles en ligne? Comme vous pouvez le constater, je ne suis pas trop familier avec ceci :(