Nos conseils > Conseils - Vidéosurveillance > Caméras de surveillance avec détection de personnes : comment ça marche vraiment ?

La détection de personnes, c’est l’une des fonctions les plus demandées aujourd’hui dans nos projets de vidéosurveillance — et aussi l’une des plus mal comprises. Beaucoup de clients arrivent avec l’idée qu’une caméra “intelligente” va automatiquement distinguer un humain d’un chat, d’une voiture ou d’une branche qui bouge dans le vent. C’est vrai, mais la réalité technique est beaucoup plus nuancée que ce que laissent entendre les fiches produit. Chez Protech Alarme Vidéo, nous configurons et déployons ces systèmes au quotidien sur des sites très différents — commerces, entrepôts, copropriétés, maisons individuelles — et nous voyons très concrètement ce que cette technologie fait bien, ce qu’elle fait moins bien, et dans quelles conditions elle tient vraiment ses promesses.

Sommaire

►

Ce que la détection de personnes signifie vraiment techniquement
Deep learning embarqué ou cloud : deux architectures très différentes
Les paramètres qui font (ou défont) la fiabilité sur le terrain
Cas d'usage concrets : ce que nous déployons sur nos chantiers
L'avis de notre expert

Caméras de surveillance avec détection de personnes : comment ça marche vraiment ?

Ce que la détection de personnes signifie vraiment techniquement

Pendant longtemps, la "détection de mouvement" a été la seule forme d'analyse proposée par les caméras de surveillance. Le principe est rudimentaire : le firmware compare pixel par pixel deux images successives, et si suffisamment de pixels changent de valeur, il déclenche une alerte. Problème : tout bouge. Une feuille, un phare de voiture, une variation d'éclairage, un insecte passant devant l'objectif — tout cela génère une alarme. Sur des sites exposés, on peut facilement atteindre plusieurs centaines de fausses alertes par nuit, ce qui rend le système inutilisable en pratique.

La détection de personnes — ou plus précisément la classification d'objets par intelligence artificielle — répond directement à ce problème. L'objectif n'est plus de détecter un changement, mais d'identifier ce qui a changé. Est-ce un humain ? Un véhicule ? Un animal ? Une simple perturbation visuelle sans objet identifiable ?

Pour y parvenir, les caméras modernes embarquent un moteur d'inférence basé sur des réseaux de neurones convolutifs (CNN — Convolutional Neural Networks). Ces modèles ont été entraînés sur des millions d'images annotées représentant des silhouettes humaines dans des conditions variées : éclairage différent, angles, distances, tenues vestimentaires, postures. Lors du déploiement, la caméra applique ce modèle en temps réel sur chaque frame vidéo pour décider si une zone de l'image correspond ou non à un être humain.

Concrètement, voici ce que le moteur analyse :

La forme globale de la silhouette : rapport hauteur/largeur, symétrie bilatérale, présence d'une tête et d'épaules.
Les points caractéristiques du squelette (dans les modèles les plus avancés) : position des articulations, mouvement des membres.
Le contexte spatial : une silhouette à 50 cm du sol a peu de chances d'être humaine ; la même silhouette à 1,70 m du sol en est beaucoup plus probablement une.
Le mouvement : la démarche humaine a une signature cinématique reconnaissable — oscillation des bras, cadence des pas — que les algorithmes de détection de pose intègrent dans leur analyse.

Le résultat est un score de confiance exprimé en pourcentage. Si le score dépasse un seuil configuré (typiquement entre 60 % et 85 % selon la sensibilité souhaitée), la caméra génère une alerte classifiée "personne" plutôt qu'une simple alerte mouvement.

Schéma de fonctionnement de la détection de personnes par intelligence artificielle sur caméra de surveillance — Fonctionnement du moteur de classification IA embarqué dans une caméra de vidéosurveillance : analyse de la silhouette, score de confiance et déclenchement d'alerte.

Vous souhaitez équiper votre site avec des caméras à détection intelligente ? Contactez-nous pour une étude gratuite

Deep learning embarqué ou cloud : deux architectures très différentes

Toutes les caméras ne fonctionnent pas de la même façon pour exécuter ce traitement. Il existe deux grandes architectures, avec des implications concrètes sur la latence, la confidentialité des données et le coût d'exploitation.

Le traitement embarqué (edge AI)

Dans cette configuration, le modèle d'inférence tourne directement sur la caméra, grâce à une puce de traitement dédiée — souvent un SoC (System on Chip) intégrant un NPU (Neural Processing Unit) ou une unité de calcul spécialisée. Hikvision utilise par exemple ses propres puces DaBai dans ses caméras AcuSense, tandis que Dahua a développé une architecture similaire dans sa gamme WizSense.

L'avantage est double : la décision est prise localement en quelques dizaines de millisecondes, sans dépendre d'une connexion Internet, et les images ne quittent pas le site. C'est un argument fort sur le plan de la conformité RGPD, puisque les flux vidéo ne transitent pas vers des serveurs tiers pour être analysés.

En termes de performances, les caméras Hikvision de la gamme AcuSense affichent un taux de fausses alarmes réduit de 90 % par rapport à une détection de mouvement classique selon les données constructeur. Nous avons pu constater des résultats très proches de cette figure sur les installations que nous avons réalisées, notamment dans des environnements exposés à des feuillages ou à des passages de véhicules en arrière-plan.

Le traitement cloud ou VMS

Dans d'autres configurations — notamment sur des plateformes VMS (Video Management Software) avancées ou des solutions de supervision centralisée — l'analyse est déportée vers un serveur local puissant ou vers le cloud. Les flux vidéo sont envoyés vers un moteur d'IA plus élaboré, capable de faire tourner des modèles beaucoup plus lourds (YOLO, ResNet, Faster R-CNN…) avec une précision supérieure.

Cette approche est pertinente pour les installations multi-caméras de grande envergure, où l'on souhaite une analyse comportementale avancée : détection d'intrusion dans une zone définie (line crossing, zone intrusion), comptage de personnes, détection de bagages abandonnés, ou encore face recognition dans les périmètres contrôlés.

Le revers : la latence est plus élevée (de 200 ms à plusieurs secondes selon la bande passante et la charge du serveur), et la gestion des flux vidéo vers l'extérieur soulève des questions de confidentialité qui nécessitent une analyse RGPD sérieuse avant déploiement.

Comparaison architecture edge AI embarquée et traitement cloud pour la détection de personnes en vidéosurveillance — Deux approches pour l'analyse IA : traitement embarqué directement dans la caméra (edge AI) versus analyse déportée vers un serveur ou le cloud.

Vous gérez plusieurs sites et souhaitez centraliser votre vidéosurveillance ? Demandez votre devis personnalisé

Les paramètres qui font (ou défont) la fiabilité sur le terrain

C'est là que la réalité s'éloigne parfois des promesses marketing. Une caméra avec détection de personnes peut donner d'excellents résultats sur un site et se montrer décevante sur un autre, pour des raisons qui n'ont rien à voir avec la qualité du matériel en lui-même.

La résolution et la taille angulaire de la cible

Pour qu'un réseau de neurones identifie correctement une silhouette humaine, celle-ci doit occuper un nombre suffisant de pixels dans l'image. En règle générale, on considère qu'il faut au minimum 80 à 100 pixels de hauteur pour que la classification soit fiable. En dessous, le modèle manque d'informations et le score de confiance chute.

Cela a une implication directe sur le choix de l'optique et le positionnement de la caméra. Une caméra 4 MP avec un objectif 4 mm couvrant 90° de champ horizontal peut détecter une personne jusqu'à 15-20 mètres dans de bonnes conditions. Au-delà, la silhouette n'occupe plus suffisamment de pixels et le taux de détection se dégrade. Une caméra équipée d'un objectif 8 mm sur le même capteur portera plus loin mais avec un champ réduit. C'est un arbitrage que nous analysons systématiquement lors de la conception d'une installation.

L'éclairage : le paramètre le plus sous-estimé

Les modèles de deep learning ont été massivement entraînés sur des images en lumière du jour. La nuit, en infrarouge, les performances se dégradent — parfois significativement. L'image infrarouge est monochrome, les textures sont différentes, et les ombres se comportent autrement. Les caméras qui s'en sortent le mieux en détection nocturne sont celles qui disposent d'un illuminateur infrarouge puissant associé à un capteur de grande sensibilité, comme la technologie ColorVu de Hikvision (qui maintient une image couleur jusqu'à 0,0005 lux) ou la Full-color de Dahua, qui permettent aux modèles de continuer à travailler sur des données visuellement proches des conditions diurnes.

Les angles de prise de vue

Un réseau de neurones entraîné principalement sur des vues de face ou de profil sera moins performant sur une vue en plongée prononcée. Or, les caméras de surveillance sont souvent installées en hauteur — à 3, 4, voire 6 mètres. La silhouette vue du dessus ressemble peu à ce qu'ont "vu" la majorité des images d'entraînement. Certains constructeurs ont spécifiquement entraîné des modèles pour les vues à 45° ou plus (c'est le cas de la gamme Dahua WizSense qui intègre des données d'entraînement en top-view), mais c'est encore loin d'être universel.

Les occlusions et les foules

Quand plusieurs personnes se croisent et se chevauchent dans l'image, la classification devient plus complexe. Les algorithmes les plus avancés utilisent un mécanisme de tracking (suivi d'objet entre les frames) qui maintient l'identité de chaque cible même en cas d'occlusion partielle. Sans cette fonction, une personne masquée pendant quelques secondes peut "disparaître" de la détection puis être recomptée comme une nouvelle entrée.

La configuration des seuils par l'installateur

C'est un point que nous insistons toujours auprès de nos clients : la qualité d'une installation avec détection de personnes dépend autant du paramétrage que du matériel. Un seuil de confiance trop bas génère des fausses alarmes ; trop élevé, et la caméra rate des détections réelles. La définition des zones d'intérêt (ROI — Region of Interest), l'exclusion des zones à fort bruit visuel (route en arrière-plan, arbre en mouvement) et la configuration des plages horaires d'activation sont des étapes critiques que seul un installateur expérimenté peut réaliser correctement.

Cas d'usage concrets : ce que nous déployons sur nos chantiers

Pour illustrer concrètement ce que cette technologie apporte — et ses limites réelles — voici deux situations que nous avons rencontrées récemment dans la région bordelaise.

Entrepôt logistique à Mérignac : réduction drastique des fausses alarmes

Un client exploitant un entrepôt de 3 500 m² à Mérignac nous a contactés après avoir abandonné son ancien système de vidéosurveillance, devenu inutilisable : la centrale de télésurveillance recevait entre 80 et 120 alertes par nuit, quasiment toutes causées par des jeux d'ombres liés à l'éclairage public extérieur et par des passages de poids lourds sur la voie d'accès. Son prestataire de télésurveillance avait fini par désactiver les alertes automatiques, rendant le système purement passif.

Nous avons remplacé les caméras existantes par des Hikvision DS-2CD2T47G2-L ColorVu avec analyse AcuSense, en conservant le NVR en place. Le paramétrage des zones d'exclusion a été fait avec soin : la route en arrière-plan a été masquée dans chaque vue, et les seuils de confiance ont été calés à 75 %. Résultat après deux semaines d'exploitation : 4 à 6 alertes par nuit en moyenne, toutes correspondant à des présences réelles — des agents de sécurité d'un site voisin effectuant leurs rondes, et deux intrusions effectives détectées immédiatement. Le client a pu réactiver son contrat de télésurveillance avec une levée de doute vidéo en temps réel.

Résidence de standing à Pessac : détection périmétrique sans faux positifs

Sur une résidence privée de 12 logements à Pessac, le syndic souhaitait sécuriser le parking extérieur et l'accès piéton, tout en évitant les alertes permanentes liées aux véhicules qui entrent et sortent toute la journée. La demande était précise : être alerté uniquement en cas de présence humaine en dehors des plages horaires de 22h à 6h du matin.

Nous avons installé des caméras Dahua IPC-HDW3849H-AS-PV de la gamme WizSense, configurées avec une zone intrusion périmétrique et une classification stricte "humain uniquement". Les véhicules, même entrant la nuit, ne déclenchent aucune alerte. Seule une silhouette humaine franchissant la ligne virtuelle génère une notification push sur l'application du gardien et une alerte vers la centrale de télésurveillance. Depuis la mise en service, aucun faux positif en trois mois d'exploitation.

Ces deux exemples illustrent bien que la valeur ajoutée de la détection de personnes ne réside pas dans la technologie seule, mais dans la combinaison d'un matériel adapté au contexte, d'un positionnement réfléchi et d'un paramétrage minutieux. C'est exactement la prestation que nous apportons à chaque installation.

Pour aller plus loin sur les spécifications techniques des caméras à analyse IA, les ressources publiées par Hikvision France sur la gamme AcuSense et par Dahua sur la série WizSense constituent de bonnes références. Sur le plan réglementaire, la CNIL publie un guide dédié à la vidéosurveillance et à l'utilisation des systèmes d'analyse automatique qui mérite d'être consulté avant tout déploiement impliquant de l'IA.

Votre système génère trop de fausses alarmes ? Nos techniciens interviennent pour un diagnostic et une mise à jour

Conclusion

La détection de personnes par caméra de surveillance repose sur des réseaux de neurones convolutifs capables d'analyser et de classifier en temps réel ce qui apparaît dans le champ de vision. Embarquée directement dans la caméra ou déportée vers un serveur, cette technologie réduit drastiquement les fausses alarmes — à condition d'être bien déployée. Le choix de l'optique, la qualité de l'éclairage nocturne, le positionnement de la caméra et le paramétrage des zones d'analyse sont autant de facteurs qui déterminent la fiabilité réelle du système. Chez Protech Alarme Vidéo, chaque installation fait l'objet d'une étude de site approfondie pour que la technologie tienne ses promesses dans votre environnement spécifique.

L’avis de notre expert

La détection de personnes par IA est aujourd’hui une technologie mature, fiable et accessible. Mais elle n’est pas magique. Ce que nous observons sur le terrain, c’est que les déceptions viennent presque toujours d’un écart entre ce que promet une fiche technique et ce que donne réellement une caméra mal positionnée, mal configurée ou choisie sans analyse préalable du site.

Notre recommandation : ne jamais acheter une caméra “avec IA” comme on achèterait une caméra standard en se disant que la technologie fera le travail. L’IA embarquée est un outil puissant, mais elle exige une réflexion en amont sur la scène à surveiller, les conditions d’éclairage, les angles de vue et les seuils de déclenchement. Un installateur qui prend le temps de cette analyse vous fera économiser des mois de fausses alarmes et vous donnera un système qui fonctionne vraiment.

Autre point souvent négligé : la conformité RGPD. Dès lors qu’une caméra analyse automatiquement des silhouettes humaines — et a fortiori si elle est couplée à une fonction de reconnaissance faciale — des obligations déclaratives et des mesures techniques spécifiques s’appliquent. C’est quelque chose que nous intégrons systématiquement dans nos préconisations, en orientant nos clients vers les ressources de la CNIL et en nous assurant que les systèmes déployés respectent le cadre légal en vigueur.

Sources et références

FAQ — Questions fréquentes sur la détection de personnes en vidéosurveillance

Les caméras modernes embarquent un moteur d'intelligence artificielle basé sur des réseaux de neurones convolutifs (CNN), entraînés sur des millions d'images annotées. Ce modèle analyse la forme de la silhouette, les proportions, le mouvement et le contexte spatial pour attribuer un score de confiance à chaque objet détecté. Si ce score dépasse un seuil configuré pour la catégorie "humain", une alerte est déclenchée. Les véhicules et les animaux sont classifiés séparément, ce qui permet de filtrer les alertes non pertinentes.

Les performances nocturnes dépendent fortement de la qualité de l'illuminateur infrarouge ou de la technologie bas-lumière de la caméra. Les caméras équipées de technologies comme ColorVu (Hikvision) ou Full-color (Dahua) maintiennent une image couleur dans des conditions de très faible luminosité, ce qui améliore significativement la précision du modèle IA par rapport à une image infrarouge monochrome classique. En revanche, une caméra infrarouge standard verra ses performances de détection se dégrader la nuit.

La portée dépend de la résolution du capteur et de la focale de l'objectif. Pour une classification fiable, la silhouette doit occuper au minimum 80 à 100 pixels de hauteur dans l'image. Sur une caméra 4 MP avec un objectif 4 mm (champ de 90°), la détection fiable d'une personne est généralement possible jusqu'à 15-20 mètres. Avec un objectif 8 mm, cette portée peut doubler, au prix d'un champ de vision réduit. Le choix de l'optique doit donc être défini en fonction de la profondeur de la zone à surveiller.

Oui. Toute caméra qui analyse automatiquement des silhouettes humaines — même sans reconnaissance faciale — traite des données à caractère personnel et relève du RGPD et de la loi Informatique et Libertés. Des obligations s'appliquent : information des personnes filmées, durée de conservation limitée, registre des traitements, et dans certains cas analyse d'impact (AIPD). La CNIL publie un guide dédié à la vidéosurveillance qui détaille ces obligations. Nous conseillons systématiquement nos clients sur ces points avant toute installation.

Les deux approches ont leurs avantages. L'IA embarquée (edge AI) offre une réponse en temps réel, une indépendance vis-à-vis du réseau et une meilleure maîtrise des données personnelles, car les images ne quittent pas le site. L'analyse sur serveur ou cloud permet des modèles plus puissants, une analyse comportementale plus fine et une meilleure gestion des installations multi-sites. Pour la majorité des sites résidentiels et des petits commerces, l'IA embarquée suffit largement. Les grandes installations ou les sites nécessitant une analyse avancée bénéficieront d'une architecture serveur ou VMS.

Caméras de surveillance avec détection de personnes : comment ça marche vraiment ?

Caméras de surveillance avec détection de personnes : comment ça marche vraiment ?

Ce que la détection de personnes signifie vraiment techniquement

Deep learning embarqué ou cloud : deux architectures très différentes

Le traitement embarqué (edge AI)

Le traitement cloud ou VMS

Les paramètres qui font (ou défont) la fiabilité sur le terrain

La résolution et la taille angulaire de la cible

L'éclairage : le paramètre le plus sous-estimé

Les angles de prise de vue

Les occlusions et les foules

La configuration des seuils par l'installateur

Cas d'usage concrets : ce que nous déployons sur nos chantiers

Entrepôt logistique à Mérignac : réduction drastique des fausses alarmes

Résidence de standing à Pessac : détection périmétrique sans faux positifs

Conclusion

L’avis de notre expert

Sources et références

FAQ — Questions fréquentes sur la détection de personnes en vidéosurveillance

LIENS UTILES

Besoin d'une installation en vidéosurveillance, alarme, contrôle d'accès ou interphonie ?