La scalabilité (ou mise à l'échelle) désigne la capacité d'une application à maintenir ses performances lorsque la charge augmente : plus d'utilisateurs, plus de données, plus de transactions. Une application scalable absorbe la croissance sans refonte majeure ni dégradation de l'expérience utilisateur.
On distingue deux stratégies de scaling : le scaling vertical (augmenter les ressources d'un serveur — CPU, RAM, disque) et le scaling horizontal (ajouter des serveurs et répartir la charge). Le scaling vertical est simple mais limité ; le scaling horizontal est plus complexe mais théoriquement illimité. La plupart des architectures modernes combinent les deux.
Concevoir une application scalable implique des choix techniques dès le départ : sessions stateless (ou externalisées dans Redis), cache distribué, base de données avec réplication, files de messages pour le traitement asynchrone, et CDN pour les assets statiques. L'objectif n'est pas de sur-dimensionner prématurément, mais de ne pas s'enfermer dans des choix qui bloqueront la croissance future.