این پروژه به تحلیل و کاهش بعد مجموعه دادههای بیان ژن در سرطان با استفاده از الگوریتم کلاسترینگ K-means میپردازد. مجموعه داده شامل اطلاعات بیان ژن برای 20,531 ژن و تعدادی از نمونههای سرطان مختلف است. هر نمونه با یک برچسب که نوع سرطان را نمایان میکند، تگگذاری شده است. برای مثال، برچسب BRCA به سرطان پستان اشاره دارد.
در این پروژه، ابتدا دادهها به کمک تکنیک مقیاس ویژگی MinMaxScaler مقیاسبندی میشوند و سپس از تکنیک کاهش بعد PCA (Principal Component Analysis) برای کاهش ابعاد دادهها استفاده میشود. این تکنیکها به بهبود توانایی الگوریتم K-means در یافتن الگوها و گروهبندی دادهها کمک میکنند.
https://github.com/vatche-t/K-means-ML-3