ბიზნეს სამყაროში ფართოდ გამოყენებადი ტექნიკაა ლოგისტიკური რეგრესია, რადგან ბევრი მნიშვნელოვანი გადაწყვეტილება “კი” ან “არა” არჩევანზე დაიყვანება – ვიყიდო, თუ არ ვიყიდო; გავცე განვადებით, თუ არა? დავეთანხმო, თუ არ დავეთანხმო?…

ლიგისტიკური რეგრესიის მოდელი ცდილობს წარსული ინფორმაციის ანალიზზე დაყრდნობით გააკეთოს მოვლენის “კი” ან “არა” ალბათობის პროგნოზირება 1-ებისა და 0-ების ჭრილში. იმის გასააზრებლად თუ რამდენად საინტერესო მეთოდიკაა პრაქტიკაში რამდენიმე მაგალითს ჩამოვწერ:

  1. მოხმარებლის შენარჩუნების სტრატეგია – ისტორიულ სტატისტიკაზე დაყდნობით მოდელს შეუძლია იწინასწარმეტყველოს კონკრეტული მომხამრებლის დაკარგვის ალბათობა, რაც მოცემულ სეგენტზე ფოკუსირების საშუალებას გვაძლევს;
  2. კრედიტის/განვადების დამტკიცება – მოდელს შეუძლია შეაფასოს კონკრეტული მომხმარებლის მიერ სესხის/განვადების დეფოლტის ალბათობა, და გვირჩიოს გავცეთ თუ არა სესხი;
  3. თაღლითობის დიაგნოსტიკა – საკრედიტო ბარათების კომპანიას შეუძლია ბარათის გამოყენების სტატისტიკის მიხედვით ამოიცნოს თაღლითური ტრანზაქციების ალბათობა…

მოდელის ფორმულა ასე გამოიყურება (ექსელის ფაილი ჩანაწერის ბოლოს):

რთულად კი გამოიყურება, მაგრამ მთელი არსი იმაში მდგომარეობს რომ მახასიათებლების ერთობლიობა წრფივი განტოლებით დაკავშირდეს შედეგის “კი” ან “არა” ალბათობასთან. იოლი აღსაქმელი იქნება მაგალითზე:

დავუშვათ მაქვს სურვილი ისტორულ სტატისტიკაზე დაყრდნობით დავასკვნა დებიტორი გადაიხდის დავალიანებას თუ გადეფოლტდება ?

პირველ რიგში მჭირდება ისტორია, – დებიტორების მონაცემები და რეალური სტატისტიკა იმის შესახებ თუ რომელმა მათგანმა ვერ შეძლო დავალიანების დაფარვა. ქვემოთ ცხრილში მოცემულია 5 პარამეტრი:

  1. ვალის მოცულობა
  2. წლური შემოსავალი
  3. საკრედიტო რეიტინგი
  4. მიმდინარე დაგვიანება
  5. წინა პეროდის დეფოლტები

ბოლო სვეტი აჩვენებს რეალურად მოხდა თუ არა მოცემული მომხმარებლის დეფოლტი, ანუ აღმოჩნდა თუ არა მომხმარებელი გადახდის უუნარო.

მონაცემები რომელიც მოდელს მიეწოდება შესაძლებელია იყოს ნებისმიერი, მთავარია რომ ისინი ჯანსაღი აზრის ფარგლებში დაკავშირებული იყვნენ ამოცანის მიზნობრივ ალბათობასთან.

შემდეგ ეტაპზე ხდება ფორმულების აგება Solver-ფუნქციისთვის (დეტალებში არ ჩავალ):

Solver-მა უნდა დაალაგოს ყვითელ გრაფაში მოცემული მონაცემები ისე რომ ლოგისტიკური ალბათობა მაქსიმუმზე გავიდეს, რაც საბოლოო ჯამში მოგვცემს მოდელის მიერ მიღებულ პროგნოზებს 1-სა და 0-ის, ანუ “კი” და “არა” სახით. ზედა მარჯვენა კუთხეში მითითებულია ალბათობის (Cut off) კოეფიციენტი, რომელიც საზღვრავს მომხმარებლის ჩავარდნას “კი” ან “არა” კატეგორიაში. ანუ მარტივად, – მითითებულია რომ თუ დეფოლტის (Cut off) ალბათობა 0.6-ზე მეტია მაშინ ჩამიგდე “კი” უჯრაში და პირიქით.

შემდეგ ეტაპზე ხდება მოდელის მიერ გაკეთებული პროგნოზების რეალობასთან შედარება:

დაითვლება ისეთი კოეფიციენტები როგორიცაა:

  • სიზუსტე – პროგნოზის გამართლების წილი ჯამურ სტატისტიკაში – (30+459)/500;
  • სიმკვრივე – დადებითი თანაკვეთის შეფარდება რეალურთან – 459/462;
  • გამოძახება – დადებითი თანაკვეთის შეფარდება პროგნოზირებულთან – 459/467;

ამ მონაცემებზე დაყრდნობით ხდება სენსიტიურობის ანალიზის დიაგრამების წარმოქმნა, რომელიც გვეხმარება Cut off – ალბათობის დონის ოპტიმალურად შერჩევაში:

მაგალითად აქ, მრუდები რაღაც წერტილში იკვეთებიან და მოდელისთვის კარგ დონეს (0.5) მიუთოთებენ.

ამის შემდეგ კი ხდება ე.წ. ROC (Receiver Operating Characteristic) მრუდის აგება, False Positive და True Positive – სტატისტიკის მიხედვით:

ეს მრუდი ასევე გვეხმარება სწორი Cut off დონის განსაზღვრაში – ისეთი დონე უნდა შევარჩიოთ რომ False Positive იყოს მინიმალური და True Positive მაქსიმალური – ჩვენს მაგალითში 0.55-ია. რაც ნიშნავს რომ თუ მოდელმა დეფოლტის ალბათობა 0.55-ზე ზემოთ აჩვენა მაშინ სესხი არ უნდა გავცეთ და პირიქით.

პ.ს

ასეთ გაანგარიშებებს სპეციალურ პროგრამებში აკეთებენ ხოლმე, ექსელი მოსახერხებელი არ არის რთული ანალიზისთვის, თუმცა ხშირად საკმარისია.

Logistic Regression Excel File

იდეის წყარო:

Business Analytics: Data Analysis & Decision Making by S. Albright, & Wayne Winston.