Каква е разликата между учен с данни и статистик?


Отговор 1:

Саша Михеев

По-конкретно, кодът, който пишат, никога не е предназначен да бъде използван от някой освен тях самите

но те рутинно прецакват анализите си, като прилагат техники за проблеми, без да разбират предположенията зад тези техники.

josh_wills: Data Scientist (n.): Лице ...

Независими и идентично разпределени случайни променливи

Непараметрична статистика


Отговор 2:

Учените по данни разбират нещата от гледна точка на данните. Човек трябва да разбере какви характеристики имат данните - те са редки? има ли определена структура? можем ли да използваме ортогонална информация от други източници на данни? Какво трябва да кажат учените в областта на свойствата на данните? сред няколко други подобни проблеми. Другата разлика е, че учените за данни са предимно компютърни учени, те разработват алгоритмични решения на проблеми в реалния свят, като вземат предвид компютърните ограничения, харесването на които може да бъде причинено от големия размер на изискванията, съдържащи данни и пространство и време. За да гарантира това, може да се наложи даден учен с данни да познава технологии като паралелно изчисляване, които могат да му помогнат да реши тези проблеми. В зависимост от изчислителните изисквания на задачата, която се изпълнява, особено в приложения, изискващи изчисления в движение, той може да иска да направи част от своята обработка в облака - някаква мощна компютърна машина, която може да бъде достъпна в мрежата - това носи в допълнителния проблем какво да обработваме в облака, като същевременно се има предвид, че това ще изисква непрекъснато изпращане на данни в мрежата, увеличавайки необходимото време. Това е само върхът на айсберга. Има множество други проблеми като тези, които идват с обработка на сурови данни, които в зависимост от приложението може да идват от различни източници от камери за наблюдение на трафика до сензори, монтирани на спътници, които наблюдават климатичните условия на нашата планета.

Въпросът, който се опитвам да направя, е, че макар ученият за данни да изисква силни статистически познания, това не е единственият инструмент в арсенала му.


Отговор 3:

Статистикът трябва да знае повече статистика, за да може да изнесе този тежък термин. Само знанието как да намерите корелации, изчисляването на различни видове регресия и самото разбиране на вероятностните разпределения не е достатъчно. По-високото познаване на статистиката може да бъде произволно сложно. И двамата трябва да разберат основната статистика и да представят смислени резултати по визуален начин, който е интересен и информативен.

Изследователят на данни трябва да може да формира своя собствена хипотеза и да я тества, от А до Я. Те трябва да разберат изискванията за хардуера и софтуера и да могат да го кодират. Изглежда, че намаляването на картата е наистина често. Поне в някои случаи те трябва да станат администратори на сървъри и могат дори да работят разпределени системи.


Отговор 4:

Статистикът трябва да знае повече статистика, за да може да изнесе този тежък термин. Само знанието как да намерите корелации, изчисляването на различни видове регресия и самото разбиране на вероятностните разпределения не е достатъчно. По-високото познаване на статистиката може да бъде произволно сложно. И двамата трябва да разберат основната статистика и да представят смислени резултати по визуален начин, който е интересен и информативен.

Изследователят на данни трябва да може да формира своя собствена хипотеза и да я тества, от А до Я. Те трябва да разберат изискванията за хардуера и софтуера и да могат да го кодират. Изглежда, че намаляването на картата е наистина често. Поне в някои случаи те трябва да станат администратори на сървъри и могат дори да работят разпределени системи.