Big Data

Big Data

Принципы работы с большими данными

Большие данные — лучшие данные

Как стать специалистом по Big Data?

r

Data Science — относительно молодая наука, поэтому здесь пока низкие барьеры входа для новичков. Заниматься анализом данных могут профессионалы из самых разных областей: многие специалисты пришли в Data Science из математики, статистики, информатики, инженерии и естествознания. Некоторые даже имеют ученые степени в области экономики, социальных наук и бизнеса. Переучиться или повысить свою квалификацию у них получилось на онлайн или офлайн-курсах.

Школа анализа данных

Методы анализа Big Data

Что такое Big Data

Big Data: семантический анализ данных и машинное обучение

Мир big data в 8 терминах

Big data

r

Big data (большие данные) — огромные объемы неоднородной и быстро поступающей цифровой информации, которые невозможно обработать традиционными инструментами.В русскоязычной среде под большими данными подразумевают также технологии их обработки. В мировой практике большими данными называют только объект анализа.ермин big data родился в 2008 году. Редактор журнала Nature Клиффорд Линч употребил это выражение в спецвыпуске, посвященном взрывному росту мировых объемов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории big data относится большинство потоков данных свыше 100 Гб в день.Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и так далее.В последние годы big data фактически перестали быть термином. Журналисты и предприниматели сильно злоупотребляли им, и значение размылось. Российские специалисты до сих пор спорят о том, входят ли в понятие big data инструменты работы с ними. Западные эксперты считают этот термин окончательно дискредитированным и предлагают от него отказаться.

a

Data lake

r

Data lake (озеро данных) — хранилище больших данных в необработанном виде.«Озера» хранят данные из разных источников и разных форматов. Это обходится значительно дешевле традиционных хранилищ, в которые помещаются только структурированные данные. Data lake позволяют анализировать большие данные в исходном виде. К тому же пользоваться «озерами» могут сразу несколько сотрудников.

Data science

r

Data science (наука о данных) — дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме.Датой возникновения термина считают 1974 год, когда датский информатик Петер Наур издал книгу «A Basic Principle of Data Science».С начала 2010-х годов наука о данных перестала быть чисто академической дисциплиной. Под влиянием популяризации больших данных data science оказалась перспективным бизнесом. Тогда же профессия data scientist стала одной из самых востребованных и высокооплачиваемых в мире.В понятие data science входят все методы обработки оцифрованной информации и проектирования баз данных. Некоторые специалисты считают термин data science наиболее адекватной заменой big data в смысле сферы деятельности и рыночной ниши.

Data mining

r

Data mining (добыча информации) — интеллектуальный анализ данных с целью выявления закономерностей.Израильский математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 году.Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных ранее неизвестных и практически полезных знаний. Методы data mining находятся на стыке баз данных, статистики и искусственного интеллекта

Machine learning

r

Machine learning (машинное обучение) — теория и практика разработки самообучающихся программ, большая область искусственного интеллекта.Первое определение машинному обучению дал в 1959 году американский информатик Артур Самуэль. Он написал игру в шашки с элементами искусственного интеллекта — одну из первых самообучающихся программ в мире.

Deep learning

r

Deep learning (глубокое обучение) — вид машинного обучения, создающий более сложные и более самостоятельные обучающиеся программы.При обычном машинном обучении компьютер извлекает знания через управляемый опыт: программист дает алгоритму примеры и вручную исправляет ошибки. А при deep learning система сама проектирует свои функции, делает многоуровневые вычисления и выводы об окружающем мире.Глубокое обучение применяют к нейронным сетям. Сферы применения этой технологии — обработка изображений, распознавание речи, нейромашинный перевод, вычислительная фармацевтика и другие прорывные технологии, внедряемые IT-гигантами вроде Google, Facebook и Baidu. Глубокое обучение стало одной из самых востребованных областей информационных технологий.Доподлинно неизвестно, кто впервые применил термин к нейронным сетям. Deep learning стало популярным в 2007 году, когда канадский ученый Джеффри Хинтон создал алгоритмы глубокого обучения многослойных нейронных сетей.

Искусственная нейронная сеть

r

Искусственная нейронная сеть — система соединенных простых процессоров (искусственных нейронов), имитирующая нервную систему человека.Благодаря такой структуре нейронные сети не программируются, а обучаются. Как и настоящие нейроны, процессоры просто принимают сигналы и передают их своим собратьям. Но вся сеть способна выполнять сложные задачи, с которыми не справляются традиционные алгоритмы.

Business intelligence

r

Business intelligence (бизнес-аналитика) — поиск оптимальных бизнес-решений с помощью обработки большого объема неструктурированных данных.Эффективный business intelligence анализирует внешние и внутренние данные — как рыночную информацию, так и отчетность компании-клиента. Это дает полную картину бизнеса и позволяет принимать как операционные, так и стратегические решения (выбрать как цену продукта, так и приоритеты развития компании).Термин появился в 1958 году в статье исследователя из IBM Ханса Питера Луна. В 1996 году аналитическое агентство Gartner, которое специализируется на изучении IT-рынка, включило в состав business intelligence методику датамайнинга.