В MIT разработали систему автоматической очистки беспорядочных данных

Исследователи Массачусетского технологического института создали систему PClean, которая автоматически очищает «грязные» данные в таблицах: опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия.

Алгоритм использует подход, основанный на знаниях. Пользователь предоставляет ему информацию о базе данных и указывает основные проблемы, которые могут возникнуть в процессе очистки.

Затем программа объединяет эти знания с помощью вероятностных рассуждений, основанных на логике, и дает ответ. Например, учитывая дополнительные сведения о типичной арендной плате, PClean может дополнить таблицу со списком квартир и правильно определить Беверли-Хиллз из Калифорнии, а не аналогичный город, расположенный во Флориде или Техасе.

Соавтор статьи и аспирант кафедры электротехники и компьютерных наук Алекс Лью сказал, что PClean дает возможность заручиться поддержкой компьютеров так же, как люди обращаются за помощью друг к другу.

«PClean позволяет сообщить компьютеру, что я знаю о проблеме, кодируя те же базовые знания, которые я бы объяснил человеку. […] Я также могу указать подсказки и уловки, которые уже известны, для более быстрого решения задачи», — добавил исследователь.

Разработчики утверждают, что PClean — это первая система очистки данных, которая может сочетать знания в предметной области с логическими рассуждениями для автоматической очистки таблиц от миллионов записей за счет трех нововведений:

  • язык сценариев позволяет пользователям кодировать то, что они знают, для увеличения точности модели;
  • алгоритм вывода использует двухэтапный подход, основанный на обработке записей по очереди, чтобы сделать обоснованные предположения об их очистке, а затем пересмотреть свои суждения для исправления ошибок;
  • специальный компилятор генерирует код быстрого вывода, позволяя программе работать с базами данных с миллионами записей с высокой скоростью.

По словам исследователей, PClean упрощает и удешевляет объединение беспорядочных, несовместимых баз данных в чистые записи без огромных инвестиций в человеческие и программные системы.

Несмотря на потенциальные социальные преимущества, разработчики предупредили о рисках, в том числе вторжения в частную жизнь людей и их деанонимизации путем объединения неполной информации из нескольких общедоступных источников.

PClean доступен всем желающим. Исходный код системы разработчики опубликовали на GitHub.

Напомним, в мае ученые с помощью ИИ ускорили моделирование Вселенной в 1000 раз.

В апреле ученые из Университета Райса разработали метод обучения нейросетей на центральном процессоре, который работает в 15 раз быстрее, чем на графических ускорителях.

Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Discord Instagram
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

*Ежедневная рассылка — краткая сводка наиболее важных новостей предыдущего дня. Чтение занимает не больше двух минут. Выходит в рабочие дни в 06:00 (UTC)
*Еженедельная рассылка — объясняем, кто и как изменил индустрию за неделю. Идеально подходит для тех, кто не успевает за новостным потоком в течение дня. Выходит в пятницу в 16:00 (UTC).

Мы используем файлы cookie для улучшения качества работы.

Пользуясь сайтом, вы соглашаетесь с Политикой приватности.

OK