Wikidata переходит на векторный поиск: как это изменит работу с информацией для систем искусственного интеллекта
NewsMakerНовый стандарт Wikidata Embedding Project положит конец выдуманным фактам от чат-ботов.
Wikimedia Deutschland представила новый проект, упрощающий использование данных Википедии и её сестринских платформ в системах искусственного интеллекта.
Система получила название Wikidata Embedding Project. Она основана на векторном семантическом поиске, который позволяет компьютерам лучше понимать значения слов и их взаимосвязи. Технология охватывает почти 120 миллионов записей и делает работу с информацией более гибкой и точной.
Одним из ключевых элементов стала поддержка Model Context Protocol (MCP) — стандарта, позволяющего моделям напрямую взаимодействовать с базами знаний и обрабатывать естественные языковые запросы.
Проект реализован немецким отделением Wikimedia совместно с компаниями Jina.AI (нейросетевой поиск) и DataStax (структурированные обучающие данные, входит в IBM).
До этого Wikidata уже предоставляла машиночитаемую информацию, но поиск был ограничен ключевыми словами и специализированными запросами SPARQL. Новый формат ориентирован на современные системы retrieval-augmented generation (RAG), которые подгружают внешние источники, что повышает точность ответов и позволяет использовать проверенные редакторами данные Википедии.
Данные в Embedding Project структурированы так, чтобы обеспечивать семантический контекст. Например, при запросе слова «scientist» можно получить список известных учёных, переводы на разные языки, изображения из библиотек Wikimedia и связанные термины вроде «исследователь» или «учёный».
База уже доступна публично на Toolforge .
Менеджер проекта Wikidata AI Филипп Сааде отметил, что инициатива подчёркивает независимость Wikimedia: «Этот запуск показывает, что мощный искусственный интеллект не обязательно должен находиться под контролем нескольких компаний. Он может быть открытым, совместным и созданным для всех», — заявил он.

Wikimedia Deutschland представила новый проект, упрощающий использование данных Википедии и её сестринских платформ в системах искусственного интеллекта.
Система получила название Wikidata Embedding Project. Она основана на векторном семантическом поиске, который позволяет компьютерам лучше понимать значения слов и их взаимосвязи. Технология охватывает почти 120 миллионов записей и делает работу с информацией более гибкой и точной.
Одним из ключевых элементов стала поддержка Model Context Protocol (MCP) — стандарта, позволяющего моделям напрямую взаимодействовать с базами знаний и обрабатывать естественные языковые запросы.
Проект реализован немецким отделением Wikimedia совместно с компаниями Jina.AI (нейросетевой поиск) и DataStax (структурированные обучающие данные, входит в IBM).
До этого Wikidata уже предоставляла машиночитаемую информацию, но поиск был ограничен ключевыми словами и специализированными запросами SPARQL. Новый формат ориентирован на современные системы retrieval-augmented generation (RAG), которые подгружают внешние источники, что повышает точность ответов и позволяет использовать проверенные редакторами данные Википедии.
Данные в Embedding Project структурированы так, чтобы обеспечивать семантический контекст. Например, при запросе слова «scientist» можно получить список известных учёных, переводы на разные языки, изображения из библиотек Wikimedia и связанные термины вроде «исследователь» или «учёный».
База уже доступна публично на Toolforge .
Менеджер проекта Wikidata AI Филипп Сааде отметил, что инициатива подчёркивает независимость Wikimedia: «Этот запуск показывает, что мощный искусственный интеллект не обязательно должен находиться под контролем нескольких компаний. Он может быть открытым, совместным и созданным для всех», — заявил он.