Google patent: Google Patents стал доступен и в России — Блог компании Онлайн Патент

Google Patents Search – Адвокатское бюро Neustel

Google Patents Search ( www.google.com/patents/ )
— это бесплатный онлайн-инструмент для поиска патентов, которым могут воспользоваться изобретатели и предприниматели.
и предприятия могут использовать. Google Patents в настоящее время находится на стадии бета-тестирования.
однако он может обеспечить очень полезный дополнительный онлайн-поиск патентов.
Google Patent Search использует свою технологию Google Book Search для распознавания
текст в патентных документах США, облегчающий их поиск.

Google Patents позволяет вам искать следующие типы патентов
документы онлайн:

  • Патенты США
  • Опубликованные патентные заявки США

Патентные данные, доступные через Google Patent Search, получены из США.
Ведомство по патентам и товарным знакам (USPTO). Google указывает на своем веб-сайте
что патентные данные включают патенты, выданные с 1790-х по 900 годы21.
недавно выпущенные за последние несколько месяцев (т.е. вы не можете быть
поиск последних выданных патентов).

Google Patents не выполняет поиск следующих типов патентных документов:

  • Международные патенты
  • Международные опубликованные патентные заявки
  • Недавно выданные патенты США*
  • Недавно опубликованные заявки на патенты США*

* Google Patents обновляет свою базу данных
раз в два месяца, поэтому данные иногда могут отставать от данных USPTO на
пару месяцев или около того. Вы всегда должны проверять наличие последней версии U.S.
патенты и опубликованные патентные заявки в USPTO.

Если вам нужно найти наиболее
недавно предоставленные патентные документы США, доступные в USPTO, рассмотрите возможность использования
PatentHunter
, который является
инструмент коммерческого патентного поиска, созданный Майклом Нейстелом.

В то время как Google Patents предоставляет простой в использовании интерфейс поиска для
поиск патентов США и опубликованных патентных заявок, Google
Патенты иногда не всегда обновляются последними
патентных документов (т. е. вы иногда не можете получить доступ к последним выданным
патенты или опубликованные патентные заявки). Отсюда и преимущество
Патентный поиск USPTO заключается в том, что у вас будут самые последние данные, предлагаемые
Ведомство США по патентам и товарным знакам. Однако патенты Google не должны
следует упускать из виду, так как он обеспечивает очень хороший интерфейс поиска для
новичкам и может использоваться в качестве дополнения к патентному поиску USPTO.

Преимущества Google Patents

  • Простой в использовании интерфейс поиска патентов для начинающих.
  • Удобный доступ к патентным изображениям в формате PDF.
  • См. важные ключевые слова непосредственно в патентном документе PDF.
  • Быстрая поисковая система и быстрая загрузка патентных документов в формате PDF.

Недостатки Google Patents

  • Нет международных патентов.
  • Иногда не включает самые последние патенты США или опубликованные
    патентные заявки.
  • Некоторые слова в патентных документах не правильно распознаны.

Анонс набора данных сходства патентных фраз — блог Google AI

Опубликовано Григор Асланян, инженер-программист, Google

Патентные документы обычно используют юридический и высокотехнологичный язык с контекстно-зависимыми терминами, которые могут иметь значение, совершенно отличное от разговорного употребления, и даже между разными документами. Процесс использования традиционных методов патентного поиска (например, поиска по ключевым словам) для поиска в корпусе из более чем ста миллионов патентных документов может быть утомительным и приводить к большому количеству пропущенных результатов из-за используемого широкого и нестандартного языка. Например, «футбольный мяч» может быть описан как «сферическое приспособление для отдыха», «надувной спортивный мяч» или «мяч для игры в мяч». Кроме того, язык, используемый в некоторых патентных документах, может запутывать термины в своих интересах, поэтому более мощная обработка естественного языка (NLP) и понимание семантического сходства могут предоставить каждому доступ к тщательному поиску.

Патентная область (и более общая техническая литература, такая как научные публикации) создает уникальные проблемы для моделирования НЛП из-за использования юридических и технических терминов. Хотя существует несколько широко используемых эталонных наборов данных семантического текстового сходства (STS) общего назначения (например, STS-B, SICK, MRPC, PIT), насколько нам известно, в настоящее время нет наборов данных, ориентированных на технические концепции, найденные в патентах. и научные публикации (отчасти связанная задача BioASQ содержит задание на ответ на биомедицинский вопрос). Более того, с постоянным ростом размера патентного корпуса (ежегодно во всем мире выдаются миллионы новых патентов) возникает необходимость в разработке более полезных моделей НЛП для этой области.

Сегодня мы объявляем о выпуске набора данных сходства патентных фраз, нового набора данных контекстуального семантического сопоставления фраз с фразами, оцениваемого людьми, и сопроводительного документа, представленного на семинаре SIGIR PatentSemTech Workshop, в котором основное внимание уделяется техническим терминам из патентов. Набор данных сходства патентных фраз содержит около 50 000 пар фраз с рейтингом, каждая из которых имеет класс совместной патентной классификации (CPC) в качестве контекста. В дополнение к показателям сходства, которые обычно включаются в другие эталонные наборы данных, мы включаем детальные классы рейтинга, аналогичные WordNet, такие как синоним, антоним, гипероним, гипоним, холоним, мероним и связанные с доменом. Этот набор данных (распространяемый по международной лицензии Creative Commons Attribution 4.0) использовался Kaggle и USPTO в качестве эталонного набора данных в конкурсе сопоставления патентных фраз с фразами США, чтобы привлечь больше внимания к производительности моделей машинного обучения для технического текста. Первоначальные результаты показывают, что модели, точно настроенные на этом новом наборе данных, работают значительно лучше, чем обычные предварительно обученные модели без тонкой настройки.

Набор данных сходства патентных фраз

Чтобы лучше обучать современные модели следующего поколения, мы создали набор данных сходства патентных фраз, который включает множество примеров для решения следующих проблем: (1) устранение неоднозначности фразы, (2) состязательное сопоставление ключевых слов и (3). ) жесткие минус-слова (т. е. ключевые слова, которые не связаны между собой, но получили высокий балл за сходство с другими моделями). Некоторые ключевые слова и фразы могут иметь несколько значений (например, фраза «мышь» может относиться к животному или компьютерному устройству ввода), поэтому мы устраняем неоднозначность фраз, включая классы CPC в каждую пару фраз. Кроме того, многие модели НЛП (например, модели мешка слов) не будут работать с данными с фразами, которые имеют совпадающие ключевые слова, но в остальном не связаны (противоположные ключевые слова, например, «секция контейнера» → «кухонный контейнер», «стол смещения» → «настольный вентилятор»). Набор данных сходства патентных фраз включает в себя множество примеров сопоставления ключевых слов, которые не связаны посредством состязательного сопоставления ключевых слов, что позволяет моделям НЛП повышать свою эффективность.

Каждая запись в наборе данных сходства патентных фраз содержит две фразы, якорь и цель, контекстный класс CPC, рейтинговый класс и показатель сходства. Набор данных содержит 48 548 записей с 973 уникальными якорями, разделенными на обучающие (75%), проверочные (5%) и тестовые (20%) наборы. При разделении данных все записи с одним и тем же якорем сохраняются вместе в одном наборе. Существует 106 различных контекстных классов CPC, и все они представлены в обучающем наборе.

Бензиновая смесь

Топливная смесь

Анкер Цель Контекст Рейтинг Оценка
кислотопоглощение поглощение кислоты Б08 точно 1,0
кислотопоглощение погружение в кислоту Б08 синоним 0,75
кислотопоглощение химически пропитанный Б08 связанных с доменом 0,25
кислотопоглощение кислотный рефлюкс Б08 не связано 0,0
бензиновая смесь С10 синоним 0,75
бензиновая смесь С10 гипероним 0,5
бензиновая смесь фруктовая смесь С10 не связано 0,0
кран в сборе водопроводный кран А22 гипоним 0,5
кран в сборе водоснабжение А22 холоним 0,25
кран в сборе школьное собрание А22 не связано 0,0
Небольшая выборка датасета с анкорными и целевыми фразами, контекст, класс CPC (B08: Очистка, C10: Нефть, газ, топливо, смазочные материалы, A22: Разделка, переработка мяса/птицы/рыбы), рейтинг класс и показатель сходства.

Создание набора данных

Чтобы сгенерировать данные о схожести патентных фраз, мы сначала обрабатываем около 140 миллионов патентных документов в базе данных Google Patent и автоматически извлекаем важные английские фразы, которые обычно являются словосочетаниями с существительными (например, «застежка», «подъемная сборка») и функциональными фразами ( например, «пищевая промышленность», «чернильная печать»). Затем мы фильтруем и сохраняем фразы, которые встречаются как минимум в 100 патентах, и случайным образом выбираем около 1000 из этих отфильтрованных фраз, которые мы называем якорными фразами. Для каждой якорной фразы мы находим все соответствующие патенты и все классы CPC для этих патентов. Затем мы случайным образом отбираем до четырех совпадающих классов CPC, которые становятся контекстными классами CPC для конкретной ключевой фразы.

Мы используем два разных метода для предварительного создания целевых фраз: (1) частичное совпадение и (2) модель маскированного языка (MLM). Для частичного сопоставления мы случайным образом выбираем из всего корпуса фразы, частично совпадающие с якорной фразой (например, «снижение уровня шума» → «снижение шума», «материальное образование» → «формовочный материал»). Для MLM мы выбираем предложения из патентов, которые содержат заданную якорную фразу, маскируем их и используем модель Patent-BERT для прогнозирования кандидатов на замаскированную часть текста. Затем все фразы очищаются, включая строчные буквы, удаляются знаки препинания и некоторые стоп-слова (например, «и», «или», «сказал»), и отправляются экспертам для проверки. Каждая пара фраз оценивается независимо двумя экспертами в области технологий. Каждый оценщик также генерирует новые целевые фразы с разными рейтингами. В частности, их просят сгенерировать несколько целей с низким уровнем сходства и несвязанных между собой, которые частично совпадают с исходным якорем и/или с некоторыми целями с высоким уровнем сходства. Наконец, оценщики встречаются, чтобы обсудить свои оценки и выставить окончательные оценки.

Оценка набора данных

Чтобы оценить его производительность, набор данных сходства патентных фраз использовался в конкурсе U.S. Patent Phrase Matching Phrase Matching Kaggle. Соревнование было очень популярным, собрав около 2000 участников со всего мира. Команды, набравшие наибольшее количество очков, успешно использовали различные подходы, в том числе ансамблевые модели вариантов BERT и подсказки (см. полное обсуждение для получения более подробной информации). В таблице ниже показаны лучшие результаты конкурса, а также несколько готовых базовых показателей из нашей статьи. Метрика корреляции Пирсона использовалась для измерения линейной корреляции между прогнозируемыми и истинными оценками, которая является полезной метрикой для целевых моделей, чтобы они могли различать разные оценки сходства.

Исходные данные в статье можно считать нулевыми в том смысле, что они используют готовые модели без какой-либо дальнейшей точной настройки нового набора данных (мы используем эти модели, чтобы отдельно встраивать якорные и целевые фразы и вычислять косинус сходство между ними). Результаты конкурса Kaggle демонстрируют, что, используя наши обучающие данные, можно добиться значительных улучшений по сравнению с существующими моделями НЛП. Мы также оценили человеческую производительность при выполнении этой задачи, сравнив баллы одного оценщика с суммарным баллом обоих оценщиков. Результаты показывают, что это не особенно простая задача даже для экспертов-людей.

Модель Обучение Корреляция Пирсона
word2vec Нулевой выстрел 0,44
Патент-BERT Нулевой выстрел 0,53
Приговор-BERT Нулевой выстрел 0,60
Kaggle 1-е место в одиночном разряде Тонкая настройка 0,87
Kaggle ансамбль 1 место Тонкая настройка 0,88
Человек 0,93
Производительность популярных моделей без тонкой настройки (zero-shot), модели, настроенные на основе набора данных Patent Phrase Similarity в рамках конкурса Kaggle, и производительность одного человека.

Заключение и будущая работа

Мы представляем набор данных сходства патентных фраз, который использовался в качестве эталонного набора данных в конкурсе сопоставления патентных фраз с фразами США, и демонстрируем, что, используя наши обучающие данные, можно добиться значительных улучшений по сравнению с существующими моделями НЛП.

Дополнительные сложные контрольные показатели машинного обучения могут быть созданы на основе корпуса патентов, а патентные данные нашли отражение во многих наиболее изученных сегодня моделях. Например, набор текстовых данных C4, используемый для обучения T5, содержит множество патентных документов. Модели BigBird и LongT5 также используют патенты из набора данных BIGPATENT. Доступность, полнота и открытые условия использования полнотекстовых данных (см. Общедоступные наборы данных Google Patents) делают патенты уникальным ресурсом для исследовательского сообщества. Возможности для будущих задач включают массовую классификацию с несколькими метками, обобщение, поиск информации, сходство изображения и текста, предсказание графа цитирования и перевод.