Содержание
База данных патентов: как получить доступ?
Содержание
Лучшие электронные базы патентов
База ФИПС
Базы данных патентов Евразийского патентного ведомства — ЕАПАТИС
Базы данных патентов Европейского патентного ведомства — Esp@cenet
Базы данных патентов Всемирной организации по интеллектуальной собственности (WIPO) — PATENTSCOPE
Базы Google Patent Search и Google Prior Art Finder
Заключение
Антон Филиппов
Ведущий эксперт по патентованию, патентный поверенный РФ № 2392
Получить консультацию
Базы данных по патентам — необходимый инструмент для проведения патентного поиска. Они содержат сведения по заявкам и выданным патентам, позволяя узнать о разработках конкурентов и получить информацию о прототипах и аналогах.
Информация в базах открытая, поэтому теоретически патентный поиск может провести технический специалист, разработавший решение. Но работая с открытыми и бесплатными источниками, необходимо учитывать следующие моменты:
- база патентов и заявок может быть неполной — можно только гадать, насколько часто ее обновляют;
- не все базы поддерживают нормальный поиск по нужным параметрам — система сложная и требует поддержки специалиста, а у большинства баз и вовсе отсутствует поиск на русском языке. Даже если система нашла информацию, не все результаты могут отвечать запросу.
Однако выход есть — обратиться в патентные бюро, которые используют профессиональные инструменты поиска. Такие системы узкоспециализированы и их всего несколько в мире, поэтому доступ стоит дорого.
Но они содержат полную информацию для проведения качественного патентного поиска в ограниченный срок. Поверенные патентных бюро проводят поиск по запросам и разделам МПК, подбирая запросы на русском и латинице.
Профессиональный патентный поиск как в Роспатенте
Лучшие электронные базы патентов
Если вы хотите провести патентный поиск самостоятельно, используя бесплатные открытые базы, мы собрали топ-5 заслуживающих внимания вариантов.
Популярные базы патентов в сети Интернет | |||
Универсальные | Международные | Региональные | Национальные |
Неофициальные агрегаторы патентной информации | База Всемирной организации интеллектуальной собственности (ВОИС) | Базы региональных патентных ведомств | Базы данных государств. Наиболее популярные базы: |
Google Patent Search (новая версия) | PATENTSCOPE | База данных Европейского патентного ведомства (Esp@cenet) | Базы данных Федерального института промышленной собственности (ИИПС и др. ) |
Google Patent Search (старая версия) | База данных Евразийского патентного ведомства (ЕАПАТИС) | База данных Бюро патентов и торговых знаков США (USPTO) | |
Google Prior Art Finder |
База ФИПС
По базе ФИПС можно провести как бесплатный, так и платный поиск. Она содержит сведения о новых зарегистрированных патентах, опубликованных заявках и архивы патентов СССР. Предусмотрена возможность просмотра официальной публикации в формате PDF и поиск по номеру регистрации, дате публикации, индексам МПК и МКПО (для изобретений, полезных моделей, промышленных образцов и товарных знаков).
Недостатки базы ФИПС — бесплатная версия позволяет получить информацию только по заявкам и патентам за последние 3 месяца. Полный доступ с возможностью полнотекстового поиска — платный.
Базы патентной информации ФИПС | |
---|---|
Содержание | перспективные изобретения и другие объекты, заявки и патенты |
Количество документов | около 800 тысяч |
Период | патентная документация с 1924 года |
Доступ | онлайн информационно-поисковая система (ИППС) fips. ru/cdfi/fips2009.dll/login — ограниченный доступ для гостей; открытые реестры; официальные публикации |
Оплата | бесплатно / платно |
Язык интерфейса | русский |
Возможности поиска | по номеру регистрации / дате публикации / индексу международной классификации |
Базы данных патентов Евразийского патентного ведомства — ЕАПАТИС
База ЕАПАТИС обеспечивает доступ к мировым, региональным и национальным фондам патентной документации. Русскоязычный фонд представлен патентной документацией России, ЕАПВ и национальных патентных ведомств стран евразийского региона.
Недостатки — база ЕАПАТИС содержит информацию о заявках и патентах ЕАПВ только с 1996 года. Результаты поиска в бесплатной версии представляются в виде реферативно-библиографических описаний патентных документов. Платный поиск позволит просмотреть титульные листы и полные описания евразийских патентов и опубликованных заявок.
База патентной информации ЕАПАТИС | |
---|---|
Содержание | заявки и патенты |
Количество документов | более 70 миллионов |
Период | заявки и патенты ЕАПО с 1996 года |
Доступ | онлайн eapatis. com – ограниченный доступ для гостей |
Оплата | бесплатно/платно |
Язык интерфейса | языки членов ЕАПО, в том числе русский |
Возможности поиска | по реквизитам / полнотекстовый / нумерационный поиск |
Базы данных патентов Европейского патентного ведомства — Esp@cenet
База Esp@cenet содержит максимально возможную коллекцию бесплатной патентной информации: можно узнать не только о выданных европейских патентах на изобретения, но и ознакомиться с патентными документами базы ЕАПВ. Есть отдельный русскоязычный сервис.
Недостатки — неразвитая поисковая система, небольшой набор ключевых слов, которые можно использовать для поиска, отсутствие развитых средств работы с найденными документами.
База Esp@cenet | |
---|---|
Содержание | заявки и патенты |
Количество документов | более 50 миллионов |
Содержание банка | патентная информация с 1997 года |
Доступ | онлайн worldwide. espacenet.com ru.espacenet.com |
Оплата | бесплатно |
Язык интерфейса | языки членов ЕПО, в том числе русский |
Возможности поиска | быстрый / расширенный / нумерационный / по классификатору |
Базы данных патентов Всемирной организации по интеллектуальной собственности (WIPO) — PATENTSCOPE
База PATENTSCOPE содержит информацию по международным заявкам, поданным по системе PCT, а также накапливает документы из некоторых региональных и национальных патентных ведомств (всего около 30). По базе можно провести поиск патентов по различным странам — от Японии до США.
Недостатки — сложный процесс поиска, который подходит для профессионалов в патентовании.
База PATENTSCOPE | |
---|---|
Содержание | заявки и патенты PCT; некоторые региональные и национальные патенты |
Количество документов | более 70 миллионов, включая 3,4 млн. опубликованных международных заявок на патент (PCT) |
Содержание | информация по заявкам PCT c 1978 года |
Доступ | онлайн patentscope. wipo.int |
Оплата | бесплатно |
Язык поиска | 14 языков, в том числе русский |
Возможности поиска | обычный / расширенный / по комбинации полей / межъязыковой поиск / поиск по синонимам |
Базы Google Patent Search и Google Prior Art Finder
Бесплатная поисковая система Google Patents поможет провести расширенный поиск и ознакомиться с полным текстом патентов со всего мира (по базе патентов США и ЕПВ). Осуществляет поиск по таким критериям, как автор, название, номер патента, дата. Система использует технологию распознавания текста в фотографиях, позволяя осуществить поиск по тексту в отсканированных патентах.
Недостатки — можно использовать на начальной стадии поиска, полноту желательно проверять по национальным базам.
Базы Google Patent Search и Google Prior Art Finder | |
---|---|
Состав | заявки и патенты |
Количество документов | около 7 миллионов |
Период | с 1790 года |
Доступ | онлайн старая версия — google. com/patents новая версия — patents.google.com расширенный поиск — google.com/advanced_patent_search Prior Art Finder — google.com/patents/related |
Оплата | бесплатно |
Язык поиска | 14 языков, в том числе русский |
Возможности поиска | обычный / расширенный |
Заключение
Провести качественный патентный поиск можно только за деньги, поскольку он требует участия высококвалифицированных технических специалистов и профессионального ПО. Если поиск проводить самостоятельно или небрежно, Роспатент может отказать в регистрации изобретения — вы потеряете 1,5-2 года и останетесь без патента.
Самое надежное решение — обратиться за проведением патентного поиска к специалистам. Преимущества очевидны — если выяснится, что аналогичное изобретение уже запатентовано, наши специалисты помогут решить возникшую проблему. На практике, готовя отчет о результатах патентного поиска, мы в 60% случаев рекомендуем доработать решение, поскольку существует высокий риск отказа со стороны Роспатента из-за непатентоспособности изобретения. Далее отдел разработки (НИОКР, R&D) должен понять, как изменить решение и сделать его патентоспособным. И в этом инженерам помогают наши патентные поверенные: проводят консультации, предоставляют письменные рекомендации по доработке решения, отвечают на вопросы по найденным аналогам. Отчет о патентном поиске и рекомендации по доработке входят в гарантированный пакет услуг по патентованию.
Антон Филиппов
Ведущий эксперт по патентованию, патентный поверенный РФ № 2392
Более 13 лет опыта в сфере защиты интеллектуальной собственности и патентования
10 лет опыта работы государственным экспертом в отраслевом отделе ФИПС
2 года работы главным государственным экспертом в Палате по патентным спорам
Реализует проекты для компаний «К. ..
Задать вопрос
Материалы эксперта:
Патентование
Патентная чистота: как закрыть тендер без проблем
Патентование
Зачем проводить патентный поиск перед патентованием
Патентование: Инструкция по применению
Что можно запатентовать? Как защитить свою разработку?
Ответы на эти и другие вопросы вы найдете в нашей книге
Скачать книгу
Читать далее
Патентование
Что нужно, чтобы попасть в реестр патентных поверенных ФИПС?
Патентование
Как оформить полезное изобретение?
Патентование
Патент или Ноу-Хау, что выбрать?
Патентование
База патентов Всемирной организации интеллектуальной собственности
Патентование
Регистрация промобразца в качестве товарного знака
Патентование
Как запатентовать рецепт?
Патентование
Что такое авторское вознаграждение за изобретение?
Патентование
Что является результатом интеллектуальной деятельности?
Патентование
Как запатентовать продукцию?
Патентование.
Инструкция по применению
Что можно запатентовать?
Как защитить свою разработку?
Ответы на эти и другие вопросы вы найдете в нашей книге
Скачать книгу
Обращайтесь
к профессионалам!
Заказ звонка
Нажимая на кнопку, вы соглашаетесь на обработку персональных данных
Спасибо
В ближайшее время наши специалисты свяжуться с вами.
Патенты | ||
База патентов Украины (http://uapatents.com/) ► База данных патентов, зарегистрированных на территории Украины. Доступна информация о, авторах изобретений, даты публикаций, описания изобретений. | ||
Патенты СССР (patents. su) ► База патентов СССР. Материалами базы являются авторские свидетельства и патенты на изобретения, опубликованные во времена СССР. Здесь вы найдёте описания, модели и чертежи различных устройств, механизмов, приспособлений. А также множество способов и методов получения, изготовления и производства изделий, препаратов, материалов и многого другого. Это музей, своего рода википедия советских патентов, созданный для памяти и жителей бывшего СССР. | ||
УКРПАТЕНТ (ukrpatent.org/) ► Базы данных, информационные и справочные системы Украинского института интеллектуальной собственности (УКРПАТЕНТ). | ||
Canadian Patents Database (brevets-patents.ic.gc.ca) ► Поисковая система патентной службы Канады. Простой и удобный поиск. Возможно отображение графических иллюстраций к патентам. | ||
DEPATIS (depatisnet.dpma.de) ► Поисковая система ресурса государственного патентного ведомства Германии. | ||
Deutsches Patent und Markenamt (www.dpma.de) ► Ресурс государственного патентного ведомства Германии | ||
Espacenet (www.epo.org) ► Европейский ресурс, обеспечивающий доступ к патентным базам данных мира, включая Евразийское патентное ведомство и Роспатент. | ||
European Patent Office (www.epo.org) ► ресурс Европейского патентного ведомства. | ||
FindAll.ru (www.findtm.ru) ►Бесплатный поиск и продажа торговых марок и товарных знаков в России. | ||
FindPatent (findpatent.ru) ►Реестр интеллектуальной собственности. Информация о более двух миллионов патентов на изобретения РФ и авторских свидетельств СССР, научных открытий XX и XXI веках, зарегистрированных на территории Российской Федерации или СССР. | ||
Freshpatents. com (www.freshpatents.com) ► Самые свежие заявки на патенты США. | ||
Google Patents (patents.google.com/) ► Бесплатная поисковая система Google Patents поможет провести расширенный поиск и ознакомиться с полным текстом патентов со всего мира (по базе патентов США и ЕПВ). Осуществляет поиск по таким критериям, как автор, название, номер патента, дата. Система использует технологию распознавания текста в фотографиях, позволяя осуществить поиск по тексту в отсканированных патентах. /TD> | ||
Japan Platform for Patent Information (J-Plat-Pat) (www.j-platpat.inpit.go.jp/web/all/top/BTmTopEnglishPage) ►Предоставляется доступ к реферативной патентной базе данных патентного бюро Японии и базе данных товарных знаков на английском языке. | ||
The Lens (www.lens.org) ► Система патентного поиска, созданная независимой некоммерческой организацией Cambia. Позволяет поиск патентов из США, Европы, Австралии и ВОИС. БД содержит более 10 млн. документов. | ||
Official Gazette for Patents (www.uspto.gov) ► Публикуемая (каждый вторник) только online новейшая патентная информация. | ||
Patentscope (patentscope.wipo.int) ► Поиск по международным и национальным фондам патентной информации. Уникальность системы в том, что она позволяет искать патенты не только по номеру, но и по названию, а также проводить патентный поиск отдельно по многим странам мира. Заслуживают внимания такие возможности, как поиск по патентам в Израиле, Республике Корея и Бразилии. | ||
Patent Searching and Inventing Resources (www.freepatentsonline.com) ► The FreePatentsOnline — одна из самых мощных, быстрых и легких в использовании патентных поисковых систем. | ||
PatFT (patft. uspto.gov) ► полнотекстовая база патентов США (формулы, чертежи). | ||
SureChEMBL (www.surechembl.org/search) ► SureChEMBL — бесплатный доступ к химическим
патентам. | ||
TMRegister (http://tmregister.ru) ► Российский сервис, посвященный товарным знакам и предоставляющий полный комплекс услуг от разработки названия до получения свидетельства о регистрации. Бесплатный реестр зарегистрированных товарных знаков и знаков обслуживания позволит вам самостоятельно проверить товарный знак на уникальность и, при отсутствии таковых, подать заявку на регистрацию. | ||
TMview (tmdn.org/) ► Поисковая система по европейским товарным знакам и национальным товарным знакам стран Европы. | ||
USPTO. The United States Patent and Trademark Office (uspto.gov/patents-application-process/search-patents) ► Полнотекстовая американская патентная база. Доступ к БД патентных документов осуществляется с официального сайта Патентного ведомства США и открыт для всех желающих. Для патентного поиска используются следующие базы данных: Полнотекстовая база данных патентов США начиная с 1790г., БД Системы национальной классификации. Также полнотекстовая база данных заявок с 15 марта 2001 года. | ||
Znakoved (www.znakoved.ru) ► Российская база зарегистрированных товарных знаков. |
Samsung атаковал опытный патентный тролль из-за важной функции в смартфонах. Xiaomi и Google на очереди
Бизнес
Законодательство
Техника
|
Поделиться
Против Samsung подан иск за нарушение патента на технологию оценки остаточного времени работы аккумуляторной батареи Android-гаджетов. Инициатор – патентный тролль, имеющий опыт судебных тяжб с технологическими гигантами уровня Cisco и AT&T. Победа истца может иметь серьезные негативные последствия для других производителей Android-смартфонов, таких как Xiaomi и Google, которые, вероятно, тоже применяют эту запатентованную технологию.
K. Mizra против Samsung
Samsung обвинили в нарушении патента на технологию определения остаточного времени работы устройств от аккумулятора под управлением операционной системы Android, пишет Android Central.
Компания K. Mizra (LLC), занимающаяся лицензированием патентов, 20 мая 2022 г. подала иск к южнокорейской корпорации. По заявлению истца, право интеллектуальной собственности на технологию, которое якобы нарушила Samsung, принадлежит нидерландскому исследовательскому институту Nederlandse Organisatie voor Togepast Natuurwetenschappelijk Onderzoe (TNO).
Технология представляет собой функцию на базе «сложного алгоритма, который позволяет прогнозировать остаточное время работы аккумулятора мобильного устройства, такого как смартфон, «на лету»».
«Прогнозирование осуществляется на основании результатов работы алгоритмов, анализирующих поведение пользователя, – говорится анонсе, опубликованном K. Mizra на собственном официальном сайте. – Определения оставшегося времени работы батареи на основе анализа поведения пользователя дает более точный результат, чем, например, проведение производителем [устройства] трудоемкого тестирования в процессе разработки продукта».
Samsung пытаются втянуть в очередное патентное разбирательство
Патентный спор будет рассматривать региональный суд Дюссельдорфа (Германия), так как, по мнению K. Mizra, Samsung допустила нарушение прав истца на территории этой страны Евросоюза.
Истец отмечает, что запатентованная TNO функция применяется в ранних версиях мобильных гаджетов Samsung, однако в каких именно, не уточняет. Исходя из этой формулировки, можно предположить, что более современные смартфоны и планшеты Samsung используют альтернативную методику подсчета времени остаточной работы аккумуляторной батареи и поэтому проблемы не представляют.
Несколько фактов о патенте
Патент под номером EP2174201B1, на который ссылается K. Mizra, описывает «способ и систему прогнозирования энергопотребления мобильного терминала».
По данным информационной системы Европейского патентного ведомства, заявка на его регистрацию была подана TNO в июне 2008 г. В феврале 2013 г. она была одобрена, а сам патент опубликован на сайте ЕПВ.
В числе авторов изобретения значатся Дирк ван Эссен (Dirk Van Essen), Марко ван Де Логт (Marco Van De Logt), Гьяльт Лоотс (Gjalt Loots) и Альберт Рензо Вестерс (Albert Renzo Westers).
Дурной прецедент
Как отмечает Android Central, Samsung не единственный производитель смартфонов, который выпускает свои устройства с упомянутой ранее функцией. Аналогичными возможностями наделены смартфоны компаний Xiaomi и Google.
По мнению журналистов издания, исход дела в пользу K. Mizra может иметь серьезные негативные последствия как для Samsung, так и для индустрии в целом. Воодушевленная успехом патентная компания может пойти войной и на других производителей смартфонов.
Андрей Врацкий, eXpress: Супер-аппы вытеснят большинство приложений для работы
Мобильность в бизнесе
В своих информационных материалах, сопровождающих иск, K. Mizra не обозначает перечень требований к Samsung, однако резонно предположить, что среди них будет фигурировать выплата компенсаций за нарушение патентов. Во всяком случае, некоторые иные иски, поданные от лица компании в различные суды, например, против американского телеком-оператора Verizon, содержат именно такое требование.
Чем занимается K. Mizra
K. Mizra называет себя компанией, которая «ориентируется на лицензирование дорогостоящих и высококачественных патентов с глобальным охватом». На своем официальном сайте фирма хвастается сотрудничеством с такими технологическими гигантами как IBM и Sharp.
В списке компаний, с которыми K. Mizra вела патентные разбирательства, фигурируют Cisco Systems, AT&T, Verizon, T Mobile US, Forescout Tech, Fortinet, Toshiba, Niantic.
Учитывая специфику деятельности K. Mizra – агрессивное патентное преследование производящих реальные продукты компаний, фирму можно отнести к категории так называемых патентных троллей.
Патентные войны Samsung
Samsung далеко не в первый раз сталкивается с судебным преследованием из-за обвинений в нарушении патентов.
Искусственный интеллект помог сохранить редкий язык
Инновации для промышленности
Так, в мае 2018 г. завершилась семилетняя тяжба южнокорейской компании с американской Apple. Последней была присуждения компенсация в размере $533 млн. Изначально предметом разбирательства стали закругленные края корпуса и ободок вокруг передней панели некоторых смартфонов Samsung, в частности, «яблочные» сочли Samsung Galaxy S чрезмерно похожим визуальным дизайном на первый iPhone.
В 2014 г. присяжные в Сан-Хосе (Калифорния, США) обязали Samsung выплатить Apple $120 млн за нарушение двух патентов, которые касались разблокировки экрана с помощью скользящего движения пальца и технологии превращения телефонных номеров в быстрые ссылки. Samsung пыталась оспорить это решение, но в итоге Верховный суд США отказался проводить повторное слушание и закрепил легитимность вердикта. Samsung, в свою очередь, требовала от Apple $6,2 млн за нарушение патентов на функции фото- и видеогалереи. Однако в данном вопросе суд проявил куда меньшую щедрость и назначил компенсацию в размере $158,4 тыс.
В июле 2021 г. швейцарская Sqwin SA подала иск к Samsung по поводу использования компанией запатентованной технологии «Система электронных платежей», вокруг которой якобы была построена платежная система Samsung Pay.
Арбитражный суд Москвы вынес решение в пользу истца, а в октябре 2021 г. в России были запрещены продажи некоторых моделей смартфонов Samsung. Однако в январе 2022 г. Девятый арбитражный апелляционный суд Москвы отменил ранее принятое решение о запрете. В марте 2022 г. Роспатент и вовсе аннулировал спорный патент Sqwin SA как не несущий новизны.
- Какой дисплей для смартфона лучше: AMOLED или IPS?
Дмитрий Степанов
Google Patents Public Datasets: соединение общедоступных, платных и частных патентных данных
Google Cloud
наборы патентных данных
Ян Уэтерби
Технический руководитель, Google Patents
31 октября 2017 г. Начать сборку14 1 Google Cloud Google Cloud с бесплатными кредитами на 300 долларов и более 20 всегда бесплатными продуктами.
Бесплатная пробная версия
Компания Google уже давно делает патентные данные общедоступными и полезными, начиная более 10 лет назад путем сканирования старых патентов США в Google Patents. Сегодня Google запускает общедоступные наборы данных Google Patents на BigQuery с коллекцией общедоступных подключенных таблиц базы данных для эмпирического анализа международной патентной системы.
Google Patents отлично подходит для поиска ориентированных на поиск вопросов, таких как поиск различных типов двигателей или патентов Николы Теслы, и сегодня вы можете ответить на гораздо более широкий круг вопросов с помощью SQL, используя эти наборы данных, такие как «какой процент патентов имеет больше чем один изобретатель?» или «какое финансирование предоставляет правительство для продвижения инноваций в определенных патентных областях?» Академики, экономисты и исследователи политики задают подобные вопросы, чтобы изучить, как работает патентная система и где ее можно улучшить.
Кроме того, корпоративные пользователи часто хранят коллекции частных данных о патентах, таких как внутренняя система маркировки, которая соответствует определенным линиям продуктов, и они хотят связать эту информацию с другими наборами данных о патентах для создания отчетов и анализа областей инвестиций. Теперь компании могут объединять свои личные данные с общедоступными и платными наборами данных, чтобы спросить: «Каковы мои действующие патенты и ожидающие рассмотрения патентные заявки?», «Срок действия каких из моих патентов в каких технологических областях скоро истечет?» или «Какие ведущие компании ссылаются на патенты, которые я пометил [виджет № 57]?».
Доступность патентной информации имеет решающее значение для изучения новых патентов, информирования о решениях государственной политики, управления корпоративными инвестициями в интеллектуальную собственность и продвижения будущих научных инноваций. Растущее число доступных источников патентных данных означает, что исследователи часто тратят больше времени на загрузку, анализ, загрузку, синхронизацию и управление локальными базами данных, чем на проведение анализа. С помощью этих новых наборов данных исследователи и компании могут получить доступ к нужным им данным из нескольких источников в одном месте, таким образом тратя больше времени на анализ, чем на подготовку данных.
Рисунок 1. На этой диаграмме показан типичный процесс исследовательского проекта: сбор неструктурированных файлов из нескольких источников в различных форматах (CSV, XML и т. д.), загрузка их локально, их анализ и связывание наборов данных вместе, создание локальной базы данных и затем выполните запросы для изучения данных. Рисунок 2. На этой диаграмме показан типичный процесс создания корпоративного отчета: экспорт или ручной поиск и копирование + вставка информации от одного или нескольких поставщиков данных в локальные файлы и объединение этой информации с частной компанией. такие данные, как лицензирование и теги продукта, для создания отчета.
Ядром этих наборов данных является общедоступная таблица общедоступных данных Google Patents со всемирной библиографической информацией о более чем 90 миллионах патентных публикаций из 17 стран и полными текстами из США, предоставленная патентной службой IFI CLAIMS. Мы также предоставляем таблицу Google Patents Research Data, содержащую машинные переводы на английский язык для всех заголовков и рефератов из Google Translate, векторы сходства, извлеченные основные термины и многое другое. Также были загружены общие исследовательские наборы данных по патентам, химии и судебным разбирательствам.
С сегодняшнего дня пользователи могут получать доступ к информации, собранной другими исследователями и поставщиками патентных данных в той же базе данных, и смешивать их с личными данными для создания отчетов или изучения вопросов с полной свободой SQL, без создания собственной базы данных.
Коммерческие поставщики также делают свои патентные данные доступными для покупки в BigQuery, начиная с расширения патентных данных IFI CLAIMS, включая информацию о правовом статусе и стандартизированные имена правопреемников. CPA Global также бесплатно предоставляет набор данных о своих стандартах с добавленной стоимостью, чтобы исследователи могли изучать влияние патентов на стандарты. Доступ к этим наборам данных через BigQuery дает пользователям актуальную базу данных, управляемую поставщиками данных, поэтому пользователи получают гибкость базы данных без затрат на ее обслуживание.
Существует несколько сторонних инструментов, которые могут получить доступ к BigQuery, например Tableau и Looker, и предоставляют более простой интерфейс, чем SQL, для запроса данных. Для корпоративных пользователей, у которых есть конфиденциальные данные, которые не могут покинуть их сеть, некоторые из этих инструментов могут использоваться для извлечения необходимых данных из BigQuery и обработки их на вашем компьютере вместе с конфиденциальными данными.
Набор функций BigQuery делает эту экосистему возможной: единая огромная база данных, которая может объединять две или более таблиц, загруженных разными людьми, элементы управления доступом для простого обмена таблицами (например, Google Docs), петабайтный масштаб и бессерверная модель оплаты, разделенная между запрос и хранение.
Примеры запросов для исследователей
Патентные данные бесценны для изучения исторических и современных инноваций. Есть много областей для изучения с использованием 18 исходных наборов данных. Но эти примеры запросов демонстрируют гибкость наличия подключенной коллекции, готовой к анализу без настройки. После завершения анализа исследователи могут загрузить и поделиться своими результатами в виде нового набора данных, чтобы обеспечить воспроизводимость и позволить другим продвигать и развивать свою работу.
Пиковый год подачи патентных заявок по классификации
Экономисты часто изучают патентные заявки как один из многих индикаторов исторических тенденций в области инноваций. Схема совместной патентной классификации очень подробная и может использоваться для объединения наборов патентов с течением времени. Например, если мы сгруппируем по классификации и годам, мы увидим, что пик патентных заявок на «транспортные средства, запряженные животными» пришелся на 1909 г., когда было подано 212 заявок, на «методы получения пара и паровые котлы» — в 1924 г., когда было подано 510 заявок, на «органические красители» — в 1924 г. 1973 с заявками 2018 г. и «усилители» в 2013 г. с 2368 заявками. Посмотреть другие классификации в BigQuery.
Источник: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, CC BY 4.0, «Совместная патентная классификация» ЕПВ и ВПТЗ США, для общего пользования.
Среднее число изобретателей на один патент по странамВам также может быть интересно узнать, как изобретатели взаимодействуют и работают вместе. В этом запросе вы можете отслеживать среднее количество изобретателей по каждому патенту в каждой стране с течением времени. Посмотреть в BigQuery.
Источник: «Общедоступные данные о патентах Google», подготовленные IFI CLAIMS Patent Services и Google, CC BY 4.0.
Как долго заявители ждут ответа на первый неокончательный отказ?
Изучение взаимодействия между кандидатами и экзаменаторами также может быть источником информации. Патенты проверяются посредством серии обменных «офисных действий» между патентным ведомством и заявителем. Патентное ведомство записывает коды (отказ, выдача, отказ и т. д.), и в этом наборе данных вы можете запросить более 341 миллиона событий USPTO.
Если вы сгруппируете по 8 кодам патентной классификации высокого уровня, как в нашем примере, вы увидите, что определенные области получают более быстрые ответы на первый неокончательный отказ — эксперт выполняет поиск и отвечает одной или несколькими проблемами в заявку на патент). Кандидаты могут затем решить проблемы с ответом. Приложения категорий H (электричество) и G (физика) в среднем реагируют быстрее, а приложения C (химия) часто дольше реагируют на отказы. Большинство ответов приходятся на 90 дневная отметка. Посмотреть в BigQuery.
Источник: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0, «Система данных патентной экспертизы» USPTO, для общего пользования.
Какой самый длинный путь патентной экспертизы?
Одним из таких путей является US 09/810,962, который имел самую длинную серию отклонений-ответов-отказов с 14 раундами запроса на продолжение экспертизы (RCE) в период с 2001 по 2016 год, прежде чем от него отказались. Просмотрите другие длинные пути исследования в BigQuery.
Источник: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0, «Система данных патентной экспертизы» USPTO, для общего пользования.
Патенты на лекарства, одобренные FDA, и заявления государственных интересов
Оранжевая книга FDA содержит одобренные лекарства и связанные с ними патенты. Когда правительство финансирует патент или правительство имеет законный интерес в патенте, патент включает заявление, раскрывающее интерес. Мы анализируем эти два набора данных с помощью одного запроса, чтобы найти патенты на лекарства, представляющие интерес для правительства, и объединяем дополнительную информацию о лекарствах, чтобы увидеть, кто подал заявку на лекарства, их торговые названия, цели, на которые они действуют, и заголовок MESH в показаниях к лекарствам. Раньше для выполнения этого запроса требовалась большая работа с использованием большой базы данных по химии и лекарствам (ChEMBL) и большой базы данных информации, извлеченной из патентов (PatentsView). Посмотреть полные результаты или просмотреть в BigQuery.
Источники: «ChEMBL» Европейского института биоинформатики (EMBL-EBI), используется в соответствии с CC BY-SA 3.0, «PatentsView» USPTO, Министерство сельского хозяйства США (USDA), Центр науки и инновационной политики. , Нью-Йоркский университет, Калифорнийский университет в Беркли, Twin Arch Technologies и Periscopic, используемые в соответствии с CC BY 4. 0, «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0.
Передача технологии патентов FDA на лекарства
Патенты на вещества или приложения, которые впоследствии становятся лекарствами, часто разрабатываются в научно-исследовательских учреждениях и лицензируются для производства компаниями в рамках программы передачи технологий. Мы можем объединить данные ChEMBL с общедоступными данными Google Patents, чтобы определить, какие правопреемники патентов, похожие на исследовательские институты (университеты, колледжи, институты), имеют самые тесные связи с какими производителями. Посмотреть полные результаты или просмотреть в BigQuery.
Источники: «ChEMBL» Европейского института биоинформатики (EMBL-EBI), используется в соответствии с CC BY-SA 3.0, «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используется в соответствии с CC BY 4.0.
Комиссия по международной торговле США по отраслевой классификации ВОИС
USITC расследует жалобы на недобросовестную торговую практику, включая нарушение патентных прав. Вы можете изучить, какова отраслевая категория патентов высокого уровня, связанных с исследованиями. Посмотреть в BigQuery.
Источники: «PatentsView» USPTO, Министерства сельского хозяйства США (USDA), Центра науки и инновационной политики, Нью-Йоркского университета, Калифорнийского университета в Беркли, Twin Arch Technologies и Periscopic, используемые в CC BY 4.0, «Информационная система расследований недобросовестного импорта Комиссии по международной торговле США 337Info» USITC, для общего пользования.
Примеры запросов для компаний
Корпоративные пользователи могут использовать общедоступные наборы данных или приобретать доступ к таблицам BigQuery, загруженным поставщиками данных, и быстро объединять их со своими внутренними данными для создания отчетов.
Количество заявок на портфолио в год
Этот простой запрос графически отображает патенты в вашем портфолио по дате подачи и тегам, помеченным вручную. В качестве примера портфолио мы используем неполный список патентов Google OPN, которые мы загрузили в таблицу BigQuery. Запросить собственное портфолио так же просто, как загрузить CSV-файл, и вы контролируете права доступа. Вы можете быстро экспортировать свой набор результатов в Google Sheets или загрузить в формате CSV для создания графиков или продолжить обработку таблицы данных для своих отчетов. Посмотреть в BigQuery.
Источники: «Общедоступные данные о патентах Google» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0, «Список Google OPN» от Google.
Вы можете легко переключить агрегирование, чтобы использовать любой уровень иерархии цен за клик, или изобретателей, или любую другую категорию, которую вы можете рассчитать. Посмотреть в BigQuery.
Источники: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0, «Список Google OPN» от Google, «Совместная патентная классификация» ЕПВ и ВПТЗ США, для общего пользования.
Патентный ландшафт
Корпоративным пользователям часто требуется общий обзор конкретной технологии, чтобы в совокупности увидеть, кто находится в пространстве, когда и где они подают заявки и т. д. Этот пример показывает простую картину патентных заявок по правопреемникам в A61K48 (генная терапия). Вы можете объединить этот результат с несколькими другими запросами о ведущих изобретателях, регистрации с течением времени, действиях по подклассификации, переназначениях и многом другом, на которые также можно ответить в BigQuery. Посмотреть в BigQuery.
Источники: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0.
Пересылка ссылок на набор патентов, сгруппированных по правопреемнику и классификации
Еще один метод ландшафтного дизайна — посмотреть, какие патенты цитируют другие правопреемники или изобретатели. В этом примере объединены прямые ссылки на «Standard Oil Co». Посмотреть в BigQuery.
Источники: «Общедоступные данные Google Patents» от IFI CLAIMS Patent Services и Google, используемые в соответствии с CC BY 4.0, «Совместная патентная классификация» ЕПВ и ВПТЗ США, для общего пользования.
См. другие примеры от поставщиков данных в блоге IFI CLAIMS, блоге CPA Global и в нашем репозитории GitHub.
Автоматизированный поиск патентов
В наш репозиторий GitHub включен пример реализации Automated Patent Landscaping (Abood, Feltenberger, 2016) — методологии машинного обучения с частичным наблюдением, которую можно использовать для поиска патентов, связанных с любой темой. вы можете найти репрезентативный исходный набор патентов. В нашей реализации используются искусственные нейронные сети с долговременной кратковременной памятью (LSTM) и предварительно созданная модель встраивания слов word2vec, обученная примерно 6 миллионам рефератов патентов. Пожалуйста, взгляните на этот блокнот Jupyter, который проведет вас через процесс создания образца патентного ландшафта с использованием патентов на фены в качестве исходного набора.
Патентные ведомства по всему миру поддерживают как исследователей, так и промышленность своими информационными продуктами. Европейское патентное ведомство (ЕПВ) собирает надежную основу всемирной патентной информации, Управление главного экономиста Ведомства США по патентам и товарным знакам (ВПТЗ США) предоставляет множество ценных наборов данных, которые мы включили, а ВПТЗ США, ЕПВ и другие ведомства продолжают открывать свои данные с помощью новых общедоступных API и загрузок. Затем эти наборы данных улучшаются, очищаются и расширяются: в конечном итоге они становятся коммерческими или исследовательскими продуктами, которые помогают патентной системе. Без их работы по обеспечению более широкого доступа к наборам данных и работы многих других проект Google Patents Public Datasets был бы невозможен.
BigQuery для поставщиков данных
Для поставщиков данных BigQuery — это уникальный способ продавать данные в удобном для клиентов формате. Типичные варианты распространения данных — либо в массовом формате через загрузку CSV/XML, либо через веб-интерфейс, но оба варианта имеют недостатки. Массовые форматы обеспечивают гибкость за счет того, что клиент программирует и поддерживает свои собственные базы данных, в то время как веб-интерфейсы легко доступны, но их нельзя легко расширить новыми платными или частными источниками данных, и они имеют фиксированный набор возможных способов запроса и отображать данные. Теперь клиенты могут получить ту же гибкость базы данных с простым доступом через веб-интерфейс для подключения личных данных и отображения их на информационных панелях и других инструментах визуализации.
Гибкость и повышенное удобство использования патентных данных в BigQuery помогают пользователям быстрее находить ответ, избавляясь от лишней работы по очистке, нормализации и обновлению данных. Исследователи могут использовать его для совместного доступа к собранным ими данным и сделать их воспроизводимыми, компании могут объединять данные со своими внутренними записями, поставщики инструментов могут более легко интегрировать множество различных источников данных, а поставщики данных могут сосредоточиться на продаже наилучшей ценности. добавил данные непосредственно к более широкому кругу клиентов в удобном формате.
Пожалуйста, свяжитесь с нами, если вы хотите стать партнером по данным для патентных данных или любого другого типа данных из программы коммерческих наборов данных.
Опубликовано в:
7 Советы по расширенному патентному поиску Google
Любой Том, Дик или Гарри (извините за клише) могут проводить патентный поиск с помощью Google Patents Search, Thomson Innovation, Derwent или Orbit. Но для эффективного получения релевантных результатов требуется нечто большее, чем нажатие кнопки поиска. Требуется опытный пользователь, который имеет опыт в искусстве поиска, имеет арсенал советов и приемов и знает все безделушки этих баз данных.
Хочешь быть этим человеком? Что ж, вы на правильном пути.
Google только что предоставил нам улучшенное оружие, и в этой статье я расскажу о семи его лучших функциях. Еще одна хорошая новость: мы также создали для вас подробное подробное руководство, в котором рассказывается, как использовать Google Patents Search. Вы можете ознакомиться с руководством здесь: Google Patents Search.
Мы также понимаем, что патентный поиск — это сложный процесс, требующий определенного уровня знания юридического языка, на котором написаны патенты. Обширная информация о патентах остается вне досягаемости многих исследователей из-за сложного языка, используемого в патентах. Патенты охватывают решения проблем, с которыми сталкиваются целые отрасли, но язык, используемый в патентах, затрудняет поиск этих решений исследователями.
Попробуйте Catalyst, инструмент, который устраняет этот языковой барьер и позволяет искать патенты, используя проблемы и решения, о которых они говорят. Нажмите сюда, чтобы проверить это.
Мы знаем, что у вас может не хватить времени, и вы, возможно, захотите просмотреть руководство позже. Имея это в виду, мы также преобразовали руководство в форму PDF. Вы можете прочитать его в любое время после загрузки, что можно сделать, заполнив форму ниже:
Почему Google Patents Search?
Во-первых, инструмент позволяет проводить бесплатный патентный поиск, а во-вторых, с темпами, с которыми Google совершенствует свои патентные базы данных — в настоящее время это единственная область, в которой ему недостает, — вскоре вы будете выполнять множество патентных поисков без использования какой-либо коммерческой базы данных. Его отзывчивость (более высокая скорость выполнения) вместе с гладким пользовательским интерфейсом — это то, что уведет вас от коммерческих баз данных.
Ниже я составил список из семи советов по поиску патентов Google, которые включают его дополнительные функции/операторы. В каждом совете я использовал соответствующий пример, чтобы помочь вам включить его в ваш следующий поиск.
Если вам нужен поисковый партнер , который не только понимает вашу технологию, отрасль и нуждается в , но и будет рядом с вами на каждом этапе проекта и обеспечит получение результатов, имеющих решающее значение для вашей победы , тогда вы, наконец, в нужном месте. Сочетая опыт и знания наших ученых-исследователей и инструменты на основе ИИ, мы предоставляем патентные услуги , которые могут помочь вам выиграть . Хотите узнать больше о нас?
Щелкните здесь – Службы патентного поиска
Как эффективно использовать оператор И/ИЛИ для поиска точных результатов в Google Patent Search
Все мы знаем, что в разных патентах могут использоваться разные ключевые слова для описания похожей концепции. Например, в одном патенте для описания одной и той же концепции может использоваться «гибкий», а в другом — «складной» или «гибкий».
Вы должны принять это во внимание, чтобы не пропустить ни одного важного ключевого слова. Следовательно, вы вручную используете И и ИЛИ или их комбинацию в коммерческих базах данных патентов, в то время как в поиске патентов Google они добавляются между различными полями терминов и полями синонимов.
Скриншот ниже прояснит ситуацию.
Как видите, ключевые слова между одним полем поиска разделяются оператором ИЛИ, а ключевые слова между разными полями поиска автоматически разделяются разными скобками. Чтобы сделать этот процесс еще быстрее, Google позволяет вам нажать Tab, чтобы добавить синоним, и нажать Enter, чтобы перейти к следующему полю (добавляя оператор AND).
Как повысить релевантность результатов поиска?
Патенты Google рассматривают одно ключевое слово, состоящее из нескольких слов, как несколько ключевых слов, разбивая его. Например, ключевое слово «интервал ресурса» будет разбито на «Ресурс» и «Интервал», и вы найдете соответствующие результаты. Это возвращает много нежелательных результатов, которые тратят ваше время.
Чтобы повысить релевантность результатов поиска, вы можете взять ключевое слово в кавычки, например, «интервал ресурса».
Это вернет результаты поиска с точной фразой. Скриншоты ниже помогут увидеть разницу –
Как удалить определенные ключевые слова из результатов поиска?
Предположим, вы хотите выполнить поиск по ключевому слову «игла», но вам не нужны патенты, описывающие ее использование в инъекциях или шприцах. Поиск по слову «игла» выдаст все патенты, в которых есть слово «игла».
Здесь добавление символа минус «-» может помочь вам. Так просто, как, что. Взгляните:
Совершенно очевидно, как использование отрицательного (-) символа сужает результаты, исключая ненужные записи.
Поиск по Совместным патентным классификациям (CPC)
Как обсуждалось ранее, в разных патентах могут использоваться разные ключевые слова для описания одной и той же концепции; следовательно, поиск исключительно по ключевым словам будет иметь высокую вероятность отсутствия релевантных результатов. Здесь пригодится поиск на основе цены за клик.
Если вы ищете, например, чернильные ручки, вы также можете выполнить поиск B43K1/00, чтобы получить документы, в которых упоминаются перья/точки для письма. Вы также можете получить список классификаций цен за клик здесь.
Кроме того, вы обнаружите, что Google Patent Search автоматически предлагает цену за клик на основе введенного вами ключевого слова. Например, когда вводится ключевое слово «распределение ресурсов» и пользователь переходит к следующему полю, на основе введенных ключевых слов предлагается выделенный синим цветом класс цены за клик. При дальнейшем щелчке по предложенному классу предлагается больше классов (аналогично ключевым словам).
Как использовать операторы близости в поиске патентов Google?
Патентный поиск Google также предлагает возможность поиска по ключевым словам, которые не находятся непосредственно рядом друг с другом, но находятся в непосредственной близости друг от друга. Например, если вы ищете методы управления мощностью в мобильных устройствах CDMA, поиск точного порядка ключевых слов может быть невозможен. Кроме того, случайный поиск приведет к большому количеству неточных результатов.
В этом случае вы можете использовать операторы близости, такие как NEAR и ADJ (соседний). Оба этих оператора могут помочь вам сузить результаты поиска. Ниже приведен сценарий использования того же самого. Стоит отметить, что по мере прокрутки вниз точность будет снижаться. Кроме того, эти операторы работают с простыми поисковыми запросами и могут плохо работать со сложными поисковыми запросами.
Оператор NEAR (рядом) Операторы близости можно использовать для повышения оценки документов, если они содержат выражения рядом друг с другом. Синтаксис использования оператора NEAR может быть следующим: NEARx, NEAR/x или /xw. Здесь x — максимальное количество слов, которое может разделить 2 ключевых слова. Я привел несколько примеров синтаксиса в следующих абзацах.
Вы также можете использовать операторы WITH и SAME. Эти операторы вернут результаты, если ключевые слова находятся на расстоянии 20 и 200 слов в любом порядке соответственно.
Оператор ADJ (соседний)
Оператор NEAR выводит результаты не в каком-либо определенном порядке, а только на определенном расстоянии. Если вам нужны результаты, соответствующие направлению, а также расстоянию, вы можете использовать ADJ, ADJx, ADJ/x или +xw.
Например: (управление мощностью NEAR/5) приведет к патентам, в которых ключевое слово «мощность» находится в пределах 5 слов ключевого слова «управление», в любом направлении, в то время как (мощность ADJ/5 контроль) приведет к результатам, в которых есть слово «control» после «power», а не наоборот.
Вы можете найти другой пример на странице справки Google Patent Search, где используется синтаксис (ремень безопасности ADJ/5) NEAR/10 (ребенок ИЛИ ребенок) ЖЕ автомобиль . Ниже приведен скриншот этой поисковой строки в действии:
Чтобы быть хорошим специалистом по поиску патентов, нужно хорошо уметь соединять точки, идти нестандартно и время от времени использовать латеральное мышление.
Как выполнять поиск в полях «Заголовок», «Притязания» и «Реферат» в поиске патентов Google?
Это одна из лучших функций Advance Google Patent Search. Вы также можете сузить область поиска, включив в него только определенные поля.
Патентный поиск Google позволяет пользователям ограничить поиск только основными полями, такими как название, реферат и формула изобретения. Синтаксис поиска будет следующим: TL=(ключевое слово), CL=() для утверждения и AB=() для реферата.
Примечание: При работе с TI=(), AB=() и CL=() операторы ADJ/x или NEAR/x могут работать неправильно.
Как использовать подстановочные знаки в строках поиска в Google Patent?
Это еще одна функция, которая помогает повысить точность или область поиска за счет включения подстановочных знаков в строки поиска.
Ниже приведены поддерживаемые подстановочные знаки вместе с их синтаксисом:
* | Ноль или один символ |
$ | Ноль или более символов |
$x | От нуля до x символов |
# | Ровно один символ |
Вы даже можете использовать несколько подстановочных знаков в одном ключевом слове, например, $пропилбенз$3 .
Эти функции ставят Google Patents на один уровень с базами данных премиум-класса, такими как Orbit и Thomson. Даже лучше, чем они, так как он охватывает публикации не на английском языке и может использоваться бесплатно.
Дополнительный расширенный совет — Google Patents также включает возможность поиска непатентной литературы с использованием всех советов и приемов, упомянутых выше. Пользователь может просто выбрать логотип-двойник «Ученый», чтобы включить непатентную литературу (логотип-двойник «Лампочка» предназначен для поиска в патентной литературе ).
Заключение
В конце концов, умный исследователь патентов — это тот, кто находит наиболее релевантный результат в оговоренное время. Все используют один и тот же набор инструментов, но не все находят правильный или похожий результат. Ты знаешь почему? Потому что не инструменты определяют ваш успех, а стратегии. Надеюсь, советы из этой статьи помогут вам сделать поиск более эффективным.
Прежде чем мы скажем друг другу «сайонара», я хочу дать вам еще одну рекомендацию. Мои коллеги составили длинное руководство по тому, как использовать Google Scholar для патентных и юридических исследований . Я чувствую, что это может иметь большое значение и для вас. Посмотрите. Вот: Руководство Google Scholar
LinkedIn
Твиттер
Фейсбук
Эл. адрес
Объявление набора данных сходства фраз патента
Опубликовано Григор Асланян, инженер-программист, Google
Патентные документы обычно используют юридический и высокотехнологичный язык с контекстно-зависимыми терминами, которые могут иметь значение, совершенно отличное от разговорного употребления, и даже между разными документами. Процесс использования традиционных методов патентного поиска (например, поиска по ключевым словам) для поиска в корпусе из более чем ста миллионов патентных документов может быть утомительным и приводить к большому количеству пропущенных результатов из-за используемого широкого и нестандартного языка. Например, «футбольный мяч» может быть описан как «сферическое приспособление для отдыха», «надувной спортивный мяч» или «мяч для игры в мяч». Кроме того, язык, используемый в некоторых патентных документах, может запутывать термины в своих интересах, поэтому более мощная обработка естественного языка (NLP) и понимание семантического сходства могут предоставить каждому доступ к тщательному поиску.
Патентная область (и более общая техническая литература, такая как научные публикации) создает уникальные проблемы для моделирования НЛП из-за использования юридических и технических терминов. Хотя существует несколько широко используемых эталонных наборов данных семантического текстового сходства (STS) общего назначения (например, STS-B, SICK, MRPC, PIT), насколько нам известно, в настоящее время нет наборов данных, ориентированных на технические концепции, найденные в патентах. и научные публикации (отчасти связанная задача BioASQ содержит задание на ответ на биомедицинский вопрос). Более того, с постоянным ростом размера патентного корпуса (ежегодно во всем мире выдаются миллионы новых патентов) возникает необходимость в разработке более полезных моделей НЛП для этой области.
Сегодня мы объявляем о выпуске набора данных сходства патентных фраз, нового набора данных контекстуального семантического сопоставления фраз с фразами, оцениваемого людьми, и сопроводительного документа, представленного на семинаре SIGIR PatentSemTech Workshop, в котором основное внимание уделяется техническим терминам из патентов. Набор данных сходства патентных фраз содержит около 50 000 пар фраз с рейтингом, каждая из которых имеет класс совместной патентной классификации (CPC) в качестве контекста. В дополнение к показателям сходства, которые обычно включаются в другие эталонные наборы данных, мы включаем детальные классы рейтинга, аналогичные WordNet, такие как синоним, антоним, гипероним, гипоним, холоним, мероним и связанные с доменом. Этот набор данных (распространяемый по международной лицензии Creative Commons Attribution 4. 0) использовался Kaggle и USPTO в качестве эталонного набора данных в конкурсе сопоставления патентных фраз с фразами США, чтобы привлечь больше внимания к производительности моделей машинного обучения для технического текста. Первоначальные результаты показывают, что модели, точно настроенные на этом новом наборе данных, работают значительно лучше, чем обычные предварительно обученные модели без тонкой настройки.
Набор данных сходства патентных фраз
Чтобы лучше обучать современные модели следующего поколения, мы создали набор данных сходства патентных фраз, который включает множество примеров для решения следующих проблем: (1) устранение неоднозначности фраз, (2) сопоставление состязательных ключевых слов и ( 3) жесткие минус-слова (т. е. ключевые слова, которые не связаны между собой, но получили высокий балл за схожесть с другими моделями). Некоторые ключевые слова и фразы могут иметь несколько значений (например, фраза «мышь» может относиться к животному или компьютерному устройству ввода), поэтому мы устраняем неоднозначность фраз, включая классы CPC в каждую пару фраз. Кроме того, многие модели НЛП (например, модели мешка слов) не будут работать с данными с фразами, которые имеют совпадающие ключевые слова, но в остальном не связаны (противоположные ключевые слова, например, «секция контейнера» → «кухонный контейнер», «стол смещения» → «настольный вентилятор»). Набор данных сходства патентных фраз включает в себя множество примеров сопоставления ключевых слов, которые не связаны посредством состязательного сопоставления ключевых слов, что позволяет моделям НЛП повышать свою эффективность.
Каждая запись в наборе данных сходства патентных фраз содержит две фразы, привязку и цель, контекстный класс CPC, рейтинговый класс и показатель сходства. Набор данных содержит 48 548 записей с 973 уникальными якорями, разделенными на обучающие (75%), проверочные (5%) и тестовые (20%) наборы. При разделении данных все записи с одним и тем же якорем сохраняются вместе в одном наборе. Существует 106 различных контекстных классов CPC, и все они представлены в обучающем наборе.
Анкер | Цель | Контекст | Рейтинг | Оценка |
абсорбция кислоты | поглощение кислоты | Б08 | точный | 1,0 |
абсорбция кислоты | погружение в кислоту | Б08 | синоним | 0,75 |
абсорбция кислоты | химически пропитанный | Б08 | связанных с доменом | 0,25 |
абсорбция кислоты | кислотный рефлюкс | Б08 | не связано | 0,0 |
бензиновая смесь | С10 | синоним | 0,75 | |
бензиновая смесь | С10 | гипероним | 0,5 | |
бензиновая смесь | фруктовая смесь | С10 | не связано | 0,0 |
смеситель в сборе | водопроводный кран | А22 | гипоним | 0,5 |
смеситель в сборе | водоснабжение | А22 | холоним | 0,25 |
смеситель в сборе | школьное собрание | А22 | не связано | 0,0 |
Небольшая выборка датасета с анкорными и целевыми фразами, контекст, класс CPC (B08: Очистка, C10: Нефть, газ, топливо, смазочные материалы, A22: Разделка, переработка мяса/птицы/рыбы), рейтинг класс и показатель сходства. |
Создание набора данных
Чтобы сгенерировать данные о схожести патентных фраз, мы сначала обрабатываем около 140 миллионов патентных документов в базе данных Google Patent и автоматически извлекаем важные английские фразы, которые обычно являются словосочетаниями с существительными (например, «застежка», «подъемная сборка») и функциональными фразами. (например, «пищевая промышленность», «чернильная печать»). Затем мы фильтруем и сохраняем фразы, которые встречаются как минимум в 100 патентах, и случайным образом выбираем около 1000 из этих отфильтрованных фраз, которые мы называем якорными фразами. Для каждой якорной фразы мы находим все соответствующие патенты и все классы CPC для этих патентов. Затем мы случайным образом отбираем до четырех совпадающих классов CPC, которые становятся контекстными классами CPC для конкретной ключевой фразы.
Мы используем два разных метода для предварительного создания целевых фраз: (1) частичное совпадение и (2) модель маскированного языка (MLM). Для частичного сопоставления мы случайным образом выбираем из всего корпуса фразы, частично совпадающие с якорной фразой (например, «снижение уровня шума» → «снижение шума», «материальное образование» → «формовочный материал»). Для MLM мы выбираем предложения из патентов, которые содержат заданную якорную фразу, маскируем их и используем модель Patent-BERT для прогнозирования кандидатов на замаскированную часть текста. Затем все фразы очищаются, включая строчные буквы, удаляются знаки препинания и некоторые стоп-слова (например, «и», «или», «сказал»), и отправляются экспертам для проверки. Каждая пара фраз оценивается независимо двумя экспертами в области технологий. Каждый оценщик также генерирует новые целевые фразы с разными рейтингами. В частности, их просят сгенерировать несколько целей с низким уровнем сходства и несвязанных между собой, которые частично совпадают с исходным якорем и/или с некоторыми целями с высоким уровнем сходства. Наконец, оценщики встречаются, чтобы обсудить свои оценки и выставить окончательные оценки.
Оценка набора данных
Чтобы оценить его производительность, набор данных сходства патентных фраз был использован в конкурсе U.S. Patent Phrase Matching Phrase Matching Kaggle. Соревнование было очень популярным, собрав около 2000 участников со всего мира. Команды, набравшие наибольшее количество очков, успешно использовали различные подходы, в том числе ансамблевые модели вариантов BERT и подсказки (подробности см. в полном обсуждении). В таблице ниже показаны лучшие результаты конкурса, а также несколько готовых базовых показателей из нашей статьи. Метрика корреляции Пирсона использовалась для измерения линейной корреляции между прогнозируемыми и истинными оценками, которая является полезной метрикой для целевых моделей, чтобы они могли различать разные оценки сходства.
Исходные данные в статье можно считать нулевыми в том смысле, что они используют готовые модели без какой-либо дальнейшей точной настройки нового набора данных (мы используем эти модели для раздельного встраивания якорных и целевых фраз и вычисления косинуса). сходство между ними). Результаты конкурса Kaggle демонстрируют, что, используя наши обучающие данные, можно добиться значительных улучшений по сравнению с существующими моделями НЛП. Мы также оценили человеческую производительность при выполнении этой задачи, сравнив баллы одного оценщика с суммарным баллом обоих оценщиков. Результаты показывают, что это не особенно простая задача даже для экспертов-людей.
Модель | Обучение | Корреляция Пирсона |
word2vec | Нулевой выстрел | 0,44 |
Патент-BERT | Нулевой выстрел | 0,53 |
Приговор-BERT | Нулевой выстрел | 0,60 |
Kaggle 1-е место в одиночном разряде | Тонкая настройка | 0,87 |
Kaggle Ансамбль 1-го места | Тонкая настройка | 0,88 |
Человек | 0,93 |
Производительность популярных моделей без точной настройки (zero-shot), модели, настроенные на основе набора данных Patent Phrase Similarity в рамках конкурса Kaggle, и производительность одного человека. |
Заключение и будущая работа
Мы представляем набор данных сходства патентных фраз, который использовался в качестве эталонного набора данных в конкурсе сопоставления патентных фраз и фраз США, и демонстрируем, что, используя наши обучающие данные, можно добиться значительных улучшений по сравнению с существующими моделями НЛП.
Дополнительные сложные тесты машинного обучения могут быть созданы на основе патентного корпуса, а патентные данные нашли отражение во многих наиболее изученных сегодня моделях. Например, набор текстовых данных C4, используемый для обучения T5, содержит множество патентных документов. Модели BigBird и LongT5 также используют патенты из набора данных BIGPATENT. Доступность, полнота и открытые условия использования полнотекстовых данных (см. Общедоступные наборы данных Google Patents) делают патенты уникальным ресурсом для исследовательского сообщества. Возможности для будущих задач включают массовую классификацию с несколькими метками, обобщение, поиск информации, сходство изображения и текста, предсказание графа цитирования и перевод.