Выпущен язык для химиков - CRN++

1

1

За разработку отвечает команда исследователей из Техасского университета в Остине, а сам «язык программирования для химиков» получил название CRN++. Как заявил один из разработчиков нового языка Марко Васик:

Основной целью нашего исследования была разработка языка высокого уровня, который мог бы выражать ход химических реакций. Смотрите: при создании программы программист пишет ее на языке, который легко понять человеку. И если другой человек повторит этот код — результат, очевидно, будет тот же. При этом переведенный в последовательность нулей и единиц код без проблем воспроизведется на компьютере и выдаст требуемый результат, а вот человек машинный код разобрать уже вряд ли сможет. С биохимическим языком дела обстоят примерно также.
Мы предлагаем язык программирования, который соответствует всем типам химических реакций. При этом CRN++ это язык с открытым кодом, так что ученые могут вносить в него свои поправки и улучшать язык так, как им необходимо.

Здесь вы можете ознакомиться с оригиналом новости и получить всю известную на данный момент информацию: https://arxiv.org/abs/1809.07430

>>> Полная новость с русскоязычного сайта

Ссылка

← Microsoft открыла код фреймворка машинного обучения

KDE Plasma 5.14 →

← 1 2 3 →

Ответ на: комментарий от Deleted 09.10.18 16:40:51 MSK

Для биохимии есть https://www.genome.jp/kegg/pathway.html
Правда проблема в том что оно ручками рисуется и модерируется. Поэтому наполнение очень скромное. А вообще, даже простые модели с кучей неучтенных факторов иногда позволяют делать осмысленные предсказания.

DNA_Seq ★★☆☆☆
(09.10.18 22:57:43 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.10.18 19:27:19 MSK

Сам я гавноваром был, у меня из табличного вообще почти ничего не было. Даже т. кип. считал в ЕйсидиЛабе. Спектры (ИК) фальсифицировал кютиплотом, и сайлабом чуть чуть правил фидки.

Джесси Пинкман, залогиньтесь.

DNA_Seq ★★☆☆☆
(09.10.18 23:05:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.10.18 22:01:58 MSK

хем спайдер

Раздел Prohibited Uses предпоследний пункт запрещает использовать материалы сайта в целях не перечисленных выше. Создание собственных справочных систем там не упомянуто. Создание справочных систем с целью дальнейшего распространения (хот коммерческого, хоть нет) явно нарушает пункт «не более 1 копии». Получение письменного согласия — осуществимая, но довольно долгая и муторная процедура. Возможно, тебя и не забанят, если попробуешь сграбить их базу данных. Не пробовал.

Знаю людей, которые тоже работают с этой базой. Разрешение на коммерческое распространение получали несколько лет.

древние Бельштейны и РЖХимы

Они есть в электронном виде не требующем вычитки и без ограничений?

Я вот недавно читал статью где пацаны тренировали сетку для предугадывания температуры плавления. Такой вот QSPR+AI. Получилось +- лапоть, но хоть какая-то корреляция с экспериментом была. Выборку взяли всего примерно 40к соединений.

Типичный уровень таких попыток. Обучили, опубликовали, куда дальше улучшать — неясно, а в таком виде никому не нужно. Или получилось неплохо, но всего лишь на уровне алгоритмических методов, поэтому тоже не нужно. Но все ждут прорыва в ближайшем будущем.

А сетку для температуры кипения по материалам каталога Aldrich я видел ещё в 1990х на курсовой. Правда, там брали узкое семейство структур.

question4 ★★★★★
(09.10.18 23:55:27 MSK)

Ответ на: комментарий от question4 09.10.18 23:55:27 MSK

Они есть в электронном виде не требующем вычитки и без ограничений?

Нет. Надо напильником их самому. Ограничений для них _уже_ нет.

нарушает пункт «не более 1 копии». Получение письменного согласия — осуществимая, но довольно долгая и муторная процедура. Возможно, тебя и не забанят, если попробуешь сграбить их базу данных.

Лично мне плевать на их ограничения, аффтарские права и прочее. Логинься на левые ящики, дери базу. Там много открыто в публичный доступ. А за остальное банят если тупо скрапи на них натравить. Регайся по новой. Я когда-то около 300 Мб в мускуле собрал так. В виде чисто текста, кортинки не драл, тока смайлс/инсш. Правда чем дальше тем труднее.

А сетку для температуры кипения по материалам каталога Aldrich
кипения

Коллега. Кипения это любой болван сможет. Там даже зачастую и сеток не надо. А если и надо - предсказание погрешности в основном. Инкрементальные вклады групп. Не более. И практически для _всех_ классов органических соединений (понятное дело органические соли так не выгорят, хотя в большинстве они и не кипят, быстрее разлагаются). Я писал о __плавлении__. Там уже просто инкрементальными вкладами не обойдешься. Там как минимум надо 1) угадать тип кристаллической решетки (самый скользкий момент) 2) примерно смоделировать энергию разрушения той решетки - приближение приближения короче. Один убогий процент примеси легко т пл сбивает на 5 градусов в низ _экспериментально_! А теория тут вообще даже не хромает а ползет цепляясь поломанной рукой. Вот и получается криво. Местами разброс чуть не 50 градусов. А кипение - совсем другое дело. Погрешность от перепада атмосферного давления _больше_ погрешности предсказания уже давно.

anonymous
(10.10.18 00:17:05 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 09.10.18 22:41:25 MSK

А аргументы будут?

theNamelessOne ★★★★★
(10.10.18 00:35:27 MSK)

Hook'em Horns!

Hook'em!

bigdipper
(10.10.18 06:32:03 MSK)

Ссылка

Ответ на: комментарий от Stanson 09.10.18 02:28:47 MSK

Так-то понятно, что это всё можно и ручками расписать

Нельзя. Условия экзотических реакций, такие как температура, давление и т.д. для рандомного вещества хрен ты ручками найдешь. Не говоря о том, в каком состоянии будет вещество при заданной температуре — твердом, жидком или газообразном, т.к. не умеют точки фазовых переходов теоретически находить в принципе.

Кстати, если бы это решили был бы такой простор для промышленности и материаловедения, что ого-го.

peregrine ★★★★★
(10.10.18 10:14:44 MSK)
Последнее исправление: peregrine 10.10.18 10:18:04 MSK (всего исправлений: 3)

Ответ на: комментарий от peregrine 10.10.18 10:14:44 MSK

не умеют точки фазовых переходов теоретически находить в принципе.

Кипения и сублимации умеют. Плавления тоже умеют, но с большой погрешностью. Если не считать экзотики вроде ртути, где в дело вступают релятивистские эфекты (без них она плавилась бы при меньших температурах). А если есть рентгены вещества то можно плавление достаточно точно рассчитать - в плоть до точности в десяток-второй градусов. Неорганики тоже касается. Не приемлемо к соединениям ионной природы. С ними те модели не работают. Хотя может есть другие - я не знаю, не интересовался.

anonymous
(10.10.18 10:41:04 MSK)

Ответ на: комментарий от anonymous 10.10.18 10:41:04 MSK

Кипения и сублимации умеют.

Не в общем случае и с погрешностями, или я не прав? И это для простых веществ ещё куда ни шло, а для тех у которых сложное молекулярное строение всё хуже.

peregrine ★★★★★
(10.10.18 10:50:20 MSK)
Последнее исправление: peregrine 10.10.18 10:51:25 MSK (всего исправлений: 1)

Ответ на: комментарий от vada 09.10.18 20:55:14 MSK

Не помню, возможно. Помню, что прочитал в учебнике и улыбнулся, что пить такой спирт нельзя.

olegd ★★★
(10.10.18 10:54:50 MSK)

Ссылка

Ответ на: комментарий от peregrine 10.10.18 10:50:20 MSK

Очень даже точно. И в общем случае. Семиэмпирически считают только так. Парциальные вклады групп уже давно определены. И просто вставляют в уравнение, оно к стати сильно похоже на уравнение Гаммета-Тафта, только не для реакционной способности а для физических свойств. Но считать можно молекулу от головы до хвоста или наоборот - от хвоста к голове, другими словами что ядро а что функциональные группы. И вот сетки как раз обучены определять какой вклад в конечный результат каждого способа для конкретного класса веществ. И примерно оценить погрешность. В моей практике, что бы я не гнал (неизвестных до веществ в том числе), в 95% случаев предсказывало с погрешностью не большей чем если гонишь на водоструйке а в туалете воду спустили. А в 99% эксперимент попадает в предсказание +- погрешность.

anonymous
(10.10.18 11:03:49 MSK)

Ссылка

Ответ на: комментарий от Virtuos86 09.10.18 19:22:05 MSK

Да скобками необязательно, концепция DSL не зависит от языка. Те же пеги и бизоны сегодня можно где угодно прикрутить.

loz ★★★★★
(10.10.18 13:08:24 MSK)

Ссылка

А что химики?

Уверен, среди тутошней аудитории все через одного химики, поэтому важно услышать их непредвзятое мнение

gorgoroth ★
(10.10.18 17:55:40 MSK)

Ответ на: А что химики? от gorgoroth 10.10.18 17:55:40 MSK

детская игрушка сомнительной нужности, разве реально кинетику моделировать, но не понятно как. зачем пилить целый язык если все то же делали тыщу раз до них на нормальных языках (и потом можно прилепить сбоку куда-то)?

anonymous
(10.10.18 19:03:10 MSK)

Ссылка

Ответ на: А что химики? от gorgoroth 10.10.18 17:55:40 MSK

Не нужно быть семи пядей во лбу, чтобы понимать когда делают лютый булшит. А так бы я в химики пошел, пусть меня научат, чую не хватает там хороших программерских рук. Хотя сначала в ИТ нужно авгиевы конюшни разгрести, а потом можно и в химики записаться.

foror ★★★★★
(10.10.18 19:46:45 MSK)
Последнее исправление: foror 10.10.18 19:47:54 MSK (всего исправлений: 2)

Ответ на: комментарий от foror 10.10.18 19:46:45 MSK

Ждем через 6 лет (бакалавр - не человек).

anonymous
(10.10.18 21:49:32 MSK)

Ссылка

Ответ на: комментарий от foror 10.10.18 19:46:45 MSK

На самом деле у химиков с софтом 2 главные проблемы - проприетарные форматы и «каждый лепит во что горазд». Потому для построения вменяемой экспертной системы требуется целый завод протезов и костылей. А на счет софта как такового - если не искушен в самом вопросе то делать там вообще нечего.

anonymous
(10.10.18 21:56:48 MSK)

Только я прочитал как «Выпущен язык для хомяков»? :) :) :)

anonymous
(12.10.18 17:28:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.10.18 21:56:48 MSK

такое по-моему у всех, 14+1 стандарт

anonymous
(14.10.18 22:07:57 MSK)

Ответ на: комментарий от anonymous 14.10.18 22:07:57 MSK

skc и прочие зохватили. Ну mol2 им не кошерен. Z-матрицы тоже. В то время когда прогресивное человечество сохраняет в базе варчаром в smiles (и фероцен превращается в бис-циклопентадиенилат железа, потому что гиперкоординацию не завезли) статьи до сих пор кактают в Исис/Дров. А в svg зачем запилили целый субформат для хим формул? И по уровню кавайности не уступает, и всякие openBabel понимают.

anonymous
(15.10.18 10:41:23 MSK)

Ссылка

Я упорно ошибочно читаю название темы как «Выпущен язык для хомяков - CRN++». Простите, химики.

Deleted
(15.10.18 10:45:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.10.18 22:07:57 MSK

Если в кратце то опишу суть проблеммы. Smiles достаточно примитивный формат и не могет передать многое, втч гиперкоординацию и саму структуру если хоть чуть отлична от канонической. Тоесть таутомеры и резонансные формы отпадают. InCh могет в это. Но базы не могут в лук-апы в like-выражениях. Типо сделоть (?= или в том же духе. Это делают в коде. А счет идет на десятки миллиардов уже. Кто там что за ненужность перла/петона говорил? Потому пока проприетарные форматы пока рулят

anonymous
(15.10.18 11:07:10 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 09.10.18 22:50:33 MSK

О, вторая ссылка интересная, спасибо. А есть обзор софтин такого типа?

Stalin ★★★★★
(16.10.18 00:12:35 MSK)

Ответ на: комментарий от theNamelessOne 10.10.18 00:35:27 MSK

Там в примере скорее аналог ifelse, ибо в случае классического if многопоточность получается через жопу.

DNA_Seq ★★☆☆☆
(17.10.18 01:03:40 MSK)

Ссылка

Ответ на: комментарий от Stalin 16.10.18 00:12:35 MSK

Да как-то не натыкался. Перехода количества в качество не произошло. Самих моделей с подобной разметкой очень мало и большинство их них можно прокрутить в голове и без компьютера. И боюсь пока не начнут требовать прикладывать к статье модель в машиночитаемом виде ничего не изменится.
Обычно все организуется в виде базы (не обязательно sql) с веб-интерфейсом.
Вот здесь https://string-db.org/ по-моему самая удачная попытка переложить большую часть подобной работы на комп (человеки рисуют модель для изученных организмов, а комп по аналогии пытается строить модели неизученных, подозреваю даже заглядывая в тексты статей). Но там все равно требуются кураторы и модераторы, ибо trash in - trash out.
Вот это еще думаю стоит глянуть - https://thebiogrid.org/

DNA_Seq ★★☆☆☆
(17.10.18 01:24:59 MSK)

Ответ на: комментарий от DNA_Seq 17.10.18 01:24:59 MSK

Эх юноша, пороху не нюхавший. Или биолух. Вы в курсе что в «необязательно sql» в человекочитаемом виде такие запросы раз в 5-10 дольше идут? Или как прикажете диаминат дихлорида платины - между прочим древний и годный препарат против рака в базу засунуть. Ну может в носкуль базу залезет, но что это даст? А если по этому рекорду 10млн раз в день захотят проехатся? Писать по ИЮПАК или тривиально? Но тогда возникает еще проблемма - комп же должен распарсить человекоязык в свой формат. Да и проблемму дубликатов никто не уберет кроме грамотного химега у монитора. А счет, повторюсь, пошел на десятки миллиардов.

anonymous
(17.10.18 12:10:04 MSK)

Ответ на: комментарий от anonymous 17.10.18 12:10:04 MSK

Так я отвечал на вопрос именно про биологические модели. Тот же STRING предлагает для скачивания полный дамп именно sql-базы.

DNA_Seq ★★☆☆☆
(17.10.18 20:48:54 MSK)

Ответ на: комментарий от DNA_Seq 17.10.18 20:48:54 MSK

А, ну тогда пардоньте. За ньюансы у биологов в деталях не в курсе. Приносим свои извинения. Тока за химию в деталях разбираюсь.

anonymous
(18.10.18 10:20:16 MSK)

Ссылка

Ответ на: комментарий от anonymous 17.10.18 12:10:04 MSK

Или как прикажете диаминат дихлорида платины - между прочим древний и годный препарат против рака в базу засунуть.

Какие проблемы? Есть SMILES, есть InChI, есть имя по правилам ИЮПАК, есть нестандартные имена, признанные ИЮПАК. Для всего этого есть конвертеры, иногда даже свободные. Вот всё это и будем хранить в виде стрингов. Сама структура тоже будет лежать в человекочитаемых форматах-стрингах MOL и CIF. Можно заодно бинарный формат, который автору базы больше нравится. Затем добавим хитрые индексы, которые ускорят поиск по структурным признакам.

Объём возрастает? Да. Зато ищется быстро.

С пептидами будет сложнее из-за размера. И одновременно проще, так как можно не расписывать каждый атом, а брать аминокислоты. Но с этим я не работал.

question4 ★★★★★
(19.10.18 00:44:03 MSK)