LINUX.ORG.RU

Выпущен язык для химиков - CRN++

 , ,


1

1

За разработку отвечает команда исследователей из Техасского университета в Остине, а сам «язык программирования для химиков» получил название CRN++. Как заявил один из разработчиков нового языка Марко Васик:

Основной целью нашего исследования была разработка языка высокого уровня, который мог бы выражать ход химических реакций. Смотрите: при создании программы программист пишет ее на языке, который легко понять человеку. И если другой человек повторит этот код — результат, очевидно, будет тот же. При этом переведенный в последовательность нулей и единиц код без проблем воспроизведется на компьютере и выдаст требуемый результат, а вот человек машинный код разобрать уже вряд ли сможет. С биохимическим языком дела обстоят примерно также.

Мы предлагаем язык программирования, который соответствует всем типам химических реакций. При этом CRN++ это язык с открытым кодом, так что ученые могут вносить в него свои поправки и улучшать язык так, как им необходимо.

Здесь вы можете ознакомиться с оригиналом новости и получить всю известную на данный момент информацию: https://arxiv.org/abs/1809.07430

>>> Полная новость с русскоязычного сайта

Ответ на: комментарий от deepforest

Для биохимии есть https://www.genome.jp/kegg/pathway.html
Правда проблема в том что оно ручками рисуется и модерируется. Поэтому наполнение очень скромное. А вообще, даже простые модели с кучей неучтенных факторов иногда позволяют делать осмысленные предсказания.

DNA_Seq ★★☆☆☆ ()
Ответ на: комментарий от anonymous

Сам я гавноваром был, у меня из табличного вообще почти ничего не было. Даже т. кип. считал в ЕйсидиЛабе. Спектры (ИК) фальсифицировал кютиплотом, и сайлабом чуть чуть правил фидки.

Джесси Пинкман, залогиньтесь.

DNA_Seq ★★☆☆☆ ()
Ответ на: комментарий от anonymous

хем спайдер

Раздел Prohibited Uses предпоследний пункт запрещает использовать материалы сайта в целях не перечисленных выше. Создание собственных справочных систем там не упомянуто. Создание справочных систем с целью дальнейшего распространения (хот коммерческого, хоть нет) явно нарушает пункт «не более 1 копии». Получение письменного согласия — осуществимая, но довольно долгая и муторная процедура. Возможно, тебя и не забанят, если попробуешь сграбить их базу данных. ­Не пробовал.

Знаю людей, которые тоже работают с этой базой. Разрешение на коммерческое распространение получали несколько лет.

древние Бельштейны и РЖХимы

Они есть в электронном виде не требующем вычитки и без ограничений?

Я вот недавно читал статью где пацаны тренировали сетку для предугадывания температуры плавления. Такой вот QSPR+AI. Получилось +- лапоть, но хоть какая-то корреляция с экспериментом была. Выборку взяли всего примерно 40к соединений.

Типичный уровень таких попыток. Обучили, опубликовали, куда дальше улучшать — неясно, а в таком виде никому не нужно. Или получилось неплохо, но всего лишь на уровне алгоритмических методов, поэтому тоже не нужно. Но все ждут прорыва в ближайшем будущем.

А сетку для температуры кипения по материалам каталога Aldrich я видел ещё в 1990х на курсовой. Правда, там брали узкое семейство структур.

question4 ★★★★★ ()
Ответ на: комментарий от question4

Они есть в электронном виде не требующем вычитки и без ограничений?

Нет. Надо напильником их самому. Ограничений для них _уже_ нет.

нарушает пункт «не более 1 копии». Получение письменного согласия — осуществимая, но довольно долгая и муторная процедура. Возможно, тебя и не забанят, если попробуешь сграбить их базу данных.

Лично мне плевать на их ограничения, аффтарские права и прочее. Логинься на левые ящики, дери базу. Там много открыто в публичный доступ. А за остальное банят если тупо скрапи на них натравить. Регайся по новой. Я когда-то около 300 Мб в мускуле собрал так. В виде чисто текста, кортинки не драл, тока смайлс/инсш. Правда чем дальше тем труднее.

А сетку для температуры кипения по материалам каталога Aldrich
кипения

Коллега. Кипения это любой болван сможет. Там даже зачастую и сеток не надо. А если и надо - предсказание погрешности в основном. Инкрементальные вклады групп. Не более. И практически для _всех_ классов органических соединений (понятное дело органические соли так не выгорят, хотя в большинстве они и не кипят, быстрее разлагаются). Я писал о __плавлении__. Там уже просто инкрементальными вкладами не обойдешься. Там как минимум надо 1) угадать тип кристаллической решетки (самый скользкий момент) 2) примерно смоделировать энергию разрушения той решетки - приближение приближения короче. Один убогий процент примеси легко т пл сбивает на 5 градусов в низ _экспериментально_! А теория тут вообще даже не хромает а ползет цепляясь поломанной рукой. Вот и получается криво. Местами разброс чуть не 50 градусов. А кипение - совсем другое дело. Погрешность от перепада атмосферного давления _больше_ погрешности предсказания уже давно.

anonymous ()
Ответ на: комментарий от Stanson

Так-то понятно, что это всё можно и ручками расписать

Нельзя. Условия экзотических реакций, такие как температура, давление и т.д. для рандомного вещества хрен ты ручками найдешь. Не говоря о том, в каком состоянии будет вещество при заданной температуре — твердом, жидком или газообразном, т.к. не умеют точки фазовых переходов теоретически находить в принципе.

Кстати, если бы это решили был бы такой простор для промышленности и материаловедения, что ого-го.

peregrine ★★★★★ ()
Последнее исправление: peregrine (всего исправлений: 3)
Ответ на: комментарий от peregrine

не умеют точки фазовых переходов теоретически находить в принципе.

Кипения и сублимации умеют. Плавления тоже умеют, но с большой погрешностью. Если не считать экзотики вроде ртути, где в дело вступают релятивистские эфекты (без них она плавилась бы при меньших температурах). А если есть рентгены вещества то можно плавление достаточно точно рассчитать - в плоть до точности в десяток-второй градусов. Неорганики тоже касается. Не приемлемо к соединениям ионной природы. С ними те модели не работают. Хотя может есть другие - я не знаю, не интересовался.

anonymous ()
Ответ на: комментарий от anonymous

Кипения и сублимации умеют.

Не в общем случае и с погрешностями, или я не прав? И это для простых веществ ещё куда ни шло, а для тех у которых сложное молекулярное строение всё хуже.

peregrine ★★★★★ ()
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

Очень даже точно. И в общем случае. Семиэмпирически считают только так. Парциальные вклады групп уже давно определены. И просто вставляют в уравнение, оно к стати сильно похоже на уравнение Гаммета-Тафта, только не для реакционной способности а для физических свойств. Но считать можно молекулу от головы до хвоста или наоборот - от хвоста к голове, другими словами что ядро а что функциональные группы. И вот сетки как раз обучены определять какой вклад в конечный результат каждого способа для конкретного класса веществ. И примерно оценить погрешность. В моей практике, что бы я не гнал (неизвестных до веществ в том числе), в 95% случаев предсказывало с погрешностью не большей чем если гонишь на водоструйке а в туалете воду спустили. А в 99% эксперимент попадает в предсказание +- погрешность.

anonymous ()
Ответ на: А что химики? от gorgoroth

Re: А что химики?

детская игрушка сомнительной нужности, разве реально кинетику моделировать, но не понятно как. зачем пилить целый язык если все то же делали тыщу раз до них на нормальных языках (и потом можно прилепить сбоку куда-то)?

anonymous ()
Ответ на: А что химики? от gorgoroth

Не нужно быть семи пядей во лбу, чтобы понимать когда делают лютый булшит. А так бы я в химики пошел, пусть меня научат, чую не хватает там хороших программерских рук. Хотя сначала в ИТ нужно авгиевы конюшни разгрести, а потом можно и в химики записаться.

foror ★★★ ()
Последнее исправление: foror (всего исправлений: 2)
Ответ на: комментарий от foror

На самом деле у химиков с софтом 2 главные проблемы - проприетарные форматы и «каждый лепит во что горазд». Потому для построения вменяемой экспертной системы требуется целый завод протезов и костылей. А на счет софта как такового - если не искушен в самом вопросе то делать там вообще нечего.

anonymous ()
Ответ на: комментарий от anonymous

skc и прочие зохватили. Ну mol2 им не кошерен. Z-матрицы тоже. В то время когда прогресивное человечество сохраняет в базе варчаром в smiles (и фероцен превращается в бис-циклопентадиенилат железа, потому что гиперкоординацию не завезли) статьи до сих пор кактают в Исис/Дров. А в svg зачем запилили целый субформат для хим формул? И по уровню кавайности не уступает, и всякие openBabel понимают.

anonymous ()
Ответ на: комментарий от anonymous

Если в кратце то опишу суть проблеммы. Smiles достаточно примитивный формат и не могет передать многое, втч гиперкоординацию и саму структуру если хоть чуть отлична от канонической. Тоесть таутомеры и резонансные формы отпадают. InCh могет в это. Но базы не могут в лук-апы в like-выражениях. Типо сделоть (?= или в том же духе. Это делают в коде. А счет идет на десятки миллиардов уже. Кто там что за ненужность перла/петона говорил? Потому пока проприетарные форматы пока рулят

anonymous ()
Ответ на: комментарий от Stalin

Да как-то не натыкался. Перехода количества в качество не произошло. Самих моделей с подобной разметкой очень мало и большинство их них можно прокрутить в голове и без компьютера. И боюсь пока не начнут требовать прикладывать к статье модель в машиночитаемом виде ничего не изменится.
Обычно все организуется в виде базы (не обязательно sql) с веб-интерфейсом.
Вот здесь https://string-db.org/ по-моему самая удачная попытка переложить большую часть подобной работы на комп (человеки рисуют модель для изученных организмов, а комп по аналогии пытается строить модели неизученных, подозреваю даже заглядывая в тексты статей). Но там все равно требуются кураторы и модераторы, ибо trash in - trash out.
Вот это еще думаю стоит глянуть - https://thebiogrid.org/

DNA_Seq ★★☆☆☆ ()
Ответ на: комментарий от DNA_Seq

Эх юноша, пороху не нюхавший. Или биолух. Вы в курсе что в «необязательно sql» в человекочитаемом виде такие запросы раз в 5-10 дольше идут? Или как прикажете диаминат дихлорида платины - между прочим древний и годный препарат против рака в базу засунуть. Ну может в носкуль базу залезет, но что это даст? А если по этому рекорду 10млн раз в день захотят проехатся? Писать по ИЮПАК или тривиально? Но тогда возникает еще проблемма - комп же должен распарсить человекоязык в свой формат. Да и проблемму дубликатов никто не уберет кроме грамотного химега у монитора. А счет, повторюсь, пошел на десятки миллиардов.

anonymous ()
Ответ на: комментарий от anonymous

Или как прикажете диаминат дихлорида платины - между прочим древний и годный препарат против рака в базу засунуть.

Какие проблемы? Есть SMILES, есть InChI, есть имя по правилам ИЮПАК, есть нестандартные имена, признанные ИЮПАК. Для всего этого есть конвертеры, иногда даже свободные. Вот всё это и будем хранить в виде стрингов. Сама структура тоже будет лежать в человекочитаемых форматах-стрингах MOL и CIF. Можно заодно бинарный формат, который автору базы больше нравится. Затем добавим хитрые индексы, которые ускорят поиск по структурным признакам.

Объём возрастает? Да. Зато ищется быстро.

С пептидами будет сложнее из-за размера. И одновременно проще, так как можно не расписывать каждый атом, а брать аминокислоты. Но с этим я не работал.

question4 ★★★★★ ()